Yandex SpeechKit: зачем нужен и как использовать

В этом материале мы поговорим о Yandex SpeechKit — речевых технологиях на базе машинного обучения.

Официальный сайт.

Что это такое

Я не могу не привести цитату от самой компании Яндекс:

Yandex SpeechKit — это речевые технологии на базе машинного обучения для создания голосовых помощников, автоматизации колл-центров, контроля качества сервиса и других задач. Наши технологии лежат в основе голосового помощника Алиса, а теперь адаптированы для вашего бизнеса.

Яндекс

Зачем нужен

Что входит в эти «речевые» технологии о которых говорят в Яндексе? Среди основных заявленных направлений можно выделить:

  1. Автоматизация колл-центров
  2. Телемаркетинг
  3. Умные голосовые помощники
  4. Озвучивание контента и транскрибация в текст
  5. Решения для слабовидящих

В основном все эти решения для серьезных компаний и на платной основе. Но ниже мы обсудим как простой владелец сайта может использовать эти технологии и даже бесплатно.

Сколько стоит Yandex SpeechKit

На официальном сайте Yandex SpeechKit есть калькулятор стоимости. Так, за синтез речи в 10000 знаков за месяц Яндекс с вас возьмет чуть более 13 рублей.

Пример расчета стоимости Yandex SpeechKit
Пример расчета стоимости Yandex SpeechKit

За распознавание речи в виде аудио ролика — за 10 минут Яндекс снимет около 6,5 рублей.

Но использовать SpeechKit можно и бесплатно и мы дальше об этом поговорим.

Еще одна интересная функция — Brand Voice Adaptive. Это цифровая копия голоса конкретного человека по заданным заранее шаблонам. За 1 месяц и с ценой от 150 000 рублей вы сможете создать абсолютно уникальный голос для своих нужд.

Как мы видим, расценки начинаются от нескольких рублей и до сотен тысяч в зависимости от потребностей клиентов Яндекса.

Опыт использования

Итак, опишу небольшой, но интересный опыт по использованию Yandex SpeechKit, который в скором времени 100% заполонит весь Youtube.

В чем суть появившейся ранее идеи в умах некоторого количества предприимчивых людей? Идея простая — используем удобный инструмент от Яндекса для озвучивания текста, добавляем фото или скринкаст и заливаем всё на Youtube. Просмотры идут, деньги капают.

Ссылка на демо с возможностью скачивать звуковые файлы — Yandex Speech Kit Demo.

Для справки из Википедии: Скринкастинг (англ. screen — экран и англ. broadcasting — передача, вещание) — тип подкастинга, позволяющий передавать для широкой аудитории видеопоток с записью происходящего на компьютере пользователя. Скринкастинг часто используется в сфере образования для обучения чему-либо.

В общем, много мозгов не нужно, чтобы сделать такой ролик. Yandex SpeechKit позволяет озвучивать и скачивать сразу озвученные файлы в формате .ogg. Ограничение на длину строки 5000 символов, что более чем нужно, если вы хотите сделать новостной канал с короткими роликами.

Процесс создания ролика довольно простой.

  1. Пишем или где-то берем текст новости
  2. Копируем текст в демо Яндекс Speech Kit жмем «Синтезировать речь»
  3. Скачиваем звуковой файл
  4. Конвертируем файл онлайн в .wav
  5. Записываем экран компьютера (скринкаст)
  6. В программе Windows Movie Maker делаем ролик из звукового файла и скринкаста
  7. Заливаем видео на Youtube

Какие были дополнительные нюансы по процессу?

Мне нужно было сделать интро перед роликом. Т.к. я не видео-аниматор и не видео-монтажер, то пошел простым путем — создал через html и css анимацию для лого и записал её через скринкастинг.

После чего обрезал в Windows Movie Maker и наложил звук для интро, который был бесплатно скачан с какого-то онлайн сервиса.

Саму анимацию я запилил сначала на codepen.io:

Также возникала сложность с интонацией во время записи текста. У Искусственного Интеллекта Яндекса три настроения:

  • радостный
  • раздраженный
  • нейтральный

Кроме того, на момент публикации было доступно 8 дикторов — 5 женских голосов и 3 мужских.

Стоит оговориться, что некоторые дикторы изначально не под русский язык. Мне подошел «Филипп» для новостей, а вот, например, если у вас медицинский сайт, то вам лучше использовать диктора «Ермил» и настроение «нейтральный«.

Также пришлось повозиться с ударениями и вопросительными предложениями. Для передачи слов-омографов, нужно использовать «+» перед ударной гласной, например, «з+амок» или «зам+ок».

Чтобы отметить паузу между словами используйте «-«.

Интересно, что после того как я разместил свой экспериментальный ролик мне Google в Youtube подсунул в рекомендациях канал «News of Stars» (это не реклама, это по теме), который делает всё так как я описал выше, но вообще не заморачивается с ударениями и интонацией.

К тому же даже для грустных новостей они используют диктора «Филипп» с настроением «радостный». На многих видео использован голос «Элис» от Яндекс SpeechKit.

При этом они скорость озвучки оставляли 1.0x, а я подбирал более реальную либо 1.2x либо 1.3x. Здесь нужно отталкиваться от текста.

Так как я делал всё с нуля, то на всё про всё ушел где-то один вечер. При конвейерном подходе можно делать легко 2-3 видео в день и при этом бесплатно, как это делает канал, который я привел в пример.

Можно ли на этом заработать? У канала «News of Stars» более 42000 подписчиков, и это при том, что они используют озвучку через Яндекс и наверняка используют чужие тексты и фото.

Думаю, что при дальнейшем развитии ИИ и доступности таких инструментов как SpeechKit в ближайшем будущем подобные «видео» заполонят весь интернет.

Опубликовано 22 июля 2020 в 18:47 (обновлено 5 февраля 2023 в 22:54)

22 июля 2020 в 18:47