Yandex SpeechKit: зачем нужен и как использовать
В этом материале мы поговорим о Yandex SpeechKit — речевых технологиях на базе машинного обучения.
Что это такое
Я не могу не привести цитату от самой компании Яндекс:
Yandex SpeechKit — это речевые технологии на базе машинного обучения для создания голосовых помощников, автоматизации колл-центров, контроля качества сервиса и других задач. Наши технологии лежат в основе голосового помощника Алиса, а теперь адаптированы для вашего бизнеса.
Яндекс
Зачем нужен
Что входит в эти «речевые» технологии о которых говорят в Яндексе? Среди основных заявленных направлений можно выделить:
- Автоматизация колл-центров
- Телемаркетинг
- Умные голосовые помощники
- Озвучивание контента и транскрибация в текст
- Решения для слабовидящих
В основном все эти решения для серьезных компаний и на платной основе. Но ниже мы обсудим как простой владелец сайта может использовать эти технологии и даже бесплатно.
Сколько стоит Yandex SpeechKit
На официальном сайте Yandex SpeechKit есть калькулятор стоимости. Так, за синтез речи в 10000 знаков за месяц Яндекс с вас возьмет чуть более 13 рублей.
За распознавание речи в виде аудио ролика — за 10 минут Яндекс снимет около 6,5 рублей.
Но использовать SpeechKit можно и бесплатно и мы дальше об этом поговорим.
Еще одна интересная функция — Brand Voice Adaptive. Это цифровая копия голоса конкретного человека по заданным заранее шаблонам. За 1 месяц и с ценой от 150 000 рублей вы сможете создать абсолютно уникальный голос для своих нужд.
Как мы видим, расценки начинаются от нескольких рублей и до сотен тысяч в зависимости от потребностей клиентов Яндекса.
Опыт использования
Итак, опишу небольшой, но интересный опыт по использованию Yandex SpeechKit, который в скором времени 100% заполонит весь Youtube.
В чем суть появившейся ранее идеи в умах некоторого количества предприимчивых людей? Идея простая — используем удобный инструмент от Яндекса для озвучивания текста, добавляем фото или скринкаст и заливаем всё на Youtube. Просмотры идут, деньги капают.
Ссылка на демо с возможностью скачивать звуковые файлы — Yandex Speech Kit Demo.
В общем, много мозгов не нужно, чтобы сделать такой ролик. Yandex SpeechKit позволяет озвучивать и скачивать сразу озвученные файлы в формате .ogg. Ограничение на длину строки 5000 символов, что более чем нужно, если вы хотите сделать новостной канал с короткими роликами.
Процесс создания ролика довольно простой.
- Пишем или где-то берем текст новости
- Копируем текст в демо Яндекс Speech Kit жмем «Синтезировать речь»
- Скачиваем звуковой файл
- Конвертируем файл онлайн в .wav
- Записываем экран компьютера (скринкаст)
- В программе Windows Movie Maker делаем ролик из звукового файла и скринкаста
- Заливаем видео на Youtube
Какие были дополнительные нюансы по процессу?
Мне нужно было сделать интро перед роликом. Т.к. я не видео-аниматор и не видео-монтажер, то пошел простым путем — создал через html и css анимацию для лого и записал её через скринкастинг.
После чего обрезал в Windows Movie Maker и наложил звук для интро, который был бесплатно скачан с какого-то онлайн сервиса.
Саму анимацию я запилил сначала на codepen.io:
Также возникала сложность с интонацией во время записи текста. У Искусственного Интеллекта Яндекса три настроения:
- радостный
- раздраженный
- нейтральный
Кроме того, на момент публикации было доступно 8 дикторов — 5 женских голосов и 3 мужских.
Стоит оговориться, что некоторые дикторы изначально не под русский язык. Мне подошел «Филипп» для новостей, а вот, например, если у вас медицинский сайт, то вам лучше использовать диктора «Ермил» и настроение «нейтральный«.
Также пришлось повозиться с ударениями и вопросительными предложениями. Для передачи слов-омографов, нужно использовать «+» перед ударной гласной, например, «з+амок» или «зам+ок».
Чтобы отметить паузу между словами используйте «-«.
Интересно, что после того как я разместил свой экспериментальный ролик мне Google в Youtube подсунул в рекомендациях канал «News of Stars» (это не реклама, это по теме), который делает всё так как я описал выше, но вообще не заморачивается с ударениями и интонацией.
К тому же даже для грустных новостей они используют диктора «Филипп» с настроением «радостный». На многих видео использован голос «Элис» от Яндекс SpeechKit.
При этом они скорость озвучки оставляли 1.0x, а я подбирал более реальную либо 1.2x либо 1.3x. Здесь нужно отталкиваться от текста.
Так как я делал всё с нуля, то на всё про всё ушел где-то один вечер. При конвейерном подходе можно делать легко 2-3 видео в день и при этом бесплатно, как это делает канал, который я привел в пример.
Можно ли на этом заработать? У канала «News of Stars» более 42000 подписчиков, и это при том, что они используют озвучку через Яндекс и наверняка используют чужие тексты и фото.
Думаю, что при дальнейшем развитии ИИ и доступности таких инструментов как SpeechKit в ближайшем будущем подобные «видео» заполонят весь интернет.
Опубликовано 22 июля 2020 в 18:47 (обновлено 5 февраля 2023 в 22:54)