NLab Speech TTS

Технология синтеза речи

Cинтез речи (text to speech) — это популярная речевая технология, которая формирует речевой сигнал по печатному тексту.

 

Мы в «Наносемантике» имеем большой опыт в разработке голосовых помощников, поэтому решили разобраться в перспективном направлении TTS и создали свою технологию синтеза речи NLab Speech TTS на русском языке.

Синтез речи работает на разных цифровых устройствах: компьютеры, смартфоны, планшеты. Все, что для него нужно, — это текст, который требуется воспроизвести. Если простыми словами, то синтез речи — это формирование речевого сигнала по печатному тексту, то есть искусственное производство речи человека.

Применение NLab Speech TTS

Сегодня синтез речи используют многие российские и международные компании с целью оптимизации работы, экономии времени и человеческого ресурса. Вот лишь несколько примеров того, как бизнес может использовать технологию синтеза речи:

Голосовые помощники являются неотъемлемой частью жизни современного человека. С помощью NLab Speech TTS можно разработать личного голосового помощника с персонализированными настройками.

С помощью NLab Speech TTS ваши роботы для сайтов и приложений смогут разговаривать с клиентом на понятном ему языке. Это позволит клиентам лучше воспринимать информацию, которую не всегда удобно доносить в текстовом варианте.

Использование технологии синтеза речи NLab Speech избавит операторов от однотипных вопросов клиентов и существенно снизит нагрузку на колл-центр.

С помощью технологии NLab Speech TTS можно озвучивать тысячи часов текста реплик анимационных персонажей, привлекая реальных актёров только для обучения синтеза. Это позволит существенно снизить расходы на озвучку без потери качества.

С помощью NLab Speech TTS можно делать развивающие товары для детей.

Качественное улучшение жизни людей с помощью голосовых технологий.

Как работает NLab Speech TTS

Обучение голосовой модели

Для разработки и запуска технологии синтеза речи мы обучили две голосовые модели (Наташа и Артём), используя для этого нейронные сети.

Поэтапный процесс синтеза речи:
  • Сначала nlp-препроцессор отвечает за подготовку данных и используется в ситуациях когда, например, необходимо расставить ударения, «е/ё» и так далее. Этот процесс осуществляется автоматически с помощью словарей и нейронных сетей;
  • Движок переводит текст в мелспектограммы;
  • Вокодер переводит мелспектограммы в голос (для каждого диктора обучается обучается своя модель);
  • Постобработка — корректируется скорость, тон и громкость синтезируемого аудио.

Станьте нашим партнером

Среди наших клиентов — уже многие российские компании, которые стараются как можно больше функций перевести в голосовой формат, сокращая таким образом время на предоставление ответов клиенту, а также используя более интерактивные способы взаимодействия, повышая лояльность и доверие к своей услуге или продукту.

Если вы хотите интегрировать синтез речи в свои бизнес-процессы и повысить их эффективность, сократив при этом затраты на персонал и разработку — оставляйте заявку на нашем сайте. Мы свяжемся с вами, расскажем подробности, продемонстрируем работу технологии и обсудим возможные варианты сотрудничества.

Особенности NLab Speech TTS

Работа в нашем облаке или в периметре заказчика

Кастомизация под нужную предметную область

Наработки по русскому синтезу речи находятся в открытом доступе

Сохранность и безопасность данных

Real-time factor скорость обработки данных ~0.1 на GPU и ~1 на CPU

Возможен параллельный синтез сразу нескольких текстовых потоков

Возможность управлять скоростью, тоном и громкостью голоса

Расстановка пауз и ударений. Поддержка основных тегов SSML

Свяжитесь с нами

Отправьте заявку, опишите в поле «Комментарий» ваши задачи, и наши менеджеры рассчитают для вас стоимость синтеза речи NLab Speech TTS.