Улучшенное звучание: «Наносемантика» обновила синтез речи

Всего просмотров: 313

«Наносемантика» усовершенствовала наработки по технологии Text-to-Speech (TTS) или «синтез речи», который используется российскими компаниями с целью оптимизации работы, экономии времени и человеческих ресурсов.

Сегодня на базе TTS функционируют голосовые помощники, встроенные в различные устройства; боты для сайтов и приложений, виртуальные консультанты для колл-центров. Также с помощью синтеза речи можно осуществлять озвучку анимационных персонажей и развлекательных и обучающих товаров для детей.

 

На старте запуска продукта «Наносемантика» обучила акустическую модель на речи профессиональных дикторов, используя для этого нейронные сети. После чего выложила датасеты и исходные коды TTS в открытый доступ, чтобы любая компания смогла использовать синтез речи в своих проектах. Затем продолжилась работа в целях повышения качества создания и звучания TTS. И в результате последних доработок формирование речевого сигнала по печатному тексту и конечный результат аудио стали ещё более качественными и максимально приближенным к реальному звучанию голоса человека.

 

Вот, что помогло повысить качество синтеза речи за последние 2 месяца:

 

  • замена вокодера, после чего с новым вокодером были протестированы модели существующих голосовых помощников Наташи и Артёма. В результате голоса стали звучать чище и живее;

  • проведение большого количества экспериментов с голосовыми моделями Наташи и Артёма. В ходе тестирования были найдены наиболее удачные комбинации параметров, на которых были обучены новые модели;

  • улучшение фонетизатора, что позволило лучше справляться с неточностями наподобие «э/е» и другими;

  • доработка собственного нормализатора «Наносемантики». Теперь синтез речи стал лучше справляться с произношением сокращений — и пр., и т.д., т.к. и других подобных;

  • доработка постпроцессинга (изменение высоты тона и скорости), что повлияло на снижение количества артефактов в голосе и произношении.

 

Примеры звучания «до» и «после» можно послушать ниже:

Антон Дробышев, руководитель разработки синтеза речи компании «Наносемантика»:

“Специалисты «Наносемантики» проделали большую работу, но на этом улучшение качества синтеза речи не заканчивается. Сейчас ведутся работы в нескольких направлениях: получение синтеза голосов новых дикторов; клонирование голоса; эмоциональный синтез и управление интонацией; эксперименты с новыми движками; исследование задачи уменьшения времени записи диктора до 2-х часов, что позволит снизить стоимость создания нового голоса с 500 тысяч рублей до 10-30 тысяч рублей”.