Взболтать, но не смешивать: итоги вебинара про технологию распознавания речи

Всего просмотров: 149

 

8 апреля мы провели вебинар по теме: «Подводные камни распознавания речи». Спикерами выступили: Станислав Ашманов, генеральный директор «Наносемантики» и «Нейросетей Ашманова», Павел Сухачев, руководитель разработки систем машинного обучения, и Анна Власова, руководитель отдела лингвистики. В вебинаре мы поделились не только своим собственным опытом, но и тем, как сейчас выглядит рынок речевых технологий, а также предоставили возможность участникам вебинара самостоятельно попробовать и протестировать наши продукты.

«Распознавание речи сегодня работает. Но если говорить про конкретные применения, то там уже всплывает целый ряд проблем, которые частично решаются, частично нет, и записывать их как общие проблемы технологии распознавания речи не стоит. Скорее, это конкретные проблемы конкретных применений» – утверждает Станислав Ашманов.

В своем выступлении Станислав проанализировал текущую ситуацию на рынке речевых технологий, рассказал об основных российских вендорах, разобрал преимущества и недостатки ключевых видов голосовых технологий. 

Голосовые виртуальные ассистенты – одно из самых востребованных решений сегодня. Хороший голосовой помощник живет у клиента годами и экономит ему время и деньги”.

Распознавание речи – это далеко не решенная задача. Сложности в настройке и работе с системой распознавания речи возникают у всех, всегда и везде. Но для многих применений качества уже достаточно”.

Анна поведала о синтаксических сложностях в понимании между людьми и виртуальными ассистентами, раскрыла секреты проведения успешных коммуникаций между ними. Также Анна подробно остановилась на отличиях общения в тексте и общении в голосе.

На текстовом боте мы держим распознавание 90-95%, то при подключении голоса 6 лет назад мы теряли до 40%. Общее распознавание речи для виртуальных консультантов не годится в большинстве случаев. Не бывает общего распознавания речи, как и не бывает общего текстового бота. У бота, в любом случае, есть своя тематика, своя область знаний”.

Если навигатор понимает слово «Да», то ассистент для ритейла распознает вместо «Да» слово «Два». Нет такого распознавания речи, которое определяло бы речь со 100% уверенностью”.

Приведу в пример прекрасную запись: где во время общения голосового бота собеседник-человек отошел, а на заднем фоне лаяла собака. Она лаяла где-то далеко, но голосовой бот посчитал это как голос и начал общаться с собакой. В итоге собака лает, диалог идет”.

Павел Сухачев в своем выступлении коснулся технической стороны разработки технологии распознавания речи. Он рассказал о том тернистом пути, которой он прошел со своей командой в процессе создания нашей собственной STT (Speech-To-Text).

Не стоит рассчитывать на легкую прогулку, если вы решили создать свое собственное распознавание речи с нуля. Нужны тысячи часов, чтобы получить хорошее распознавание. Но надо учитывать, что источники данных нужны именно такие, какие требуются для продакшна. Если это телефония, то нужны записи колл-центров. Чем больше данных, тем лучше показывает себя модель«.

Вопросы зрителей

Насколько хороши сейчас технологии распознавания речи для случаев с плохим (не native) произношением и плохим качеством сигнала (skype-звонки)?

Плохое произношение и качество сигнала — одни из многих проблем, и далеко не единственные. В среднем, упомянутые в презентации решения дают WER порядка 27-32. Если дообучать модели на целевых данных — качество будет расти.

Как влияют на точность распознавания речи диалекты и акценты? Как с этим боретесь?

Влияют, на данный момент боремся при помощи ручной аннотации попадающих нам записей, расширения датасетов и дообучения моделей. Планируем эксперименты с NLP трансформерами для извлечения семантики.

Сколько нужно часов записи для обучения, чтобы модель распознавания считалась достаточно работоспособной?

Зависит от ожидаемого качества распознавания и от источников данных. Для падения WER (word error rate — коэффициент ошибок в словах) до ~25-30 нужно около 1000-1500 часов записей. 

 

Если вам интересно посмотреть запись вебинара, напишите на почту pr@nanosemantics.ai. Мы пришлем вам ссылку. 

Дополнительные полезные ссылки:

@voicybot. Бот в Телеграме. Нажимаете /engine. Потом выбираете Nanosemantics (beta). И можете отправлять ему голосовые сообщения для распознавания. 

Виртуальный сотрудник Элиза (с ней можно поговорить, но отвечать пока будет текстом).

Оставить заявку на консультацию по разработке распознавания речи можно здесь. 

Мы благодарим всех, кто пришел на онлайн трансляцию. Участвуйте в наших вебинарах, впереди еще много интересного!