NLab Speech ASR

Технология распознавания речи

 

Мы создали свою технологию распознавания речи NLab Speech ASR, которая основана на методах компьютерной лингвистики, нейросетевых технологиях и нашем многолетнем опыте. Особенности NLab Speech ASR и правильное построение алгоритмов и языковых моделей позволяют достигнуть высоких показателей точности и качества распознавания человеческой речи в голосовых каналах коммуникации.

Применение NLab Speech ASR

Голосовая биометрия позволяет идентифицировать клиента по его голосу, данные о котором хранятся в базах компании. Система голосовой биометрии помогает банкам и другим организациям предотвратить мошеннические атаки и упростить идентификацию клиентов в системе.

Почти любой гаджет может управляться с помощью голосовых команд. Как правило, голосовое управление предназначается для таких функций: «включить свет», «выключить звук», «открыть файл», «посмотреть погоду». Пример подобного внедрения функции — «умные» колонки Алиса и Маруся, которые работают на базе голосового управления.

С помощью голосовых технологий вы можете ускорить процесс расшифровки длинных аудиозаписей и наоборот — с точностью до каждого слова документировать сказанное. В первом случае достаточно загрузить аудио в специальный софт, а во втором — включить голосового помощника, который запишет речь спикера за вас автоматически.

Эта функция понадобится любому бизнесу, в котором контакт с клиентами происходит по телефону. Речевая аналитика поможет проверять огромное количество звонков клиентов, замерять эффективность предоставленных ответов и выполнения KPI операторов колл-центров и других сотрудников компании. Пример параметров, по которым могут анализироваться разговоры: скорость, перебивание, ключевые слова, темы разговоров, эмоциональный окрас, язык, общая длительность разговора, место, откуда осуществляется звонок, и многие другие.

Голосовой ассистент — это бот с искусственным интеллектом. Он распознает речь, обрабатывает текст, находит оптимальный ответ, переводит его в аудио с помощью синтеза речи и голосом предоставляет информацию. Функция позволяет экономить время пользователя, выполняя рутинные простые задачи. К ним можно отнести: поиск информации по маршруту, прогноз погоды, обозначение того или иного термина, просто разговор на любую тему. Первым виртуальным ассистентом стала «Сири», которую компания Apple внедрила в iPhone.

Голосовое обслуживание с помощью NLab Speech ASR

Колл-центры

Голосовой робот с технологией распознавания речи NLab Speech ASR поможет автоматизировать работу колл-центра, уменьшив таким образом штат сотрудников и сэкономив затраты на персонал. В то же время, это будет способствовать сокращению времени на обработку звонков и запросов. Функция особенно полезна в тех случаях, когда коммуникация с клиентом строится по простому скрипту. Это может быть маршрутизация входящих звонков, кросс-продажи, обзвон клиентов, телемаркетинг.

IVR

Поможем компаниям подключить интерактивное голосовое меню для быстрой обработки входящих звонков и удобной маршрутизации вызовов внутри компании. Для клиента IVR — это быстрый способ прямой связи с конкретным специалистом.

Автоответчики

Голосовой помощник сможет отвечать на звонки сотовой или городской связи в тот момент, когда абонент занят, не может поднять трубку, находится вне сети или не слышит звонок.

Вариант использования технологии NLab Speech ASR для компаний: автоответчик, который принимает звонки клиентов в нерабочее время, например, в выходной день.

Онлайн-банкинг

Голосовой помощник обрабатывает обращения клиентов, предоставляет данные о балансе банковской карты, графике платежей по кредиту или ипотеке, помогает перевыпустить карту, узнать условия бонусной программы и совершить другие операции при помощи звонка.

Станьте нашим партнером

Если вы интегратор и хотите поставлять интеллектуальные решения своим заказчикам платформу по голосовым и текстовым виртуальным ассистентам, распознаванию и синтезу речи  оставляйте вашу заявку. Мы с вами свяжемся и обсудим возможные варианты сотрудничества.

Особенности NLab Speech

Работает в облаке и в периметре заказчика

Полностью кастомизируется под нужную предметную область

Поддерживает российское и зарубежное аппаратное обеспечение

Обеспечивает сохранность данных при установке в периметр

Аудио обрабатывается за 0,5-1 сек

Возможна параллельная обработка нескольких голосовых потоков

Обеспечиваем техническое сопровождение

Предоставляем обновленные (дообученные) версии

Протестируйте сами

Рассчитайте стоимость NLab Speech

Свяжитесь с нами

Отправьте заявку, опишите в поле «Комментарий» ваши задачи, и наши менеджеры рассчитают для вас стоимость распознавания речи NLab Speech.

FAQ

Нужны и аудиоданные и текстовые, данных никогда не бывает слишком много. Чем больше данных, тем лучше вы получите качество распознавания. 

Зависит от ожидаемого качества распознавания и от источников данных. Для падения WER (процент ошибок в словах) до ~25-30% нужно около 1000-1500 часов записей. И нужно учитывать, что помимо обучения акустической модели нужно готовить языковые модели на корпусах текстов, которые максимально отражают специфику области, в которой планируется использовать распознавание речи. Помимо этого на качество распознавания речи влияют акценты, качество связи, возраст, тишина в разговоре.

В настоящий момент поддерживается работа по REST API и gRPC, а также онлайн распознавание речи через веб-сокеты. В планах — поддержка MRCP (будет в конце июля — в августе).

Да, но ее можно выключать. У нас есть нейросеть которая ставит запятые, точки, вопросительные знаки и заглавные буквы.

Мы можем делать отдельные языковые и акустические модели. И даже отдельные интеграции, если у заказчика что-то экзотическое.

Нет, но это реализуемо. По-хорошему надо ставить туда специализированное устройство с массивом микрофонов внутри, например 8 штук, чтобы можно было разделять аудиопотоки. Так можно разделять один аудиосигнал на несколько (на одном слышно одного диктора, на втором нет, например). Просто расшифровать wav-записи с совещания, если хотя бы знать количество дикторов, то будет распознаваться, но пока не в лучшем качестве. Может быть проблема путаницы с дикторами.

Да, это возможно. Есть в планах английский язык. Также обсуждаем с клиентами украинский и узбекский языки. Можем отдельно адаптировать под нужный вам язык.