NLab Speech

Технология распознавания речи

 

Мы создали свою технологию распознавания речи NLab Speech, которая основана на методах компьютерной лингвистики, нейросетевых технологиях и нашем многолетнем опыте. Особенности NLab Speech и правильное построение алгоритмов и языковых моделей позволяют достигнуть высоких показателей точности и качества распознавания человеческой речи в голосовых каналах коммуникации.

Применение NLab Speech

Операторы колл-центров часто отвечают на однотипные вопросы клиентов и предоставляют справочную информацию в «автоматическом» режиме. Использование технологии распознавания речи NLab Speech позволит автоматически обрабатыватьпо полученную по телефону информацию от клиентов и передавать ее в соотвестствующее подразделение компании. Это могут быть:

  • показания счетчиков (вода, электроэнергия)
  • персональные данные (ФИО, адрес, телефон и т.п.)
  • время записи / прибытия (например, если речь идет о записи на прием, или нужно забрать посылку)
  • любые другие данные, которые клиенты передают по заданному шаблону

В любое устройство или приложение можно добавить функцию голосового управления. Языковая модель NLab Speech настраивается индивидуально, с учетом необходимых для управления слов и фраз, чтобы система распознавала команды с высокой точностью.

С помощью технологии NLab Speech можно расшифровать звуковой файл (формата mp3 или wav) любого объема и качества. Высокая точность расшифровки достигается путем автоматической обработки (чистки) аудио от помех и фоновых шумов с помощью встроенного нейросетевого модуля.

Голосовая биометрия часто используется при удаленном обслуживании клиентов для подтверждения личности (например, в личном кабинете на сайте или в приложении, или по телефону). Голос человека так же уникален, как отпечаток пальца, поэтому такой способ идентификации считается одним из самых надежных.

С помощью NLab Speech можно настроить индивидуальную систему по распознаванию «голосового отпечатка» клиентов, при этом все данные будут храниться и обрабатываться локально на серверах заказчика.

Использование NLab Speech в контакт-центре

интеллектуальный ivr
Интеллектуальный IVR

Нейронная сеть обрабатывает обращения, присваивает ему категорию, и переводит на нужного оператора. NLab Speech позволит снизить нагрузку на первую линию операторов, которые обычно долго определяют суть обращения и распределяют входящие звонки по департаментам. Робот выполнит эту задачу в считанные секунды.

Виртуальный оператор

Это робот, который интегрируется в телефонию, отвечает на входящие звонки и самостоятельно ведет коммуникацию в голосовых каналах.

  • Ведет полноценный диалог на человеческом языке.
  • Одновременно обрабатывает десятки звонков.
  • Высокообучаем: отвечает не только на простые и частые вопросы, но и на более сложные.
  • Мгновенно переводит на нужного оператора при нераспознанном обращении и передаст ему текстовую историю диалога.
  • В разы снижает загрузку колл-центра.
виртуальный оператор

Станьте нашим партнером

Если вы интегратор и хотите поставлять интеллектуальные решения своим заказчикам платформу по голосовым и текстовым виртуальным ассистентам, распознаванию и синтезу речи  оставляйте вашу заявку. Мы с вами свяжемся и обсудим возможные варианты сотрудничества.

Особенности NLab Speech

Работает в облаке и в периметре заказчика

Полностью кастомизируется под нужную предметную область

Поддерживает российское и зарубежное аппаратное обеспечение

Обеспечивает сохранность данных при установке в периметр

Аудио обрабатывается за 0,5-1 сек

Возможна параллельная обработка нескольких голосовых потоков

Обеспечиваем техническое сопровождение

Предоставляем обновленные (дообученные) версии

Протестируйте сами

Рассчитайте стоимость NLab Speech

Свяжитесь с нами

Отправьте заявку, опишите в поле «Комментарий» ваши задачи, и наши менеджеры рассчитают для вас стоимость распознавания речи NLab Speech.

FAQ

Нужны и аудиоданные и текстовые, данных никогда не бывает слишком много. Чем больше данных, тем лучше вы получите качество распознавания. 

Зависит от ожидаемого качества распознавания и от источников данных. Для падения WER (процент ошибок в словах) до ~25-30% нужно около 1000-1500 часов записей. И нужно учитывать, что помимо обучения акустической модели нужно готовить языковые модели на корпусах текстов, которые максимально отражают специфику области, в которой планируется использовать распознавание речи. Помимо этого на качество распознавания речи влияют акценты, качество связи, возраст, тишина в разговоре.

В настоящий момент поддерживается работа по REST API и gRPC, а также онлайн распознавание речи через веб-сокеты. В планах — поддержка MRCP (будет в конце июля — в августе).

Да, но ее можно выключать. У нас есть нейросеть которая ставит запятые, точки, вопросительные знаки и заглавные буквы.

Мы можем делать отдельные языковые и акустические модели. И даже отдельные интеграции, если у заказчика что-то экзотическое.

Нет, но это реализуемо. По-хорошему надо ставить туда специализированное устройство с массивом микрофонов внутри, например 8 штук, чтобы можно было разделять аудиопотоки. Так можно разделять один аудиосигнал на несколько (на одном слышно одного диктора, на втором нет, например). Просто расшифровать wav-записи с совещания, если хотя бы знать количество дикторов, то будет распознаваться, но пока не в лучшем качестве. Может быть проблема путаницы с дикторами.

Да, это возможно. Есть в планах английский язык. Также обсуждаем с клиентами украинский и узбекский языки. Можем отдельно адаптировать под нужный вам язык.