В лидерах рынка голосовых технологий пополнение: «Наносемантика» презентовала NLab Speech

Всего просмотров: 140

Нередко даже люди не могут понять друг друга, переспрашивая то или иное слово. Компьютерным программам правильно распознать подобные ситуации еще сложнее. Поэтому для создания качественного движка голосовой технологии необходимо преодолеть высокую сложность учёта особенностей человеческой речи.

Разработчикам нашей компании удалось создать решение с высоким показателем качества распознавания. NLab Speech – это набор нейросетевых алгоритмов обработки аудиосигналов и анализа текста, обученных и откалиброванных на большом количестве размеченных вручную речевых данных. На данный момент показатель точности NLab Speech (обратный Word Error Rate) составляет более 82% на зашумлённых данных из телефонии. А скорость обработки данных в нашем облаке достигает 6 real-time factor, что на 40-80% выше скорости конкурирующих облачных сервисов. Над этой технологией команда трудилась больше двух лет.

В отличие от человека, нейронная сеть в NLab Speech анализирует звуковой сигнал как изображение: каждому аудио сопоставляется его спектрограмма, после чего нейронная сеть переводит спектрограммы в текстовые предположения о том, что было произнесено в аудио. Среди них наилучшая определяется при помощи языковой модели, учитывающей частотные показатели совместной встречаемости слов.

Данные используются для повышения качества работы моделей, их количество и качество разметки напрямую влияют на функционирование каждой модели. Моделям лучше подавать на вход данные определенного коммерческого сегмента, к примеру call-центра, в полноте и естественности которых есть стопроцентная уверенность.

Помимо сложности в подготовке моделей распознавания речи была и рутина – тщательная подготовка данных. В общей сложности специалисты компании готовили данные для обучения NLab Speech около двух лет. Для обучения акустических моделей было собрано более 12 тысяч часов аудио из различных источников: колл-центры, голосовые сообщения, аудиокниги, вебинары.

Также была осуществлена подготовка наборов данных для обучения моделей, которые показывают лучшие результаты на записях с микрофонов пользовательских устройств, таких как смартфоны и ноутбуки. Пришлось учесть реверберацию и эквализацию при работе с аудио записями из разных источников и полученных при записи в разных условиях.

Для подготовки большого массива обучающих данных мы разработали платформу для разметки данных NLab Marker. C помощью NLab Marker данные преобразуются в формат, пригодный для обучения нейронных сетей.

«Сложно переоценить улучшение качества голосовых роботов на основе ASR от «Наносемантики» для организаций, доверяющих обслуживание клиентов машинному обучению. Голосовой помощник, наделенный речевыми возможностями высокого уровня и распознавания слов, заменяет десятки и сотни сотрудников колл-центра, что сокращает расходы компании на персонал и повышает скорость обслуживания клиентов. Внедрение ASR существенно облегчит и оптимизирует работу и в других сферах бизнеса. К примеру, медработники с помощью голосового заполнения документов смогут быстро составлять анамнезы, а люди с ограниченными возможностями за счет голосовых технологий улучшат качество своей жизни», – считает Павел Кривозубов, руководитель направления «Робототехника и искусственный интеллект» Фонда «Сколково»

На сегодняшний день технология распознавания речи NLab Speech от «Наносемантики» – это самодостаточная технология, повторяющая речевые возможности человека, не требующая участия в процессе распознавания сторонних сервисов. Быстрое и масштабируемое распознавание речи работает как на процессорах, так и на видеокартах. NLab Speech включает в себя как файловое распознавание речи, так и потоковое распознавание. Файловое распознавание выдает только конечный результат, тогда как потоковое распознавание выдает еще и промежуточные результаты после каждого сказанного слова, которые корректируются в зависимости от продолжения речи – как, например, это происходит в Apple Siri. Помимо прочего, наше ASR (automatic speech recognition – автоматическое распознавание речи) работает с основными протоколами связи: websocket, grpc и mrcp, что обеспечивает гибкость NLab Speech, когда речь заходит об его интеграции к клиенту. Также имеется разбивка стереозаписей по диалоговым репликам для удобства использования результатов нашего ASR в системах речевой аналитики. NLab Speech автоматически корректирует написание текста, исправляет ошибки и расставляет пунктуацию.

«Мы уже наравне с лидерами по точности голосовых технологий, работающих на русском языке, и стремимся качественно превзойти их. Для этого есть все предпосылки: мы улучшаем языковые и акустические модели, нейросеть-пунктуатор. Собираем еще больше качественных данных для обучения нейронных сетей. Также для повышения точности распознавания речи мы планируем внедрить в NLab Speech классификацию аудио по полу, возрасту, скорости речи, высоте тона, громкости и эмоциям говорящего. Более того, мы планируем добавить классификацию мест по шуму окружения говорящего. Вместе с этим ведется разработка английского, китайского и корейского ASR», – отметил генеральный директор компании «Наносемантика» Станислав Ашманов.