Строим диалог: как создать коммуникативный ИИ и настроить его под свои задачи

Человеку гораздо удобнее взаимодействовать с машинами на естественном языке, а не через набор команд. Но как объединить интуитивное и простое общение с четким выполнением определенных действий роботом? Григорий Шершуков, директор по продуктам группы компаний «Наносемантика» рассказывает, как решить эту и ряд других сложных задач с помощью диалоговой платформы DialogOS.

25.10.2024

8мин.

Григорий Шершуков

Авторы статьи

Григорий Шершуков

Директор по продуктам

Поделиться статьей

На протяжении десятилетий человеческий язык, полный контекстов, эмоций и нюансов оставался непостижимым для компьютеров. Но со временем человек научился строить общение с машинами с помощью больших языковых моделей (LLM). Это положило начало взрывному развитию роботов с применением искусственного интеллекта (ИИ).

Однако LLM все еще не могут обеспечить четкий контроль и предсказуемость в коммуникации с машинами. Для этого нужны «правила» — инструкции, гарантирующие точное выполнение команд. Чтобы объединить возможности LLM с правилами, нужна диалоговая платформа, обеспечивающая автоматизированное взаимодействие через текст или голос для точного выполнения задач.

DialogOS — российская диалоговая платформа с ИИ

Компания «Наносемантика» с 2005 года работает в сфере ИИ, разрабатывая голосовых и текстовых виртуальных ассистентов, нейронные сети и системы анализа больших данных. Флагманский продукт компании — диалоговая платформа DialogOS.

DialogOS предназначена для разработки и поддержки разговорных систем на основе ИИ. Ее главной особенностью является модульная архитектура, которая позволяет гибко настраивать и масштабировать систему. Это делает платформу идеальной для создания решений любой сложности — от виртуальных ассистентов до сложного ИИ для робототехники. Возможности интеграции через API предоставляют компаниям полную свободу в настройке системы под свои нужды и существующие бизнес-процессы. Например, «Энергосбыт Плюс» с помощью голосового бота консультирует пользователей, принимает показания счетчиков, заявки на установку приборов учета и др. Так за первый год работы он снизил нагрузку на операторов более чем в 7 раз.

Одно из ключевых преимуществ DialogOS — способность использовать контекст на всех этапах диалога. Это значительно улучшает взаимодействие с пользователями, поскольку система понимает не только текущее сообщение, но и весь ход предыдущего общения. Это позволяет избежать повторяющихся вопросов и сделать общение с ИИ более естественным и плавным. Кроме того, платформа поддерживает многозадачность, что особенно важно для крупных проектов, где нужно одновременно обрабатывать большое количество диалогов.

Платформа работает на 40 языках и включает в себя огромную базу знаний, которая насчитывает 3611 диалоговых сценариев, 5230 специализированных словарей и более 3 миллионов адаптивных вопросов. Это гарантирует высокую гибкость при создании и настройке ассистентов для различных отраслей и сфер применения.

Для повышения точности работы с данными система использует предобученные нейронные сети, которые обеспечивают эффективное определение именованных сущностей (например, имена, даты, адреса) и классификацию интентов (целей поисковых запросов). Это важно для корректной интерпретации запросов пользователей, что делает взаимодействие с ассистентами ещё более точным и понятным.

Одним из главных преимуществ DialogOS является сочетание нейросетевых алгоритмов и ручных правил. В зависимости от задач платформа может использовать нейросети для решения сложных вопросов, требующих глубокого анализа контекста и интерпретации, а ручные правила — для обработки более простых и предсказуемых сценариев. Это позволяет добиться высокой точности при выполнении задач, сохраняя при этом гибкость и возможность адаптации. Так в КАПИТАЛ LIFE роботизированное голосовое меню с применением ИИ от «Наносемантики» способно свободно понимать и обрабатывать человеческий язык, классифицировать полученную информацию и адресовать абонента по наиболее подходящему направлению обслуживания согласно заранее запланированной логике или переводить на оператора.

Сложности и вызовы

С ростом интереса к большим языковым моделям (LLM), таким как ChatGPT, практически каждый новый заказчик задает вопрос о возможности подключения бота к ChatGPT, чтобы использовать мощности генеративного ИИ для обработки запросов пользователей и генерации интеллектуальных ответов. Однако использование подобных моделей в корпоративных процессах может вызывать сложности из-за больших объемов данных, незнания специфики конкретного бизнеса и нюансов обработки естественного языка.

В DialogOS эти проблемы решаются за счет эффективного распределения задачи между различными компонентами системы. Система управляет взаимодействием между диалоговыми сценариями и языковыми моделями, такими как GPT, что позволяет сохранить баланс между скоростью обработки и качеством ответов.

Другая сложность использования таких LLM, как ChatGPT, — так называемые «галлюцинации». ИИ может выдавать информацию, которая не соответствует действительности, что может быть критичным в бизнес-контексте. Кроме того, такие модели работают по своим внутренним алгоритмам, которые трудно контролировать извне, что повышает риск получения некорректных ответов.

Чтобы решить эту проблему, DialogOS использует два ключевых подхода в работе с LLM. Во-первых, разработка специальных промптов — инструкций, которые направляют ИИ в рамках заданных сценариев, чтобы контролировать содержание его ответов. Во-вторых, обучение ИИ на материалах компании, чтобы он давал максимально релевантные ответы, адаптированные под специфику клиента.

Работа с различными GPT может не всегда удовлетворять требованиям безопасности при обработке персональных или коммерческих данных. В таких случаях организация может обучить собственную LLM внутри контура компании, что позволит гарантировать конфиденциальность информации и сохранить полный контроль над данными.

Использование DialogOS с гибкой интеграцией LLM, таких как ChatGPT или других моделей, помогает бизнесу внедрять ИИ в корпоративные процессы, обеспечивая высокое качество взаимодействия с клиентами и контроль над процессом коммуникации.

Решаемые задачи и кейсы

Цифровые аватары

Одним из наиболее интересных и перспективных направлений использования платформы DialogOS является создание цифровых аватаров. Они сочетают в себе обширную базу знаний, интегрированную с возможностями GPT-модели, что позволяет им эффективно взаимодействовать с пользователями в режиме реального времени.

Один из примеров — созданный в МФТИ мультимедийный стенд «Снежинка» c голосовым 3D-аватаром для международной арктической станции. Стенд состоит из комплекса высокотехнологичных инструментов, таких как интерактивная панель, информационный дисплей, цифровой аватар, модуль видеоаналитики, распознавания и синтеза речи, и используется для презентации достижений отечественной команды исследователей в Арктике. Цифровой аватар распознает собеседника, учитывает контекст, общается при помощи визуального контакта на естественном языке.

Другой пример — аватар известного политика Владимира Жириновского. Цифровой образ распознает речь, генерирует ответ согласно логике мышления прототипа и говорит синтезированным голосом с интонациями, присущими Владимиру Вольфовичу. При создании цифрового аватара «Наносемантика» проанализировала 18 000 часов аудио- и видеозаписей, а также книги и печатные интервью — в общем более 90 Тб данных. Для обучения модели использовался датасет из 150 000 инструкций.

Цифровой помощник юриста Юстина распознает разговорную речь и может проконсультировать по юридическим вопросам. В ее базе знаний федеральные законы, НПА и полная информация с сайта Министерства. 3D-аватар в образе молодой деловой женщины обладает полной синхронизацией речи, эмоций, мимики и жестов.

Цифровой аватар Лили стала одной из интерактивных «изюминок» стенда Министерства промышленности и торговли РФ на ВЭФ-2024. Аватар приветствовала посетителей, свободно общалась на разные темы и приняла участие в дискуссионной сессии на площадке «Гостиная губернаторов» в рамках Восточного экономического форума 2024.

Программные комплексы для управления робототехникой на естественном языке

Повышение качества нейросетей и скорость их обучения открывают огромные перспективы для общения с роботами на естественном языке. Ранее взаимодействие с роботами было сложным и требовало точного ввода команд, но благодаря нейросетям процесс диалога меняется. Машины теперь могут воспринимать команды в свободной форме, распознавать речь, реагировать на эмоциональные оттенки и выполнять действия на основе голосовых команд. В совместном с МФТИ проекте платформа DialogOS обеспечивает архитектуру, которая включает голосовой интерфейс для распознавания и синтеза речи, а также взаимодействие с внешними системами через API. Эта гибкая и мощная платформа разрабатывается для создания программных комплексов управления роботами в промышленных и бытовых сферах.

Использование текстовых и голосовых роботов становится уже традиционным способом автоматизации взаимодействия с клиентами. Виртуальные консультанты от «Наносемантики» позволяют значительно оптимизировать обслуживание клиентов через различные каналы, снижая нагрузку на сотрудников и сокращая операционные затраты.

В «Беларусбанк» виртуальный консультант от «Наносемантики» обслуживает до 30 тыс. клиентов в месяц. Он распознает свыше 90% запросов пользователей, что на 25% снижает количество обращений к online-консультанту.

В одном крупном ритейлере косметики и парфюмерии виртуальный консультант от «Наносемантики» ежемесячно общается с 22 тыс. пользователями. Он консультирует их по ассортименту, ближайшим магазинам и дисконтным программам, при этом 83% клиентов за консультацией повторно обращаются к боту, а не оператору.

Будущее платформы DialogOS

«Наносемантика» имеет в своем портфеле 12 основных продуктов и успела реализовать более 180 проектом. Компания постоянно совершенствует DialogOS, делая работу с платформой ещё более гибкой и эффективной для различных сценариев использования.

Новые нейросетевые модули — «Оценка сентимента», «Опечаточник», «Кластеризация тем» — дают возможность оценить, насколько запрос клиента является негативным или позитивным, идентифицировать слова с ошибками, а также собирать и классифицировать информацию по разговорам с учетом тем.

Недавно в DialogOS появилась возможность создания кастомных отчетов в дополнение к стандартным. Новая функция позволяет собирать и анализировать данные, релевантные конкретному сценарию, создавая метки и обрабатывая информацию для глубокого анализа взаимодействий. Улучшения в работе ассистентов упрощают предоставление релевантной информации без дополнительных вопросов. Возможность быстрого просмотра интересующих данных из диалога дает возможность размечать реплики пользователей для дополнительного обучения нейросетей.

Новый дизайн учитывает современные тенденции и передовой опыт, поэтому работа на платформе интуитивна и эффективна.

В ближайшем будущем «Наносемантика» планирует:

Развитие аналитики, что позволит клиентам глубже анализировать взаимодействие с пользователями и точнее отслеживать эффективность работы.
Обновление системного NER (Named Entity Recognition), чтобы добавить больше именованных сущностей, таких как даты, e-mail, адреса, денежные суммы и др. для улучшения качества обработки данных и точности работы ассистентов.
Улучшение каталога общих элементов для сбора библиотеки стандартных сценариев и элементов, что позволит быстро разрабатывать и запускать новых виртуальных ассистентов.
Интеграция с телефонией для создания голосовых ботов первой линии, которые смогут совершать обзвоны и обрабатывать звонки без участия оператора. Это откроет новые возможности для автоматизации в таких сферах, как клиентская поддержка и маркетинг.

Диалоговая платформа DialogOS играет значительную роль в развитии разговорного ИИ, предлагая гибкие и масштабируемые решения для бизнеса. Она помогает компаниям автоматизировать взаимодействие с клиентами, улучшать качество обслуживания и снижать затраты. Благодаря использованию современных нейросетевых технологий и модульной архитектуры, DialogOS адаптируется под любые задачи, делая общение с ИИ более естественным и эффективным.