Данные для обучения чат-ботов: что нужно для создания Базы знаний. Часть 2.

Во второй части статьи мы продолжим рассматривать основные тезисы, озвученные Анной Власовой, руководителем отдела лингвистики в “Наносемантике”, на вебинаре 4 июня “Как клиентские данные превращаются в Базу Знаний виртуального ассистента”. Данная часть позволит еще глубже погрузиться в процесс создания базы знаний бота.

Чем больше бот знает – тем он лучше.

Клиентские данные являются основой для создания Базы Знаний виртуального ассистента. Именно поэтому необходимо, чтобы заказчик предоставлял нам как можно больше своих данных. Чем больше данных, тем лучше обучается модель.

Какие данные приносит заказчик?

Заказчик приносит:

  • Скрипты, которые используют сотрудники колл-центра. Это наиболее ценные и полезные данные.
  • Тексты на сайте
  • FAQ на сайте
  • Расшифровки логов колл-центра (текстовые и голосовые). С этими данными очень сложно работать, т. к., например, оператор может не сразу дать ответ на вопрос пользователя (тяжело сопоставлять вопрос-ответ).
  • Обращения пользователей в виде тикетов
  • Обращения пользователей в свободном виде (текст)
  • Инструкции по работе с личными кабинетами, софтом и т.д.
  • Документация
  • Должностные инструкции. С ними сложно работать, поскольку они не структурированы.
  • Любые другие тексты и записи
  • Внутренние сервисы и системы (где хранятся данные пользователей)
  • Персональные данные в исходных материалах заказчика, форматы (нерасшифрованные голосовые записи, тексты в pdf)

Если у заказчика нет исходных материалов для разработки базы знаний – это существенно затрудняет работу над Базой знаний.

База знаний бота должна позволять:

  • Решить проблему, с которой пришел пользователь
  • Понять границы компетенций бота
  • Выделить объекты и их свойства
  • Организовать работу с внешними сервисами (нормализация запросов к сервису, интерпретация ответов)
  • Поддержать бесшовное переключение между видами коммуникации (робот <-> человек)
  • Проявить инициативу со стороны бота
  • Настроиться на голосовой канал

Помимо знаний о профессиональной и предметной области, боту нужны знания о языке и лингвистический инструментарий. Даже если у бота нет инструментов NLP (natural language processing) – он все равно сможет общаться с пользователем.

NLP очень сильно улучшает качество бота, но его отсутствие не является критичным. Например, у нас есть проекты, где бот автоматически определяет язык, или же пользователя просят выбрать язык.

Для первичного теста возможностей можно начать с бота, у которого минимум знаний об определении языка. Очень многое зависит от того, как именно заказчик планирует применять бота.

Выделение объектов существенно расширяет возможности ботов

Когда человек говорит, что у него куплены билеты туда-то и тогда-то, то бот вытаскивает эти данные (город, дата) и дальше с ними работает. Если потребуется, например, потом заменить билеты – у бота уже есть место и дата.

В этой модели бот будет сравнивать позиционно слово после предложения направления со словарем городов. Если найдет слово в городах – запишет, что это город и он его знает. Если же, к примеру, введут Таиланд, то он не найдет его в городах, но найдет в странах – запишет объект «страна».

Отдельно стоит упомянуть и про синонимические ряды (словари). Без словаря модель, которая ожидает от пользователя название города Санкт-Петербург, будет срабатывать только на запрос «Санкт-Петербург». Но если у вас есть синонимический словарь для этого слова, то она сработает на большем количестве запросов (например, Питер, Петербург). Чем больше у бота знаний о языке, тем лучше он сработает. Но предметная область значит больше, чем знания о языке.

Как осуществляется поддержка и обновление данных? Обновление данных происходит и в ручном режиме по запросу клиента, и в автоматизированном режиме.

Компаниям уже сейчас имеет смысл задумываться о стандартизации структуры и способов хранения корпоративных данных. Это повысит эффект от применения любых технологических трендов, не только чат-ботов.

Подведем итоги:

  • Если вы планируете включить в свои бизнес-процессы чат-бота, подумайте, на каких данных вы будете его обучать
  • Получайте от чат-бота максимум пользы, используя все виды ваших данных для обучения

Полную запись этого вебинара и других выступлений можно посмотреть на нашем Youtube-канале.

 

Похожие статьи