Нейросеть «Жириновский» стала третьей по популярности медиаперсоной Петербургского международного экономического форума (ПМЭФ) — 2023, уступив лишь Президенту России Владимиру Путину и мэру Москвы Сергею Собянину. Цифровой аватар похож на политика Владимира Жириновского, говорит его голосом и обучен на множестве публичных выступлений и интервью бывшего лидера ЛДПР за 30 лет. Как создаются такие проекты на примере первого в мире цифрового политика, рассказывает Григорий Шершуков, директор по продуктам компании-разработчика «Наносемантика».
Заказчик проекта — партия ЛДПР — представила нейросеть, которая называет себя «цифровым учеником Жириновского», на Петербургском экономическом форуме 15 июня 2023 года. Но с тех пор первый прототип значительно усовершенствовался — была проведена тонкая настройка, с дополнительным тестированием на большом количестве вопросов на общественно-политические темы. В августе цифровой политик получил свой телеграм-канал, где публикуются наиболее яркие ответы на вопросы пользователей.
Как цифровых аватаров могут использовать предприниматели
Основная задача цифрового аватара — привлекать внимание к бренду и делать клиентский опыт оригинальнее, интереснее. Подобные решения используются в далеких друг от друга сегментах. Например, в ретейле цифровой аватар может быть интегрирован в устройства для самообслуживания и выполнять функции консультанта, что также высвободит время персонала магазина.
Стоимость цифровых аватаров зависит от степени их «развитости». Разработка самого простого цифрового ассистента без требований к внешнему виду и соответствия чьему-то голосу, настроек эмоций может обойтись в 2—3 млн рублей без учета расходов на серверное обслуживание.
В ряде случаев хорошо обученный цифровой аватар может стать выходом для бизнеса, когда компании необходим профессионал с дополнительными навыками. Например, для гостиничного бизнеса может быть выгодно вложиться в цифрового портье, который сможет зарегистрировать гостей, используя возможность говорить на десятках иностранных языков. Найти такого сотрудника в жизни не так просто, а технологическое решение способно закрыть потребности в коммуникации и сделать клиентский опыт более запоминающимся и комфортным.
От идеи к реализации
В первую очередь идея заключалась в создании генеративной нейросети, которая сможет отвечать на вопросы пользователей в стиле Владимира Жириновского.
Изначально в работе над проектом заказчики настояли на том, что это не должна быть копия политика. Стояла задача сделать «цифрового ученика», вобравшего максимально полный объем информации о Владимире Вольфовиче. При этом нейросеть должна распознавать речь, генерировать ответ и синтезировать голос.
Кроме того, решили, что ИИ получит свой облик — цифровой аватар. В дальнейшем его можно интегрировать на сайт в виде уже привычных всплывающих окон с виртуальными помощниками или в Телеграм. Таким образом, мы параллельно занимались разработкой и обучением нескольких моделей.
Задача №1: Разработка текстовой модели
Большие лингвистические модели создаются на основе трансформеров — так называется архитектура глубоких нейронных сетей, представленная в 2017 году. Они предназначены для обработки последовательностей, в том числе текста на естественном языке. Такие модели могут понимать и обрабатывать человеческую речь. Например, архитектура трансформеров лежит в основе самой популярной языковой модели GPT.
Мы протестировали множество моделей, включая известные Alpaca, LLaMA, Vicuna, Falcon, ruGPT-3.5, LLaMA-2. Проверяли их на знание русского языка — насколько грамотно они общаются. А также оценивали качество ответа модели после обучения на специально подготовленном датасете. Опасения подтвердились: большинство моделей все же заточено под английский. Во владении грамотной русской речью ruGPT-3.5 не превзойдет ни одна другая модель.Как предпринимателю использовать нейросеть ChatGPT, чтобы больше успевать.
Наша модель — это тоже большая языковая модель, которая создавалась по тем же принципам. Заказчик предоставил 18 тысяч часов аудио- и видеозаписей, а также книги и печатные интервью — в общем больше 90 терабайт данных.
Для обучения модели весь контент перевели в текст — так оттачивается стиль ответов и закладывается их содержание. Чтобы обучить модель отвечать на вопросы, нужно дать ей большое количество примеров. Поэтому мы сформировали датасет из 150 тысяч инструкций в виде вопросов и ответов на основе трудов и высказываний Владимира Жириновского.
Лингвисты, работающие с данными, устраняли возникающие противоречия и повышали точность датасета, консультируясь с политическими экспертами партии и людьми, лично знакомыми с Владимиром Жириновским, много лет с ним работавшими.
Однако у модели есть определенные ограничения: датасет содержит записи до начала 2022 года, когда политик тяжело заболел и впоследствии скончался. На вопросы о более поздних событиях нейросеть может ответить неправильно — и это совершенно нормальная ситуация для всех языковых моделей. Для более точного ответа в вопросе должен содержаться контекст — это поможет модели сгенерировать корректный ответ, опираясь на предыдущий опыт.
Задача №2: Синтез речи
При создании цифрового аватара важно избежать эффекта зловещей долины (Uncanny Valley), который описал японский ученый Масахиро Мори. Его суть состоит в том, что робот или виртуальный персонаж, который выглядит или действует как человек, вызывает неприязнь, так как зритель улавливает его неестественность. Этот риск намного больше, когда речь идет об аватаре реального человека — воссоздать идеально правдоподобный образ очень сложно.
В итоге на ПМЭФ-2023 зрители увидели цифровой аватар, не претендующий на воссоздание реального образа — это именно аватар, наделенный узнаваемыми чертами.
На основе 3D-образа построили полигональную модель, которая состоит из множества плоских многоугольников (полигонов), формирующих сложную трехмерную форму. На ее основе создавали анимацию — из нескольких вариантов выбрали лучшую реализацию. Так, аватар синхронизирует голос с движением губ (липсинк), генерирует анимацию, исходя из эмоций в озвученном тексте.
Сейчас 3D-модель способна передать три вида эмоций — нейтральную, позитивную и негативную. Когда она говорит о молодежи, то улыбается, о политических конкурентах — злится. Но на большинство вопросов у «Жириновского» нейтральная реакция.
Запасайтесь мощностями
Еще одна статья расходов при создании цифровых аватаров — базовая инфраструктура для таких решений. Разработка и развитие нейросетей требуют больших вычислительных ресурсов.
Если хранить ее в публичном облаке внешнего провайдера, то аренда требуемых ресурсов обойдется в 60—200 тысяч рублей в месяц. Поэтому для долгосрочной работы больших языковых моделей выгоднее иметь собственные мощности. Однако в процессе обучения модели нужно еще больше вычислительных ресурсов — и тогда есть смысл временно подключить облачные услуги.Какими бывают облачные хранилища и услуги.
Для работы диалоговой платформы, которая обеспечивает доставку запросов к модели и передает команды цифровому аватару, нужно оборудование с особыми требованиями к центральному процессору (60 vCPU), оперативной памяти и жестким дискам. Также отдельные мощности нужны для модели синтеза речи и работы цифрового аватара — их параметры зависят от количества одновременных запросов пользователей.
Будущее ИИ «Жириновский»
Мы прорабатываем решение на основе компьютерного зрения, чтобы модель не просто могла различать, кто с ней говорит, и адаптировать свой ответ, а выглядела непосредственным участником разговора. Например, если с этим человеком когда-то общался Владимир Вольфович, модель сможет его узнать и будет говорить более персонализированно: продолжит ранее начатую беседу или вернется к обсуждаемой теме. Более того, она «вспомнит» и эмоции, которые вызывал этот человек.
Также обсуждается возможность добавить подвижности самому аватару. Сейчас это говорящая голова, но можно:
- наделить его телом;
- одеть в фирменный пиджак;
- научить разводить руками или закладывать их за спину.
Таким образом, можно создать полноценный цифровой аватар, который в дальнейшем, к примеру, будет транслироваться на любых экранах или в виде проекции. Вообще, много возможностей для развития цифровых аватаров связано с интерфейсами — можно использовать нейросеть на сайтах, в мобильных приложениях, внутри различных устройств.