
Фотография взята с личной страницы Руслана Усачева во «ВКонтакте»
Руслан Усáчев – один из самых известных русскоязычных видеоблогеров. Его по праву можно считать одним из первопроходцев русского Youtube: свои первые влоги он записал еще в марте 2010 года. Руслан является ведущим и сценаристом собственного тревел-шоу и новостного дайджеста Usachev Show, а также шоураннером проекта «КликКлак».
Искусственный интеллект для создания речи в сфере блогинга
Производство контента для видеоблогов и аудиоподкастов – трудоемкий процесс, требующий тщательной проработки сценария, записи, монтажа аудио- или видеоматериалов. Синтез речи может помочь в этом. Вместо того чтобы записывать ролики в студии, блогеры могут использовать искусственный интеллект для создания речи в качестве помощника для преобразования текстовых скриптов в аудиофайлы. Так можно существенно ускорить производство контента, а свободное время посвящать другим задачам.
Несмотря на явные преимущества, блогеры могут столкнуться с рядом трудностей. Для качественного синтеза речи по образцу голоса нужно решить ряд задач: система синтеза речи должна обучиться тембру голоса конкретного человека и тонкостям произношения, особенно при работе со сложными терминами или профессиональной лексикой.
Создание голосовой модели на платформе NLab Speech TTS
Голосовая модель Руслана Усачева разработана на базе платформы «Наносемантики» NLab Speech TTS (Text-to-Speech), которая позволяет синтезировать голос любой медийной личности. Платформа специализируется на синтезировании голоса из текстового формата и применяется в различных сферах, в том числе для генерации контента для обучения и развлечения. С помощью современных технологий распознавания и синтеза речи можно решить ряд проблем, таких как склейки, разные уровни шумов и интонации, разная скорость речи, покашливания и др.
Перед разработчиками стояла задача синтезировать оригинальный тембр голоса с особенностями произношения Руслана Усачева. Для обучения модели были использованы 10 часов записи с Youtube-канала блогера. А для тонкой настройки различных нюансов потребовалось еще 10 часов записей чистого голоса заказчика. В процессе разработчики столкнулись с проблемой отображения голосовой дорожки синтезированной записи при публикации в Telegram, впоследствии решив эту задачу с помощью конвертации в подходящий формат файла.
Результаты проекта и перспективы использования
В результате проекта был создан голосовой бот, генерирующий аудиосообщения голосом Руслана Усачева. Доступ к боту имеет заказчик и его команда редакторов, которые приступят с его помощью к производству аудиоконтента для размещения на собственных и, возможно, сторонних площадках.
«Собственный голосовой бот – ценный инструмент, который поможет мне как в решении повседневных задач генерации контента, так и в проектах, на которые мне физически не хватало времени. Помимо автоматической записи подкастов и аудиоинтервью, теперь я смогу легко и просто создавать аудиокниги или озвучивать обучающие курсы. Голосовой бот также может стать помощником в коллаборации с модными брендами или в продвижении собственной продукции из моего интернет-магазина», – подчеркнул Руслан Усачев.
Опыт компании в создании голосовых моделей
«Работа над каждым новым проектом создания точной копии голоса медийного человека – вдохновляющий опыт. Ранее мы начали синтезировать «голос Победы» Юрия Левитана к юбилею диктора и воссоздали голос известного политика Владимира Жириновского в рамках работы над нейросетью «Жириновский». Новый бот с голосом Руслана Усачева – это очень гибкая модель, настройку и доработку которой мы можем проводить согласно задачам заказчика. Так, например, в перспективе возможна доработка модели с целью записи голоса на иностранных языках для работы с многоязычной аудиторией», - прокомментировал Илья Иванов, коммерческий директор компании «Наносемантика».
Узнайте больше о технологиях синтеза речи
Заинтересовались технологиями создания голосовых моделей? Узнайте больше о наших проектах в сфере систем синтеза речи, включая создание голосовой модели легендарного диктора Юрия Левитана, или познакомьтесь с возможностями нашей платформы NLab Speech TTS для синтезирования голоса из текста.