

22-24 апреля 2022 года в Российском Технологическом Университете МИРЭА при поддержке компании «Наносемантика» прошел студенческий хакатон по разработке алгоритмов генерации голосовых фейков. В течение 3-х дней 17 команд соревновались в разработке программы, которая копирует голос конкретного человека.
За время хакатона командам необходимо было сгенерировать 10 аудиозаписей по 10 предоставленным текстам и далее презентовать решение жюри.
Хакатон проходил в очном формате в техно-коворкинге университета. Для участников был предусмотрен призовой фонд 110 тысяч рублей от РТУ МИРЭА. Победители также получили возможность пройти стажировку в «Наносемантике».
Для решения поставленной задачи студенческим командам был предоставлен набор данных (датасет) из 2 часов аудиозаписей с голосом американского президента Джо Байдена, программный код с предобученной нейронной сетью для синтеза речи и вычислительные мощности (сервер с видеокартой). Для более глубокого погружения участников в тему специалисты «Наносемантики» также провели 2 обучающих мастер-класса: «Современные методики генерации голосовых дипфейков и синтеза речи» и «Ключевые особенности распознавания голосовых дипфейков».
Перед хакатоном специалисты Наносемантики самостоятельно синтезировали Байдена:
А вот для сравнения неповторимый оригинал.
И ещё: ссылка на youtube.
Всего в соревнование вступило 46 студентов в составе 17 команд, до финала дошло 5 команд.
В состав жюри вошли: С.А. Кудж (ректор РТУ МИРЭА), А.А. Бакаев (директор Института кибербезопасности и цифровых технологий), Станислав Ашманов (генеральный директор «Наносемантики»), Павел Сухачёв, Антон Дробышев и Григорий Шершуков (ведущие специалисты и руководители отделов «Наносемантики»).
Результаты проектов оценивались судьями по следующим критериям:
- Соответствие представленного результата поставленной задач.
- Реалистичность и качество звучания полученных аудиозаписей.
- Презентация решения.
- Креативный подход к решению задачи.
Итоги были подведены 24 апреля 2022 года после итоговых презентаций команд.
Единогласным решением жюри победа была присуждена команде «Лирохвост» из РТУ МИРЭА. Команда показала лучший результат по клонированию голоса, а также добавила разработку генерации текста рэп-композиций на основе технологий gpt2. Помимо денежного приза в 50 тысяч рублей победители получили возможность пройти стажировку в «Наносемантике».
Пример синтезированного аудио команды-победителя:
Второе место получила команда GENERAL. Ребята добавили в своё решение технологию синтеза голоса под видео (движение рта и губ) и получили денежный приз в 30 тысяч рублей.
Третье место и денежный приз в 30 тысяч рублей разделили три команды: Thunder Forward, Crazy Cats, Neural_Ducks. Их финальные проекты не были доработаны до конца, но в течение хакатона командам удалось опробовать несколько интересных технологических решений и креативно подойти к разработке.
Хакатон удался: тема дипфейков в последнее время стала особенно актуальной и вызвала большой интерес у студенческой аудитории. Участники проявили упорство и стремление к победе несмотря на то, что сама задача была достаточно сложной для неподготовленных команд, а времени на обучение моделей было критически мало (2 дня).
По мотивам проведённого хакатона студенты сняли небольшой видеоролик.