
Разметка данных – очень важный, но монотонный и трудоемкий процесс, позволяющий добиться более качественного обучения нейронных сетей. Популярные платформы, предлагающие услуги по разметке данных, имеют несколько существенных минусов, поэтому в процессе решения данной задачи мы начали разрабатывать свою собственную платформу. Процесс разметки в большинстве задач не требует специального обучения, но сопровождается рутинной и однотипной работой. Поэтому очень важно сделать платформу, которая сможет взять на себя большую часть однотипных действий, которые не влияют непосредственно на разметку. Под такими действиями подразумевается группировка данных, загрузка, выгрузка, распределение данных. А также контроль за процессом разметки и проверка качества разметки.
Доработки платформы, которые были выполнены в рамках данной задачи, предоставляют разметчику удобное окружение, включающее в себя интерфейс разметки, все необходимые инструкции, пространство проектов и личный кабинет, систему контроля работ и управления процессом разметки.
Таким образом, в настоящем проекте разработана платформа, позволяющая ускорить процесс разметки данных различного типа (текст, аудио, изображения и видео) для машинного обучения, были выполнены исследования, позволившие радикально улучшить автоматизированную систему разметки обучающих данных Маркер, определивших повышение скорости и качества разметки в следующих практических применениях:
- Разработаны инструменты разметки;
- Созданы шаблоны;
- Разработан интеграционный модуль;
- Создан адаптивный алгоритм консенсуса;
- Создана база ханипотов;
- Разработан модуль рейтинга разметчиков;
- Разработан генератор ханипотов;
- Создан модуль загрузки-выгрузки данных;
- Создан эргономичный просмотр разметки;
- Настроены модели разметки;
- Создан единый интерфейс разметки;
- Разработан инструмент MagicWand;
- Создан маркетплейс;
- Разработан наполнен контентом портал;
Научные результаты, полученные в ходе выполнения задач по разработке успешно внедрены в производственные процессы и имплементированы в исполняемый код программы разметки обучающих данных Маркер.
Примеры реализации нового интерфейса и технологий:

Вид шаблона разметки текста в интерфейсе

Вид шаблона разметки изображений в интерфейсе

Выделения участков на изображении инструментом выделения «прямоугольник»

Выделения участков на изображении инструментами «Круг» и «Полигон»

Использование инструмента масштабирования изображений – 30%

Использование инструмента масштабирования изображений – 130%

Вид шаблона разметки аудио в интерфейсе
Вывод
Все цели, поставленные на 1 этапе проекта были успешно достигнуты. Созданные результаты пригодны для повторного использования в будущих проектах. Подготовленные изменения в платформе Маркер позволят пользователям платформы успешно организовывать разметку данных. При этом Маркер позволяет готовить датасеты для всех общепринятых типов данных: текст, аудио, изображения и видео. Инструменты контроля качества, реализованные в результате проекте, помогут добиться требуемого качества для получаемых данных.