Название проекта
Оптимизация существующих сервисов поиска объектов в системе хранения метаданных медиаактивов; создание ряда детекторов для системы хранения метаданных медиаактивов.
Даты проектов
Конец 2022 года - по настоящее время (ведется разработка очередного проекта).
Используемые технологии
Компьютерное зрение.
Задача
Основная задача, с которой клиент изначально обратился к «Наносемантике», ‒ оптимизация работы с видеоархивами с помощью ИИ: необходимо было усовершенствовать поиск, «пересобрать» базы данных, создать детекторы для распознавания людей и других объектов на видео по запросу, предварительно изучив варианты и выбрав подходящие модели для обучения нейросетей.
Результат
Результатом двухлетнего сотрудничества АО «ТВ Центр» и «Наносемантики» стало создание нового продукта ‒ сервиса интеллектуального поиска аудиовизуального контента по системе хранения метаданных. Сервис использует все доступные признаки медиаактивов из оптимизированных или заново созданных детекторов и классификаторов. Эффективный поиск происходит по единой векторной базе согласно текстовому запросу, введенному в свободной форме.
Эффективность
Внедрение передовых систем разметки и поиска позволило журналистам и корреспондентам значительно повысить переиспользование имеющихся активов (контента) компании и одновременно улучшить качество выпускаемой продукции за счет повышения разнообразия используемых материалов из архива. По внутренней оценке АО «ТВ Центр», переиспользование медиаактивов увеличилось в 10-15 раз.
По метрикам отдельных сервисов: обработка документов выросла с 2 000 документов/час до 5 000 документов/час. Детектор персон позволил идентифицировать иноагентов, а значит, избежать нарушения законодательства и штрафов. Распознавание брендов исключает демонстрацию ненужной символики и, следовательно, судебных проблем и трат.
Список разработанных сервисов, входящих в состав
- Сервис «Детектор персон»
- Сервис классификации локаций зданий
- Классификатор времени суток, сезона и определения местоположения кадра (в помещении/вне помещения)
- Сервис ретроспективного поиска близких по смыслу видео централизованной системы хранения метаданных медиаактивов
- Сервис по описанию сцен (Video Captching)
- Детектор брендов
Сервис «Детектор персон»
Релиз ‒ январь 2023
Развитие существующего у заказчика сервиса детекции и трекинга лиц в составе единой централизованной системы хранения и поиска метаданных медиаактивов стало первым проектом, который реализовала «Наносемантика» для «ТВ-Центра».
Задача детектора
Поиск персон на видео из базы известных личностей для дальнейшего поиска нужных медиафайлов. Дополнительная задача ‒ детекция иноагентов на видео, чтобы исключить нарушение закона.
Логика работы детектора
Сервис получает от централизованной системы хранения метаданных медиаактивов задачи на обработку видео, нарезает видеофайл на статичные кадры, обращается к сервису распознавания лиц, обращается к сервису поиска по базе персон, сохраняет данные распознавания, формирует ответ. Ответ содержит метки времени нахождения лица в кадре, идентификатор персоны, степень уверенности для централизованной системы хранения метаданных медиаактивов Заказчика.
Результаты
- Разработана и реализована метрика оценки качества для классификатора персон и всего сервиса
- Сделана аугментация имеющихся данных для повышения репрезентативности тестов
- Исследованы и применены наилучшие альтернативные способы детекции и классификации людей для улучшения классификации людей
- По итогу работ качество распознавания персон по метрике F1-score - 0,91.
Результаты тестирования детектора
- Детектор - RetinaFace
- F1-Score - 0.99220
- FPS - 25
Результаты тестирования классификатора
- Классификатор - FaceNet
- Accuracy - 0.99650
- FPS - 164
Результаты тестирования пайплайна
- F1-Score - 0.91
- FPS - 8
Сервис классификации локаций зданий
Релиз ‒ июнь 2023
Общая концепция сервиса
Ведется съемка уличного репортажа. Необходимо по видео в рамках возможностей определять организации и их местоположение по фасадам зданий в соответствии с собранной базой данных. Разрабатываемый сервис определения зданий, организаций и локаций должен анализировать условно каждый 5-10 кадр. Используются объекты только на территории России.
- Датасет - очищенный + верификация LightGlue
- mAPО - 0.55
Классификатор времени суток, сезона и определения местоположения кадра (в помещении/вне помещения)
Релиз ‒ сентябрь 2023
Логика работы
Сервис получает запрос от централизованной системы хранения метаданных медиаактивов Заказчика задачи на обработку фото и видео, обращается к сервису классификации времени суток, сезона и определения местоположения кадра (в помещении/вне помещения), сохраняет результаты и далее формирует ответ.
Результаты тестирования
- Модель «день/ночь»: F1 - 0.92
- Модель «внутри/снаружи»: F1 - 0.92
- Модель определения сезонов:
- Осень: F1 - 0,49
- Весна: F1 - 0,67
- Лето: F1 - 0,76
- Зима: F1 - 0,79
Сервис ретроспективного поиска близких по смыслу видео централизованной системы хранения метаданных медиаактивов
Релиз ‒ декабрь 2023
Цель проекта
Оптимизация сервиса ретроспективного поиска близких текстов централизованной системы хранения метаданных медиаактивов для ускоренной обработки документов. Сервис также оптимизирует ранжирование поиска: по текстовому запросу пользователя в качестве ответа выдаются целевые видеоматериалы, расположенные в топе отранжированного списка результатов поиска.
Результаты
Обработка документов в сервисе выросла с 2000 документов/час до 5000 документов/час.
Сервис по описанию сцен (Video Captching)
Релиз ‒ декабрь 2023
Логика работы
Сервис на вход получает видео из централизованной системы хранения метаданных медиаактивов, разделяет его на сцены и для каждой составляет подробное описание.
Детектор брендов
Релиз ‒ сентябрь 2024
Цель проекта
Разработка сервиса по определению и распознаванию логотипов бренда. Детектор реализован на основе архитектуры нейронных сетей для детекции объектов.
Логика работы
Сервис получает от централизованной системы хранения метаданных медиаактивов задачу на обработку видео. Видео обрабатывается покадрово детектором логотипов брендов и осуществляется поиск потенциальных логотипов брендов. Далее данные распознавания сохраняются и формируется ответ, содержащий идентификатор бренда, положение логотипа на кадре, степень уверенности.
Результаты
Метрика «mean Average Precision» ‒ 0.82