Специалисты из «Яндекса», Центра искусственного интеллекта Сколтеха и Санкт-Петербургского государственного университета аэрокосмического приборостроения (ГУАП) представили PackEat — самую масштабную в мире открытую базу данных для обучения систем компьютерного зрения в сфере ритейла.
Этот массив визуальных данных предназначен для совершенствования алгоритмов «умных» кассовых зон и систем автоматизированного учета продукции. Использование PackEat позволяет существенно повысить точность распознавания товаров в условиях реальных супермаркетов: нейросети учатся корректно идентифицировать объекты в полиэтиленовой упаковке, распознавать перекрывающие друг друга плоды и игнорировать визуальный шум торговых залов.
В состав PackEat вошли изображения 34 видов и 65 сортов овощей и фруктов. Коллекция включает более 100 тысяч фотографий, на которых запечатлено свыше 370 тысяч отдельных объектов, снятых под разными ракурсами в магазинах нескольких городов. Около 9 тысяч снимков имеют детальную разметку с указанием количества единиц товара и общего веса упаковки. Являясь крупнейшим в своем роде, данный датасет помогает решать приоритетные задачи компьютерного зрения: от дифференциации сортов до сегментации частично скрытых объектов и автоматического подсчета продукции.
Для современных торговых сетей проблема ручной идентификации весового товара остается источником операционных убытков. Профильные исследования показывают, что внедрение ИИ позволяет достичь точности распознавания в 92%, что подчеркивает критическую важность автоматизации этих процессов.
Подробное описание проекта опубликовано в научном журнале Scientific Data. Сам набор данных размещен в открытом доступе на платформе Zenodo, а исходный код и примеры моделей доступны на Kaggle. Это позволяет мировому сообществу исследователей и разработчиков оперативно интегрировать PackEat в свои проекты и использовать его как эталон для оценки эффективности новых решений.

