Техническая архитектура
Использовали ensemble из ResNet-50 для анализа изображений и BERT для обработки описаний товаров. Мультимодальный подход позволил учитывать как визуальные, так и текстовые характеристики.
Подготовка dataset
Работали с датасетом из 2.5 млн товарных карточек, включая изображения и метаданные. Применили аугментацию данных и активное обучение для улучшения качества разметки.
Оптимизация производительности
Внедрили TensorRT для ускорения инференса и model quantization для уменьшения размера модели. Достигли обработки 1000 изображений в секунду на одной GPU.
Практические применения
Система автоматически определяет категории товаров, выявляет дубликаты, проверяет соответствие изображений описанию и обнаруживает потенциально запрещенные товары.
Заключение
Computer Vision в e-commerce — это не только классификация товаров, но и инструмент для улучшения пользовательского опыта и автоматизации модерации контента.