Приложения системы

Главная
Проекты

Проекты компьютерного зрения

Распознавание текста, номеров, QR-кодов и промышленных маркировок

Подборка проектов по OCR и видеоаналитике: от многоязычного распознавания текста на мобильных устройствах до номерных знаков, вагонов, QR-кодов, штрихкодов и маркировок на промышленных материалах.

Computer Vision OCR YOLO / CRNN Edge AI Промышленная маркировка

Кейс 1

Многоязычное распознавание текста для мобильных устройств

OCRМногоязычные моделиNPU-ограниченияHuawei

КатегорияКомпьютерное зрение / OCR

ЗаказчикHUAWEI TECHNOLOGIES CO., LTD

Период2018–2019

Задача

Требовалось улучшить детекцию и распознавание текста для нескольких письменностей: арабской, китайской, корейской, японской, латинской и кириллической. Отдельное условие — сохранить совместимость с ограничениями мобильного NPU и не ухудшить качество по другим языкам.

улучшить детекцию и распознавание арабского языка;
повысить качество распознавания китайского и английского текста;
сохранить единую модель для нескольких письменностей;
уложить модель в ограничения по размеру и производительности.

Ключевые результаты

0.939F1-score для китайского и английского языков

0.83F-score по арабскому языку после улучшения

≤15 МБоценочный размер модели после квантизации

Были протестированы SegLink на DenseNet и AdvancedEAST. Для китайского и английского языков решение STATANLY показало F1-score 0.939 против 0.908 у baseline.

Примеры детекции текста

**Пример 1**Результат работы модели детекции текста.

**Пример 2**Детекция текста в многоязычной сцене.

**Пример 3**Выделение текстовых областей.

**Пример 4**Проверка качества на тестовом изображении.

Метрики и ограничения

Решение	F1-score
Baseline (NLPR)	0.908
Statanly	0.939

Model	F (Metrics)	P (Metrics)	R (Metrics)
Seglink on DenseNet	0.84	0.86	0.82
AdvancedEAST	0.85	0.97	0.76
Baseline (HQ)	0.82	0.92	0.76

Model	F (Metrics)	P (Metrics)	R (Metrics)
Seglink on DenseNet	0.77	0.71	0.84
AdvancedEAST	0.83	0.9	0.76
Baseline (HQ)	0.67	0.73	0.61

Language (Script)	F (Metrics)	P (Metrics)	R (Metrics)
Arabic	0.83	0.9	0.76
English (Latin)	0.86	0.96	0.77
French (Latin)	0.84	0.98	0.74
Russian	0.75	0.96	0.62
Italian (Latin)	0.88	0.98	0.79
Chinese	0.93	0.99	0.88
Korean	0.84	0.96	0.75
Portuguese (Latin)	0.78	0.98	0.65
German (Latin)	0.83	0.98	0.72
Japanese	0.81	0.97	0.69
Spanish (Latin)	0.85	0.97	0.75

Model	Weights size (MB)	Estimated size after quantization (MB)
Seglink on DenseNet	~50	~14
AdvancedEAST	~60	~15

Кейс 2

Система распознавания номерных знаков

ANPRYOLOv5 / YOLOv8CRNNВидеопоток

КатегорияКомпьютерное зрение

Период2020–2021

Результат96% точность распознавания на тестовой выборке

Задача

Требовалось создать компонент для анализа транспортного потока и распознавания номерных знаков в разных условиях съемки. Алгоритм должен был находить область номера и извлекать символы из видеопотока.

локализация номерного знака на изображении;
распознавание последовательности символов;
устойчивость к погодным условиям и перспективным искажениям;
интеграция в библиотечный компонент.

Решение

Для обнаружения использовались модели YOLOv5 и YOLOv8, для распознавания — CRNN. Данные были переразмечены и использованы для дообучения детектора и OCR-модуля. Для повышения устойчивости применялись аугментации и методы проективной геометрии.

96%точность распознавания

YOLOv8nбыстрее при сопоставимой точности

CRNNмодель распознавания символов

**Пример детекции**Обнаружение номерного знака в кадре.

**Пример распознавания**Результат OCR для выделенной области.

**Тестовый сценарий**Проверка работы на дорожной сцене.

**Сложные условия**Анализ изображения с нестандартными условиями.

**Результаты модели**Пример итоговой обработки кадра.

Кейс 3

Распознавание номера вагона поезда

Железнодорожная логистикаYOLOv8CRNNСбор данных

КатегорияКомпьютерное зрение

ЗаказчикТранспортная компания

Период2022

Подход

На первом этапе были собраны реальные изображения и видеозаписи проходящих поездов в разных условиях. Затем данные были размечены в Label Studio: для каждого номера вагона выделялась область на изображении.

Результат

Компоненты обнаружения YOLOv8 и распознавания CRNN были дообучены на собранном наборе данных. Общая точность распознавания на тестовой выборке составила 89%, что подтвердило переносимость подхода на смежные задачи транспортной видеоаналитики.

89%точность полного распознавания номера

Label Studioразметка реальных данных

YOLOv8детекция номера вагона

**Сбор данных**Пример изображения для обучения и тестирования.

**Распознавание номера**Результат выделения и распознавания номера вагона.

Кейс 4

Система распознавания QR-кодов и штрихкодов

QRШтрихкодыOpenCV / zbarОценка условий съемки

КатегорияКомпьютерное зрение

ЗаказчикТранспортная компания

Период2022

Задача

Нужно было оценить надежность распознавания QR-кодов и штрихкодов при изменении размера кода в кадре, угла поворота, обрезки и качества изображения. Отдельно анализировалась разница между простыми и сложными QR-кодами.

Выводы

QR-коды считывались надежнее штрихкодов при сопоставимом размере в кадре.
Сложные QR-коды требовали большей доли площади кадра для стабильного чтения.
Для штрихкодов критичны размытие, угол поворота и обрезка области.
При углах поворота порядка 40° и выше качество распознавания резко снижалось.

**Анализ QR-кодов**Пример тестового набора для оценки качества.

**Оценка условий**Проверка зависимости от размера и угла.

**Результаты распознавания**Итоговый анализ качества считывания.

Кейс 5

Распознавание текста произвольной формы

OCRYOLOv8Синтетические данныеПромышленные материалы

КатегорияКомпьютерное зрение

ЗаказчикТранспортная компания

Период2022

Задача

Требовалось распознавать текст произвольной формы, различные шрифты, маркировки и надписи при разных уровнях шума, материалах поверхности и условиях съемки.

Для сравнения использовались PaddleOCR, Tesseract, Doctr и EasyOCR. Отдельно был собран набор из 1210 фотографий объектов из металла, пластика, стекла, кирпича, бумаги и дерева.

Решение

Существенная часть ошибок была связана не с распознаванием символов, а с определением положения текста. Для решения был добавлен внешний детектор на небольшой модели YOLOv8, а также синтетический набор из 10 000 изображений промышленных помещений с латинскими и кириллическими шрифтами.

**Текст на объекте**Пример промышленной маркировки.

**Сложная поверхность**Текст на материале с шумом и фактурой.

**Результат обработки**Пример выделения области текста.

Сравнение библиотек OCR

Material/Model	PaddleOCR	Tesseract	Doctr	Doctr
Metal	0.057160	0.461613	0.268681	0.181886
Brick	0.353260	0.041227	0.335991	0.103651
Glass	0.307380	0.254498	0.270838	0.212571
Plastic	0.947816	0.210128	0.147302	0.017100
Paper	0.377727	0.223795	0.270136	0.135312
Wood	0.055672	0.189703	0.188016	0.014465
Miscellaneous	0.124016	0.045473	0.021668	0.031424

Компьютерное зрение для реальных производственных и транспортных задач

Эти проекты показывают один подход: сбор и подготовка данных, выбор архитектуры, дообучение модели, проверка метрик и интеграция результата в прикладной модуль для работы с изображениями или видеопотоком.