ДокументооборотLLM-системаДемо для бухгалтерии и back office

OCR первичных документов

OCR-контур для первичных документов помогает бухгалтерии и back office не переносить реквизиты вручную. Система принимает PDF, сканы и фото, определяет тип документа, извлекает реквизиты, суммы и позиции, подсвечивает источник каждого поля, проверяет бизнес-правила и отдаёт подтверждённые данные в 1С, ERP или внутренний API.

-70%
ручного ввода
поле + источник
проверяемый результат
1С / ERP
готово к передаче

Проблема

Первичка часто приходит разными каналами: почта, сканы, PDF, фото от поставщиков. Бухгалтер вручную открывает документ, переносит реквизиты, проверяет НДС, суммы и контрагента, а затем заводит документ в учётную систему. На потоке это создаёт очередь, ошибки копирования и ситуацию, когда непонятно, из какого места документа взялось конкретное поле.

Решение

Мы строим проверяемый Document AI-процесс: документ попадает в очередь, OCR разбирает страницу и координаты текста, LLM извлекает поля с типом документа, валидатор проверяет ИНН, суммы, НДС, обязательные реквизиты и справочник контрагентов. Простые документы уходят в 1С/ERP автоматически, спорные попадают оператору с подсветкой причины и исходного фрагмента.

Пилот на ваших данных

Как проверяем сценарий

Берём 50-100 обезличенных счетов, актов, УПД или накладных, ваши правила проверки и формат выгрузки в 1С/ERP. На пилоте измеряем не только точность OCR, но и главное для бухгалтерии: какие документы можно провести автоматически, какие уходят на проверку и насколько понятно объясняется ошибка.

Что подаём на вход

50-100 документов

PDF, сканы, фото, типы первички, справочник контрагентов, правила проверки и формат 1С/ERP

Что измеряем

качество полей

точность реквизитов, сумм и дат, долю автоматической обработки и причины ручной проверки

Что получает бухгалтерия

проверенные данные

поля, подсветку источника, уверенность, статус правила и готовый объект для учётной системы

Результат пилота: поля, источник на документе, уверенность, правила проверки и данные для 1С/ERPПроверить OCR на ваших документах

В OCR-проекте ценность не в том, что модель прочитала текст. Ценность появляется, когда бухгалтер видит поле, источник на документе, правило проверки и понимает, можно ли проводить документ автоматически.

AIFY Studio · подход к Document AI для back office

Как устроено решение

1. Первичка попадает в очередь

1. Первичка попадает в очередь

Счета, акты, УПД, накладные, PDF, сканы и фото собираются в один поток с источником, статусом и типом документа.

2. Поля извлекаются с источником

2. Поля извлекаются с источником

Каждое значение связано с фрагментом документа: бухгалтер видит, откуда взялись ИНН, дата, сумма, НДС и контрагент.

3. Правила объясняют ошибки

3. Правила объясняют ошибки

Система не просто ставит красный статус, а показывает правило: не сходится НДС, не найден контрагент или отсутствует обязательное поле.

4. Подтверждённый документ уходит в учёт

4. Подтверждённый документ уходит в учёт

После проверки формируется структурированный объект для 1С/ERP, архив, журнал действий и JSON для внутренней интеграции.

Техническая часть

Как документ превращается в проверяемые данные

Рабочий OCR-контур не заканчивается распознаванием текста. Чтобы первичку можно было проводить в учёте, система должна сохранить координаты источника, извлечь поля, проверить правила и объяснить оператору каждое спорное место.

Первый слой — нормализация входа. Документы приходят как PDF, сканы, фотографии или архивы из почты. Система определяет тип файла, качество изображения, количество страниц, поворот, наличие таблиц и отправляет документ в нужную очередь обработки.

d=(pages, type, source, quality, channel)d=(pages,\ type,\ source,\ quality,\ channel)
Документ хранит страницы, предполагаемый тип, канал поступления и качество входных данных.

Для бизнеса это снимает первую ручную операцию: бухгалтеру не нужно сортировать поток на счета, акты и УПД до того, как документ попал в учётную систему.

После OCR система получает не просто строку текста, а разметку страницы: блоки, строки, таблицы и координаты. Это принципиально важно для проверки: если модель извлекла сумму или ИНН, оператор должен увидеть место на исходном документе.

fi=(namei, valuei, bboxi, pi)f_i=(name_i,\ value_i,\ bbox_i,\ p_i)
Каждое поле хранит название, значение, координаты на документе и уверенность модели.

Так появляется связка «поле — значение — источник», которая делает результат объяснимым и пригодным для ручного контроля.

Дальше включаются бизнес-правила. Для первички важно сверить ИНН, контрагента, дату, НДС, сумму строк и итог. Если правило не проходит, система должна показать не общий статус «ошибка», а конкретную причину и поле, которое нужно проверить.

valid(d)=j=1mrulej(f1,,fn)valid(d)=\bigwedge_{j=1}^{m} rule_j(f_1,\ldots,f_n)
Документ считается готовым только если все обязательные правила прошли проверку.

Такой слой снижает риск тихой автоматизации: документ либо проходит набор проверок, либо попадает оператору с понятной причиной.

Финальный результат — структурированный объект для учётной системы. Он содержит поля, статус проверки, ошибки, ссылки на исходный документ, журнал действий и формат передачи. Такой объект можно отправить в 1С, ERP, архив или внутренний API без повторного ручного ввода.

payload=(fields, status, errors, source, audit, export)payload=(fields,\ status,\ errors,\ source,\ audit,\ export)
Payload связывает извлечённые поля, статус, ошибки, источник, журнал действий и канал экспорта.

Именно здесь OCR превращается в бизнес-процесс: бухгалтерия получает не распознанный текст, а проверяемые данные, готовые к проведению или точечной ручной правке.

Такой кейс полезен компаниям, где первичные документы идут потоком: система забирает ручной перенос, оставляет человеку только спорные места и сохраняет проверяемость каждого проведённого документа.

Архитектура решения

1

Приём документов

почта, PDF, скан, фото, архив, тип документа и очередь обработки

2

OCR-разбор

страницы, блоки, строки, таблицы и координаты источника

3

Извлечение полей

реквизиты, суммы, даты, позиции, тип документа и уверенность

4

Проверка правил

ИНН, НДС, суммы, обязательные поля, период и контрагент

5

Проверка оператором

подсветка спорных мест, причина ошибки и ручное подтверждение

6

Передача в учёт

1С, ERP, архив, отчёт, webhook или внутренний API

Результаты

Сокращается ручной перенос реквизитов, сумм, дат и позиций из счетов, актов, накладных и УПД
Каждое поле можно проверить: видно значение, уверенность модели и место на исходном документе
Ошибки объясняются правилом: расхождение НДС, не найден контрагент, нет обязательного поля или не сходится сумма строк
Документы разделяются на автоматическую обработку и ручную проверку по понятным порогам
На выходе формируется структурированный объект для 1С, ERP, архива, отчёта или внутреннего API

Стек технологий

OCRDocument AILLMFastAPI1C/ERP API
Время реализации
2-4 недели пилота на реальных документах
Команда
1 ML-инженер, 1 backend разработчик, 1 аналитик

Хотите похожее решение?

Опишите процесс, данные и желаемый результат — вернёмся с вариантами решения и оценкой пилота.

Описать задачу

Cookie и аналитика

Технические настройки нужны для работы сайта. Яндекс Метрику подключаем только с вашего согласия, чтобы понимать, какие страницы и кейсы полезны.

Технические

Сохраняют ваш выбор по cookie. Отключить их нельзя без потери базовой логики сайта.

Аналитика

Яндекс Метрика: посещения, клики, источники трафика. Webvisor отключён.

Подробнее: политика cookie и политика обработки персональных данных.

Ваш выбор сохраняется в этом браузере. Изменить его можно в футере сайта.

OCR первичных документов — кейс AIFY Studio