Менеджер открывает PDF счёта, переносит строки в CRM, сверяет ИНН, ловит опечатку в количестве. Пять минут на документ - кажется мелочью. У отдела из 12 человек и 40 документов в день это 40 человеко-часов в месяц только на перенос, без споров «кто неверно вбил». AI-парсинг обещает «всё само» - и часто продаётся без цифр. Ниже - формула окупаемости и способ считать точность, чтобы не обмануть себя красивым пилотом.
Пример с реальным масштабом - из кейса OLNISA: заявки и вложения с почты, структура в CRM. Логика та же для счетов, актов и заявок в PDF. Схема email - в статье про AI для заявок, общий каркас ROI - в автоматизации до старта.
Когда парсинг документов имеет смысл
| Сигнал | Порог для разговора о AI |
|---|---|
| Однотипные документы | 15+ в день, похожая структура |
| Поля повторяются | контрагент, позиции, сумма, дата, номер |
| Ошибка дорога | пересортица, неверная отгрузка, штраф |
| Узкое место | очередь «вбить в CRM» растёт быстрее штата |
Не имеет смысла на старте: 3 разных формата в неделю, нет эталонных полей в CRM, никто не считает часы на ввод.
Формула ROI
Экономия в месяц = (Документов в день × Минут на документ ÷ 60 × Рабочих дней × Стоимость часа × Доля автоматизации)
− (Лицензии AI + интеграция + сопровождение в месяц)
− (Стоимость исправления ошибок)
ROI за год ≈ (Экономия в месяц × 12 − Разовый проект) / Разовый проект
Доля автоматизации - не 100%. Реалистично 70-90% документов без правок, остальное - ручная проверка. В OLNISA ориентир ~90% без правок на типовых заявках - остальное дешевле полного ручного ввода.
Стоимость исправления ошибок = (Доля ошибок × Документов × Средняя цена ошибки). Если ошибок не считали - заложите 1-2 инцидента в квартал и разделите на 3.
Пример: опт-поставки, 35 PDF в день
| Параметр | Значение |
|---|---|
| Документов в день | 35 |
| Минут на документ (ввод + сверка) | 6 |
| Рабочих дней | 22 |
| Часов в месяц на ввод | 35 × 6 ÷ 60 × 22 ≈ 77 ч |
| Стоимость часа (полная) | 950 ₽ |
| Прямые затраты рутины | ≈ 73 000 ₽/мес |
| Доля без правок после внедрения | 85% |
| Экономия времени | ≈ 62 000 ₽/мес |
| Сервис + сопровождение | 18 000 ₽/мес |
| Ошибки (консервативно) | 5 000 ₽/мес |
| Чистая экономия | ≈ 39 000 ₽/мес |
| Проект (разово) | 320 000 ₽ |
| Окупаемость | ≈ 8 мес |
Если документов 80+ в день или час менеджера дороже - окупаемость 4-6 месяцев. Если 10 документов и разные шаблоны - считайте пилот, не окупаемость пилота.
Точность без самообмана
Подрядчик говорит «95% accuracy» - уточните что именно измеряли.
| Метрика | Что значит | Риск |
|---|---|---|
| Precision по полю | % верных ИНН / сумм | Хорошо для бухгалтерии |
| От файла до записи в CRM | документ в CRM без правок | Ближе к реальности |
| «Модель уверена» | порог отсечения | Завышает, если порог 99% и всё ушло в ручную очередь |
Как проверить за 2 недели пилота:
- Возьмите 200 документов прошлого месяца (не «удобных»).
- Прогоните через парсер, сравните с эталоном, который вбил опытный сотрудник вслепую.
- Считайте отдельно: критические поля (сумма, ИНН, количество) и второстепенные (комментарий, срок).
- Ошибки классифицируйте: «исправили за 10 сек» vs «ушло неверное в заказ».
Правило: если от начала до конца ниже 80% на ваших реальных PDF - не выключайте ручную очередь. Снижайте объём работ: один тип документа, один поставщик шаблонов.
Архитектура в двух словах (для ТЗ)
- Приём - папка, почта, EDI, скан с телефона.
- распознавание текста и извлечение - текст и таблицы из PDF (не всё требует «большую модель»).
- Валидация - справочник контрагентов, лимиты сумм, дубли заказов.
- CRM / 1С - запись + флаг «проверить» при низкой уверенности.
Между 3 и 4 - порог: лучше 30% на ручную проверку, чем мусор в учёте.
Скрытые строки в отчёт о прибылях и убытках
В формуле выше легко забыть:
- Обучение модели на ваших шаблонах (1-3 недели, часы аналитика).
- Исключения - документы «не как все», их всё равно разбирают вручную.
- Регресс - новый формат счёта от поставщика, пока не дообучили.
Заложите 15-25% сверху к разовому проекту и 10-15% к ежемесячному сопровождению на первый квартал. Если после этого окупаемость всё ещё до 12 месяцев - объём работ нормальный. Если больше - режьте до одного типа PDF, как в пилоте, а не «все документы компании».
Что автоматизировать первым
Приоритет по (объём × минуты × цена ошибки):
- Счета от топ-10 контрагентов с одним шаблоном.
- Заявки с повторяющейся таблицей позиций.
- Акты сверки - после того, как отработали счета (там выше цена ошибки).
Отложить: редкие форматы, рукописные пометки, «раз в месяц приходит странный PDF».
Красные флаги пилота
- Тестировали на 50 «идеальных» сканах - на проде другая камера и другой шрифт.
- Нет очереди ручной проверки - ошибки попадают в отгрузку.
- ROI считали без стоимости сопровождения модели и интеграции.
- В CRM нет полей под структуру - парсер кладёт всё в один комментарий.
Итог
Парсинг документов окупается не «потому что AI», а когда объём × повторяемость × цена ошибки бьёт по карману ручного ввода. Сохраните таблицу пилота: дата, тип документа, поле, ошибка, минуты на исправление - через месяц на ней строится реальный бюджет, а не слайд «экономия 4 млн». Считайте часы, мерьте от начала до конца на своих файлах, оставляйте ручной контур на старте.
Хотите прикинуть ROI на ваших PDF и заявках? Оставьте заявку - за созвон оценим объём, поля и реалистичную долю автоматизации без обещаний «100% без людей».
