Сверка и внесение в учетную систему первичных документов — рутинная и трудозатратная часть работы бухгалтера, которая отнимает много времени и нередко приводит к ошибкам и опечаткам. Автоматизированные системы распознавания документов (АСРД) превращают фото в пригодный для редактирования текст и заносят информацию в учетные системы. Рассказываем, что умеют современные АСРД, и как выбрать подходящее ПО.
Что такое система распознавания документов, и зачем она бизнесу
Бизнес-процессы напрямую связаны с оборотом бумажной документации: накладные и счета, акты и договоры, отсканированные копии паспорта, ИНН, СНИЛС и другие документы. Информацию с них обычно вводят вручную для дальнейшей обработки.
Ускорить эти процессы поможет система распознавания текстов — специальная программа для перевода в цифровой формат любых рукописных, машинописных или печатных документов. На выходе получается формат, который можно редактировать или использовать в системе учета.
Обойтись без АСРД сложно, даже если компания перешла на ЭДО, т.к. даже максимальная цифровизация не избавляет предпринимателей от работы с бумажными носителями:
- Не все документы и данные приходят в формате, пригодном для редактирования. Например, вместо текстовой версии договора контрагент присылает отсканированную копию в виде картинки (JPG или PDF без текстового слоя). В результате автоматически выгрузить сведения в систему учета невозможно, и сотрудникам приходится вручную вбивать каждую строчку.
- Структура или форма документа отличаются от стандартных, поэтому 1С или другое ПО не может извлечь нужные данные: в этом случае сотрудники в электронных документах ищут нужные абзацы и строки, после чего копируют их в соответствующую программу.
- Данные поступают не только по каналам ЭДО. К примеру, клиенты для получения товара или услуги предоставляют паспорт: без системы автоматического распознавания документов менеджеру приходится вручную переписывать все актуальные данные.
Главное преимущество АСРД — это быстрое получение информации с меньшим процентом ошибок. Система не делает опечаток, не устает и постоянно совершенствуется. Сами работники при этом не тратят время на рутинные, однообразные операции, освобождают время для действительно важных операций. Но нужно проверить за программой те участки текста, в корректности распознавания которых система сомневается.
Компания получает полноценный электронный архив с возможностью поиска, как по электронным документам, так и по изображениям (фото, скан-копии). Руководство может настроить несколько уровней доступа, а значит риск того, что информация попадет не в те руки, снижается. Получить и отправить данные в архив можно из любого места и в любое время, что особенно удобно при наличии удаленных и разъездных сотрудников.
С помощью АСРД бизнес может оптимизировать количество работников, отвечающих за работу с документами, сократить траты на заработную плату и страховые взносы. Там, где несколько бухгалтеров не справлялись с потоком первички, либо компания привлекала работников на аутсорсе, вместе с ПО для распознавания документов будет достаточно одного специалиста.
Какие задачи можно решить с помощью АСРД
В зависимости от функциональных возможностей конкретного ПО, системы распознавания документов способны решать следующие задачи:
- Ускорение ввода данных: программа распознает нужные атрибуты и передает их в заданном формате целевой системе (например, анализ первички и перенос ее в 1С, анализ ответов в анкетах для маркетологов, сканы ценников). Это основное направление использования АСРД в бизнес-процессах, за счет которого можно повысить скорость обработки документов, сократить процент ошибок и снизить влияние человеческого фактора (усталость, потеря концентрации и пр.).
- Распознавание личных документов: паспорта, СНИЛС, ИНН, водительских прав.
- Проверка бухгалтерских и других документов. К примеру, система может проверить комплектность пакета документации, выявить наличие или отсутствие печатей (подписей).
- Распознавание и сверка текста договоров и других документов. Программа проверит и синхронизирует суммы, номенклатуры, проверит копии документа на соответствие оригиналу (чтобы исключить случай, когда кто-то из контрагентов внес несогласованные с другими правки или, наоборот, пропустил информацию об актуальных изменениях и по-прежнему работает с устаревшей копией).
- Создание цифрового архива, в том числе с фото и сканами документов. Распознавание позволит вести поиск по содержимому, что исключает необходимость вручную перебирать бумажные папки для поиска нужных сведений.
- Определение ответственного лица. АСРД способна не только распознать реквизиты, но и рассортировать документы: если указано ответственное лицо, то распознанная копия отправится именно этому человеку для дальнейшей проверки и обработки.
- Восстановление изображения. Системы на основе нейросетей способны достроить изображение, если на оригинальном носителе строчки размыты, плохо пропечатаны, смазаны и пр.
- Выявить манипуляции. К примеру, распознать, что в паспорт вклеена другая информация и текст набран поверх «пустого» бланка, картинку склеили из нескольких фотографий или кто-то исправил содержание строчки с помощью корректора.
Как работают системы распознавания документов
Сначала сотрудник делает фото документа, скан или сканирует его специальной программой (например, такое приложение есть у 1С). Далее файлы загружают в АСРД: некоторое ПО поддерживает многостраничное распознавание, поэтому не обязательно вносить документы по одному.
После загрузки программа обрабатывает информацию и выделяет основные блоки данных:
- наименования и адреса контрагентов;
- дату и номер документа;
- количество, стоимость и наименования товаров (в т.ч. из таблиц);
- подписи и печати;
- текст, изображения и пр.
Обычно система сама помечает данные, в которых уверена не на все 100%: для завершения работы по распознаванию в таких ситуациях нужна верификация ответственным сотрудником. Также программа обязательно отмечает ошибки: например, если не сходятся контрольные суммы.
В зависимости от механизма распознавания система может учитывать разные варианты наименования продукции, чтобы не допустить дублирования сведений. К примеру, в базе прописаны «Стулья мягкие, красные», а в первичном документе «Стулья красные, дерев.». Более того, современные системы самообучаемы, а значит в следующий раз компьютер решит эту ситуацию без участия человека.
К оцифрованному документу обязательно прикрепляется скан-копия. После этого он выгружается в учетную систему или отправляется в определенную папку (например, к конкретному специалисту, в отдел кадров или бухгалтерию).
Как выбрать сервис распознавания документов
На рынке есть два варианта ПО для оцифровки и расшифровки документации:
- готовые модули, которые обучены работать с конкретными типами документов (паспорта, счета-фактуры, кассовые чеки и пр.). Чем больше видов исходных данных должна распознавать программа, тем она дороже. Если у компании документооборот отличается большим разнообразием, то такой вариант будет неэффективен;
- АСРД на основе нейросетей: за счет самообучения их можно настраивать под конкретные задачи. В коммерческих приложениях оплата производится за количество распознанных элементов (файлов, фотографий, листов, символов и пр.).
При выборе подходящего варианта нужно учитывать несколько факторов:
- Отечественное или зарубежное ПО. С 2025 году запрещено пользоваться иностранными программами в критической инфраструктуре (к ним относятся информационные системы, телекоммуникационные сети, электросвязь и любые системы управления в государственных и муниципальных органах, стратегических отраслях). К тому же зарубежные программы могут внезапно уйти с рынка или закрыть службу технической поддержки.
- Облачное решение и отдельная программа. В первом случае конфиденциальную информацию программа будет обрабатывать и хранить на собственных серверах, что не всегда соответствует требованиям бизнеса. Отдельную программу можно установить в локальной сети.
- Ограничения на типы распознаваемых файлов. В идеале ПО должно одинаково хорошо работать с любыми изображениями и текстовыми файлами.
- Интеграция с API. Позволит встроить систему распознавания в имеющиеся учетные системы, базы данных и электронные архивы.
- Качество распознавания. Хорошо, если система сама помечает, какие поля распознала правильно, а в каких сомневается. Также будет полезно, если программа без участия человека классифицирует документ, распознает его структуру, умеет изменять угол поворота изображения и пр.
- Дополнительные функции. Например, изменения текста без привлечения сторонних программ, работа с иностранными языками, поиск противоречий и несостыковок, работа с извлеченной информацией и пр.
До 2022 года лидером на рынке OCR-продуктов (Optical Character Recognition, оптическое распознавание символов) лидировали программы от компании ABBYY: они умели работать со счетами-фактурами и бухгалтерской документацией, выгружали данные в 1С и SAP, распознавали тексты на разных языках и более чем в 200 форматах. Но с 2022 года компания ушла из России, поэтому расскажем подробнее, какие программные продукты пришли на замену ушедшему гиганту.
- 1С: РПД — автоматизированная программа для распознавания фотографий (поддерживает основные графические форматы) и сканов (в т.ч. в архивах). Есть специальное мобильное приложение для сканирования. Предназначена для обработки первичных документов: накладных, кассовых чеков, счетов-фактур, актов, УПД, но справится и с другой финансовой документацией (например, списание товаров). Умеет:
- работать с многостраничными документами;
- автоматически прикреплять сканы к цифровым документам из базы;
- сопоставлять контрагентов, номенклатуру из документа с объектами из базы;
- формировать комплекты документов по каждой из хозяйственных операций.
- Dbrain — ПО на основе нейросети. Умеет работать с первичной документацией, сохранять структуру исходных документов и даже загружать их в системы учета. За счет самообучения подстраивается под нужды конкретного предприятия: например, запоминает, какие поля и в каком виде нужно извлекать из документов, куда загружать и пр. Это особенно важно, если часть документооборота представлена нестандартными формами, рукописными документами.
- Lexema — отечественный онлайн-сервис, который распознает информацию и загружает ее в 1С. Умеет в автоматическом режиме проверять контрагентов по реестрам ЕГРЮЛ и ЕГРИП.
- Базис — справится с распознаванием накладных, счетов-фактур, УПД, чеков. Система может извлечь реквизиты, сопоставить товарные позиции по разным документам, проверить контрагентов (в т.ч. по базам арбитражных судов или ФНС).
- Entera — совместимая c 1C система с поддержкой более 20 форматов документов. В процессе оцифровки находит ошибки, умеет сверять между собой документы, а также выгружать результат работы в виде отдельных файлов и операций с проводками.
- Биорг — система для расшифровки различных финансовых и бухгалтерских документов. Запускается через сайт и мобильное приложение, есть опции для взаимодействия с системами учета.
- Yandex OCR — работает с фотографиями и сканами, переводит в цифру даже рукописные символы. При формировании результата сохраняет структуру исходного документа. Есть веб-интерфейс и API.
Стоимость распознавания обычно зависит от количества загруженных страниц. К примеру, в 1С:РПД представлены несколько тарифов: самый низкий обойдется в 600 руб за 100 страниц текста, есть тариф стоимостью 3 млн руб. за 1 млн страниц. В Yandex OCR на стоимость также влияет тип и содержание документа: так распознавание страницы паспорта обойдется в 70 коп., печатного текста — в 13 коп., а рукописного — в 1,5 рубля.
Коротко для предпринимателя
- Автоматические системы распознавания документов не только переводят в цифровой формат бумажные документы и сканы (фото), но и в зависимости от возможностей ПО производят первичную классификацию документации, проверку на ошибки и комплектность.
- Распознанные документы можно отправить в цифровой архив предприятия с сохранением структуры исходного документа, либо извлечь основную информацию (данные о контрагентах, реквизиты и пр.) и занести их в учетную программу.
- Системы распознавания документов сокращают время на обработку первичных финансовых и бухгалтерских документов (в т.ч. рукописных), позволяют оптимизировать трудозатраты.
- На рынке представлены системы на основе нейросетей, которые умеют подстраиваться под потребности конкретного бизнеса и обучаться на собственных ошибках.