
Кто уже читал предыдущую статью? В ней мы рассказали, зачем нужен Detector PRAI. Но если вы ещё не успели, вкратце расскажем, а также объясним, как устроена программа.
Представьте, что вам нужно перевести в текстовый документ информацию с картинки или скана PDF. Если это одна страница, можно заморочиться и сделать всё вручную. Но когда объём большой, например, папка документов, газета или книга, то на выполнение задачи могут уйти недели и месяцы.
Хорошая новость в том, что время можно значительно сэкономить. Наша компания вместе с профессорами и кандидатами математических наук Кубанского государственного университета разработала Detector PRAI. Это мощная система на базе искусственного интеллекта, которая автоматически анализирует и преобразовывает документы.
Загружаете любую картинку с текстом — получаете страницу текста с такой же структурой, что была изначально, но с возможностью редактирования и поиска по словам.
Программа не просто распознаёт текст, а понимает, как устроен документ. Она «видит» таблицы, картинки, формулы. А создавая новый файл, сохраняет исходное расположение элементов и разметку.
В своей работе сервис использует аналитические методы, раскладывая сложное на простые составляющие. За конкретную задачу — искать таблицы, картинки, текст — отвечает определённая нейросеть, и их у Detector PRAI несколько. Распознав все данные, сервис проводит сложную логическую обработку и выдаёт результат.
В основе Detector PRAI лежат современные методы машинного обучения и компьютерного зрения — эта технология называется OCR. Система имитирует человеческое восприятие — сначала смотрит на страницу и определяет, где что находится: таблицы, картинки, текст. Затем внимательно «читает» каждый найденный элемент.
Какие технологии используются:
- Специально обученные нейросети YOLO, YOLOv10. Они словно команда узкопрофильных специалистов, разбирающихся каждый в своём вопросе. И работают намного продуктивнее, чем одна большая модель. Можно провести параллель с врачами. Если проблемы с ЖКТ, лучше пойти к гастроэнтерологу, с глазами — к офтальмологу. К терапевту тоже можно — он знает понемногу обо всём, но будет не так эффективно.
- Технология оптического распознавания символов Optical Character Recognition или OCR. Сначала программа сканирует картинку, затем распознаёт элементы, преобразуя их в соответствующий машинный код. После чего создаёт текстовый документ, который можно редактировать. Для непосредственного распознавания текста используется движок EasyOCR — новый механизм, дообученный на специализированных данных, что повышает его точность для конкретных задач.
- Дополнительные модули. Например, чтобы распознавать математические формулы, что важно для людей науки, технических специалистов, инженеров, используется инструмент Pix2Text. В итоге не приходится набирать формулы вручную, а лишь «вставлять» в документ.
Пост-обработка. После нейросетей запускаются сложные алгоритмы, которые анализируют результаты, группируют текст в абзацы, выравнивают и структурируют документ.
Система стабильно и точно распознаёт печатный текст, что подтверждается объективным тестированием на множестве документов. Успешно справляется с большинством шрифтов и стилей оформления, встречающихся в печатных PDF-документах.
В цифрах:
- точность распознавания символов с учётом регистра ~94%;
- точность распознавания без учёта регистра или смысловая точность ~97.8%.
Смотрите, «Привет» и «привет» система различит в 94%, но для большинства задач заглавные и строчные буквы не имеют значения. Гораздо важнее смысл, а его программа определит абсолютно верно почти в 98% случаев.
Prai_OCR уже сейчас показывает точность, сопоставимую с Tesseract — мировым лидером среди программ, распознающих тексты. Причём это не просто OCR, а целый комплекс по анализу любых документов — с таблицами, изображениями и формулами. В то время как Tesseract решает лишь узкую задачу.
Мы очень гордимся нашим продуктом, понимая, насколько он может облегчить жизнь.
Сейчас мы разрабатываем дополнительную ступень контроля качества — глубокую пост-обработку с помощью языковой модели. Она действует как высокоинтеллектуальный фильтр, отлавливая и исправляя те немногие ошибки, почти незаметные глазу, но критически важные для машинной обработки данных. Ведь наша цель — дать не просто оцифрованный, а максимально чистый текст.
Detector PRAI в мини-версии MVP доступен в интернете, чтобы ознакомиться с его возможностями. Полноценную систему мы можем интегрировать как в ваши CRM, ERP-системы, так и просто во внутреннюю сеть.
По всем вопросам обращайтесь в PRAI.