Как мы создали ИИ для ГОСТов СССР — кейс Detector PRAI
Распознавание сложных документов ИИ

Паспорт или СНИЛС сегодня распознают даже банковские приложения, ведь у этих документов чёткая структура. Но если взять что-то посложнее — акт в произвольной форме, договор с нестандартной вёрсткой или техническую документацию советской эпохи многие алгоритмы «сломаются». 

Именно поэтому мы разработали Detector PRAI — искусственный интеллект для бизнеса, который умеет распознавать схемы, таблицы, формулы, картинки и переводить их в цифровой вид.

С чего всё началось

Клиенту потребовалось оцифровать документы ГОСТ, созданные ещё в Советском Союзе. Мы рассчитывали на стандартное решение, но быстро поняли, что готовых инструментов, которые справятся с этой задачей, просто не существует.

Плюс программа должна была быть полностью отечественной и не зависеть от импортных компаний, которые могут уйти с рынка в любой момент.

Так, в партнёрстве с профессорами и кандидатами математических наук Кубанского государственного университета, родился Detector PRAI. А академическая база дала то, чего не хватает большинству коммерческих решений — серьёзный научный подход.

Несколько нейросетей вместо одной

Кроме собственных разработок в области искусственного интеллекта, в Detector PRAI есть ещё целый оркестр помощников. Вместо одной большой модели, которая знает «понемногу обо всём», здесь работают несколько нейросетей, отвечающих за свой тип данных.

YOLO определяют структуру страницы, Pix2Text помогает с обработкой математических формул. После нейросетей включается пост-обработка: алгоритмы анализируют все результаты, группируют текст в абзацы, выравнивают элементы, восстанавливают исходную разметку. На выходе вы получаете документ с сохранённой структурой, готовый к редактированию и поиску по ключевым словам.

Точность распознавания символов — около 94%, смысловая точность — порядка 97,8%. Для сравнения: это уровень Tesseract, мирового лидера в OCR. С той разницей, что Tesseract решает только одну задачу — текст. Detector PRAI обрабатывает документ целиком.

Где пригодится

Запрос на распознавание документов ИИ уже появился в десятках отраслей.

Страховые компании. Страховые случаи, акты осмотра, медицинские заключения в произвольной форме — всё это нужно разбирать, вносить в системы, сопоставлять. Делать вручную долго и дорого. ИИ справляется гораздо быстрее и с минимальным процентом ошибок.

Госорганы и ведомства. Оцифровка архивов, постановлений, технических регламентов, проектной документации позволит создавать базы знаний, собирать аналитику, а также обучать ИИ-помощников.

Архивы и библиотеки. Здесь требуется обрабатывать газеты с многоколоночной вёрсткой, научные журналы с формулами, книги с иллюстрациями. У стандартных OCR-инструментов просто нет таких возможностей.

HR и юридические отделы. Кладезь нестандартных документов. Вместо того чтобы ручками переносить данные из договоров, трудовых книжек, справок в CRM или ERP, система сделает это автоматически, сохранив структуру.

Строительство и промышленность. Технические задания, чертежи с текстовыми описаниями, ГОСТы и СНиПы — здесь Detector PRAI чувствует себя как рыба в воде. Распознаёт каждую строчку текста на рисунке и каждое обозначение на схеме.

Почему Detector PRAI

Несколько лет назад рынок распознавания документов в России во многом держался на ABBYY FineReader. Потом компания ушла, и ниша опустела. Стало понятно, что нужна отечественная разработка, не зависящая от санкций и других ограничений.

Detector PRAI полностью российский. Алгоритмы создавались вместе с научными специалистами и продолжают развиваться внутри страны.

Мы постоянно работаем над качеством сервиса, чтобы на выходе получался не просто оцифрованный, а максимально чистый и корректный документ.

Попробовать минимальную рабочую версию Detector PRAI можно по ссылке: https://detector.prai.su/. Если хотите адаптировать сервис под конкретные задачи или заказать создание ИИ под ключ, обращайтесь к нам напрямую. Будем рады помочь!

Распознавание сложных документов ИИ
С чего всё началось
Несколько нейросетей вместо одной
Где пригодится
Почему Detector PRAI
вопрос - ответ

Частые вопросы

Какую точность распознавания даёт Detector PRAI на нестандартных документах (схемы, формулы, чертежи)?

Detector PRAI показывает распознавание символов на уровне около 94%, а смысловую точность — порядка 97,8%. Это сопоставимо с мировым лидером Tesseract по качеству текста, но в отличие от него система обрабатывает документ целиком, включая таблицы, формулы, схемы и чертежи.

Чем Detector PRAI отличается от обычного OCR (например, Tesseract или FineReader)?

Ключевое отличие — вместо одной большой нейросети здесь работает целый «оркестр» специализированных моделей. YOLO определяет структуру страницы, Pix2Text занимается формулами, а после них включается пост-обработка: алгоритмы группируют текст в абзацы, выравнивают элементы и восстанавливают исходную разметку. В результате вы получаете не просто распознанный текст, а документ с сохранённой структурой, готовый к редактированию и поиску.

Подходит ли Detector PRAI для оцифровки советских ГОСТов и архивов с нестандартной вёрсткой?

Да, именно под эту задачу система и создавалась. Клиенту потребовалось оцифровать документы ГОСТ советской эпохи, и готовых инструментов не нашлось. В партнёрстве с учёными Кубанского государственного университета мы разработали Detector PRAI, который специально обучен работать с нестандартной вёрсткой, технической документацией и архивами.

Это полностью российское решение? Не отключится ли сервис из-за санкций?

Абсолютно верно. Detector PRAI — полностью отечественная разработка, не зависящая от импортных компаний. Алгоритмы создавались вместе с российскими научными специалистами и продолжают развиваться внутри страны. В отличие от ушедшего ABBYY FineReader, наш сервис не отключат из-за санкций и других ограничений.

Можно ли адаптировать Detector PRAI под специфические документы моей компании (страховые акты, чертежи СНиП, HR-документы)?

Да. Если готовая версия не полностью закрывает вашу задачу, мы можем адаптировать сервис под конкретные документы или заказать создание ИИ-решения «под ключ». Для этого достаточно обратиться к разработчикам напрямую. Минимальную рабочую версию можно бесплатно попробовать уже сейчас по ссылке в статье.