
Паспорт или СНИЛС сегодня распознают даже банковские приложения, ведь у этих документов чёткая структура. Но если взять что-то посложнее — акт в произвольной форме, договор с нестандартной вёрсткой или техническую документацию советской эпохи многие алгоритмы «сломаются».
Именно поэтому мы разработали Detector PRAI — искусственный интеллект для бизнеса, который умеет распознавать схемы, таблицы, формулы, картинки и переводить их в цифровой вид.
Клиенту потребовалось оцифровать документы ГОСТ, созданные ещё в Советском Союзе. Мы рассчитывали на стандартное решение, но быстро поняли, что готовых инструментов, которые справятся с этой задачей, просто не существует.
Плюс программа должна была быть полностью отечественной и не зависеть от импортных компаний, которые могут уйти с рынка в любой момент.
Так, в партнёрстве с профессорами и кандидатами математических наук Кубанского государственного университета, родился Detector PRAI. А академическая база дала то, чего не хватает большинству коммерческих решений — серьёзный научный подход.
Кроме собственных разработок в области искусственного интеллекта, в Detector PRAI есть ещё целый оркестр помощников. Вместо одной большой модели, которая знает «понемногу обо всём», здесь работают несколько нейросетей, отвечающих за свой тип данных.
YOLO определяют структуру страницы, Pix2Text помогает с обработкой математических формул. После нейросетей включается пост-обработка: алгоритмы анализируют все результаты, группируют текст в абзацы, выравнивают элементы, восстанавливают исходную разметку. На выходе вы получаете документ с сохранённой структурой, готовый к редактированию и поиску по ключевым словам.
Точность распознавания символов — около 94%, смысловая точность — порядка 97,8%. Для сравнения: это уровень Tesseract, мирового лидера в OCR. С той разницей, что Tesseract решает только одну задачу — текст. Detector PRAI обрабатывает документ целиком.
Запрос на распознавание документов ИИ уже появился в десятках отраслей.
Страховые компании. Страховые случаи, акты осмотра, медицинские заключения в произвольной форме — всё это нужно разбирать, вносить в системы, сопоставлять. Делать вручную долго и дорого. ИИ справляется гораздо быстрее и с минимальным процентом ошибок.
Госорганы и ведомства. Оцифровка архивов, постановлений, технических регламентов, проектной документации позволит создавать базы знаний, собирать аналитику, а также обучать ИИ-помощников.
Архивы и библиотеки. Здесь требуется обрабатывать газеты с многоколоночной вёрсткой, научные журналы с формулами, книги с иллюстрациями. У стандартных OCR-инструментов просто нет таких возможностей.
HR и юридические отделы. Кладезь нестандартных документов. Вместо того чтобы ручками переносить данные из договоров, трудовых книжек, справок в CRM или ERP, система сделает это автоматически, сохранив структуру.
Строительство и промышленность. Технические задания, чертежи с текстовыми описаниями, ГОСТы и СНиПы — здесь Detector PRAI чувствует себя как рыба в воде. Распознаёт каждую строчку текста на рисунке и каждое обозначение на схеме.
Несколько лет назад рынок распознавания документов в России во многом держался на ABBYY FineReader. Потом компания ушла, и ниша опустела. Стало понятно, что нужна отечественная разработка, не зависящая от санкций и других ограничений.
Detector PRAI полностью российский. Алгоритмы создавались вместе с научными специалистами и продолжают развиваться внутри страны.
Мы постоянно работаем над качеством сервиса, чтобы на выходе получался не просто оцифрованный, а максимально чистый и корректный документ.
Попробовать минимальную рабочую версию Detector PRAI можно по ссылке: https://detector.prai.su/. Если хотите адаптировать сервис под конкретные задачи или заказать создание ИИ под ключ, обращайтесь к нам напрямую. Будем рады помочь!