
Каждая компания однажды задумывается над тем, чтобы оцифровать все бумаги и документы, которые десятками лет хранятся в архивах. Это может помочь создать собственную базу знаний, а возможно, даже разработать собственного виртуального ИИ помощника, обучив его искать ответы не в глобальной сети, а именно в вашей практике.
Оцифровка документов занятие нужное, но не сильно увлекательное. Таблицы, тексты, формулы, картинки — раньше приходилось часами разбирать и перепечатывать вручную.
Не так давно появились сервисы, которые легко превращают в текст скан паспорта, СНИЛС или ИНН. Их алгоритмы точно понимают, на каком месте листа должны стоять цифры, а на каком буквы, потому в любом приложении банка вы можете включить камеру, сфотографировать нужный документ и автоматически заполнить поля. Но если у документа нет чёткой структуры, должны начать действовать другие правила.
Как же сделать сервис, который самостоятельно превратит в редактируемый файл любой отсканированный текст со сложными таблицами, формулами и картинками, где не нужно часами перепечатывать или подгонять текст под формат, где ошибки в правописании исправляются сами собой, а картинки и графики остаются на месте.
Именно из этого вызова и родилась идея проекта Detector компании PRAI.
Началось всё с заказа от государственной организации на разработку инструмента для распознавания документов ГОСТ. Мы взялись за дело, думая, что будет легко, ведь стандартные доки типа паспорта сейчас распознают даже «тостеры». Но, как часто бывает, в процессе работы столкнулась с проблемой: имеющиеся на рынке готовые решения не умеют распознавать неструктурированные документы. А значит нужна собственная технология, которая справится с этой задачей.
Одна умная голова хорошо, а поддержка университета – бесценный ресурс. Поэтому PRAI обратился за помощью в Кубанский государственный университет. Сотрудничество с профессорским и кандидатским составом позволило создать научную базу, на которой и построен наш Detector PRAI — уникальная технология, способная обрабатывать данные с любой структурой, сохраняя их изначальный вид и функциональность.
Detector PRAI — это технология распознавания неструктурированных документов.
Сочетает в себе передовую OCR-технологию и умные алгоритмы, способные распознавать текст, таблицы, формулы и изображения даже в самых хаотичных документах: журналах, газетах с несколькими колонками и сложной версткой, научных работах с формулами, технической документации с таблицами разных цветов. А главное — после распознавания данные сразу готовы к работе: редактируйте, исправляйте, проверяйте правописание — всё в одном месте. Быстро, удобно и экономит время и нервы.
Принцип простой, а возможности впечатляют:
✔️Загружаете картинку с текстом или PDF — получаете страницу текста с сохранением оригинальной структуры.
✔️Можно редактировать текст, искать по ключевым словам, создавать базы знаний и собственные датасеты.
✔️Алгоритмы распознавания разработаны нашей командой совместно с академическими специалистами, так что научная база очень серьезная.
Пристальное внимание мы уделили таблицам и формулам.
Таблицы: стандартные методы часто определяют сложные таблицы как картинки или сводят текст в одну строку. Detector PRAI умеет распознавать даже самые необычные таблицы: без видимых границ, с двойными линиями и цветными ячейками. Сервис определяет таблицу, распознаёт текст в каждой графе и как итог — сохраняет структуру.
Формулы: для научных и технических задач важно работать с формулами. Наш Detector PRAI распознаёт формулы и позволяет вставлять их напрямую в текст — без ручного набора.
Работая над сложной задачей, мы не забыли и об относительно простых. Detector PRAI без проблем справляется и с распознаванием структурированных документов. Получается «два в одном»: сложные и простые задачи решаются одной технологией.
А затестить можно? Нужно!
По ссылке представлена минимальная рабочая версия: https://detector.prai.su/
Это базовый минимум возможного.
Если у вашей компании есть задачи по оцифровке данных, предлагаем интегрировать Detector PRAI в вашу экосистему — будь то CRM, ERP или внутренняя сеть. Мы адаптируем технологию под конкретные задачи, доработаем функционал так, чтобы вам было удобно. Такая интеграция обеспечит не только оптимизацию труда, но и позволит обезопасить ваши данные.
✔️Отечественная разработка — никаких рисков, что завтра продукт уйдёт с рынка или попадёт под санкции.
✔️Научная база и алгоритмы высокого уровня.
✔️Возможность распознавать любые документы, таблицы и формулы с сохранением структуры.
✔️Гибкая интеграция под конкретные бизнес-задачи.
Для расчёта стоимости и обсуждения интеграции обращайтесь к нам — покажем, как Detector PRAI может стать вашим ключом к эффективной цифровизации.