ИИ по распознаванию архивных документов

[Нейросети (NLP)]
NLP
Информация

О проекте

Федеральное агентство по техническому регулированию и метрологии осуществляет важный контроль за соблюдением требований различных технических регламентов. Архивы организации насчитывают тысячи документов, в которых прописаны детальные требования к сотням приборов, механизмов, материалов и тд.

Подготовка к работе

Задача

Перед специалистами по искусственному интеллекту была поставлена задача разработать алгоритмы для распознавания текстов архивных документов ГОСТ, ГОСТР и так далее, которые хранятся у заказчика в виде документов PDF, JPG, сканов.
Этапы работы
  1. Анализ задачи
  2. Составление плана работы(спринты)
  3. Разработка алгоритма по спринтам
  4. Интеграция алгоритма с системой
  5. Тестирование
  6. Запуск в production
  7. Доработка и обновление
Результат работы

Что сделано

OCR

Распознавание скан/фото документов при помощи технологии OCR и подготовка текста к разделению на логические части

Подготовка к обучению

Подготовка шаблонов для обучения модели

Обучение

Обучение механизма интеллектуального анализа привязке узлов онтологической модели к разделам выходного документа на основе многоклассовой классификации текстов.

Формирование документов

Механизм формирования XML документа в соответствии со сформированными онтологическими моделями (шаблонами) по стандарту ANSI/NISO STS 1.2.

Определение изображений

Разработка блока определения изображений, отправка изображений на сервер

Парсинг

Парсинг изображений и формирование сущности изображения

Определение таблиц

Разработка модуля определения таблиц

Определение страницы

Определение страницы Приложение

Добавление сущностей

Добавление сущностей в xml (со страниц приложение), разбор текстовых блоков

Преобразование таблиц

Преобразование таблиц в строку, типизирование строки(text,image,table)

Стек
VueJS
NodeJS
nginx
Фичи

Особенности

Модель распознаёт и определяет тексты независимо от структуры документов. Кроме того, важной частью работы было извлечение и распознавание текстовых данных, расположенных в таблицах и на картинках, размещённых в теле документов.