Федеральное агентство по техническому регулированию и метрологии осуществляет важный контроль за соблюдением требований различных технических регламентов. Архивы организации насчитывают тысячи документов, в которых прописаны детальные требования к сотням приборов, механизмов, материалов и тд.
Распознавание скан/фото документов при помощи технологии OCR и подготовка текста к разделению на логические части
Подготовка шаблонов для обучения модели
Обучение механизма интеллектуального анализа привязке узлов онтологической модели к разделам выходного документа на основе многоклассовой классификации текстов.
Механизм формирования XML документа в соответствии со сформированными онтологическими моделями (шаблонами) по стандарту ANSI/NISO STS 1.2.
Разработка блока определения изображений, отправка изображений на сервер
Парсинг изображений и формирование сущности изображения
Разработка модуля определения таблиц
Определение страницы Приложение
Добавление сущностей в xml (со страниц приложение), разбор текстовых блоков
Преобразование таблиц в строку, типизирование строки(text,image,table)
Модель распознаёт и определяет тексты независимо от структуры документов. Кроме того, важной частью работы было извлечение и распознавание текстовых данных, расположенных в таблицах и на картинках, размещённых в теле документов.