ИИ по распознаванию архивных документов

[Нейросети (NLP)]

NLP

Информация

О проекте

Федеральное агентство по техническому регулированию и метрологии осуществляет важный контроль за соблюдением требований различных технических регламентов. Архивы организации насчитывают тысячи документов, в которых прописаны детальные требования к сотням приборов, механизмов, материалов и тд.

Подготовка к работе

Задача

Перед специалистами по искусственному интеллекту была поставлена задача разработать алгоритмы для распознавания текстов архивных документов ГОСТ, ГОСТР и так далее, которые хранятся у заказчика в виде документов PDF, JPG, сканов.

Этапы работы

Анализ задачи
Составление плана работы(спринты)
Разработка алгоритма по спринтам
Интеграция алгоритма с системой
Тестирование
Запуск в production
Доработка и обновление

Результат работы

Что сделано

OCR

Распознавание скан/фото документов при помощи технологии OCR и подготовка текста к разделению на логические части

Подготовка к обучению

Подготовка шаблонов для обучения модели

Обучение

Обучение механизма интеллектуального анализа привязке узлов онтологической модели к разделам выходного документа на основе многоклассовой классификации текстов.

Формирование документов

Механизм формирования XML документа в соответствии со сформированными онтологическими моделями (шаблонами) по стандарту ANSI/NISO STS 1.2.

Определение изображений

Разработка блока определения изображений, отправка изображений на сервер

Парсинг

Парсинг изображений и формирование сущности изображения

Определение таблиц

Разработка модуля определения таблиц

Определение страницы

Определение страницы Приложение

Добавление сущностей

Добавление сущностей в xml (со страниц приложение), разбор текстовых блоков

Преобразование таблиц

Преобразование таблиц в строку, типизирование строки(text,image,table)

Стек

VueJS

NodeJS

nginx

Фичи

Особенности

Модель распознаёт и определяет тексты независимо от структуры документов. Кроме того, важной частью работы было извлечение и распознавание текстовых данных, расположенных в таблицах и на картинках, размещённых в теле документов.

Cтоимость подобного проекта

от 1,500,000 ₽

Срок разработки

от 30 дней

Предыдущий кейс

Мобильное приложение для компании по найму временных работников Топ-кадр

Следующий кейс

Интернет-магазин ЗОО товаров в г. Тверь