Найди свои корни при помощи нейросети от команды Яндекса, которые расшифровывают архивные записи со сложной дореволюционной орфографией

Новости

Команда Яндекса сообщает о новых достижениях в проекте по разработке нейронной сети для распознавания текста. Разработчики научили собственные нейронные сети расшифровывать архивные записи со сложной дореволюционной орфографией.

Пользователи могут протестировать работу технологии в сервисе архивного поиска. В рамках проекта для расшифровки доступны более 2,5 миллионов страниц исторических документов XVIII – начала XX века, включая книги мер и весов, исповедные ведомости и ревизионные списки с результатами переписи населения.

Как отмечают разработчики, сервис “Поиск по архивам” будет полезен историкам, социологам, демографам, генеалогам и обычным пользователям, которые ищут информацию о своих семьях.

Найди свои корни при помощи нейросети от команды Яндекса, которые расшифровывают архивные записи со сложной дореволюционной орфографией

Рассказывает Елена Бубнова, руководитель проекта “Поиск Яндекс”:

Транскрибирование страницы архивного рукописного текста может занять у профессионала полчаса. Наш сервис может сделать это за несколько секунд. В перспективе технология может быть использована и для других задач в продуктах Яндекса.

Новый алгоритм оптического распознавания учитывает особенности почерка и структуру архивных документов, а также справляется с символами и буквами, которые больше не используются в русском языке. Нейронная сеть была обучена на сотнях тысяч строк реального рукописного текста XVIII и XIX веков и десятках миллионов сгенерированных примеров.

Источник новости IXBT.

Егор Медняков
Оцените автора
NIBBL
Добавить комментарий