Команда Яндекса сообщает о новых достижениях в проекте по разработке нейронной сети для распознавания текста. Разработчики научили собственные нейронные сети расшифровывать архивные записи со сложной дореволюционной орфографией.
Пользователи могут протестировать работу технологии в сервисе архивного поиска. В рамках проекта для расшифровки доступны более 2,5 миллионов страниц исторических документов XVIII – начала XX века, включая книги мер и весов, исповедные ведомости и ревизионные списки с результатами переписи населения.
Как отмечают разработчики, сервис “Поиск по архивам” будет полезен историкам, социологам, демографам, генеалогам и обычным пользователям, которые ищут информацию о своих семьях.
Рассказывает Елена Бубнова, руководитель проекта “Поиск Яндекс”:
Новый алгоритм оптического распознавания учитывает особенности почерка и структуру архивных документов, а также справляется с символами и буквами, которые больше не используются в русском языке. Нейронная сеть была обучена на сотнях тысяч строк реального рукописного текста XVIII и XIX веков и десятках миллионов сгенерированных примеров.
Источник новости IXBT.