Yandex a appris aux réseaux de neurones à déchiffrer les documents d'archives avec une orthographe complexe
Miscellanea / / April 03, 2023
Les manuscrits historiques, difficiles à analyser pour une personne, sont presque instantanément convertis par l'intelligence artificielle en texte imprimé.
Yandex a lancé un nouveau service appelé Archive Search, qui utilise des réseaux de neurones pour déchiffrer les documents d'archives avec une orthographe pré-révolutionnaire complexe.
Le service donne accès à plus de 2,5 millions de pages de documents historiques avec des transcriptions textuelles. Son algorithme, construit sur la base d'un système de reconnaissance optique de caractères, prend en compte les particularités de l'écriture manuscrite, reconnaît les lettres qui ont perdu leur pertinence et comprend la structure particulière des documents d'archives.
Les spécialistes de l'entreprise ont formé le réseau de neurones sur un ensemble de données de centaines de milliers de lignes manuscrites à partir de textes réels des XVIIIe et XIXe siècles et de dizaines de millions d'exemples générés.
Manuscrits difficiles à analyser pour une personne non préparée, la technologie Yandex se transforme presque instantanément en texte imprimé. Grâce à cela, dans la base de données du service, vous pouvez trouver rapidement des documents avec une mention du nom de famille, de la localité ou de tout autre mot.
La "recherche dans les archives" augmentera l'efficacité du travail des historiens, sociologues, démographes, généalogistes et aidera ceux qui recherchent des informations sur leur famille.
Le premier fonds présenté dans le service était les archives principales de Moscou - c'est sur ses matériaux que les développeurs ont formé le réseau de neurones. La base de données contient également des documents provenant des archives des régions d'Orenbourg et de Novgorod. Au fil du temps, le nombre de stockages et de fichiers numérisés disponibles augmentera.
Vous pouvez rechercher des matériaux du XVIIIe au début du XXe siècle, qui sont les plus populaires auprès des utilisateurs. Ce sont des registres paroissiaux, des feuilles de confession et des récits de révision avec les résultats du recensement de la population. Les documents peuvent être trouvés dans le catalogue ou via la barre de recherche. Il y a des filtres par années, archives, fonds et inventaires.
A côté du scan de chaque page, un décodage ligne par ligne effectué par les réseaux de neurones est affiché. Si vous survolez le fragment souhaité, il sera immédiatement mis en surbrillance sur la copie numérique.