Déposez votre fichier ici pour le déplacer vers cet enregistrement.
y
« L’intelligence artificielle (deep learning) a débloqué l’accès au texte des manuscrits médiévaux ! Les partenaires du projet européen HIMANIS ont réalisé, pour la première fois au monde, l’indexation et la recherche en plein texte de dizaines de milliers de pages de manuscrits médiévaux, dont l’écriture est, souvent difficile à lire même pour les historiens chevronnés. Sur les deux cents volumes des « registres du Trésor des chartes », cartulaires et formulaires, contenant les textes produits par la chancellerie royale française de 1302 à 1486, les défis du multilinguisme et de la variation des écritures durant deux siècles, avec la présence de nombreuses abréviations, ont pu être relevés avec succès. La taille du corpus et la possibilité de recherche en plein texte dans des sources manuscrites, ouverte à tous, en accès libre sur le web, sont des nouveautés inédites dans le domaine des études médiévales. Les résultats de ces recherches présentent ainsi une révolution pour les historiens. »
Cycle « Les Lundis numériques de l'INHA » du 10 décembre 2018
« L’intelligence artificielle (deep learning) a débloqué l’accès au texte des manuscrits médiévaux ! Les partenaires du projet européen HIMANIS ont réalisé, pour la première fois au monde, l...
... Lire [+]
Déposez votre fichier ici pour le déplacer vers cet enregistrement.
y
Les clés pour aider responsables et agents à clarifier les objectifs d'une numérisation et préciser les moyens à mobiliser. La technique de numérisation et les thèmes connexes tels que le montage du projet, le traitement des images produites, l'exploitation et la gestion des données sont détaillés. ©Electre 2018
Les clés pour aider responsables et agents à clarifier les objectifs d'une numérisation et préciser les moyens à mobiliser. La technique de numérisation et les thèmes connexes tels que le montage du ...
... Lire [+]
Déposez votre fichier ici pour le déplacer vers cet enregistrement.
y
Sommaire
Introduction
Partie 1: Les grands principes de la numérisation
Partie 2: Le champ d'application de la numérisation
Partie 3: Les méthodes de numérisation
Partie 4: Les critères de sélection
Partie 5: Les processus de décision et de validation
Partie 6: Être acteur de la politique documentaire de numérisation
Annexes et Bibliographie
Sommaire
Introduction
Partie 1: Les grands principes de la numérisation
Partie 2: Le champ d'application de la numérisation
Partie 3: Les méthodes de numérisation
Partie 4: Les critères de ...
... Lire [+]
Déposez votre fichier ici pour le déplacer vers cet enregistrement.
y
Cet article présente un projet de recherche, en collaboration avec le Bodmer Lab, qui a consisté à océriser des imprimés latins de la Renaissance, afin d’en obtenir une transcription et de la rendre explorable par la recherche plein texte.
Quatre logiciels d’océrisation gratuits et open source ont été testés, avec comme métriques la précision, le rappel, et la F-mesure (F1) au niveau des caractères et au niveau des mots. Tesseract et OCR4all étaient les plus performants, mais ce dernier présentait un problème technique qui rendait son utilisation complexe. Tesseract, qui présentait alors une F1 de 78.62% (caractères) et 31.78% (mots) a donc été retenu pour la suite du projet.
Différentes méthodes ont été testées pour améliorer les résultats obtenus. Toutes les méthodes n’étaient pas nécessairement efficaces, mais grâce à certaines, une F1 de 80.06% au niveau des caractères et de 34.58% au niveau des mots a pu être obtenue.
Extrait de la revue "RESSI", 2020(21)
Cet article présente un projet de recherche, en collaboration avec le Bodmer Lab, qui a consisté à océriser des imprimés latins de la Renaissance, afin d’en obtenir une transcription et de la rendre ...
... Lire [+]