Se connecter

Informatique

Programmation

Sujet : Est ce l'OCR pourra déchiffrer les archives manuscrites dans le futur ?
1
cestpasdechance
Niveau 21
22 juillet 2024 à 23:47:48

D'offices à lire comme celle ci ?

http://archives.cd08.fr/arkotheque/visionneuse/visionneuse.php?arko=YTo3OntzOjQ6ImRhdGUiO3M6MTA6IjIwMjQtMDctMjIiO3M6MTA6InR5cGVfZm9uZHMiO3M6MTE6ImFya29fc2VyaWVsIjt

cestpasdechance
Niveau 21
22 juillet 2024 à 23:50:03

Les liens bug, mais en gros n'importe quel document de cette liste par exemple
https://archives.cd08.fr/arkotheque/consult_fonds/fonds_seriel_annotation_resus_rech.php?ref_fonds=4

(il faut zoomer sur mobile)

cestpasdechance
Niveau 21
22 juillet 2024 à 23:50:47

Le lien de la liste marche pas, faut lancer une recherche au mif

shittynickname
Niveau 27
24 juillet 2024 à 11:06:24

Je bosse justement en IA et Computer vision, franchement je vais te dire, a mon avis toutes les archives scannees mais pas encore annotees qu'on a est uniquement du a un manque d'interet. Je pense qu'il faudrait quelques mois a des bon inges en ML pour nous pondre un truc qui marche bien, mais bon, faut financer le machin quoi, mais oui totalement possible.

cestpasdechance
Niveau 21
24 juillet 2024 à 11:17:31

Merci, et à l'échelle individuelle est ce qu'il des outils qui pourraient m'aider à le faire ?

godrik
Niveau 26
24 juillet 2024 à 18:53:25

ouais, je suis d'accord, c'est faisable.
Si tu n'a jamais ce fenre de chose. C'est complique de le faire toi meme.
Le mieux que tu puisse faire est de t'assurer qu'il y aura assez de jeu de donnee annote pour permettre aux gens de faire ca.
Tu pourrais contacter ta fac local pour voir si il mettrait le probleme dans un de leur cours de vision. Ou si il voudrait mettre un stagiaire de M2 dessus.

shittynickname
Niveau 27
25 juillet 2024 à 15:13:47

D'apres PWC ( https://paperswithcode.com/sota/optical-character-recognition-on-benchmarking ), ce model est sense avoir les meilleurs perf en termes de precision https://github.com/arvindrajan92/DTrOCR. Le probleme c'est que tu n'as pas la partie training. Ce que je veux te montrer c'est que comme Grodrik l'a souligne, les challenge auxquels tu fais face sont:
- il te faut un dataset consequent, on fait pas tourner de l'OCR comme ca, on le fait tourner sur des patch, en gros tu as ton document, il faut le diviser en petites sections que ton model essaiera de lire, le plus efficace etant evidement d'isoler par exemple chaque mot ou chaque phrase, pour automatiser ca, il y a meme des model de detection de texte pour ca. Donc gros dataset + detection de texte requis
- aujourd'hui les meilleurs model d'OCR (meme ceux qui font du temps reel) utilisent les fameux transformers qui creent une connection logique entre toutes les prediction (une lettre etant une prediction) donc un model base sur un transformer sortira generalement un mot qui ressemble a quelque chose, donc je pense (je sais, ca sort de mon cul ce que je dis, c'est purement instinctif) que le model risquera de galerer severe avec les noms de famille. par exemple, pour exagerer, au lieu d'ecrire "Gabin" il pourra mettre artificiellement trop de proba sur la lettre m pour ecrire "Gamin" donc en plus d'avoir un dataset francais et manuscrit, ton dataset devra contenir pas mal de noms pour eviter que ton model ne transforme trop les noms y compris les noms de ville.
- Ensuite, tes models devront etre entraines puis peut etre pourquoi pas meme faire tourner un LLM nativement francophone pour minimiser les fautes et faire en sorte que la sortie puisse etre bien formattee. Je vois de base comme probleme etant le passage entre la lettre "s" et la lettre "s long" ( https://fr.wikipedia.org/wiki/S_long ) particulierement utilisee dans les archives comme ca. Ensuite le LLM permettra optionnellement de corriger certaines fautes faites par l'OCR "bisarre" -> "bizarre" parce que "s" ressemble a "z" tout en etant assez intelligent pour comprendre qu'un nom ne devrait pas forcement etre corrige.

Donc le projet est vraiment tres faisable et je le diviserais en 4 parties:
- creation du dataset (Optical Character Detection, Optical Character Recognition)
- entrainement des models
- evaluation "academique", reprises, rentrainements, finetuning
- deploiement, post-processing, correction etc..

c'est un beau projet, vraiment.

cestpasdechance
Niveau 21
29 juillet 2024 à 17:27:26

Merci ! Je vais réfléchir à l'architecture du programme et consulter les différents sites d'archives pour l'instant (ils peuvent très différents d'une région à l'autre).

Mais comme mes compétences en programmation sont limitées je vais attendre que les ai progressent. Et je pense même qu'il est possible que quelqu'un programme un outils du même type avant moi

1
Sujet : Est ce l'OCR pourra déchiffrer les archives manuscrites dans le futur ?
   Retour haut de page
Consulter la version web de cette page