Page 1 of 1

OCR de tous les fichiers 'image' d'un répertoire

Posted: 26 Feb 2020, 10:27
by francois
Bonjour,

Suite au problème sur le serveur, certains messages ont été perdus. Je reconstitue celui ci.

En résumé, via un script actiona, utilisation de 'capture2text' , logiciel d'OCR.

Le script transforme l'ensemble des fichiers 'image' sous un répertoire en fichiers 'texte'.
De plus, il restitue les 'vraies' images qui figurent à l'intérieur de chaque document.

Voir http://autour-de-wanquetin.com/OCR_auto

Re: OCR de tous les fichiers 'image' d'un répertoire

Posted: 17 Apr 2020, 10:12
by francois
(Suite à un message privé )

Le nombre de fichiers qui vont étre traités en OCR peut être important.
J'ai testé 200 fichiers placés dans le répertoire en entrée, cela fonctionne.

Les fichiers peuvent contenir du texte (sur 1 ou plusieurs colonnes) et des images

Ce répertoire doit être indiqué dans 'OCR_auto.ini' :

Code: Select all

[gene]
type=file
lang=French

[file]
rep_IMG=C:\OCR_auto\exemples
Pour plus de précisions voir http://autour-de-wanquetin.com/OCR_auto

Exemple de fichier traité par OCR :
azert.jpg
azert.jpg (26.25 KiB) Viewed 2001 times