Reconnaissance optique de caractères (ROC)
La reconnaissance optique de caractères (ROC), ou encore appelé vidéo-codage (traitement postal, chèque bancaire) désigne les procédés informatiques pour la traduction d'images de textes imprimés ou dactylographiés en fichiers de texte.
Il existe plusieurs logiciels sous Linux spécialement dédiés, et il est aussi possible d'employer les logiciels existants sous Windows via Wine.
Pour le moment, la ROC (ou OCR) n'est pas un des domaines les plus avancés sous Linux : jusqu'en 2006, les résultats étaient même en général totalement inutilisables. Cependant, les choses ont évolué rapidement en 2007 et 2008 avec tesseract et le projet Ocropus. Voici un petit guide des différentes solutions possibles avec leurs avantages, leurs inconvénients et des liens pour vous en servir.
Voir également :
Solutions graphiques natives
xsane
xsane est une interface graphique qui utilise gocr ou tesseract.
xsane mode d'emploi
Testé sous Hardy, Intrepid, Jaunty.
Pré-requis
-
Pour utiliser le moteur de ROC tesseract avec XSane, suivre les indications de la page
xsane2tess.
Méthode
Ouvrir Xsane et dans
Préférence → Configuration → OCR il faut, dans la commande OCR, remplacer
gocr par :
gocr -f UTF8
Il y aura ainsi reconnaissance des caractères accentués.
on peut aussi remplacer gocr par xsane2tess -l fra pour utiliser tesseract.
dans XSane : Applications → Images → Scanneur d'images XSane ;
dans la zone à droite de la cible, sélectionner "Enregistrer" ;
dans "Type", sélectionner "TEXT" ;
dans le sélecteur couleur ou N/B, sélectionner "Gris" ou "Noir et Blanc" (à tester selon le document à scanner).
et en-dessous, sélectionner la résolution qui convient (pour obtenir les meilleurs résultats, les avis divergent entre 300 et 600 ppi ; un test fait sur des textes écrits en polices 10 et 12 Arial, Times New Roman et Courier 10 Pitch donne les meilleurs résultats en 300 ppi).
| |
Captures d'écran réalisées avec Xsane 0.97 sous Dapper.
La disposition des divers éléments diffère légèrement avec les versions suivantes de Xsane sous Hardy, Intrepid et Jaunty, mais le principe est le même. |
Ensuite :
dans la fenêtre "Aperçu", cliquer sur "Acquisition de l'aperçu" ;
recadrer sur la zone de texte à scanner ;
XSane va enregistrer le résultat dans un fichier texte, par défaut sur votre bureau ou dans "home/votre_identité" (selon les versions de Xsane). Il est possible de choisir le dossier d'enregistrement du fichier texte en indiquant le chemin dans la zone de saisie située à côté de l'icône "disquette". On peut aussi nommer le fichier. Par exemple en remplaçant "out.txt" des captures d'écran ci-dessus par "/home/votre_identité/essai_ocr_1.txt" ;
cliquer sur "numériser" et attendre le "transfert de l'image" ;
copier-coller le contenu du fichier texte dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ;
terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.
xsane2tess
testé sous Hardy, Intrepid et Jaunty.
gscan2pdf
gscan2pdf est une interface graphique permettant notamment de réaliser de la Reconnaissance Optique de Caractères avec les moteurs GOCR et Tesseract. Son développement dynamique lui permet d'intégrer les outils les plus performants sous Linux, dont bientôt OCRopus.
ocrgui
ocrgui est une interface graphique pour, soit tesseract, soit gocr.
kooka
Note importante : Kooka n'est plus développé. Cette interface qui fut prometteuse n'est plus présente dans les dépôts Ubuntu depuis Hardy ou Intrepid.
http://kooka.kde.org/
Kooka est une interface graphique qui utilise au choix ocrad ou gocr.
Le choix s'effectue ainsi dans la fenêtre d'ouverture de Kooka :
Configuration → Configurer Kooka → ROC → Moteur ROC à utiliser…
On sélectionne ici le moteur ROC : ocrad ou gocr.
les plus :
donne de bons résultats en utilisant ocrad
dispose d'une option permettant de détecter la mise en forme des documents à scanner (détection des colonnes ou détection complète de la disposition du texte).
les moins :
n'est plus empaqueté pour ubuntu,
demande une ou deux manipulations supplémentaires par rapport à XSane car le scan n'est pas immédiatement enregistré au format texte, mais la ROC est effectuée dans un second temps sur le fichier image déjà enregistré.
Kooka mode d'emploi
Pré-requis
Méthode
ouvrir Kooka : Applications –> Images –> Kooka ;
sélectionner le moteur ocrad (et non gocr) comme indiqué ci-dessus, puis redémarrer Kooka ;
dans la fenêtre en bas à droite "Configuration du périphérique", sélectionner "Binary" pour "Scan Mode" ;
dans la même fenêtre, sélectionner la résolution "300 ppi" ;
cliquer sur "Aperçu" ;
recadrer le texte à numériser dans la fenêtre "Aperçu" ;
cliquer sur "Numérisation finale" ;
dans la fenêtre "Assistant d'enregistrement", sélectionner le format PNG et clic sur "OK" ;
le fichier PNG est enregistré et il apparaît dans la fenêtre en haut à gauche : sélectionner ce fichier, puis cliquer sur l'icône "ROC sur l'image" (2ème icône à droite de l'icône "Imprimer") ;
dans la fenêtre "Reconnaissance Optique de Caractères", cliquer sur "Démarrer la ROC". On peut auparavant sélectionner (en bas de la fenêtre) un "mode d'analyse de la disposition" adapté au document à scanner : par exemple "Détection des colonnes" ;
copier-coller le "Résultat de la ROC" dans un fichier ouvert avec un traitement de texte (OOo Writer ou autre) ;
terminer le traitement "à la main" en utilisant le correcteur orthographique du logiciel de traitement de texte.
À l'étape 10, on peut activer la vérification orthographique avant de démarrer la ROC ; il faut ouvrir l'onglet "Vérification de l'orthographe", cocher "Activer la vérification de l'orthographe" et sélectionner :
Cette vérification orthographique permet de traiter immédiatement les mots non reconnus sans avoir à utiliser ensuite le correcteur orthographique d'un logiciel de traitement de texte. Mais c'est une correction que certains trouvent laborieuse…
clara
Clara n'a été dans les dépôts Ubuntu que pour dapper et hardy
projet abandonné ?
les plus :
empaqueté pour ubuntu.
les moins :
n'accepte que le format pgm ou pbm ;
interface peu conviviale.
gImageReader
YAGF
Solution natives en ligne de commande (ou en tant que moteur des GUI présentées ci-dessus)
cuneiform est un ocr multiplateformes, qui supporte 20 langues, dont le français. Pour les textes en français et les images propres et lisibles, il donne des résultats corrects. De plus, c'est le seul (du moins le seul que j'ai trouvé) à supporter (de façon basique) la mise en forme du texte. Ainsi, il reconnaît les textes soulignés, gras, en italique, et les images. Le texte qu'il ne réussit pas à traiter est également importé sous forme d'image. Il supporte les fichiers images en bmp, png, tiff, Il peut exporter en format texte, html, rtf (mais j'ai obtenu de piètres résultats pour ce format), et d'autres. Pour l'installer, installez le paquet installez le paquet cuneiform.
Voir la documentation en allemand où on trouve un fichier de commande pour xsane du genre de celui de tesseract.
ocrad
http://www.gnu.org/software/ocrad/ocrad.html
les plus :
présence d'une aide.
les moins :
n'accepte que le format pgm ;
résultat très médiocre et non utilisable.
(à vérifier, car on obtient de bons résultats avec Kooka utilisant ocrad : voir ci-dessous)
gocr
http://jocr.sourceforge.net/
les plus :
empaqueté pour ubuntu (installation de gocr);
reconnaît les png ;
aide correcte ;
facile à utiliser ;
interface graphique: gocr-gtk.
la reconnaissance optique est fonctionnelle sur des fichiers images pour lesquelles tesseract ne donne aucun résultat. Par exemple une capture d'écran en mode console réalisée avec
fbgrab.
les moins :
le résultat est loin d'être idéal.
À noter que la version fournie par ubuntu 10.04 est la 0.46 (2008), alors que la dernière version (0.49) date de septembre 2010.
Gocr est utilisé par
subtitleripper (installer le paquet :
subtitleripper), logiciel qui transforme les formats images de sous-titres (utilisés par les DVD) en format texte.
tesseract
Voir la page tesseract-ocr pour plus d'informations sur l'installation et l'utilisation
les plus :
très bonne performance si l'image est bonne ;
gère plusieurs langues dont le français (avec les accents) dans les versions 2 ou postérieures (paquets disponibles dans Universe) ;
possibilité de lui apprendre un nouveau jeu de caractères dans sa dernière version ;
gestion de plusieurs jeux de caractères simultanés ;
peut être utilisé dans les interfaces graphiques XSane (via les adaptateurs xsane2tess ou ocube) et gscan2pdf, disponibles sous Hardy et suivants.
les moins :
ne gère pas les colonnes multiples ;
problème de compilation sur certaines plateformes (fedora core 6) ;
n'accepte pas beaucoup de formats d'images (il existe un script de conversion, voir plus bas) ;
piètres performances sur les documents en échelles de gris et en couleur.
Tesseract est utilisé pour la transformation des sous-titres de DVD en texte par le logiciel
ogmrip
OCRopus
OCRopus: pour une ROC avec prise en compte de la mise en page. (en développement)
Solution Web
Le site Free OCR permet de faire de la reconnaissance de caractères en ligne. Il est gratuit et utilise tesseract pour la reconnaissance.
Points forts :
Points faibles :
Voir également :
WatchOCR - Server PDF et OCR du contenu
WatchOCR : logiciel libre pour créer un serveur de pdf, capable de transcrire notamment les images en text, ou les pdf d'image scanné en texte : le tout indexé et pret pour la recherche ( ala google ).
Reconnaissance de l'écriture manuscrite
Cellwriter (linux)
Xstroke (linux)
Myscript (linux et win)
CalliGrapher (win)
Non libre, version d'évaluation du logiciel sur le site officiel.
Solutions Windows utilisables sous Linux via Wine
SimpleOCR
Non libre mais gratuit. Basé sur WOCAR
WebOCR
Recognita
Racheté par ScanSoft software. Une fiche sans aucun commentaire est néanmoins disponible pour la version 5.Tout retour, ici ou sur WineHQ serait grandement apprécié.
ReadIris
ABBY FineReader 8.0 OCR
FineReader fonctionne très bien sous Wine.
Voir aussi