Accueil >> Actualités et panorama de presse >> Recherches & connaissances Flux RSS pour les actualités référencement et internet

Recherches & connaissances

Google va mettre en place la reconnaissance de caractères
(OCR - optical character recognition)

 

Google avait, il y a quelques mois, annoncé la mise en place d'un moteur de reconnaissance optique de caractères (OCR) en open source.

Pourquoi ? Parce que l'objectif étant de rendre l'information disponible, l'OCR permet d'indexer le contenu d'un document papier.

Ce moteur OCR, appelé Tesseract à n'a pas été développé chez Google, mais dans les laboratoire de HP (Hewlett-Packard) entre 1985 et 1995.

La nouvelle version s'est trouvée stable il y a quelques mois, et prête pour passer en Open Source.

Tesseract ne supporte actuellement que l'anglais, et toutes les présentations et mises en page ne peuvent être traitées finement (couleurs, échelles de gris, multi-colonnes ...)

---------------------------------

 

A quand la reconnaissance de caractères sur les images, pour libérer la créativité de nos amis graphistes ? ;o)


Article du fr 05/09/2006, Kyriell
Lire l'article complet (en français)


Sélection d'autres articles en rapport :
Web 2.0 : Le modèle économique tâtonne encore
05/12/2007 : Outils, moteurs, annuaires et marché internet
Web 2.0 : création de Association des Services Internet Communautaires
03/12/2007 : Recherches & connaissances
Vote : Google teste le vote sur les pages résultats
03/12/2007 : Outils de recherche
Des estimations chiffrées pour l'outil de suggestions de mots-clés Google ?
20/11/2007 : Outils de recherche
VeoSearch transforme vos clics en dons
16/11/2007 : Outils, moteurs, annuaires et marché internet
CSV AdStats v4 : le logiciel pour analyser ses statistiques AdSense
16/11/2007 : Positionnement publicitaire
Le développeur de Adsense quitte Google
16/11/2007 : Search Engine Marketing
Flux RSS pour les actualités référencement et internet