Actualités référencement - Positionnement - Internet - Moteur de recherche - E-commerce - Référencement Google -
Recherches & connaissances
|
Google va mettre en place la reconnaissance de caractères (OCR - optical character recognition) |
|
Google avait, il y a quelques mois, annoncé la mise en place d'un moteur de reconnaissance optique de caractères (OCR) en open source. Pourquoi ? Parce que l'objectif étant de rendre l'information disponible, l'OCR permet d'indexer le contenu d'un document papier. Ce moteur OCR, appelé Tesseract à n'a pas été développé chez Google, mais dans les laboratoire de HP (Hewlett-Packard) entre 1985 et 1995. La nouvelle version s'est trouvée stable il y a quelques mois, et prête pour passer en Open Source. Tesseract ne supporte actuellement que l'anglais, et toutes les présentations et mises en page ne peuvent être traitées finement (couleurs, échelles de gris, multi-colonnes ...) ---------------------------------
A quand la reconnaissance de caractères sur les images, pour libérer la créativité de nos amis graphistes ? ;o) |
Article du fr 05/09/2006, Kyriell |
| Lire l'article complet (en français) |