Les textes peuvent être numérisés et traités par le biais d’un logiciel de reconnaissance optique des caractères (en abrégé R.O.C.) ou océrisés, sous la forme d’un fichier informatique, fichier qui sera à son tour lisible par un logiciel de traitement de texte.
Le recours aux procédés d’océrisation peut être considéré comme garantissant une grande fiabilité aux retranscriptions pour autant que le logiciel de reconnaissance optique des caractères utilisé soit performant.
Or la performance des logiciels de reconnaissance optique des caractères dépend essentiellement de la qualité des documents océrisés. Ces logiciels, même les plus récents et les plus performants, ne peuvent fonctionner de manière optimale que pour la reconnaissance de documents dont la qualité d’impression est maximale (impression nette, support de teinte uniforme, absence de pliure du support ou de tache…) et dont le texte recourt à une typographie sobre. Dans tous les autres cas (contraste insuffisant entre la couleur du support et celle du texte, passages surlignés ou soulignés…), le texte océrisé comportera un tel nombre d’imprécisions qu’autant vaudrait le retranscrire manuellement :
Exemple d’un texte de mauvaise qualité passé au crible d’un logiciel ROC
État du document
Résultat après reconnaissance optique
T.a recette de ce melan~e :! ~~`crLtement ga’.dee T<~ur au plus l~unc ou l’aurre indiscrétion nous auto~ise-t-eile à `~~~is `~~~ d, ~`,ilet quelques ingrédients syml~alhie, an~itié~ compliclte~ dialoguc’ di~c~~s ;~,:~~~ ~i~h`~~ ~ians des prc~portions clu’il vo~ls appartiendra d~apprécicr
Une relecture contrastive de l’original vers le résultat océrisé est toujours indispensable, même pour un original d’excellente qualité, cette relecture pouvant être effectuée par le logiciel de reconnaissance optique s’il est pourvu d’un vérificateur orthographique.
Dans le cas de l’exemple ci-dessus, une saisie manuelle directe du texte est un procédé de loin préférable à l’océrisation.