Les documents disponibles sur le web regorgent d'images que l'on souhaite
parfois récupérer sous forme numérique avec la meilleure
fidélité possible.
Une solution classique consiste à afficher le document concerné
sur l'écran de son ordinateur et à faire un "grab". Or la
solution du grab sur écran peut être inacceptable car l'image
est alors souvent dégradée à cause de transformations
qu'elle a subies avant d'être affichée. Deux types de distortion
sont très courantes :
Il s'agit donc ici de mettre au point un logiciel capable d'aller
récupérer chirurgicalement l'information à sa source
au sein du fichier concerné, en particulier dans les formats les
plus répandus que sont pdf ou ps. Cela ne sera pas forcément
possible dans tous les cas car, par exemple, le format pdf est connu pour
ménager certains degrés de protection sur líinformation.
Le stage sera justement l'occasion de faire le point sur la robustesse
du format pdf et sur l'existence éventuelle de failles.
A priori, le choix du langage de développement du logiciel n'est
pas fixé. Une possibilité serait d'utiliser le langage Perl,
bien adapté à la reconnaissance de structures de caractères
et auquel on peut se mettre en quelques jours. Suivant la complexité
du travail à réaliser, qu'il est difficile d'estimer a priori,
l'étudiant pourra également enrichir son logiciel d'une interface
graphique conviviale.
Auteur : T. Bernard |
Dernière mise à jour : 21 novembre 2001
|