Extraction d'images logées dans des documents numériques

Encadrement : Thierry BERNARD
Laboratoire : ENSTA/LEI/AVA
Lieu : Paris
Mots-clés : Génie logiciel, PDF, PostScript, HPGL, Perl, décryptage, hacking

Les documents disponibles sur le web regorgent d'images que l'on souhaite parfois récupérer sous forme numérique avec la meilleure fidélité possible.
Une solution classique consiste à afficher le document concerné sur l'écran de son ordinateur et à faire un "grab". Or la solution du grab sur écran peut être inacceptable car l'image est alors souvent dégradée à cause de transformations qu'elle a subies avant d'être affichée. Deux types de distortion sont très courantes :


Il s'agit donc ici de mettre au point un logiciel capable d'aller récupérer chirurgicalement l'information à sa source au sein du fichier concerné, en particulier dans les formats les plus répandus que sont pdf ou ps. Cela ne sera pas forcément possible dans tous les cas car, par exemple, le format pdf est connu pour ménager certains degrés de protection sur líinformation. Le stage sera justement l'occasion de faire le point sur la robustesse du format pdf et sur l'existence éventuelle de failles.
A priori, le choix du langage de développement du logiciel n'est pas fixé. Une possibilité serait d'utiliser le langage Perl, bien adapté à la reconnaissance de structures de caractères et auquel on peut se mettre en quelques jours. Suivant la complexité du travail à réaliser, qu'il est difficile d'estimer a priori, l'étudiant pourra également enrichir son logiciel d'une interface graphique conviviale.
 


Auteur : T. Bernard
Dernière mise à jour : 21 novembre 2001