Comment créer un pdf oceriser ?

Rédigé par pul le 17 mai 2013 | Classé dans Non classé
Mots clés : oceriser, pdf, ocr, hocr, tesseract, google books

6038 commentaires

Voilà vous avez déjà du voir que sur les livres de google books on pouvant sélectionner le texte, alors que le pdf contenait une image, je vais vous expliquer comment faire.

Il faut installer exactimage, et tesseract ou tout autre ocr qui fournit le format hocr en sortie

Puis créer un fichier "config" vous mettez dedans "tessedit_create_hocr T" c'est tout, vous enregistrez

puis en ligne de commande mettez:

"tesseract votre_fichier_a_oceriser output config"

puis enfin:

"hocr2pdf -i votre_fichier_a_oceriser -o le_nom_du_pdf_que_vous_creez.pdf < output"

Et vous vous retrouverez avec un pdf oceriser

Affichage d'arbre en Ocaml

Rédigé par pul le 31 août 2012 | Classé dans Non classé
Mots clés : ocaml, caml, htmlize, emacs, arbre

5722 commentaires

Salut les amis, me re-voilà
Voici ma dernière invention : alors en fait comme en prépa je me suis dit qu'on utilisé beaucoup les arbres en Ocaml ben moi je voulais les visualiser, donc je me suis fait une petite librairie pour les afficher :

Voici le fichier

Pour ceux qui se demandais comment garder la coloration syntaxique d'emacs quand on affiche une page savec du code sur le web et ben c'est trés simple il suffit d'installer l'extension emacs "htmlize" puis ouvrir son fichier dans emacs et faire : Alt x htmlize-buffer
puis d'enregistrer le courant document

Numériser des livres

Rédigé par pul le 29 août 2012 | Classé dans Non classé
Mots clés : aucun

6568 commentaires

Comme le fait google actuellement avec son service google books Vous pouvez vous aussi vous lancer dans l'aventure de la numérisation de livres.

Alors dans ce cas j'ai quelque conseil à vous donner:

Si vous souhaiter sumériser un livre

(si vous avez déjà numériser le livre vous pouvez passer et aller directement ici)

- Beaucoup de gens utilisent des appareils spéciaux pour numériser des livres, mais bonne nouvelle pour vous ce sont des machines simples à construire, regardez sur ce site : www.diybookscanner.org
ou ici : www.instructables.com
- Vous pouvez aussi tout simplement prendre des photos 2 pages par deux avec votre appareil photo
- Il vous est aussi possible de numériser votre livre grâce à un scanner, dans ce cas là un logiciel comme gscan2pdf est trés bien, par contre ne prenez aucune option en plus pour le moment dans ce logiciel.
- Le mieux c'est d'enregistrer toutes les images des pages dans un format comme le .tiff

Si vous avez déjà le livre scanné

Si vous avez déjà les images séparées de votre livre c'est parfait, sinon tappez cette commande : " pdfimages -j votre_fichier.pdf 0 " cette commande va extraire toutes les images de votre pdf.
Maintenant munissez vous du logiciel scan tailor
Une fois installé chargeé toutes les images dans un nouveau projet et suivre le tutoriel qui vous expliqueras tout.
Une fois toutes ces étapes terminés, il faut ouvrir gscan2pdf, importer toutes les images et créer un fichier .djvu (beaucoup plus léger que .pdf) vous pouvez à ce moment là faire de l'OCR si vous le souhaitez.
Voilà vous devez récupérer un super fichier djvu, et en plus super léger.

Si vous avez des questions, postez un commentaire!

MATHS

PHYSIQUE

LATEX

OCAML/CAML

AUTRE

CONSEILS

Creative Commons License