Quel flot et outils pour scanner des docs techniques ?

Les bouquins, les scans, les pdf ou les liens qui vont bien... ici c'est la bibliothèque.

Modérateurs : Papy.G, fneck, Carl

Répondre
gotcha
Messages : 417
Enregistré le : 30 mars 2017 11:39
Localisation : Grenoble

Quel flot et outils pour scanner des docs techniques ?

Message par gotcha » 29 avr. 2019 14:06

Hello,

Je suis en train de scanner les docs du Goupil G4 qui sont introuvables sur le net.

Je scanne actuellement en niveaux de gris en 300dpi directement en PDF. Puis je compresse le PDF en 150dpi pour une version plus légère distribuable.

Par contre, je ne suis pas satisfait du résultat. Ça me génère des gros documents pdf qui grossissent encore quand j'active l'OCR. Sur internet, je trouve des fichiers PDF avec autant de pages, plus propres et bien plus petits.

Je ne pense pas que le problème principal vient du PDF, mais plus des images scannées et de leur post-processing/compression.

Mon idée serait de:
- scanner en couleur à la plus haute restitution, générer une image par page
- Post-processer les images en batch pour aligner le contenu, enlever le bruit et compresser dans le format
- Générer un PDF à partir des images

Alors je me pose la question:
- est-ce que cette approche est la bonne ?
- quels outils utiliser, en particulier pour les images et la creation de pdf ?
Amstrad CPC addict :mrgreen:

Daniel
Messages : 11701
Enregistré le : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Quel flot et outils pour scanner des docs techniques ?

Message par Daniel » 29 avr. 2019 14:36

Tout dépend de la nature du document : monochrome ou couleur, texte avec ou sans illustrations photographiques.
Par exemple pour du texte et des dessins au trait en noir et blanc, je scanne en monochrome 600dpi
S'il y a avec le texte des photos en noir et blanc : niveaux de gris en 300dpi
S'il y a avec le texte des photos en couleur : couleur 24 bits en 300dpi

Il est très important de bien régler le scanner en fonction du type de document. S'il y a du texte, il faut utiliser un réglage des niveaux pour avoir un fond blanc, sinon la taille de l'image compressée peut être multipliée par un facteur de 4 ou 5.

Dans tous les cas, il faut créer des fichiers avec une compression sans perte : png (applicable à tous les cas) ou tiff CCITT G4 (pour le noir et blanc). Eviter à tout prix le jpeg s'il y a du texte. Le jpeg est bon uniquement pour des photographies.

Ensuite le plus rapide est de mettre en forme les pages avec un outil adapté. Le meilleur est ScanTailor : https://scantailor.org/
On peut sortir en monochrome 600 dpi, ou niveaux de gris 300 dpi, ou couleur 300 dpi, selon la nature du document.

Si les documents sont de mauvaise qualité (sales ou mal scannés) on peut les nettoyer ensuite avec un éditeur d'image.

La phase finale est la conversion en document PDF ou autre. Normalement un bon convertisseur de TIFF vers PDF doit garder la taille et le mode de compression du fichier tiff d'origine. Le plus compact est le CCITT G4.

On peut aussi, comme moi, préférer la compression au format .djvu, pour produire des fichiers quatre à dix fois plus petits que le PDF.

La documentation du Goupil G4 m'intéresse beaucoup, car j'en ai un sans la doc : http://danielcoulom.free.fr/SMT_Goupil_G4/index.html
Si tu me communiques les scans, je veux bien faire un essai de mise en forme PDF et DjVu.
Daniel
L'obstacle augmente mon ardeur.

Avatar du membre
Gege34
Messages : 57
Enregistré le : 25 avr. 2015 22:35

Re: Quel flot et outils pour scanner des docs techniques ?

Message par Gege34 » 29 avr. 2019 14:44

J'utilise ScanTailor pour remettre en forme les images.
Et Images2PDF pour générer le pdf.

gotcha
Messages : 417
Enregistré le : 30 mars 2017 11:39
Localisation : Grenoble

Re: Quel flot et outils pour scanner des docs techniques ?

Message par gotcha » 29 avr. 2019 16:48

@Daniel J'avais déjà la doc utilisateur du G4 et les disquettes, mais il y a quelque temps, j'ai aussi réussi à acquérir (à prix fort ...) un lot dans lequel il y avait le 'technical manual'. Comme ces docs sont presque impossible à trouver aujourd'hui (surtout le manuel technique qui donne plein d'info sur la carte mère etc..), mon but est de rendre tout ça publique dans un but de preservation.
Amstrad CPC addict :mrgreen:

Répondre