Quel flot et outils pour scanner des docs techniques ?
Publié : 29 avr. 2019 14:06
Hello,
Je suis en train de scanner les docs du Goupil G4 qui sont introuvables sur le net.
Je scanne actuellement en niveaux de gris en 300dpi directement en PDF. Puis je compresse le PDF en 150dpi pour une version plus légère distribuable.
Par contre, je ne suis pas satisfait du résultat. Ça me génère des gros documents pdf qui grossissent encore quand j'active l'OCR. Sur internet, je trouve des fichiers PDF avec autant de pages, plus propres et bien plus petits.
Je ne pense pas que le problème principal vient du PDF, mais plus des images scannées et de leur post-processing/compression.
Mon idée serait de:
- scanner en couleur à la plus haute restitution, générer une image par page
- Post-processer les images en batch pour aligner le contenu, enlever le bruit et compresser dans le format
- Générer un PDF à partir des images
Alors je me pose la question:
- est-ce que cette approche est la bonne ?
- quels outils utiliser, en particulier pour les images et la creation de pdf ?
Je suis en train de scanner les docs du Goupil G4 qui sont introuvables sur le net.
Je scanne actuellement en niveaux de gris en 300dpi directement en PDF. Puis je compresse le PDF en 150dpi pour une version plus légère distribuable.
Par contre, je ne suis pas satisfait du résultat. Ça me génère des gros documents pdf qui grossissent encore quand j'active l'OCR. Sur internet, je trouve des fichiers PDF avec autant de pages, plus propres et bien plus petits.
Je ne pense pas que le problème principal vient du PDF, mais plus des images scannées et de leur post-processing/compression.
Mon idée serait de:
- scanner en couleur à la plus haute restitution, générer une image par page
- Post-processer les images en batch pour aligner le contenu, enlever le bruit et compresser dans le format
- Générer un PDF à partir des images
Alors je me pose la question:
- est-ce que cette approche est la bonne ?
- quels outils utiliser, en particulier pour les images et la creation de pdf ?