Document .djvu

Les bouquins, les scans, les pdf ou les liens qui vont bien... ici c'est la bibliothèque.

Modérateurs : Papy.G, fneck, Carl

__sam__
Messages : 7963
Inscription : 18 sept. 2010 12:08
Localisation : Brest et parfois les Flandres

Re: Document .djvu

Message par __sam__ »

J'ai réussi à faire ceci: http://cjoint.com/13fe/CBfrlUQ9xpk.htm avec http://soft.rubypdf.com/software/window ... -jbig2-exe.

Etapes:
  • Dans DjVU: export to file... Choisir BMP (011_0001.bmp). Sauver.
  • Code : Tout sélectionner

    ./jbig2 -s -p 011_0001.bmp 
    JBIG2 compression complete. pages:1 symbols:712 log2:10
  • Code : Tout sélectionner

    python pdf.py output >011_0001.pdf
Attention, si le BMP généré par le save-as n'est pas à 1BPP on a l'erreur suivante:

Code : Tout sélectionner

$ ./jbig2 -s -p 011_0001.bmp
Error in findFileFormatStream: failed to read first 12 bytes of file
JBIG2 compression complete. pages:1 symbols:712 log2:10
Un petit coup de réduction à 1BPP (psp ou imagemagick ou autre) règle le problème:

Code : Tout sélectionner

convert -colors 2 -depth 1 033_0001.bmp output.bmp
En gros, une fois le fichier sauvé depuis DjVU, j'execute ceci sous cygwin:

Code : Tout sélectionner

$ convert -colors 2 -depth 1 033_0001.bmp output.bmp
$ ./jbig2 -s -p output.bmp
JBIG2 compression complete. pages:1 symbols:1642 log2:11
$ python pdf.py output >033_0001.pdf
$ ls -l 033* output*
-rwxrwxrwx+ 1 Samuel Aucun 24956442 Feb  5 17:18 033_0001.bmp
-rw-r--r--+ 1 Samuel Aucun    59052 Feb  5 17:20 033_0001.pdf
-rwxrwxrwx+ 1 Samuel Aucun     7381 Feb  5 17:20 output.0000
-rw-r--r--+ 1 Samuel Aucun  1039262 Feb  5 17:20 output.bmp
-rwxrwxrwx+ 1 Samuel Aucun    50689 Feb  5 17:20 output.sym
Et j'obtiens ceci.

Notes:
  • Il semblerait que les dernières versions de ImageMagick(http://www.imagemagick.org/script/binary-releases.php) supportent le format DjVU en entrée (hum.. après vérif c'est pas évident "convert.exe: no decode delegate for this image format manueltechniqueto8.djvu @ error/constitute.c/ReadImage/550"). Du coup il y aurait probablement moyen d'automatiser la conversion. On peut aussi passer par http://djvu.sourceforge.net/doc/man/ddjvu.html
  • Le PDF produit ne contient pas de données textuelles. Ca n'est pas terrible si on veut faire des recherches. Par contre ici est indiqué une méthode pour préserver la couche texte du fichier djvu.
Samuel.
A500 Vampire V2+ ^8^, A1200 (030@50mhz/fpu/64mb/cf 8go),
A500 GVP530(MMU/FPU) h.s., R-Pi, TO9, TO8D, TO8.Démos
Avatar de l’utilisateur
OlivierP
Messages : 708
Inscription : 21 sept. 2009 15:50
Localisation : IDF

Re: Document .djvu

Message par OlivierP »

J'ai essayé de compresser un PDF scanné par mes soins en PDF/JBIG2 avec http://www.imagepdf.com/blog/ (c'est une version d'évaluation mais cela donne rapidement une idée de cette compression). Résultat : moitié moins en taille, mais on constate une perte de qualité gênante.
La qualité est également un problème pour les doc djvu. Comme ils sont généralement créés depuis un PDF contenant des JPEG, il n'est pas surprenant que la copie compressée soit moins bonne que l'original.
De nos jours, chrome lit nativement les PDF, et je ne comprends pas cette course au Ko économisé (free.fr facture t'il l'hébergement ?). Je suis sûr que la majorité souhaite imprimer les documents réellement utilisés. Et dans ce cas, la qualité prime sur tout.
Pourquoi ne pas tout simplement mettre les deux formats a disposition ? Et combien de personnes utilisent un navigateur à chaque consultation de document ?
__sam__
Messages : 7963
Inscription : 18 sept. 2010 12:08
Localisation : Brest et parfois les Flandres

Re: Document .djvu

Message par __sam__ »

Du coup il y aurait probablement moyen d'automatiser la conversion. On peut aussi passer par http://djvu.sourceforge.net/doc/man/ddjvu.html
Je viens de tester la conversion d'un document complet.

Code : Tout sélectionner

$ ddjvu -format=tiff "manueltechniqueto8.djvu" toto.tif
$ convert +compress toto.tif toto%04d.bmp
$ ./jbig2 -s -p -v toto*.bmp
$ python pdf.py output >tst.pdf
$ rm toto* output*
Taille finale: 4045ko (vs 4776ko pour l'original). Qualité: similaire à l'original. (jugez vous même).

Après concernant le gain de place entre un PDF standard un PDF/JBIG2, pour un seul document ca ce discute, mais sur plusieurs dizaines, les MO s'accumulent vite, et un gain d'1/2 n'est plus négligeable je suppose.
Samuel.
A500 Vampire V2+ ^8^, A1200 (030@50mhz/fpu/64mb/cf 8go),
A500 GVP530(MMU/FPU) h.s., R-Pi, TO9, TO8D, TO8.Démos
Daniel
Messages : 17404
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Document .djvu

Message par Daniel »

Non, mes fichiers DjVu ne sont pas créés à partir de pdf, sauf très rares exceptions.

Quand je scanne moi-même, l'original est toujours dans un format sans perte. Quand je reçois des scans de correspondants, la qualité varie de très bonne (les tiff de 6502man par exemple), à très mauvaise (les jpeg à forte compression pour du texte monochrome, c'est à vomir, et le fichier est plus gros qu'avec du CCITT groupe 4). Je me débrouille ensuite avec ce que j'ai. Un bon scan permet d'obtenir une qualité excellente en djvu, un jpeg pourri donne un djvu encore plus pourri.

La taille du fichier n'est pas le seul handicap des .pdf, je l'ai déjà dit plus de cent fois. Si on veut lire une page d'un pdf de mille pages, il faut le charger en entier. Si on veut lire une page d'un djvu de 1000 pages en mode "séparé", on ne charge qu'une page. C'est toute la différence.

Je n'imprime jamais aucun document, par respect pour la planète et pour ne pas être enseveli sous des tonnes de papier. Si j'ai besoin d'une information je la consulte en ligne, c'est plus rapide que de la retrouver dans mes archives.

Les djvu de mes sites contiennent environ 300 ouvrages de 200 pages en moyenne, soit 60000 pages. Plus 500 notices de jeux à 10 pages en moyenne, c'est 5000 pages de plus. A raison de 200 Ko par page, ça fait 13 Go en pdf. Trouver un hébergement gratuit pour de tels volumes n'est pas évident.

Le test de sam est très intéressant par la taille et la qualité du document obtenu. Le manuel technique TO8/TO9 est un cas un peu particulier, car je suis parti de mauvais scans trouvés sur internet, retravaillés à la main pour les rendre présentables. J'aimerais voir ce que donne un document scanné proprement, par exemple celui-ci, converti d'une part en djvu (je m'en charge) et d'autre part en jbig2 (sam, as-tu le temps d'essayer ?).
Daniel
L'obstacle augmente mon ardeur.
__sam__
Messages : 7963
Inscription : 18 sept. 2010 12:08
Localisation : Brest et parfois les Flandres

Re: Document .djvu

Message par __sam__ »

Daniel a écrit :Le test de sam est très intéressant par la taille et la qualité du document obtenu. Le manuel technique TO8/TO9 est un cas un peu particulier, car je suis parti de mauvais scans trouvés sur internet, retravaillés à la main pour les rendre présentables.
J'avais ce manuel il y a longtemps. Je l'ai prété au Lair qui a changé de région et je ne l'ai plus revu depuis. Il est clair que le scan de dcmoto n'est pas super. Le mieux qui me reste était une version ASCII que j'avais saisie sur mon amiga quand je portais TEO et que j'avais planqué dans ma page web de la fac. Hélas tout a disparu depuis mais, coup de chance, Gilles en a conservé une copie.
J'aimerais voir ce que donne un document scanné proprement, par exemple celui-ci, converti d'une part en djvu (je m'en charge) et d'autre part en jbig2 (sam, as-tu le temps d'essayer ?).
Voici: http://cjoint.com/13fe/CBfvJwFrww3.htm Le fichier est tout petit: 168Ko.
Samuel.
A500 Vampire V2+ ^8^, A1200 (030@50mhz/fpu/64mb/cf 8go),
A500 GVP530(MMU/FPU) h.s., R-Pi, TO9, TO8D, TO8.Démos
Daniel
Messages : 17404
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Document .djvu

Message par Daniel »

Merci sam :D La compression en djvu donne une taille de 159K à 163K, selon les paramètres utilisés. Le document disponible sur le site dcmoto fait 162K : http://dcmoto.free.fr/programmes/carte- ... pe_doc.zip

C'est la confirmation de ce que je pensais : les compressions JBig2 et DjVu sont très voisines et donnent les mêmes résultats, tant en taille qu'en qualité, au moins pour des documents monochromes. Les performances de compression sont assez prodigieuses avec ces deux techniques : moins de 170K pour un document de plus d'1 Mo en CCITT groupe 4 et de 15 Mo en bmp monochrome.

Reste les images en niveaux de gris, et les documents genre revues avec du texte et des photos en couleur. DjVu les compresse bien, avec une bonne qualité pour le texte mais une bouillie assez horrible pour les photos (et ce n'est pas vraiment paramétrable). J'ai cru comprendre que JBig2 pouvait traiter les images en demi-teintes, mais pas la couleur, c'est un gros handicap avec la plupart des documents actuels. Et comment faire pour afficher du JBig2 dans un navigateur ?

Dans l'état actuel de mes réflexions, je pense que JBig2 est un très bon outil pour compresser du texte scanné dans un pdf. Mais ce n'est pas encore le format qui remplacera DjVu.

[Edit]
Le document http://dcmoto.free.fr/documentation/mo5/mo5.djvu est un bon exemple de texte et de photos en couleur. La photo du MO5 en dernière page illustre ce que je dis plus haut sur la compression des photos en DjVu. Le document est scanné en 300 dpi, couleur 24 bits. Taille avant compression : 85,7 Mo. Taille du fichier .djvu : 235 Ko.
Daniel
L'obstacle augmente mon ardeur.
Avatar de l’utilisateur
frodon69
Messages : 2497
Inscription : 24 juin 2007 10:55
Localisation : Lyon

Re: Document .djvu

Message par frodon69 »

Je reviens pour dé-troller, ou plutôt pour parler d'un point positif :
ça fonctionne (pour la 1ere fois pour moi) sous Firefox 18.0.2 sous Win 7 64 bits ; avec peut être un détail qui a son importance, Java désactivé.

Yeah ! :D
Frodon69
Marcopolo

Re: Document .djvu

Message par Marcopolo »

@Daniel

Suite à l'arrivée de 3 MO5, je suis en train de consulter la mine d'infos qu'est dcmoto.

As tu une version "haute résolution" des docs présentes sur ton site,
ou est ce que les fichiers que tu proposes sont le mieux que l'on puisse avoir en fonction des originaux que tu as trouvés ?

Marc.
Daniel
Messages : 17404
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Document .djvu

Message par Daniel »

La question n'a pas une réponse unique : elle dépend de plusieurs facteurs :
- Qui a scanné la doc : un incapable, un bon, moi-même
- Qui a fait le fichier djvu : moi ou pas moi
- Comment est la doc originale : bonne, moins bonne, mauvaise photocopie

Les documents DjVu sont fortement compressés pour économiser la bande passante. J'ai presque tous les documents avant compression (sauf si le djvu a été fait par d'autres), mais ils ne sont pas forcément meilleurs. Pour les docs dont je me sers souvent, en particulier les schémas, les fichiers png du site dcmoto sont meilleurs que les originaux, car je les ai tous nettoyés et retouchés. Pour d'autres livres et manuels volumineux, j'ai un peu forcé sur le taux de compression, et j'ai des fichiers originaux bien meilleurs que les DjVu.

En résumé, dis-moi ce que tu recherches et je te dirai si j'ai mieux. Après il faudra voir comment je peux te les passer, car mon répertoire de documentation Thomson, sans les notices de jeux, a une taille de 32 Go. Pour les softs, jaquettes et notices de jeux c'est encore plus gros : 56 Go
Daniel
L'obstacle augmente mon ardeur.
Marcopolo

Re: Document .djvu

Message par Marcopolo »

Je n'ai pas vu de schémas en png, probablement parce que ce lien est cassé :
http://dcmoto.free.fr/schemas/index.html

Ce que je recherche :
- Schémas MO5
Livres ou articles sur le hardware et la prog. en assembleur du MO5 du genre :
- Manuel technique du MO5
- Assembleur et périphériques des MO5 et TO7-70
- Maîtrisez le MO5

ça ne doit pas représenter un volume énorme :-)
Daniel
Messages : 17404
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Document .djvu

Message par Daniel »

Pour ne pas avoir de lien mort, il faut naviguer dans le site dcmoto en partant de la page d'accueil. A la page Documentation on trouve le bon lien : http://dcmoto.free.fr/documentation/schemas.html
Pour les schémas, je n'ai pas de meilleure qualité.

- Manuel technique du MO5 : la qualité du document DjVu est bonne, je n'ai pas mieux.
- Assembleur et périphériques : la qualité n'est pas très bonne, les scans originaux ne sont pas meilleurs. Les listings de programmes sont des reproductions d'imprimante à aiguille, le livre lui-même est difficile à lire. Je l'ai, mais pas le courage pour tout rescanner pour un résultat pas forcément bien meilleur.
- Maîtriser le MO5 : je reconnais que c'est très mauvais. J'ai les scans originaux (de sinus), malheureusement ils sont en jpeg, mais quand même un peu meilleurs. Je vais essayer de les retraiter pour faire une nouvelle version plus présentable. Dès que c'est en ligne je l'annonce ici.
Daniel
L'obstacle augmente mon ardeur.
Marcopolo

Re: Document .djvu

Message par Marcopolo »

Effectivement, j'avais du arriver sur une vieille version de ton site via google.

Je viens de télécharger ce schéma : http://dcmoto.free.fr/documentation/schemas/mo5v2.html
C'est nettement mieux que celui du manuel.

Si tu peux faire quelque chose pour Maitriser le MO5, je suis preneur mais il n'y a pas urgence non plus.

Merci Daniel.
Daniel
Messages : 17404
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Document .djvu

Message par Daniel »

J'ai passé beaucoup de temps sur les schémas MO5 pour les rendre lisibles et pour rassembler les morceaux du puzzle (4 ou 5 scans partiels pour chaque schéma). Ce n'est pas facile avec du jpeg à forte compression et basse résolution.
Pour le livre "Maîtrisez le MO5" c'est pareil, il n'y a pas de miracle. J'ai quand même retravaillé les scans que j'avais pour les rendre à peu près lisibles : http://dcmoto.free.fr/documentation/mai ... index.html

Je suis très reconnaissant pour tous les scans que l'on m'envoie, mais je rappelle le plus souvent possible au scanneurs bénévoles que le jpeg est destiné à compresser des photographies en couleur. Il ne faut surtout pas l'utiliser pour du dessin au trait ou du texte. Il y a d'autres techniques, en particulier le CCITT groupe 4.
Daniel
L'obstacle augmente mon ardeur.
Marcopolo

Re: Document .djvu

Message par Marcopolo »

En tout cas, le résultat est là, les schémas sont tout à fait exploitables.

Merci pour "Maîtrisez le MO5", c'est bien meilleur.

Je suis d'accord avec toi, le JPEG n'est pas adapté pour compresser du texte N/B
Daniel
Messages : 17404
Inscription : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: Document .djvu

Message par Daniel »

Pour information :

Dans la version 21.0 de Firefox, Mozilla a changé l'emplacement du répertoire Plugins
- Il était dans le répertoire d'installation
(Program Files\Mozilla Firefox, ou Program Files (x86)\Mozilla Firefox, ou Programmes\Mozilla Firefox)
- Il est maintenant dans le sous-répertoire browser
(Program Files\Mozilla Firefox\browser etc.)

Résultat : tous les plugins du répertoire Plugins ne fonctionnent plus, en particulier le plugin DjVu npdjvu.dll, mais aussi beaucoup d'autres. Réinstaller ne sert à rien, car la procédure d'installation remet le plugin dans l'ancien répertoire. Les utilisateurs n'ont pas été prévenus, ils râlent (et ils ont raison). Voir le support de Firefox, les blogs et les forums.

Solution : déplacer le dossier Plugins dans le sous-répertoire browser et redémarrer Firefox, tous vos plugins perdus vont réapparaître.

Le format DjVu est très apprécié par les connaisseurs, mais pas par le grand public. Sur ce coup Mozilla n'aide pas à le rendre populaire. Pour essayer de limiter les dégâts j'ai mis un avertissement à la page Documentation du site dcmoto :
http://dcmoto.free.fr/documentation

J'ai aussi envoyé un message à Caminova pour qu'ils modifient leur procédure d'installation.
Daniel
L'obstacle augmente mon ardeur.
Répondre