La tour de Babel, et ça recommence!

C'est le lieu des discussions diverses et variées, mais toujours en rapport avec le thème général du forum et dans l'esprit de celui-ci.

Modérateurs : Carl, Papy.G, fneck

Répondre
Avatar du membre
Papy.G
Modérateur
Messages : 1800
Enregistré le : 10 juin 2014 13:40
Localisation : Haute-Garonne/Gers

La tour de Babel, et ça recommence!

Message par Papy.G » 16 févr. 2016 02:20

Voyant que ressortent encore des problèmes avec la lecture de fichiers DjVu, et conscient de l'obstination de certains (que je comprends tout à fait) à ne pas faire appel aux PDFs, qui sont pourtant pris en compte par la plupart des systèmes à jour depuis une bonne dizaine d'années, j'aimerais que tous trouvions un terrain d'entente.
Ainsi, je pose la question: Existe-t'il un format sous licence libre qui soit reconnu nativement par les systèmes d'exploitation majeurs actuels, ou dans des suites bureautiques en licence libre, qui permette de faire ce que l'on est censé pouvoir faire avec DjVu ou PDF, c'est-à dire des documents contenants mise en page, polices, images, voire plus, dans des fichiers pas trop volumineux, avec la garantie d'une mise en forme respectée quelle que soit la plateforme.
A moins que le DjVu soit déjà reconnu nativement par LibreOffice, OpenOffice ou un autre…

Je suis personnellement en passe d'abandonner AppleWorks et Word/Excel et c'est la principale contrainte qui va guider mon choix, avec la possibilité de faire du dessin/placement de blocs aux cotes et des classeurs de fiches tableur.
Soyez exigeants, ne vous contentez pas de ce que l'on vous vend.
Demandez-en plus, ou faites-le vous-même.

Avatar du membre
Xavier
Messages : 1000
Enregistré le : 03 avr. 2014 14:42

Re: La tour de Babel, et ça recommence!

Message par Xavier » 16 févr. 2016 06:15

Je vais m'efforcer de répondre à votre question:
Existe-t'il un format (...) contenants mise en page, polices, images
Oui... les fichiers HTML! (ou mhtml)
:lol:

Avatar du membre
fneck
Site Admin
Messages : 12368
Enregistré le : 01 avr. 2007 12:03
Localisation : Drôme Provençale (26)
Contact :

Re: La tour de Babel, et ça recommence!

Message par fneck » 16 févr. 2016 09:26

Je pense que l'un des problèmes à prendre en compte est la taille des documents finaux.

Daniel pourra nous l'expliquer, mais c'est l'une des raisons, si ce n'est LA raison principale aujourd'hui, qui fait qu'il n'utilise que le format DjVu sur ses sites hébergés par Free. A savoir que Free a par le passé, peut-être encore aujourd'hui, fermé des sites dont les volumes de téléchargement étaient jugés trop importants (rapport volume/pages vues).

Daniel
Messages : 11066
Enregistré le : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: La tour de Babel, et ça recommence!

Message par Daniel » 16 févr. 2016 10:37

Il y a de nombreuses raisons d'utiliser le format DjVu, j'en ai déjà énuméré plusieurs, il y en a une autre qui confirme la remarque de Fabien : J'ai mis sur mes sites Free plus de 50 000 pages de documents scannés. En général ces pages sont, à l'origine, scannées en jpeg, empaquetées ou pas dans un pdf. C'est une grosse erreur (pour la qualité, mais aussi pour la taille). J'en ai discuté souvent, ne recommençons pas. Toujours est-il qu'à raison de 1Mo par page, ça fait 50 Go. Je ne crois pas que Free apprécierait.

Chaque jour mes sites sont "aspirés" par des aspirateurs de sites, c'est très clair dans les statistiques car la vitesse à laquelle les fichiers sont téléchargés, dans l'ordre alphabétique, ne pourrait pas être atteinte par un utilisateur humain cliquant sur les liens. Imaginez 2 ou 3 idiots aspirant en même temps 50 Go de fichiers .pdf (ou jpeg, c'est pareil). Je suis bien chez Free, je tiens à y rester.

C'est l'une des raisons majeures pour lesquelles je ne changerai pas. Il y en a une deuxième : le confort de l'utilisateur. J'ai cherché, et je cherche encore sans succès, un système permettant la consultation en ligne de documents scannés de bonne qualité et de taille réduite. Pour feuilleter un livre page par page, le format DjVu indirect est de très loin le meilleur. Aucun autre système ne permet d'atteindre les performances du plugin DjVu. Si vous en connaissez un, je suis le premier intéressé.

Je suis parfaitement conscient des difficultés rencontrées par les lecteurs. Moi-même j'ai souvent pesté contre DjVu libre : le plugin, au hasard des versions successives, supporte le format indirect, puis ne le supporte plus à cause d'un bug malencontreusement introduit, puis le supporte à nouveau parce que les utilisateurs ont beaucoup râlé, jusqu'à la prochaine version. L'histoire se repète depuis le début et semble être interminable.

Sous Windows c'est un peu mieux, sauf que le plugin n'est pas un logiciel libre. Les ayants droit changent : aujourd'hui c'est Caminova, hier c'était Lizardtech, avant encore un autre dont j'ai oublié le nom. Récemment il y a eu des évolutions, le plugin ne fonctionne plus dans Windows XP, Caminova ne diffuse plus les versions pour Mac et pour certains navigateurs, bref ça change tout le temps mais en insistant un peu on trouve son bonheur.

Ceci-dit, j'ai toujours trouvé des solutions, aussi bien dans Windows XP, dans les Windows récents et dans Linux. Dans Mac je n'ai jamais testé (faute de Mac), mais des témoignages d'utilisateurs me disent qu'il y a des solutions, même si elles ne sont pas toujours évidentes.

Il y a même une solution sans plugin qui fonctionne dans Windows, Linux et probablement Mac, sans aucun plugin ni navigateur, avec un logiciel Open Source. Mais c'est un peu compliqué, je préfère ne pas en parler ici.

En conclusion, les documents de mes sites resteront au format DjVu indirect jusqu'à ce que je trouve mieux. Ils ne sont pas destinés aux curieux de passage, ni aux voleurs de contenus, mais aux passionnés motivés. Et ceux-là, je les connais bien, ils trouvent toujours des solutions et apprécient cette vaste bibliothèque technique mise en ligne à la disposition de tous.
Daniel
L'obstacle augmente mon ardeur.

Daniel
Messages : 11066
Enregistré le : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: La tour de Babel, et ça recommence!

Message par Daniel » 16 févr. 2016 11:55

J'ajoute mon accord total avec Xavier : le meilleur format pour les documents en ligne, c'est html avec des images en jpeg pour les photographies et png pour le dessin au trait. J'ai aussi étudié cette possibilité, je l'utilise pour les diaporamas mais pas pour les livres scannés, pour plusieurs raisons :

1) La compression CCITT groupe 4 dans un fichier .tif, particulièrement bien adaptée au texte scanné en monochrome, n'est pas reconnue par la majorité des navigateurs.
2) Avec des fichiers .html, il n'y a aucune protection contre les aspirateurs de sites.
3) En mettant un fichier par page, le téléchargement d'un livre de plusieurs centaines de page est difficile sans outils spéciaux.
Daniel
L'obstacle augmente mon ardeur.

Avatar du membre
Xavier
Messages : 1000
Enregistré le : 03 avr. 2014 14:42

Re: La tour de Babel, et ça recommence!

Message par Xavier » 16 févr. 2016 12:30

Bonjour à tous,

Ce format Djvu est impressionnant au niveau de la compression...

Pour ce que j'en ai déduit, le compresseur analyse une image suivant plusieurs types d'images.
Le plus impressionnant est le mode par couche binaire monochromatique.

Prenez un livre de 500 pages, comparez les éléments de l'image noir sur fond blanc!
Le compresseur va prendre toutes les lettres et va les comparée les une aux autres à la manière d'un OCR...

Bien sûre, si toutes les lettres sont identique de page en page, le compresseur ne prendra que les lettres et caractères rencontrés dans l'ouvrage, plus les "accidents" d'impression.

Dans un monde parfait, toutes les lettres seront identique et les pictogrammes alphabétiques ne seront pas redondant.
Donc, le compresseur forme une base de donnée de ces pictogrammes, puis à la recréation du document, il ira prendre un pictogramme similaire, pour le placer sur un fond "vide".
Le fond est traité en une couche différente, généralement fortement compressé.

Résultat, seuls les caractères et leurs emplacements sur les pages sont utile à la recréation des documents.
Sa taille est donc équivalent en taille à une police de caractères personnalisée indexés, que l'on rappelle à chaque lettre forment le document.

Ce principe de redondance de similarité a toutefois des limites, car en basse résolution ou pour les petits caractères, le compresseur identifie certains caractère comme des caractères déjà existants de manière erronée... comme le fait un OCR!

La différence chromatique ou structurelle des pictogrammes vont donc tromper le compresseur, lorsque ,par exemple, une tâche ce trouve au milieu d'un "C"... un "E" sera affiché... mais, sans ambiguïté de lecture, car le "sample" est original et propre.
On retrouve donc parfois, les mêmes caractères recopiés avec les mêmes erreurs typographique, mais aussi, il n'est pas rare de trouver des erreurs de remplacement de lettre, qui forment des mots improbables.

Sur un scan (image), il est possible de corriger soit même un problème de lisibilité, mais à cause de cette substitution par un autre caractère, la tâche est moins aisée.

C'est le principale défaut de cette compression miracle de sauvegarde fragmentée.

Mais une fois compressé et vérifié, le document reste intangible...
Donc, comme je l'ai expliqué, la qualité du rendu final dépend du soin au niveau de la compression du document!
Scans à 400dpi pour un rendu en 200dpi, bon choix des modes de couleur (mono, niveaux de gris ou couleur multi-couches)...
Rien que la compression est une science, le choix du mode ce compression un casse-tête, avec un rendu qui peut surprendre en médiocrité.

Ce mode de compression n'est donc pas destinés à des utilisateurs novices, et sa création peut rapidement être décourageante pour le commun de mortel... C'est pour cela que les document encapsulés et propriétaires comme le PDF reste plus simple à créer et à diffuser.

Pour la lecture, vous l'avez compris, une simple lecture d'image n'est pas envisagée, car il faut "reconstruire" l'image par élément et par couche, contrairement aux pdf standards qui puisent sur des bases de compressions d'images classiques.

Mais le format djv est une forme novatrice de compression, par sa technique de traitement par couche, isolation des parties chromatiques et compression progressives des couches (fond/avant plan).

Face au format simple qu'offre le PDF, peu "intelligent" au niveau du traitement de l'image... avec une compression globale...
Le Djv fait office d'usine à gaz, avec un prés-traitement fastidieux, et un rendu non fidèle à l'identique dans certains cas.
Même si rendu est approchant, nous n'avons pas affaire à une image compressée... mais à une représentation fragmentaire d'image!

Et c'est sur ce point qu'il y a une erreur de jugement.
Le Djv n'est pas un format d'images... le PDF encapsulé... oui.

Daniel
Messages : 11066
Enregistré le : 01 mai 2007 18:30
Localisation : Vaucluse
Contact :

Re: La tour de Babel, et ça recommence!

Message par Daniel » 16 févr. 2016 13:01

Bonne analyse !
Les erreurs de détection de caractères ne concernent heureusement que les très mauvais scans compressés avec des paramètres mal adaptés. Avec de bons scans, une bonne résolution et un bon paramétrage du compresseur, ça n'arrive jamais.

Par exemple, j'ai mis en ligne hier un livre de 256 pages. Le fichier pdf avait une taille de 59538 Ko, le fichier DjVu a une taille de 710 Ko et la qualité est excellente. Le fichier DjVu est 80 fois plus petit. Depuis n'importe quelle page du livre on peut accéder à n'importe quelle autre page en moins d'une seconde sans charger plus de 50 Ko. Comparé à tous les autres formats, il n'y a même pas l'ombre d'un concurrent. http://dcmoto.free.fr/documentation/lse ... index.html
Daniel
L'obstacle augmente mon ardeur.

Avatar du membre
Papy.G
Modérateur
Messages : 1800
Enregistré le : 10 juin 2014 13:40
Localisation : Haute-Garonne/Gers

Re: La tour de Babel, et ça recommence!

Message par Papy.G » 16 févr. 2016 13:31

Je ne mettais pas en cause la performance du type de fichier et d'encapsulation, mais la qualité du support du format et des logiciels de restitution par les ayant droits.
Ayant essayé de m'attaquer au scan de documentations, je me suis heurté à ces problèmes évoqués par Xavier, et ai, du coup un peu laissé en suspens. Avec le PDF, il faudrait redessiner un maximum de schémas au trait, et retaper tous les textes, pour obtenir un document d'une qualité et taille satisfaisant, mais alors, on n'est plus en présence de restitution de documents dans leur forme originale, mais de recopie, ce qui perd de son charme. Néanmoins, on peut se demander si ce qui est le plus important est le fond, ou la forme, c'est à voir au cas par cas. Les saisies manuelles de listings à partir de scans pour obtenir des fichiers informatiques exploitables l'illustrent bien.
Soyez exigeants, ne vous contentez pas de ce que l'on vous vend.
Demandez-en plus, ou faites-le vous-même.

Notator
Messages : 443
Enregistré le : 09 août 2015 20:13
Localisation : Lyon

Re: La tour de Babel, et ça recommence!

Message par Notator » 16 févr. 2016 13:46

On n'a pas tous les mêmes habitudes d'utilisation des docs.

Pour les docs qui me sont utiles, je ne les consulte JAMAIS en ligne.
Je les imprime, et je les consulte sur papier. Pourquoi ? Parce que j'ai l'habitude d'y mettre des annotations, des commentaires, des corrections, des compléments d'information ; chose malaisée sur écran, on en conviendra.

Concernant le format djvu, il n'est pas sans qualités, mais pour l'utilisateur, c'est le parcours du combattant ; trouver un plugin qui fonctionne est galère, et erratique. Surtout du djvu indirect. Cela peut prendre des heures pour trouver et installer un décodeur fonctionnel, et ça n'aboutit pas toujours. Pour cette raison, j'ai décidé de boycotter les docs en djvu.
Par chance, je ne connais qu'un seul site qui s'acharne à faire ce format, et les docs importantes sont trouvables ailleurs en pdf. :)

Donc voila mon point de vue, et ça ne me pose aucun souci que les choses continuent ainsi (et elles continueront ainsi). :)

Je n'ai pas trop compris quel est le problème des aspirateurs ; mettre des documents en ligne n'est-il pas dans le but de les sauvegarder, les partager et les diffuser ? Quel peut être l'objection qu'un robot les stocke dans un serveur...

Avatar du membre
Papy.G
Modérateur
Messages : 1800
Enregistré le : 10 juin 2014 13:40
Localisation : Haute-Garonne/Gers

Re: La tour de Babel, et ça recommence!

Message par Papy.G » 16 févr. 2016 14:25

Pour l'impression, je suis tout à fait d'accord, les documents qui doivent me servir souvent sont imprimés, c'est juste plus pratique.

Je ne trouve pas que ce soit une chance, mais plutôt dommage que seul un site s'acharne à utiliser ce format (je suis sûr qu'il y en a d'autres), car plus les utilisateurs/diffuseurs seront nombreux, meilleur le support sera.

Un robot copieur ne se souvient pas toujours d'où il a pompé ses données, et peut parfois facturer, d'une façon ou d'une autre la restitution, quand à l'origine le mec qui a numérisé les documents s'est défoncé pour pas un centime. Et je ne parle même pas du cadre légal du changement de contexte de diffusion desdits documents.

L'autre soucis, c'est que Free propose un service web personnel, dédié aux particuliers, et compris dans l'abonnement proposé aux particuliers. D'une part, tu es limité en volume total, mais aussi en débit, il ne faut pas que un ou plusieurs robots pompant ton site saturent la bande passante et empêche des humains d'y accéder. Aussi si ton site génère un traffic trop important, jugé comme anormal, et pouvant être de nature à réduire la qualité du service des autres espaces particuliers, car les serveurs sont partagés, il peut être bloqué et le FAI te facturer la prise en charge d'un tel site.
Soyez exigeants, ne vous contentez pas de ce que l'on vous vend.
Demandez-en plus, ou faites-le vous-même.

Marcopolo

Re: La tour de Babel, et ça recommence!

Message par Marcopolo » 16 févr. 2016 17:53

- Que la solution soit sous licence libre m'importe peu, je veux un truc qui marche tout le temps et avec possibilité de recherche full text
- Héberger un site sans contrainte de volume ou de trafic coûte une misère de nos jours

PS :
Je n'ai pas le temps de lire certaines contributions à rallonge :wink:

Fabrice Montupet

Re: La tour de Babel, et ça recommence!

Message par Fabrice Montupet » 16 févr. 2016 17:55

Je rejoins Marc sur tous les points.

Avatar du membre
Papy.G
Modérateur
Messages : 1800
Enregistré le : 10 juin 2014 13:40
Localisation : Haute-Garonne/Gers

Re: La tour de Babel, et ça recommence!

Message par Papy.G » 16 févr. 2016 18:36

La licence libre était une supposition de ma part et peut-être un peu à côté de la plaque, du moins pas la première préoccupation.
Par contre, ça coûte peut-être une misère, mais pourquoi payer encore ça en plus, quand on a déjà un service intégré dans un abonnement de FAI? Idem pour le volume ou le débit de données, c'est pas parce-qu'il y en a beaucoup qu'il faut les gaspiller, c'est une tendance dans l'informatique, qui me hérisse.
Soyez exigeants, ne vous contentez pas de ce que l'on vous vend.
Demandez-en plus, ou faites-le vous-même.

Avatar du membre
laurel
Messages : 1478
Enregistré le : 23 nov. 2009 16:04
Localisation : Nancy
Contact :

Re: La tour de Babel, et ça recommence!

Message par laurel » 16 févr. 2016 21:01

pour ceux que ça intéresse,
le .free.fr est même accessible aux non abonnés... Il suffit d'en faire la demande.
J'ai un site .free.fr créé il y a 4/5 ans pourtant je n'ai jamais été abonné chez free!
A l'époque j'avais reçu les identifiants par courrier.

Pour les solutions de stockage, il y a pas moyen de coupler ça avec d'autres services gratuit, genre google drive?
Apple 1: http://applethefirst.blogspot.com/
Recherche un boitier Color Classic, du Next, un DD apple SC20
Voir mes échanges

Avatar du membre
frodon69
Messages : 2465
Enregistré le : 24 juin 2007 10:55
Localisation : Lyon

Re: La tour de Babel, et ça recommence!

Message par frodon69 » 16 févr. 2016 22:33

Marcopolo a écrit :- Que la solution soit sous licence libre m'importe peu, je veux un truc qui marche tout le temps et avec possibilité de recherche full text
Les moteurs de recherche indexent le contenus des pdf en ligne, pas des djvu...

Caminova va-t-il maintenir encore longtemps un plug-in que seuls une poignée de français utilisent ? j'en doute...
Dans les OS 64 bits et plus, il n'y aura peut être rien pour lire ce format.
Nos enfants auront dans vingt ans autant de difficultés à les lire que nous à consulter les microfilms des années 50 (déjà que trouver un projecteur 8 ou super8 devient difficile...).
Frodon69

Répondre