Page 2 sur 2

Re: [TMS5220] Y-a-t'il des matheux dans la salle ?

Publié : 13 août 2012 22:16
par Daniel
Pour tester, j'utilise ce fichier binaire (raw) 8000Hz 16bits mono : http://dcexel.free.fr/tmp/mental.zip

Re: [TMS5220] Y-a-t'il des matheux dans la salle ?

Publié : 14 août 2012 09:16
par Daniel
Pour vérifier le résultat de l'analyse par Unianal, j'ai compilé le programme Unisynt permettant de jouer la chaîne LPC. J'ai découvert et corrigé un petit bug d'Unianal : le mode d'ouverture des fichiers binaires doit être précisé dans Windows (il est binaire par défaut dans Linux, mais pas dans Windows). Voici les versions correctes d'unianal et unisynt : http://dcexel.free.fr/tmp/unianal.zip

Avec les paramètres par défaut, on obtient un résultat encourageant avec le fichier http://dcexel.free.fr/tmp/mental.l16
Il manque les deux dernières phrases, mais la partie décodée est audible : http://dcexel.free.fr/tmp/mental.syn.wav

Reste maintenant à affiner les paramètres, en particulier la largeur de la fenêtre d'analyse à adapter à la longueur de chaque phrase. Ensuite il faudra reconstituer une chaîne LPC pour le 5220...

Re: [TMS5220] Y-a-t'il des matheux dans la salle ?

Publié : 14 août 2012 16:46
par jester
Daniel a écrit :Ensuite il faudra reconstituer une chaîne LPC pour le 5220...
C'est un peu cette partie qui m'inquiète, je n'ai pas compris comment préciser les coefficients et différents paramètres spécifiques au TMS5220 version Exelvision... sans parler de la sortie du programme où je n'ai rien capté !
Le résultat est moins bon que celui généré avec Qbox me semble-t-il, mais c'est encourageant.
Cependant ce genre d'outil est encore et encore dédié à la synthèse de la parole... le truc vraiment intéressant serait de pouvoir encoder des bruitages ! L'algo ici présent est étudié pour la parole et ne semble pas adaptable à autre chose.

Re: [TMS5220] Y-a-t'il des matheux dans la salle ?

Publié : 14 août 2012 19:00
par Daniel
Ce que j'ai compris des fichiers de sortie : L'énergie, le pitch et les coefficients de réflexion sont dans des fichiers séparés, sous forme de "short integers" ou de tableaux de "float" (pour les coefficients de réflexion). Normalement il doit y avoir une énergie, un pitch et dix coefficients de réflexion par trame générée.

Il faut d'abord coder toutes ces données en fonction des tables du 5220 : pour chaque donnée, trouver la valeur la plus approchante dans la table du 5220 et prendre son code. Quand on a tous les codes, on peut alors générer la chaîne LPC.

Après, il y a beaucoup de paramètres à régler dans Unianal. Je pense qu'on doit pouvoir améliorer la qualité de la synthèse. Et l'auteur dit clairement que le player Unisynt est très imparfait : on aura peut-être une bonne surprise sur le vrai matériel.

Je reconnais que ce n'est pas évident. QBOXPRO est presque facile à utiliser par rapport à Unianal. Mais on a les sources, on peut les compiler dans Windows, les modifier, ajouter une interface graphique, etc. Ca fait une grosse différence.

Re: [TMS5220] Y-a-t'il des matheux dans la salle ?

Publié : 14 août 2012 22:21
par jester
Oui c'est clairement une super base de travail pour construire un outil moderne pour gérer les chaines LPC !