synthèse de la parole

24
La synthèse de la voix Ecrit par Alessandro Calia Classe ETR6

Upload: others

Post on 28-May-2022

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Synthèse de la parole

La synthèse de la voix

Ecrit par Alessandro Calia Classe ETR6

Page 2: Synthèse de la parole

Table des matières 1. Objectif............................................................................................................................... 4

2. Introduction........................................................................................................................ 4

3. Bref historique sur la synthèse acoustique ......................................................................... 4

3.1. La modélisation du conduit vocal .............................................................................. 4 3.2. La synthèse par règles ou par formants (LPC)........................................................... 5 3.3. La synthèse par concaténation mot à mot .................................................................. 5 3.4. La synthèse par concaténation de diphones (TD-PSOLA et MBROLA) .................. 6 3.5. La synthèse par sélection d’unités dans une grande base de données........................ 6

4. Le Text-To-Speech (TTS) .................................................................................................. 7

5. Synthèse des procédés de synthèse de la parole................................................................. 7

6. Le fonctionnement d’un synthétiseur vocal ....................................................................... 8

6.1. Le prétraitement ......................................................................................................... 8 6.2. Analyse syntaxique .................................................................................................... 8 6.3. Calcul prosodique ....................................................................................................... 8 6.4. Transcription graphème-phonème.............................................................................. 9 6.5. Traitement acoustique ................................................................................................ 9 6.6. L’extraction des diphones ........................................................................................ 10 6.7. Complément sur les langues..................................................................................... 11

7. La transformation vocale.................................................................................................. 11

8. La voix chantée ................................................................................................................ 11

9. La norme MPEG-4 et l’interpréteur VoiceXML pour TTS ............................................. 12

9.1. La norme MPEG-4 ................................................................................................... 12 9.2. VoiceXML (Voice eXtensible Markup Language).................................................. 13

10. Exemple de dialogue et d’utilisation de la synthèse vocale dans le domaine de la

téléphonie ................................................................................................................................. 14

11. Les différents marchés existants, potentiels et à venir ................................................. 15

11.1. La synthèse vocale et les applications télématiques............................................. 15 11.2. La synthèse vocale et les applications embarquées.............................................. 15 11.3. La synthèse vocale et les applications grand-public non-téléphoniques.............. 16 11.4. La synthèse vocale et l‘enseignement des langues étrangères ............................. 16 11.5. La synthèse vocale au service des handicapés ..................................................... 16 11.6. La synthèse vocale comme « locuteur natif substitut »........................................ 17 11.7. La synthèse vocale et la lutte contre l’illettrisme ................................................. 17 11.8. La synthèse vocale pour l’expérimentation linguistique et psycholinguistique ... 17 11.9. La synthèse vocale et la téléphonie ...................................................................... 18 11.10. La synthèse vocale et le 7ème Art .......................................................................... 18 11.11. La synthèse vocale et la musique ......................................................................... 18 11.12. Synthèse générale ................................................................................................. 19

12. Les défauts et les limites de la synthèse vocale ........................................................... 19

13. La synthèse vocale et ses dangers ................................................................................ 20

14. Quelques programmes du marché actuel ..................................................................... 20

Page 3: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 3 sur 24

15. Conclusion.................................................................................................................... 21

16. Lexique ......................................................................................................................... 22

17. Glossaire ....................................................................................................................... 23

18. Bibliographie ................................................................................................................ 23

19. Remerciements............................................................................................................. 24

Page 4: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 4 sur 24

1. Objectif L’objectif de cette présentation personnelle est de démontrer l’utilité de la synthèse vocale ainsi que son avancement technologique et de mettre en évidence les produits et les techniques actuellement disponible sur le marché. Cette présentation mettra aussi en avant les nouveaux problèmes technologiques ainsi que ceux liés à la sécurité.

2. Introduction De nos jours, la synthèse vocale n’est plus un concept avant-gardiste mais aboutit gentiment à des produits de bonne qualité. En effet, la synthèse vocale ressemble de moins en moins à une voix synthétique d’ordinateur et ouvre de nouvelles possibilités en alliant ainsi plusieurs technologies comme la reconnaissance vocale et la téléphonie. La synthèse de parole présente plusieurs avantages, elle est d’une part plus naturelle pour le grand public, elle est plus rapide et efficiente qu’un message écrit court et le champ de vision reste libre pour effectuer une autre tâche de lecture. Les deux principaux critères exigés par la synthèse de la voix sont l’intelligibilité et l’aspect naturel. Si de nos jours, le premier critère est atteint, le deuxième est encore au stade de développement. En effet, si les synthétiseurs reproduisent une voix tout à fait intelligible, les intonations et l’expressivité ne sont pas encore au point. Cette technologie propose un marché très vaste sur de multiples secteurs comme par exemple l’enseignement, la téléphonie, les systèmes embarqués et bien d’autres encore. Elle propose aussi une assistance pour les 20 à 25% (voire 50% dans certains pays) de la population dans les pays de l’OCDE (Organisation de Coopération et de Développement Economiques) souffrant d’illettrisme.

3. Bref historique sur la synthèse acoustique Dans l’histoire de la synthèse vocale, il existe 5 grandes étapes de son développement.

3.1. La modélisation du conduit vocal

Cette méthode représente la plus ancienne façon de générer une voix synthétique. Elle était générée par des automates mécaniques en utilisant un ensemble de tubes et de membranes simulant le conduit vocal.

La mis en œuvre informatique de ce procédé n’a jamais donné aucun résultat probant en raison de son extrême complexité. C’est pour cette raison que cette technologie a été actuellement abandonnée.

Page 5: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 5 sur 24

3.2. La synthèse par règles ou par formants (LPC) Cette technique a été très utilisée entre 1965 et 1985 du fait qu’elle était très peu gourmande en ressource (10 Koctets pour les règles décrivant la coarticulation d’une voix). Ce genre de synthétiseurs se base sur le fait que s’il est possible à partir d’une voix d’obtenir un spectrogramme, il est alors possible en toute logique de générer une voix artificielle à partir d’un spectrogramme. Une fois le spectrogramme dessiné, il ne reste plus alors qu’à générer le signal correspondant.

Figure 1 : Spectrogramme d’une phrase synthétisée par règles

Les acousticiens se sont en effet aperçus que les résonances du conduit vocal mettaient en avant certaines plages de fréquence spécifiques au phonème prononcé. Les acousticiens ont nommé ces plages de fréquences "formants".

Un formant se caractérise par sa fréquence (hauteur) et son énergie (force).

On s’est alors rapidement aperçu que trois à six formants étaient suffisants pour obtenir un phonème de bonne qualité acoustique.

Pour obtenir un synthétiseur vocal, il faut déterminer et stocker les différentes enveloppes spectrales (dont les harmoniques principales sont les "formants") des sons de bases (phonèmes) de la voix, ainsi que leur mode d'excitation (suite d'impulsions ou bruit blanc), puis à les recombiner à volonté pour recréer les mots désirés.

L’un des grands avantages de ce procédé est que très peu de données sont nécessaires pour générer un phonème ( la description des formants étant en théorie suffisante) et qu’il est beaucoup plus simple d’apporter quelques modifications à ces données pour obtenir différentes voix.

L’un des inconvénients se retrouve dans le résultat. En effet, le résultat obtenu est généralement moins réaliste que dans le cas d’une voix composée par la mise bout à bout des éléments de la voix.

3.3. La synthèse par concaténation mot à mot Cette synthèse ne sera pas abordée en détail dans cette présentation, mais il suffit de citer l’exemple du combox de Swisscom ou des annonces dans les gares pour comprendre à quoi elle ressemble. En effet, elle a l’avantage d’être facilement intelligible et très naturel. Néanmoins, elle donne des fichiers très lourds. Cet handicap empêche son utilisation sur les réseau tel que Internet. De plus, l’interaction qu’elle propose au locuteur est très limitée. Elle ne peut s’exprimer qu’avec des mots qui sont déjà enregistré et ne peut donc pas lire un texte

Page 6: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 6 sur 24

dont elle ne connaît pas tous le mots. Le changement de cette voix nécessite l’enregistrement complet de tous les mots utilisés pour le fonctionnement du service.

3.4. La synthèse par concaténation de diphones (TD-PSOLA et MBROLA)

La mise bout à bout des éléments de la voix est une méthode plus moderne qui consiste à mémoriser les phonèmes ou les assemblages de phonèmes prononcés afin de les mettre bout à bout en vue de restituer la voix de la personne. Des algorithmes complexes déforment les phonèmes enregistrés pour leur faire suivre la prosodie de la voix parlée, et donnent d’excellents résultats. Cette technique est utilisée pour les sites d’information comme la météo, l’horoscope ou les résultats sportifs. Ces algorithmes sont cependant mal adaptés aux larges plages de fréquences utilisées dans la voix chantée. De plus, la parole est souvent hyper-articulée, et l’intonation reste peu naturelle. Un système de synthèse par diphones de bonne qualité nécessite entre 1 et 5 Moctets par voix (pour stocker les quelques 1500 diphones correspondants, soit environ 3 minutes de parole).

L’un des inconvénients majeurs se retrouve lors de la définition d’une autre voix, il est nécessaire d’enregistrer une autre personne. L’autre défaut de ce système est la totalité des phonèmes d’une langue doivent être prononcés. Pour fabriquer un logiciel multilingues avec le même timbre de voix, il est donc nécessaire d’enregistrer une personne parfaitement polyglotte afin d’échantillonner l’ensemble des phonèmes prononçables dans chacune des langues.

3.5. La synthèse par sélection d’unités dans une grande base de données.

Cette méthode représente une véritable percée en matière de synthèse vocale. Plutôt que de garder qu’un seul exemplaire de chaque diphone de la langue, on puise dans plusieurs heures de parole, préalablement segmentée phonétiquement. Au moment de choisir les segments à mettre en œuvre, plusieurs instances d’une même unité phonétique sont alors disponibles, avec des prosodies différentes. Il faut alors choisir les segments dont le contexte est le plus proche de la chaîne phonétique à synthétiser, dont la prosodie est la plus proche de la prosodie à reproduire et dont les discontinuités spectrales sont les plus rapprochées l’une par rapport à l’autre. Cette technique a permis récemment de produire de la parole dont l’intelligibilité et le naturel rendent possible la confusion avec une prononciation humaine. Néanmoins, elle implique un accès très rapide à plusieurs Goctets de données. Cette technologie est encore à l’état expérimental et n’est donc pas encore disponible sur le marché. De plus, cette méthode nécessitant une base de données contenant plusieurs Gigaoctets d’information et un accès suffisamment rapide a peu de chance d’aboutir commercialement dans les prochaines années.

Page 7: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 7 sur 24

4. Le Text-To-Speech (TTS) Le TTS ou plus communément appelé synthèse vocale, se basant sur la concaténation de diphones, est un outil informatique permettant de traduire un texte en un flux audio (figure 3). Le texte synthétisé peut provenir de plusieurs sources différentes comme par exemple, le clavier, la reconnaissance vocale, la reconnaissance d’écriture ou Internet. Le synthétiseur n’a alors aucune connaissance préalable du texte qu’il devra synthétiser, mais il est capable de reproduire un flux sonore correspondant au texte reçu comme si un humain le lisait. Le TTS représente une autre technologie qui exclut bien évidemment les systèmes concaténant plusieurs enregistrements sonores afin de créer une phrase comme par exemple (combox de Swisscom ou encore les annonces dans les gares). Le TTS allié à la reconnaissance vocale devrait permettre d’exploiter à partir de n’importe quel téléphone la mine d’informations disponibles sur Internet. Le marché est par conséquent énorme. En effet, les téléphones sont actuellement bien plus nombreux que les ordinateurs (on estime actuellement, en 2002, le nombre de lignes fixes à un milliard et le nombre de mobile à 700 millions). Grâce aux commandes vocales et à la synthèse de la parole, les utilisateurs pourront piloter des recherches dans les grilles des horaires des moyens de transport, connaître les heures d’ouvertures des bâtiments administratifs ou le cinéma le plus proche, etc. Le portail vocal deviendrait une sorte de super opérateur, qui se chargerait aussi bien de trouver nos correspondants, que d’effectuer des recherches dans les millions de pages Internet. Malgré le fait que le synthétiseur génère une voix moins naturelle que la méthode de la concaténation mot à mot, cette technique apporte une réelle solution pour les systèmes, pour les annuaires ou pour les e-boutiques regroupant des milliers d’articles. Plusieurs sociétés ont décidé d’adapter cette méthode pour la conception de leurs produits.

5. Synthèse des procédés de synthèse de la parole Il y a donc deux solutions qui se démarquent fortement des autres pour le domaine grand-public et la téléphonie. Il s’agit de la concaténation mot à mot et du TTS. La figure 2 présente les différents aspects de chaque méthode et laquelle est meilleure dans un domaine par rapport à l’autre. Il est judicieux de signaler qu’aucune des deux méthodes n’est préférable mais dépend énormément de son usage. Mais le TTS montre une meilleure évolutivité, flexibilité, coût et adéquation. Ces avantages sont typiquement des points forts dans la téléphonie et dans l’usage d’Internet.

Page 8: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 8 sur 24

Figure 2 : les pour et les contres de la concaténation mot à mot et du TTS

6. Le fonctionnement d’un synthétiseur vocal Pour créer un synthétiseur vocal, il est indispensable de passer par différentes étapes de traitement. Ce qui suit est le descriptif du fonctionnement du synthétiseur Kali de la société Electrel (figure 3). Certains synthétiseurs peuvent avoir un ordre de traitement légèrement différent mais les blocs de traitements sont sensiblement identiques.

6.1. Le prétraitement Cette phase consiste dans la transformation d’un texte dans une suite de phrase, organisées en mots. Ce prétraitement a pour objectif de retranscrire en toutes lettres les chaînes non-orthographique représentant la reconnaissance des unités de mesure du système international (SI), les symboles non alphanumériques (ex. : antislash), les chiffres, les lettres et les motifs (ex. : extensions de fichiers). Il ne faut pas oublier les abréviations, les sigles comme « A+» que l’on trouve couramment dans les e-mails.. Là encore, il faut apprendre au système à reconnaître les abréviations les plus courantes.

6.2. Analyse syntaxique L'analyse syntaxique découpe le texte en groupes de mots ou tronçons et établit leurs relations de dépendance. Elle permet une meilleure interprétation des mots pour la suite des opérations en découpant chaque mot en lexèmes et en déterminant leurs appartenances grammaticales.

6.3. Calcul prosodique Le traitement prosodique sert à modéliser l’évolution temporelle de la fréquence fondamentale (vibration des cordes vocales, prédire la durée des sons élémentaires et la durée des pauses). Si la prosodie d’un locuteur réel est recopiée sur la voix de synthèse, le résultat obtenu est sensiblement meilleur. En effet, l’impression de naturel et son intelligibilité

Page 9: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 9 sur 24

s’améliorent. Le traitement prosodique est donc une composante tout à fait essentielle d’un système de synthèse de parole.

6.4. Transcription graphème-phonème Le but de la transcription graphème-phonème est de passer du texte orthographique (plus ou moins traité par le module précédent) à une suite de symboles phonétiques. Plusieurs niveaux de connaissances sont pris en compte : phonétiques, phonologiques, lexicales, syntaxiques et même sémantiques. La prononciation du français comporte ainsi plus de 1000 règles élémentaires, et plusieurs milliers de règles portant sur les noms propres et mots d'emprunt les plus courants. Chaque langue est différente et emploie un certain nombre de règles spécifiques. Par exemple, l’espagnole ne nécessite que 50 règles pour obtenir une bonne synthèse.

6.5. Traitement acoustique Le dernier traitement effectué par le synthétiseur est la conversion du texte phonétique en signal de parole. La voix synthétique s’obtient par l’extraction des diphones à partir de la voix d’un locuteur, une bibliothèque contenant entre 1000 à 2000 fragments de signal seront ensuite concaténés par le synthétiseur pour former le signal de parole. Les paramètres acoustiques les plus utilisés pour représenter ces unités sont le codage par prédiction linéaire (LPC), la méthode TD-PSOLA ou encore celle de MBROLA. (Ces formes de codage ne seront pas abordées dans cette présentation. Néanmoins, les sites Internet se trouvant dans la bibliographie sont suffisant pour comprendre les bases).

Page 10: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 10 sur 24

Figure 3 : Synthèse de la voix selon le synthétiseur Kali

6.6. L’extraction des diphones Une phrase articulée se compose d’une succession de « portions de signal sonores», les « diphones ». Il s’agit de sortes d’unités phonétiques qui correspondent au son émis du milieu d’un phonème jusqu’au milieu du phonème suivant. Le français comporte environ 1200 diphones. Les diphones sont extraits, en laboratoire, lors d’enregistrements de parole d’un locuteur. Ces locuteurs nous permettent ainsi la création de plusieurs voix de synthèse. Il est évident que la création d’une nouvelle voix nécessite de longs enregistrements.

Page 11: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 11 sur 24

6.7. Complément sur les langues Pour aller au-delà de quelques mots et de données synthétisées relativement pauvres, toute la difficulté consiste à faire une réelle analyse linguistique du texte et toutes les langues ne sont pas aussi faciles à analyser. Parmi les plus simples, on compte l’allemand et le japonais. L’anglais est l’une des plus compliquées. Le français comporte tout de même des pièges comme par exemple : « Les poules du président couvent pendant qu’ils président le couvent ». Donc le système doit posséder de solides notions grammaticales et syntaxiques. Pour mieux comprendre le problème d’un synthétiseur lors de la lecture d’une phrase, il suffit de se rappeler nos premières années à l’école. Il est alors aisé de comprendre toute la difficulté de la lecture à haute voix. Remarque : chaque traitement s’accompagne généralement de sous-traitement. Il n’a pas été jugé nécessaire d’entrer dans les détails pour des questions de clarté et n’étant pas dans l’objectif principal de cette présentation.

7. La transformation vocale La transformation vocale est une méthode qui consiste à modifier une voix naturelle ou synthétique pour la transformer en une nouvelle voix semblant la plus naturelle que possible. Cela consiste à usurper la voix de quelqu’un en utilisant le synthétiseur. Elle est souvent utilisée par les développeurs de voix de synthèse pour créer plusieurs voix à partir d’une seule. Pour y parvenir, il faut opérer deux formes de transformations :

- transformation prosodique - transformation spectrale

La transformation prosodique est censée modifier les paramètres tels que la hauteur, la mélodie, le débit et l’intensité. La transformation spectrale modifie le timbre de la voix.

8. La voix chantée La voix chantée est très proche de la voix parlée mais se distingue cependant par quatre spécificités.

- La prosodie La prosodie est complètement différente de celle de la voix parlée. Alors qu’elle n’obéit qu’à des règles très approximatives dans la voix parlée, elle est très précise dans le chant car codée par le texte musical écrit.

- Les voyelles

Page 12: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 12 sur 24

Les voyelles sont, dans le chant, plus marquées et plus longues. Elles contribuent à qualifier le timbre de la voix.

- Le registre Le registre, dans la tradition occidentale, défini les différents types vocaux en fonction de l’antibus et le timbre des voix (basse, baryton et ténor pour les hommes, alto, mezzo-soprano et soprano pour les femmes). L’ambitus de la voix chantée est en moyenne plus étendu que celui de la voix parlée (deux octaves et demie contre une et demie).

- Le vibrato

Le vibrato consiste à faire fluctuer régulièrement le son autour d’une hauteur théoriquement fixe. Le vibrato est perçu par l’oreille comme une caractéristique du timbre de la voix. Malgré que les synthétiseurs de la voix chantée se heurtent encore à certains problèmes, les prochains produits devraient montrer des améliorations non-négligeable.

9. La norme MPEG-4 et l’interpréteur VoiceXML pour TTS

9.1. La norme MPEG-4 L’objectif de ce paragraphe n’est pas la présentation de l’intégralité du format MPEG-4, mais simplement l’aspect relatif au TTS, les autres possibilités étant beaucoup trop vastes pour être explicitées dans ce rapport. La norme Mpeg-4 ,quoique déjà existante avec le format divx (codec dérivé de MPEG-4), prendra son envol dans la téléphonie mobile pour les mobile de la 3ème génération (3G). Elle permettra aussi la diffusion de la vidéo sur le web. Son architecture est basée sur une normalisation ISO, contrairement aux solutions actuelles proposées par Microsoft. Les techniques de codage d’objets audio synthétiques sont multiples. MPEG-4 a définit un langage de synthèse appelé « Structured Audio Orchestre Language » ou dans sa forme abrégée SAOL. Ce langage décrit des méthodes de synthèse. En plus du codage synthétique du son, il est possible d’utiliser un synthétiseur de la parole. L’utilisation de tels procédés permettent de délivrer un contenu audio à très faible débit. Typiquement, la synthèse de la parole utilise un débit variant entre 0.2 et 1.2 kbps. Le texte généré peut être synchronisé à une animation faciale, permettant ainsi de créer des personnages synthétiques utilisant une voix synthétique (journaliste virtuelle). L’aspect le plus intéressant de ce format est le fait que MPEG-4 permet d’ajouter des informations au texte, telles que des paramètres prosodiques (ton, accent, cadence, etc…) et des informations sur le locuteur (âge, sexe,…). Enfin la fonction TTS (text To Speech) est prévue en multilingue. IL est judicieux d’ajouter que la norme MPEG-4 ne définit pas la manière dont la synthèse est faite, mais définit uniquement comment sont structurées les informations (texte et paramètres pour le TTS).

Page 13: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 13 sur 24

9.2. VoiceXML (Voice eXtensible Markup Language). L’interpréteur VoiceXML appelé aussi VXML est un langage destiné à la création d’interfaces purement vocale. Souvent associé à la téléphonie, il permet non seulement de faire de la synthèse vocale mais aussi de la reconnaissance de la parole. Cet interpréteur montre alors tout son intérêt pour les applications comme le e-commerce, le surf «vocal» sur Internet et bien d’autres. Voici un schéma d’utilisation actuelle de VoiceXML :

Figure 3 : Démonstration de l’utilisation d’un interpréteur VoiceXML La figure 3 montre l’utilisation d’un téléphone pour obtenir un rendez.vous à travers une plate-forme VoiceXML, Le principe de fonctionnement est relativement simple. Depuis le téléphone, nous empruntons le réseau téléphonique traditionnel. Une fois arrivée à la plateforme VoiceXML, la requête est analysée grâce à des systèmes comme la reconnaissance vocale (ASR : Automated Speech Recogition) ou l’interprétation des touches du téléphone (DTMF). La requête va alors être envoyée au service désiré via le réseau Internet jusqu’au serveur Web où elle sera traitée. Le serveur Web est connecté à une base de donnée. Une fois, la réponse à la requête obtenue, la réponse est encapsulée dans un fichier VoiceXML et emprunte dans le sens inverse le réseau Internet jusqu’à la plate-forme VoiceXML où il sera interprété de manière audible. Le cycle est ainsi terminé et la formulation d’une nouvelle requête peut alors recommencer.

Page 14: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 14 sur 24

10. Exemple de dialogue et d’utilisation de la synthèse vocale dans le domaine de la téléphonie

En partant du principe que la synthèse vocale est toujours associée à la reconnaissance vocale, voici quelques exemples de son utilisation dans le cadre de la téléphonie mobile avec l’interpréteur VoiceXML. Actuellement, il existe deux formes de dialogue : le dialogue dirigé et le dialogue à initiative mixte. Dans un dialogue dirigé, le serveur contrôle la séquence et les informations doivent être entrées en séquence : Exemple d’un scénario en dialogue dirigé: S : Donnez-moi le canton pour lequel vous souhaitez la météo. U : Vaud. S : Donnez moi la ville. U : Lausanne. Dans un dialogue à initiative mixte, le serveur et l’utilisateur contrôlent le déroulement du dialogue, les informations peuvent être entrées dans n’importe quel ordre et plusieurs données peuvent être introduites en une seule phrase: S : Pour quelle ville de quel canton souhaitez-vous la météo ? U : Lausanne, Vaud. Autre exemple d’un dialogue à initiative mixte: S : Quel est votre type et numéro de carte de crédit ? U : Amex, un un trois cinq neuf huit deux trois. S : Quelle est la date d’expiration ? U : Juillet deux mille un. S : Quel produit souhaitez-vous acheter et pour quel système ? U : Voice X M L pour Windows. S : Précisez la version de Windows. U : Pardon ? S : Dites 95, 98, NT, 2000, Millenium. U : Windows deux mille pro. S : Confirmez vous la commande de VoiceXML pour Microsoft Windows2000 ? U : Ok !

Page 15: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 15 sur 24

11. Les différents marchés existants, potentiels et à venir D’après une étude du cabinet d’avocat américain Frost & Sullivan, le marché de la voix bénéficie d’une augmentation de 15% par an. Ce qui laisse à penser que d’autres sociétés vont se lancer dans les portails vocaux pour entreprise. Voici quelques exemples des différents secteurs où la synthèse est ou pourra être utilisée.

11.1. La synthèse vocale et les applications télématiques Neurostart a l’intention de commercialiser leur logiciel de « Portail Vocal d'Entreprise » (basé sur VoiceXML) qui permettra de créer un accès complémentaire au réseau Intranet d’une entreprise. Grâce à une connexion avec le central téléphonique, les employés pourront aisément consulter leur agenda, leur annuaire interne, le suivi de leur e-mail et bien d’autres possibilités encore. Atos Origin en partenariat avec France Telecom travaille sur le projet «Talk To Intranet ». Ce projet est similaire à ce lui de Neurostart, mais seront en plus en mesure de fournir les services suivants :

- Messages d'information (push) - Consultation d'annuaire vocal - Gestion des absences (RTT et congés) - Gestion des interventions SAV,…

Dans les applications à venir, la synthèse vocale sera très utile pour la création de serveurs d’alerte, de surveillances de site, de télémaintenance, pour des fonctions d’aide dans les postes de pilotages, on pourra ainsi considérablement simplifier les consoles de contrôle en bénéficiant le cas échéant d’une assistance vocale.

11.2. La synthèse vocale et les applications embarquées Un intérêt tout particulier vise actuellement à insérer de la synthèse vocale dans les véhicules comme par exemple lors de l’utilisation du GPS. Mais nous pouvons aussi imaginer d’autres applications comme des camions signalant par l’intermédiaire de la synthèse vocale, un disfonctionnement quelconque ou rappelant au conducteur du véhicule un service d’entretien. ScanSoft, en étroite collaboration avec Clarion, a réussi à intégrer des fonctionnalités de reconnaissance et de synthèse vocales sur la Citroën Xsara et la nouvelle C5. Ces technologies permettent aux conducteurs de commander par la parole un certain nombre d'instruments embarqués, sans qu'ils aient à quitter la route des yeux. Le moteur TTS convertit le texte écrit en texte oral, pour, par exemple, lire les courriers électroniques ou les instructions du système de navigation. Le système averti automatiquement le conducteur en cas de réception d'un courrier électronique. Le conducteur peut prendre connaissance de ses messages, identifier leur expéditeur, connaître leur date d'envoi ainsi que leur objet, le tout par commandes vocales. Le système envoie aux conducteurs des alertes vocales sur l'état du trafic, leur donne des informations sur les conditions de circulation et les informe d'éventuels

Page 16: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 16 sur 24

accidents. La précision des instructions données par le système de guidage vocal permet aux conducteurs d'arriver à destination sans ennuis. Il est encore possible d’imaginer encore bien d’autres applications comme l’utilisation d’un agenda électronique (PDA) capable de nous avertir vocalement d’un rendez-vous. D’ailleurs ELAN informatique a déjà commercialisé « PocketSpeech» pour Pocket PC. PocketSpeech à la capacité de lire à voix haute n'importe quelle information écrite, en restituant les abréviations, les chiffres, les devises, les noms propres. Il est capable de parler 6 langues avec 12 voix différentes.

11.3. La synthèse vocale et les applications grand-public non-téléphoniques

La synthèse vocale pourrait donner une nouvelle vie au domaine de la domotique, elle permettrait la création d’alarmes ou d’appareils domestiques parlants comme par exemple les détecteurs de disfonctionnement pouvant générer un avertissement vocal au lieu d’un simple avertissement sonore. Cette méthode serait alors moins traumatisante pour une personne ayant une explication auditive d’un événement critique plutôt qu’une alarme bruyante.

11.4. La synthèse vocale et l‘enseignement des langues étrangères

La synthèse de la voix peut être mise à profit dans le domaine de l’enseignement, notamment dans l’apprentissage des langues. Ce qui est particulièrement utile pour l’entraînement de la compétence prosodique et articulatoire. En effet, un synthétiseur vocal peut ralentir à volonté le débit de lecture d’une séquence donnée. Ainsi, les débutants pourront commencer avec un débit relativement lent et apprendre les intonations et les syllabes. Les étudiants plus avancés quant à eux pourront augmenter la vitesse au-dessus du normal. Un autre domaine d’application évident concerne la compréhension auditive. En effet, en étant capable de ralentir le flux de lecture, une personne n’ayant que quelques connaissances dans une langue étrangère pourra ainsi faciliter sa compréhension. En résumé, ces synthétiseurs pourraient présenter un avantage non négligeable dans l’apprentissage des langues étrangères principalement pour apprendre le rythme de celle-ci.

11.5. La synthèse vocale au service des handicapés Les débits rapides sont souvent utilisés par les handicapés visuels afin de parcourir rapidement des textes volumineux. Ils pourront ainsi accéder aux incroyables possibilités qu’offre Internet aujourd’hui et pourront ainsi consulter des documents comme les journaux vocaux de manière aisée augmentant ainsi leur indépendance. Cette technologie permettra aussi l’intégration de personnes ayant des troubles du langage ou étant muettes. Donc, la synthèse permettra de faire un grand pas dans l’intégration dans notre société des personnes handicapées qu’elles souffrent soit d’une déficience vocale ou visuelle. Un autre point important semble être représenté par l’utilisation de cette technologie pour la rééducation au langage de personnes accidentées, renforçant ainsi le travail d’une logopédiste.

Page 17: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 17 sur 24

11.6. La synthèse vocale comme « locuteur natif substitut » Une autre possibilité est le « locuteur natif substitut ». Alors, que de nos jours, presque tous les traitements de texte sont équipés de correcteurs de grammaire et d’orthographe, nous pouvons envisager l’utilisation d’un synthétiseur vocale. Ce synthétiseur vocal permettrait de s’exprimer dans une autre langue sans aucun accent. Nous pouvons illustrer ces propos en citant l’exemple des conférences de l’ONU dont les traducteurs ne peuvent tenir plus d’une heure lors des réunions. Cette technologie permettrait de traduire un texte écrit et convertit dans la langue à synthétiser ou transformer par reconnaissance vocale en une traduction vocale sans accent dans la langue désirée. D’ailleurs, un exemple de ce procédé a eu lieu le 22 juillet 1999 lors de la démonstration du projet C-STAR. Cette démonstration montre le dialogue entre un client français avec 4 agents de voyage dans quatre pays. En effet, ce projet a non seulement utilisé la synthèse vocale mais a aussi utilisé un système de reconnaissance vocale. Il a ainsi permis à une personne de langue française de discuter avec des personnes parlant une langue étrangère. La reconnaissance vocale a été utilisée pour traduire la voix du locuteur français en texte. Puis un traducteur s’est chargé de la traduction du texte dans la langue voulue. Puis le synthétiseur vocale a généré une voix à partir du texte traduit. La même chose étant possible dans l’autre sens.

11.7. La synthèse vocale et la lutte contre l’illettrisme Notre société s’est développée rapidement mais malgré les infrastructures scolaires, l’illettrisme est toujours un point sombre et qui n’a malheureusement pas encore disparu. La synthèse de la voix représente un atout majeur dans cette cause, l’ordinateur étant perçu par un utilisateur de manière neutre et juste. N’oublions pas non plus, que nous pouvons utiliser aussi des interfaces Homme-Machine attrayantes et intuitives afin de simplifier l’apprentissage. Ce système pourra alors jouer le rôle de répéteur sans jamais se fatiguer capable de renforcer les apprentissages de la langue écrite et de la langue orale.

11.8. La synthèse vocale pour l’expérimentation linguistique et psycholinguistique

La phonétique, la phonologique, la prosodique, la lexicale, etc... sont tous des domaines tellement vastes qu’il est impossible qu’un seul chercheur soit capable de maîtriser complètement tous ces domaines. La synthèse de la voix propose de réunir toutes ces connaissances à l’aide de plusieurs chercheurs connaissant ces multiples domaines et d’obtenir, dans un futur prochain, un synthétiseur capable de faire interagir tous ces domaines (l’homme en étant incapable à cause de son contrôle actif de l’appareil phonatoire).

Page 18: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 18 sur 24

11.9. La synthèse vocale et la téléphonie Ce domaine représente probablement le plus grand marché à exploiter. En effet, le domaine de la téléphonie représente actuellement un milliard de lignes fixes et 700 millions de téléphones mobiles ce qui représente un nombre beaucoup plus important que le nombre actuel des ordinateurs. L’utilisation de ce média s’impose alors naturellement. Elle donnera la possibilité, grâce à la reconnaissance vocale, de consulter des informations sur Internet de manière rapide et efficace. Nous pouvons aussi imaginer la consultation de la disponibilité des stocks pour un commercial en déplacement. Cette technologie ne permettra pas seulement la consultation sur une base de données. Mais elle pourra le cas échéant nous avertir ou nous renseigner. Nous pouvons citer l’exemple de distributeur de boisson qui pourrait avertir le responsable directement sur son téléphone en lui signalant qu’il est vide et qu’il doit être rempli ou qu’il y a eu une problème technique (panne de courant, tentative de vol, chaîne du froid rompue). Il sera aussi possible de consulter nos fax ou e-mail de manière vocale directement avec un téléphone fixe ou mobile.

11.10. La synthèse vocale et le 7ème Art La synthèse de la voix pourrait devenir un atout majeur dans le domaine du cinéma pour différentes raisons. En effet, les doublages sont souvent de moins bonne qualité que les films en Version Original (VO), car les voix qui sont associées aux personnages ne correspondent pas forcément à l’acteur jouant le personnage. La synthèse de la voix permettrait de reproduire le timbre de voix d’un acteur en le faisant s’exprimer dans une autre langue sans le moindre accent. A l’inverse, dans un film où l’acteur devrait s’exprimer dans une langue qu’il ne maîtrise pas, pourrait être doublé par un synthétiseur vocal et ainsi il donnerait l’impression de s’exprimer dans une langue étrangère sans le moindre accent. N’oublions pas que grâce aux techniques de l’image de synthèse, certains films deviennent d’un réalisme exceptionnel. Il serait alors aisé de redonner vie à nos chers acteurs disparus.

11.11. La synthèse vocale et la musique Un autre avantage de la synthèse vocale permettra de générer des chœurs à une vitesse exceptionnelle ou de faire revivre des chanteurs disparus. Ainsi l’utilisation de la synthèse fera gagner énormément d’argent puisque les répétitions destinées aux chœurs ne seront plus nécessaires et que le temps accordé à celles-ci sera utilisé pour la création du chœur mais cette fois à moindre coût puisque quelques personnes suffiront à le créer de manière synthétique.

Page 19: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 19 sur 24

11.12. Synthèse générale Actuellement, il existe déjà quelques marchés comme ceux liés à téléphonie, à l’aide au handicapés, aux alarmes et à Internet. Mais beaucoup d’autres marchés sont encore faiblement exploités voire pas du tout. Afin de mieux se repérer dans les divers secteurs d’exploitation, la figure 4 montre une liste qui n’est pas exhaustive mais qui affiche tout de même les marchés les plus courants, en cours de développement et ceux qui ne sont pas encore développés.

Figure 4 : Les différents produits existants, en expansion et à développer

12. Les défauts et les limites de la synthèse vocale Actuellement, la synthèse de la voix est limitée par ces différents aspects :

- Les voix synthétiques manquent toujours d’expressivité et ne sont pas encore en mesure de simuler des attributs émotifs comme la joie, la colère ou la tristesse. En résumé, les voix artificielles ne disposent pas encore de la « palette vocale » étendue du locuteur humain.

- Les voix synthétiques sont très limitées. Dans le meilleur des cas, on dispose de quelques voix d’hommes et de femmes pour une langue donnée. Mais les voix d’enfants, d’adolescents ou de personnes plus âgées n’existent pas encore. Créer une nouvelle voix représente un effort majeur, même pour les grandes équipes dotées de financements importants.

- La synthèse des langues particulières (dialecte, variantes sociales, styles et types de parole) commence à peine à être abordée.

En dépit des améliorations indéniables apportées sur le plan de la qualité sonore, les capacités actuelles des synthétiseurs sont encore limitées. Dans le meilleur des cas, les synthétiseurs vocaux possèdent une bonne capacité à fournir un style de lecture à haute voix assez formel. Mais aucun système n’est capable actuellement de produire une voix véritablement expressive. Les expressions de surprise, de tendresse, d’angoisse ou de déception sont très difficiles, voire impossibles à générer sur les systèmes actuels, compte tenu de la technologie utilisée. De plus, la plupart pour ne pas dire la totalité des synthétiseurs ne reproduisent pas tous les bruits comme par exemple le respiration.

Page 20: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 20 sur 24

IL est important de préciser qu’un synthétiseur de voix est développé pour chaque langue car certaines caractéristiques sont spécifiques à certaines langues et nécessite un traitement particulier.

13. La synthèse vocale et ses dangers Si la synthèse de la voix devient comparable à la voix humaine, celle-ci pourrait poser quelques problèmes. En effet, dans le domaine de la biométrie, une méthode concerne l'identification d'une personne en fonction de sa voix. On s’aperçoit alors rapidement que si la synthèse vocale est utilisée de manière à reproduire la voix d’un individu, ce système de protection devient vite obsolète et non fiable. L’autre danger consiste dans l’usurpation de l’identité d’un individu. En effet, grâce à cette technologie et en sachant que l’un de moyen de communication le plus répandu est la téléphonie, il serait aisé d’usurper l’identité de quelqu’un et de s’en servir de manière illégale ou incorrecte. De plus, cette technologie pourrait bien accentuer l’effet de déshumanisation forçant ainsi les êtres humains à communiquer de moins en moins entre eux et plus avec des machines. La synthèse de la voix vise à améliorer le quotidien, mais n’oublions pas que si elle atteint le niveau de conversation d’un humain, elle engendrerait aussi sa substitution dans certains domaines augmentant ainsi l’emprise de la machine sur l’homme.

14. Quelques programmes du marché actuel Cette liste est loin d’être exhaustive mais présente quelques produits déjà existants sur le marché proposant de la synthèse vocale. ViaVoice - IBM Voice Systems : reconnaissance et synthèse de la parole en 8 langues L&H RealSpeak : synthèse de la parole en 8 langues Digalo : synthèse de la parole en 8 langues KALI : synthèse vocale en français FIPSVox : synthèse vocale en français LAIPTTS - MoulinAParole : synthèse de la parole en français, allemand et latin SAYITPRO et INFOVOX : synthèses vocales (CECIA) JAWS : lecture d'écran (CECIA) outSPOKEN : accès aux écrans Windows avec synthèse vocale (CECIA) VIRGO : accès aux écrans Windows avec synthèse vocale LECTRA 32 TTS :Didacticiel d'entraînement à la lecture basé sur une série d'exercices générés automatiquement par le programme. Remarque : Aucun comparatif n’a été fait sur ces synthétiseurs faute de temps, mais les voix d’essais proposées directement sur les sites montre que les synthétiseurs sont pour la plupart au même niveau d’évolution.

Page 21: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 21 sur 24

15. Conclusion Pour clore ce rapport, il serait intéressant de souligner le fait que malgré l’existence de certains produits sur le marché, les synthétiseurs vocaux ne sont pas complètement prêts. Ces outils ne s’expriment pas avec tout le naturel dont l’être humain est capable. Actuellement l’adaptation de ces produits au grand public ne semble pas être une bonne idée car les synthétiseurs sont encore trop précoce et le grand public risque de refuser le produit. Il faut signaler que la synthèse vocale, bien qu’intelligible, demande plus de concentration de la part de l’auditeur que lorsqu’il s’agit d’une discussion entre humains. Cela provient justement du fait qu’elle ne s’exprime pas avec naturel. Son application ne peut donc pas s’étendre sur des services nécessitant une longue interaction avec celui-ci. Néanmoins, si on estime que la plupart des appels téléphoniques durent en moyenne 3 minutes, cette technologie garde tout son intérêt, notamment pour la consultation de service rapide (e-mail, agenda, etc…).

Page 22: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 22 sur 24

16. Lexique Désinence : Marque du féminin ou du pluriel pour les noms et les adjectifs, temps, personne et mode pour les verbes Diphone : Ils s’agit de sortes d’unités phonétiques qui correspondent au son émis du milieu d’un phonème jusqu’au milieu du phonème suivant Formant : un formant est caractérisé par sa fréquence (hauteur) et son intensité (force) Prosodique : Partie de la phonologie qui étudie les faits phoniques qui échappent à l'analyse en phonèmes, tels que le ton, l'intonation, l'accent et la durée Lexème : Unité significative minimale non grammaticale (par opposition à morphème). «Compt-» est un lexème qui entre dans les mots «compte » «comptage »,etc. Morphème : Décomposition des lexèmes en composantes élémentaires correspondant aux préfixes, suffixes, désinences, racines. Phonème : du grec phonema, son de voix, désigne l’unité acousitque minimum qui permet de caractériser tous les sons d’une langue. La plupart des langues comportent moins d’une centaine de phonèmes. Phonétique : La phonétique s’occupe de la modélisationdes aspects articulatoires, acoustiques et perspectives associés spécifiquement au langage oral, donc de la parole. Phonologies : Branche de la linguistique qui s'attache à décrire les systèmes de phonèmes des langues Prosodie : Etude des régles relatives à la métrique et , particulièrement, étude de la durée, de la hauteur et de l’intensité des sons. Syntaxe : Étude descriptive des relations qui existent entre les mots, les syntagmes, et de leurs fonctions dans la phrase.

Page 23: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 23 sur 24

17. Glossaire LPC : Linear Prediction Coding, moteur pour les synthétiseurs basés sur les synthétiseurs à formants DT-PSOLA : Time Domain Pitch Synchronous OverLap Add, moteur pour lasynthèse acoustique par concaténation MBROLA : Multi-Band Re-Synthesis pitch-synchronous OverLap-Add, moteur de synthétiseur avec approche hybrides EAO : Enseignement Assisté par Ordinateur SVI : Serveur Vocal Interactif

18. Bibliographie Pour tout savoir sur VoiceXML : http://www.voicexml.org VoiceXML – Accès vocal au Web (Olivier Declerfayt, Laurence Dang) : http://od06.chez.tiscali.fr/pvxml.html Information sir le format MPEG-4 : http://www.repaire.net/navig/diff_compressions/mpg4.htm La méthode PSOLA : http://www.inria.fr/rapportsactivite/RA95/fractales/node15.html La méthode PAGS/SINOLA http://www.ircam.fr/produits/technologies/pags.html The MBROLA Project http://tcts.fpms.ac.be/synthesis/mbrola.html Didacticiel d'entraînement à la lecture : http://www.lectramini.com/lectra_tts.htm Le synthétiseur vocal «MoulinAParole» du LAIP de Lausanne : http://www.unil.ch/imm/docs/LAIP/LAIPTTS_fr.htm Présentation de la synthèse vocale Kali de la société Electrel http://perso.wanadoo.fr/electrel/kali.html Les produits de la société ELAN speech : http://www.elan.fr/accueil.html

Page 24: Synthèse de la parole

La synthèse de la voix Calia Alessandro 16.07.2002 ETR6

Présentation personnelle Page 24 sur 24

Actualité sur l’informatique : http://www.solutions.jounaldunet.com Virtual Singer, Synthèse de la voix chantée : http://www.myriad-online.com/docs/manual/francais/vstech2.htm Modèle pour l’intonation de la synthèse vocale (Frédéric Beaugendre) : http://www.bibliotheque.refer.org/parole/beaugend/beaugend.htm Extrais de synthèse vocale par digalo http://www.digalo.com/French/MP3_samples.htm#Digalo%20French Reconnaissance et synthèse de la voix, généralité http://www.esi.umontreal.ca/~leboeufm/blt6134/ Explication sur les différents aspect de la synthèse(analyse, synthèse, perception et intonation) http://www.limsi.fr/tlp/intro-e.html Exemple de transformation vocale http://www.unige.ch/fapse/psycholing/JP/jp_synthese.html Synthèse vocale vue par France Telecom Research and Development http://www.rd.francetelecom.fr/fr/technologies/ddm200204/print_index1.htm Exemple historique sur la synthèse vocale http://www.icsi.berkeley.edu/eecs225d/klatt.html Spécifications des ressources orales http://www.elda.fr/fr/cata/spee_det.html Traduction multilingue de dialogues parlés, Projet C-STAR http://www-clips.imag.fr/projets/cstar/clips/IntroClips.html Synthèse Vocale et Reconnaisance de la Parole :Droites Gauches et Mondes Parallèles_ (Thierry Dutoit, Laurent Couvreur, Fabrice Malfrère, Vincent Pagel, Christophe Ris) Séminaire : les modalités vocales en sorties (Philippe Truillet) Interaction Homme-machine non-visuelle, fichier PDF (auteur inconnu) Le traitement du signal vocal (Pierre Combescure, Christel Sorin) Very Low Bit Rate Protocol for TTS Travail de diplôme 2001 de Vincent Maillard

19. Remerciements Un grand merci à Vincent Maillard, assistant à l’eivd, pour sa disponibilité, ses conseils et ses explications.