modèles de paroles expressives rapport de deapayou.free.fr/pub/parolesexpressives.pdf ·...

Troisième année ENSIMAG - INPGDEA Imagerie, Vision, Robotique

Modèles de paroles expressives

Rapport de DEA

Alexandre PERRIN

Projet effectué sous la responsabilité de

Sylvie PESTYet Lionel REVÉRET

Dans le cadre des projets iMAGIS (laboratoire GRAVIR) et MAGMA (laboratoire LEIBNIZ)

Avril 2002

Table des matières

1 Cadre du projet 11.1 Présentation des laboratoires .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 La fédération IMAG .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2 L’institut INRIA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.3 Le laboratoire GRAVIR et l’équipe iMAGIS . . .. . . . . . . . . . . . . . . . . 21.1.4 Le laboratoire LEIBNIZ et l’équipe MAGMA . . .. . . . . . . . . . . . . . . . . 3

1.2 Présentation du sujet de stage .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.1 L’animation faciale et ses enjeux . . . . . .. . . . . . . . . . . . . . . . . . . . . 31.2.2 Intérêt commun des deux équipes . . . . .. . . . . . . . . . . . . . . . . . . . . 41.2.3 Enoncé du sujet: Modélisation de la parole expressive . .. . . . . . . . . . . . . 4

2 Etat de l’art 52.1 Les modèles de visages pour l’expression d’émotions . . .. . . . . . . . . . . . . . . . . 5

2.1.1 Positions-Clé .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.1.2 Modèles par surfaces paramétriques . . . .. . . . . . . . . . . . . . . . . . . . . 62.1.3 Modèles musculaires .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.2 Les modèles de paroles. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.1 Modèle musculaire . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2.2 Modèles paramétriques : Facial Speech Parameters. . . . . . . . . . . . . . . . . 9

2.3 Adaptation à différents modèles de visages . . . . .. . . . . . . . . . . . . . . . . . . . . 9

3 Modèle de parole expressive 123.1 Modèle pseudo-musculaire pour l’expression faciale . . .. . . . . . . . . . . . . . . . . 12

3.1.1 Choix d’un modèle de muscle et paramétrisation .. . . . . . . . . . . . . . . . . 123.1.2 Calcul de l’effet d’un muscle .. . . . . . . . . . . . . . . . . . . . . . . . . . . . 123.1.3 Disposition des muscles sur le visages . . .. . . . . . . . . . . . . . . . . . . . . 13

3.2 Modèle paramétrique pour la parole : Facial Speech Parameters (FSP) . .. . . . . . . . . 133.2.1 Choix d’un modèle de FSP et paramétrisation . . .. . . . . . . . . . . . . . . . . 143.2.2 Calcul de l’effet d’un FSP . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

3.3 Intégration du modèle musculaire et du modèle paramètrique . . .. . . . . . . . . . . . . 14

4 Taxonomie de visages et modèle morphologique 174.1 Taxonomie de visages .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.1.1 Styles de visage. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.1.2 Morphologie de visages . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

4.2 Modèle morphologique. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 184.2.1 Choix d’un modèle morphologique . . . .. . . . . . . . . . . . . . . . . . . . . 184.2.2 Méthode de calcul de la déformation morphologique . . .. . . . . . . . . . . . . 18

4.3 Intégration de la déformation morphologique au modèle de parole expressive . . . . . . . 204.3.1 Utilisation de la morphologie comme transformation . . .. . . . . . . . . . . . . 204.3.2 Utilisation de la morphologie pour transformer un champ de vecteurs . . . . . . . 21

4.4 Limitation du modèle .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

2

5 Implémentation 245.1 Schemas généraux de l’application . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . 245.2 Choix d’une méthode de calcul en vue d’une utilisation en temps réel . .. . . . . . . . . 255.3 Génération de video, son . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

6 Résultats 276.1 Validation du modèle .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

6.1.1 Critère visuel .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276.1.2 Données 3D réelles et enregistrements audios et videos . .. . . . . . . . . . . . . 27

6.2 Quelques résultats . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

7 Bilan 357.1 Travaux futurs . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

7.1.1 Contrôle du visage par analyse. . . . . . . . . . . . . . . . . . . . . . . . . . . . 357.1.2 Paramétrisation du corps entier. . . . . . . . . . . . . . . . . . . . . . . . . . . . 357.1.3 Problèmes detiminget de synchronisation .. . . . . . . . . . . . . . . . . . . . . 35

7.2 Conclusion . . . . . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

A Codage FACS d’Eikman 37

B Visages typiques issus du monde du manga 40B.1 Manga . .. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40B.2 Manga typesuper-deformed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41B.3 Jeu vidéo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3

Introduction

Ce rapport présente mon projet de fin d’études commun à ma troisième année à l’ENSIMAG ainsi qu’àmon année de DEA IVR (Imagerie, Vision, Robotique). Il traite de l’animation faciale, et en particulierde recherche demodèles de paroles expressives. C’est à dire de différentes représentations de visages (hu-mains ou non) permettant de synthétiser simultanément les émotions et les mouvements de la parole demanière convaincante.Après une description du cadre du projet, je présenterai les principales méthodes existantes permettant derecréer les émotions ou la parole. Ensuite je proposerai une méthode hybride basée sur une combinaisonde plusieurs modèles. Ensuite, après une étude de morphologies typiques, une méthode d’adaptation mor-phologique sera proposée. Enfin, cette méthode sera confrontée à des résultats réels, obtenus à partir dedonnées videos et de coordonnées 3D de marqueurs magnétiques.

Abstract

This report describes both my third-year in engineering school project and my DEA training period. Itdeals wi1th facial animation, and particularly with expressive speech models. So I will see differents waysto represents heads - hunman or not - capable of synthetizing at the same time emotional states and speechmovements in a believable maner.After describing the members of the project, I will enumerate the main existing models of speech or facialanimation. Next I will describe an hybrid model to achieve my goal. Then I will show way to defrom amesh thanks to morphological data. Finally, I will test this model with real datas gathered with both videostreams and 3D scattered datas.

Chapitre 1

Cadre du projet

Je réalise mon projet de fin d’études dans deux équipes différentes : d’une part l’équipe de rechercheiMAGIS (de l’INRIA) du laboratoire GRAVIR (CNRS), spécialisée dans le domaine de l’image de syn-thèse, et d’autre part l’équipe de recherche MAGMA du laboratoire LEIBNIZ (CNRS), spécialisée dansles systèmes multi-agents (et travaillant entre autre sur les agents émotionnels).Je vais donc présenter plus en détail ces laboratoires de recherche et situer mon sujet par rapport aux intérêtsde chacuns d’entre eux.

1.1 Présentation des laboratoires

1.1.1 La fédération IMAG

La fédérationIMAG (Informatique et Mathématiques Appliquées de Grenoble) regroupe plusieursUMR (Unité Mixte de Recherche) communes au CNRS, à l’INPG (Institut National Polytrechnique deGrenoble) et à l’UJF (Université Joseph Fourier). L’IMAG regroupe environ 650 personnes (chercheurs,enseignants-chercheurs, ingénieurs, techniciens, administratifs et doctorants), répartis dans les 8 labora-toires suivants :

– CLIPS (Communication Langagière et Interaction Personnne-Système);

– iD (informatique et Distribution);

– LEIBNIZ (mathématiques discrètes, informatique fondamentale, systèmes cognitifs);

– LMC (Laboratoire de Modélisation et Calcul);

– LSR (Logiciel, Systèmes et Réseaux);

– TIMC (Techniques de l’Imagerie, de la Modélisation et de la Cognition);

– VERIMAG(formalisme de modelisation, techniques et outils de validation pour les systèmes et logi-ciels critiques);

– GRAVIR (Graphisme, Vision et Robotique).

1.1.2 L’institut INRIA

Présentation

L’INRIA (Institut National de Recherche en Informatique et en Automatique), crée en 1967 à Rocquen-court, est un centre de recherche scientifique particulièrememnt orienté vers l’informatique, la robotique,le calcul scientifique, les télécommunications et le multimédia. L’INRIA existe maintenant en 5 sites dif-férents en France: Rennes, Rocquencourt, Nancy, Sophia-Antipolis et Montbonnot (créé en 1992).De part son organisation en petite équipes indépendantes d’une quinzaine de permanents, l’INRIA dé-veloppe de nombreux partenariats et projets en communs avec les milieux industriels ou universitaires

2 CHAPITRE 1. CADRE DU PROJET

(environ 1 projet sur 2 est dans ce cas) et a ainsi favorisé la création de nombreuses sociétés (environ 50).

Les projets de recherche

Les groupes de travail de l’INRIA sont appelésprojets de recherche.Un projet de recherche, assimilable à un mini-laboratoire indépendant, se caractérise par :

– Les membres du projet: une quinzaine de permanents plus des non-permanents ;– Un thème de recherche;– Un programme de travail: les résultats de l’équipe sont évalués régulièrement ;– Un budget: l’équipe possède son autonomie financière ;– Des partenariats avec le milieu industriel ;– Une durée définie: une équipe n’existe que pour une durée fixée.

Thèmes de recherche

L’INRIA dénombre au total 75 projets de recherche, répartis sur 4 thèmes principaux :1. Réseaux et systèmes ;2. Génie logiciel et calcul symbolique ;3. Intéraction homme-machine, images, données, connaissances ;4. Simulation et optimisation de systèmes complexes.

1.1.3 Le laboratoire GRAVIR et l’équipe iMAGIS

Le laboratoire GRAVIR

Le laboratoire GRAVIR, dirigé par Claude Puech, se consacre au graphisme, à la vision et à la ro-botique, et comprend 5 équipes de recherche : iMAGIS, MOVI (Modélisation pour la Vision), PRIMA(Perception et intégration pour les environnements sensibles), SHARP (Programmation automatique etsystèmes décisionnels en robotique), ViS (Visualisation, imagerie).

L’équipe iMAGIS

L’équipe iMAGIS (Modèles, Algorithmes, Géométrie pour le graphique et l’Image de Synthèse), diri-gée elle aussi par Claude Puech, est actuellement composée de treize chercheurs et enseignants chercheurs(membres permanents de l’équipe), d’une quinzaine de doctorants, et de quelques post-doctorants. L’équipeaccueille également des étudiants stagiaires à certaines périodes de l’année (stagiaires de DEA et stagiairespendant l’été).

Avtivités

L’équipe iMAGIS développe des modèles et des outils graphiques autour de quatre thèmes différents:– Géométrie Algorithmique: En particulier les structures de données et les algorithmes permettant de

résoudre différents problèmes de topologie et de géométrie (visibilité par exemple);– Modélisation, Animation: Recherche de modèles permettant de simuler des phénomènes dynamiques

en temps réel. Souvent ces phénomènes sont issus du monde naturel (organe virtuel, prairie sous levent, ...);

– Rendu: De nombreux aspects du rendu sont traités: rendu non-photoréaliste, éclairage (radiosité,contrôle de l’erreur,...), représentations alternatives d’objets complexes, visualisation de donnéescomplexes;

– Réalité virtuelle et Réalité augmentée : Thème très porteur actuellement, il traite entre autre de l’uti-lisation de la réalité augmentée dans les situations collaboratives et de l’intégration virtuel / réel.

1.2. PRÉSENTATION DU SUJET DE STAGE 3

1.1.4 Le laboratoire LEIBNIZ et l’équipe MAGMA

Le laboratoire LEIBNIZ

Le laboratoire LEIBNIZ, dirigé par Nicolas Balacheff, traite surtout de mathématiques discrètes, delogique, et de leur applications dans les systèmes inférents et intelligents. Mais le champ de recherche dulaboratoire reste vaste grâce aux nombreuses équipes qui y participent. En effet, certaines d’entre ellesciblent des thèmes périphériques par rapport au thème principal du laboratoire (informatique quantique,usages de l’internet,...). Voici les équipes:

– Apprentissage: Théorie et applications de l’apprentissage machine– ATINF: Logiques et mécanisation de l’inférence– CNAM: Combinatoire Naïve et Apprentissages Mathématiques– DDM: Didactique Des Mathématiques– Did@TIC: Didactique et Technologies de l’information et de la Communication– Graphes– LAPLACE: Modéles aléatoires pour la perception, l’inférence et l’action– MAGMA: Systèmes multi-agents– OPTICOM: OPTImisation COMBinatoire– PMP: Programmation multiparadigme– QUI: Informatique Quantique– RO: Recherche Opérationnelle– Réseaux de Neurones et d’Automates– Usages de l’Internet

L’équipe MAGMA

L’équipe MAGMA, dirigée par Yves Demazeau, est composée de 5 permanents et d’une dizaine dedoctorants et stagiaires. Elle a pour but le développement d’outils théoriques pour la simulation de systèmesmulti-agents et la résolution répartie de problèmes, l’objectif étant l’intégration de systèmes complexesgrâce à une architecture multi-agents. Des agents très étudiés par l’équipe sont les agents conversationnelsque l’on essaie de faire le plus crédible possible, d’où l’introduction d’agentsémotionnelsqui, en plus d’unétat logique, possèdent unétat d’esprit.

1.2 Présentation du sujet de stage

1.2.1 L’animation faciale et ses enjeux

Mon sujet de stage traite de l’animation faciale. Plus particulièrement, il traite de l’animation de visagesà la fois parlants et expressifs. Par "visages", on entend non seulement les visages humains, mais aussi toutmodèle, réel ou imaginaire, sur lequel on peut distinguer une bouche et deux yeux. Bien que l’idée de faireparler ou sourire un visage ne soit pas neuve, l’enjeu de ce stage est d’actualité, à la fois pour la com-munauté scientifique et pour les milieux des jeux videos, des films d’animations et de la téléconférence etéchanges par internet.

Ainsi ce stage répond à plusieurs attentes:– D’abord il cherche à répondre à un soucis de modèlisation: le visage est en effet une structure ex-

trèmement compliquée; les muscles qui l’animent sont nombreux, enchevêtrés et interagissent entreeux. Il est donc trop compliqué et inutilisable de tenter de modèliser fidèlement le visage muscle parmuscle. De plus, des modèles convaincants ont déjà été obtenus pour n’exprimer que les émotionsou que la parole, mais il n’existe pas de modèle paramétrique combinant ces deux dynamiques.

– Ensuite, de manière à être utilisable dans les jeux videos ou dans les agents virtuels, on impose aumodèle de fonctionner en temps réel. Un modèle de visage parlant qui n’est pas interactif n’a quepeu d’intérêt.

4 CHAPITRE 1. CADRE DU PROJET

1.2.2 Intérêt commun des deux équipes

L’intérêt d’un tel stage pour l’équipe iMAGIS est évident. Il s’inscrit pleinement dans un projet RNTL(Réseau National des Technologies Logicielles), PARI (Personnages Animés Réalistes Interagissants), quivise à animer complètement et de manière réaliste, un être humain. Ce projet est donc complémentaired’autres projets iMAGIS comme l’animation de chevelures ou de vêtements. L’équipe MAGMA quant àelle, s’interesse à un tel sujet dans le cadre de leurs agents conversationnels émotionnels. En effet, en plusdu traitement logique et psychologique pour déterminer l’état de l’agent, il leur manque un module pourvisualiser cet état de manière dynamique.

1.2.3 Enoncé du sujet: Modélisation de la parole expressive

La modélisation de personnages réalistes interagissant, munis d’une personnalité et prenant leurs dé-cisions en fonction de leurs émotions, est un sujet de recherche essentiel dans le cadre des applicationsinteractives. Une part importante de cette émotion est véhiculée par l’expression faciale des personnages.Le but de ce stage est de mettre au point des modèles (géométriques, paramétriques, mécaniques,...) devisages animés permettant, au delà de la communication parlée, un contrôle fin de l’émotion transmise. Cestage de DEA s’effectuera en partenariat avec l’entreprise de jeux vidéos "Galiléa".

Des modèles géométriques et biomécaniques du visage ont déjà été proposés par le passé. Néanmoins,leur contrôle reste généralement mal adapté ou trop complexe en termes de degré de liberté pour permettreune simulation réaliste du processus de production de la parole et en particulier pour interpreter des imagesde visages humains réels. A l’inverse, des modèles plus simples de quelques traits faciaux (typiquementles contours des lèvres) ont été aussi proposés. Ils ne représentent cependant qu’une variabilité limitée etspécifique à un type de données. Ils ne fournissent pas d’information explicite et généralisable sur unedescription motrice des articulateurs de la parole.

Des travaux récents [13] ont contribué à montrer qu’une approche articulatoire pouvait être appliquéepour modeliser et interpréter des données visuelles de visages parlants. L’approche articulatoire donne unedescription de haut niveau des mouvememnts de la parole, en accord avec la phonétique et ses corrélatsacoustiques, basée sur 6 degrés de libertés: ouverture de la mâchoire, arrondissement des lèvres, ouverturedes lèvres, relèvements des lèvres, avancée de la mâchoire et relèvement glottal.

En s’appuyant sur ces résultats, la suite de ces travaux sera de poursuivre l’étude de cette hypothèsearticulatoire dans la communication face-à-face. Dans l’état actuel, la modèlisation articulatoire imposeune structure morphologique spécifique à un seul locuteur. De plus, les gestes articulatoires ne couvrentpas les perturbations dues aux expressions de visage spontanément générées lors de la communication.L’objectif sera donc de déterminer comment une description articulatoire de mouvements faciaux peut êtregénéralisée à différents locuteurs et aux expressions de visage.

Mots-clé: Modélisation faciale, animation faciale, lipsync, parole, expressions.

Chapitre 2

Etat de l’art

L’animation faciale se subdivise en trois thèmes principaux :

– l’expression faciale, qui se consacre à l’expression des émotions et traite le visage dans sa globalité;

– la parole, qui traite en particulier de lipsync, de mouvements de la bouche, de la langue, des dents,et de la mâchoire, ainsi que des problèmes de synchronisation;

– l’adaptation morphologique, qui vise à établir des correspondances entre différentes morphologiesde visages.

Le modèle que l’on se propose de réaliser utilise, de manière plus ou moins poussée, chacun de ces troisthèmes.

2.1 Les modèles de visages pour l’expression d’émotions

Cette partie couvre un aperçu des différentes techniques permettant de contrôler un visage, et ce dansune optique d’expression d’émotions. Le contrôle d’un visage est le méchanisme par lequel le modèle devisage peut être articulé et déformé. Bien entendu, il existe de nombreux contrôles adaptés à des situationsparticulières. Par exemple un modèle destiné exclusivement aux mouvements de lèvres devra contrôler demanière beaucoup plus fine la langue et les dents qu’un modèle de visage complet. Cette partie ne traiteque des modèles destinés à l’expression faciale.

2.1.1 Positions-Clé

Les positions-clés ont été une des premières approches choisies pour animer le visage, et fonctionne parinterpolation linéaire entre différents maillages [12]. Le principe de cette méthode est le suivant : on disposed’une base de données de visages (représentant chaque émotions et phonèmes), obtenue par acquisition 3Dou travail d’artistes. Tous ces visages ont la propriété d’avoir exactement la même topologie (on connait unecorrespondance point à point entre deux visages de la base de données). Grâce à cette correspondance entrepoints, on peut aisément calculer une interpolation linéaire entre deux visages. Toutefois, cette méthodeprésente de nombreux inconvénients:

– Les données de base sont volumineuses, et par conséquence les calculs sur ces données sont coûteux.

– Les degrés de liberté des mouvements sont limités par le nombre de positions-clés disponibles; ainsiles visages ne sont pas assez flexibles pour exprimer une grande gamme d’émotions.

– Les positions-clés obtenues pour un visage sont difficilement adaptables à un autre, et il faut recréerla base de données de visages pour chaque modèle.

Malgré tous ces inconvénients, les positions-clé restent encore la méthode la plus utilisée pour pré-calculer les cinématiques des jeux videos; et ceci parce qu’elle nécéssite plus un travail d’artiste que detechnique (cf fig. 2.1).

6 CHAPITRE 2. ETAT DE L’ART

FIG. 2.1 –Maillage de référence et positions-clé pour le personnage de la Banshee du jeu Lochness ( (c)Galiléa )

2.1.2 Modèles par surfaces paramétriques

Une approche différente consiste à modeliser le visage par une surface paramétrique, on déforme alorsle visage en déplacant les points de contrôle de la surface et non plus directement les points du maillage.cette approche est moins côuteuse en terme de quantité de données, mais n’est toujours pas généralisable àun autre modèle de visage.

Une des application de cette méthode utilise des carreaux de courbe B-Spline définis manuellementsur le maillage du visage [8]. En déplacant les points de contrôles des B-Spline, on déforme le visage demanière naturelle. Toutefois, il n’existe aucune méthode efficace pour déterminer les points de contrôleimportants des B-Splines. Une autre application de cette méthode utilise les surfaces de forme libre ration-nelles pour déplacer les points.

2.1.3 Modèles musculaires

Les visages sont animés par les muscles. Il semble donc naturel, pour un modèle de visage, de chercherà lui appliquer un modèle de muscles. L’idée de ces modèles est donc de distinguer deux choses: d’une partle modèle de visage (le maillage), d’autre part le modèle de muscles qui lui est appliqué.

2.1. LES MODÈLES DE VISAGES POUR L’EXPRESSION D’ÉMOTIONS 7

Muscles réels, modèle physique

Une approche naturelle serait de simplement simuler le fonctionnement d’un muscle réel [5], [15], [3].Mais celui-çi est tellement compliqué, que l’on ne possède pas d’information précise sur leur mode defonctionnement... A fortiori, on ne peut pas simuler un comportement que l’on ne connait pas (et de toutefacon la complexité serait telle que cette simulation ne serait pas viable dans le cadre d’un modèle destinéau temps-réel). En effet, les muscles réels possèdent de nombreux degrés de liberté, et leur simulation passepar une prise en compte des intéractions des muscles avec les os (et notamment la mâchoire lorsque celle-cibouge), avec la peau, les différents tissus, et surtout avec les autres muscles. La modèlisation physique d’unmuscle fait donc intervenir les propriétés visco-élastiques des tissus du visages, et demande de nombreauxcalculs.

En plus de la complexité inhérente à un seul muscle, environ trente muscles sont impliqués dans lesexpressions du visage (contrôle des mouvements des yeux, de la face et de la bouche) (cf fig 2.2). Cesmuscles trouvent leur origine au niveau des os du squelette de la face et se fixent sur les tissus mous dela peau du visage tels que paupières, nez, joues et lèvres. Au total, dix-sept muscles entrent en jeu dans lesourire. Paramàtrer un sourire par la configuration d’autant de muscles est loin d’être optimale.

FIG. 2.2 –Pricipaux muscles impliqués dans les expressions du visage.

Modèlisation simplifiée d’un muscle

En fait, de tous les effets d’un muscle, on ne va en garder qu’un: la contraction et l’étirement desmuscles linéaires [1]. Cette contraction se caractérise par un mouvement de la peau vers le point d’attache-ment du muscle au squelette. Pour chaque point de la peau (i.e. du maillage), on obtient donc un vecteur dedéplacement qu’il suffit de ponderer par la valeur de contraction du muscle pour obtenir son effet. Bien en-tendu, la zone d’effet du muscle est localisée. Pour cela on définit le long du muscle un cône d’effet centrésur le point d’attachement du muscle au squelette et s’ouvrant du coté de la peau. De plus, on définit desdistances au point d’attachement minimale et maximale (cf. fig. 2.3). Finalement, un muscle est parametrépar:

– Son point d’attachement au squelette (sa "tête")

– Son point d’attachement à la peau (sa "queue")


– L’angle d’ouverture de son cône– Sa distance minimale d’effet

– Sa distance maximale d’effet– Sa valeur de contraction

Seul la valeur de contraction évolue au cours du temps, un muscle se limite donc à un seul paramètre.

FIG. 2.3 –Zone de contraction d’un muscle linéaire.

Modèle pseudo-musclaire

En utilisant la modèlisation précédente pour les muscles, on obtient un modèle qui ne correspond pasforcément à l’anatomie du visage. C’est pourquoi on le qualifie depseudo-musculaire [4], [9]. Ainsi, lesmuscles peuvent être placés là où le résultat est le plus probant sans tenter de respecter la disposition réelle(d’ailleurs, les muscles de tels modèles dépassent souvent hors du visage. Le modèle le plus célèbre qui aservi de base à de nombreux travaux est celui de Waters [5]. C’est d’ailleurs à partir de ce modèle que nousallons integrer les expressions faciales aux mouvements de la paroles.

Codification de l’effet des muscles : Facial Action Coding System (FACS)

Le schema de codage FACS permet de calibrer les actions relatives au visage [2]. Dans ce système,Ekman identifie 64 paramètres (lesAction Unit, AU), correspondant chacun à l’effet sur le visage d’un ouplusieurs muscles réels. Ce codage a naturellement été utilisé comme paramétrisation musculaire du visage.D’ailleurs, la plupart des modèles musculaires actuels dérive d’une simplification ou d’une synthèse des 64AU. cela dit, ce codage n’est pas très adapté à la parole.

2.2 Les modèles de paroles

2.2.1 Modèle musculaire

Pour obtenir les mouvements de la parole à partir d’un visage, on a d’abord penser à étendre un modèlemusculaire utilisé pour les expressions faciales au besoin de la génération de parole. Cette approche al’avantage de permettre l’integration naturelle des expressions faciales avec la parole. Seulement ce modèlemusculaire possède deux inconvénients majeurs dans le cadre de la génération de parole:

– D’une part la zone d’effet d’un muscle ne dépend que des paramètres intrinsèques de celui-ci. Cequi signifie qu’un muscle ne fera pas la différence entre le haut de la lèvre inférieure et le bas dela lèvre supérieure. On peut résoudre ce problème de 2 manières: soit en rajoutant des informationssémantiques sur le modèle de visage, soit en complètant les muscles avec des plans de coupe pourlimiter leur zone d’effet. Dans un cas comme dans l’autre, l’adaptation d’un modèle à un autre serabeaucoup plus dur (voire impossible) à mettre en oeuvre de manière complètement automatique.

2.3. ADAPTATION À DIFFÉRENTS MODÈLES DE VISAGES 9

En général on devra manuellement détourer les lèvres de manière à limiter l’effet des muscles, cecipouvant être fait de manière interactive et semi-automatique [6].

– D’autre part la nature même des muscles ne les autorise pas à faire certains mouvements commel’arrondissement des lèvres. Pour palier à cela, Edge et Maddock [1] ont repris l’idée originelle deWaters, à savoir utiliser un deuxième type de muscle (le sphincter) dédié à cet effet. Contrairement àla contraction linéaire, ce type de muscle à un effet radial, comme un tube qui se contracterait ou sedilaterait (cf. fig. 2.4).

FIG. 2.4 –Zone de contraction d’un muscle radial (sphincter).

2.2.2 Modèles paramétriques : Facial Speech Parameters

A partir d’un visage 3D de référence (obtenu grâce à la mesure de marqueurs 3D), Lionel Revéretextrait du visage, grâce à une phase d’apprentissage par analyse statistique, 4 paramètres servant à coder laparole : lesFacial Speech Parameters(FSP) [13], [14], [7]. Les 4 paramètres obtenus correspondent à desmouvements bio-mécaniques réels (cf 2.5), qui sont :

– l’ouverture de la mâchoire.– l’arrondissement des lèvres.– la fermeture des lèvres.– le haussement des lèvres.

Après la phase d’apprentissage, ces 4 paramètres peuvent être mesurés en temps réel à partir d’un systèmede suivi vidéo autonome, et surtout reproduits en temps réel puisqu’il s’agit d’un modèle linéaire commandépar l’équation suivante :

X�a1�a2�a3�a4� � µ �4

∑i�1

aiΦi

LesΦi et µ correpondent respectivement au mode de chacun des paramètres, et à la position moyenne. Lesai sont les valeurs des FSP.X étant bien sûr le maillage après application des FSP.

2.3 Adaptation à différents modèles de visages

On souhaite obtenir un modèle assez générique, dans la mesure où l’on se refuse d’avoir à redéfinirpour chaque modèle 3D, des paramètres qui pourraient être obtenus à partir de la morphologie du visage.Il est de ce fait hors de question d’avoir à réévaluer les modes des FSP par exemple. Pour ce faire, il existedes méthodes de transposition d’un modèle sur lequel les paramètres sont étalonnés à un autre en utilisantles différences morphologiques entre les deux visages.

Dans [16], il est nécessaire d’avoir quelques informations sémantiques supplémentaires sur les visages:la position des yeux, du nez, et de la bouche. On applique alors, entre deux visages pour lesquels ces infor-mations sont connues, une déformation par zone (Segmented morphable model) en traitant séparemment


FIG. 2.5 –Effet de chacun des 4 paramètres sur un modèle 3D.

les yeux, la bouche et le nez. D’autres considérations concernant principalement le réeclairage sont évo-quées, mais elles sont au-delà du cadre de cette étude.

Une approche plus orientée vers l’animation est traitée dans [10]. En effet, celle-çi vise surtout à trans-poser desvecteurs de déplacementd’un modèle à un autre, typiquement les vecteurs de déplacement corres-pondant à l’expression d’une émotion ou à la production d’un phonème. Encore une fois, des informationssémantiques sur le visage sont nécéssaires (et jusqu’à l’heure actuelle, il n’existe pas de méthode vraimentefficace n’utilisant aucun information supplémentaire, sauf dans le cas très particulier et plutôt rare où lesmaillages ont exactement la même structure). Les informations sémantiques utilisées ici sont un ensemblede paires de points corespondants entre les modèles (une méthode semi-automatique est d’ailleurs pro-posées pour définir ces correspondances). L’utilisation de fonctions de base radiale permet d’étendre cescorrespondances à l’ensemble du modèle (cf 2.6). Pour la transposition des mouvements, la méthode prendaussi en compte la morphologie, ce qui fait que, par exemple, un déplacement tangentiel au visage resteratangentiel après transposition. Bien que les résultats obtenus soient visuellement très bons, les calculs quecette méthode impliquent sont trop côuteux dans le cadre d’un jeu vidéo (dans lequel l’animation du visagene doit être qu’une petite partie du temps de calcul).

2.3. ADAPTATION À DIFFÉRENTS MODÈLES DE VISAGES 11

FIG. 2.6 –Fonctionnement de la méthode de transposition de Noh et Neumann.

Chapitre 3

Modèle de parole expressive

Le modèle que j’ai choisi utilise deux paramétrisations existantes. D’une part un modèle pseudo-musculaire, qui sert uniquement à l’expression faciale; et d’autre part un modèle de FSP (Facial SpeechParameters). Nous allons donc voir chacun de ces modèles séparemment, puis nous les intègrerons au seind’un modèle commun.

3.1 Modèle pseudo-musculaire pour l’expression faciale

Pour l’expression faciale, la plupart des travaux actuels utilisent une paramétrisation par muscles. Jeme suis moi aussi basé sur un modèle musculaire. Le modèle choisi n’est pas original mais très éprouvé,puisqu’il s’agit de celui de Waters.

3.1.1 Choix d’un modèle de muscle et paramétrisation

Nous avons vu qu’il y avait deux modèles de muscles. Les muscles linéaires et les muscles radiaux.J’ai choisi de n’utiliser que les muscles linéaires. En effet, les muscles radiaux servent surtout à palierl’incapacité à créer des mouvements de squelette avec des muscles linéaires (comme l’ouverture de labouche). Dans notre cas, ce genre de mouvements sera géré par le modèle de parole.

3.1.2 Calcul de l’effet d’un muscle

En reprenant la notation de la figure 2.3, avec les paramètres suivants:

– ��v1: Point d’attachement du muscle au squelette (tête)

– ��v2: Point d’attachement du muscle à la peau (queue)

– a2: Demi-angle d’ouverture du muscle

– Rs: Distance minimale d’effet du muscle

– Rf : Distance maximale d’effet du muscle

– k: Valeur de contraction du muscle. C’est le paramètre du muscle variable dans le temps

On note de plus:

–��Pn et

��Pm les points sur le bord du cône qui sont à la distanceRs de��v1.

–��Pr et

��Ps les points sur le bord du cône qui sont à la distanceRf de��v1.

Pour un point��P quelconque de l’espace, on calcule son image

��P� par le muscle par:

��P� �

��P �a�k�r�

��Pv1

��Pv1�

3.2. MODÈLE PARAMÉTRIQUE POUR LA PAROLE : FACIAL SPEECH PARAMETERS (FSP)13

avec:

a � cos�a2�

D � ��Pv1�

r �

�cos�π�

1�DRs

��P� secteur��v1�

��Pn�

��Pm�

cos�π�

D�RsRf�Rs

��P� secteur��Pn�

��Pm�

��Ps�

��Pr �

Or on s’interesse uniquement au vecteur déplacementd, l’image d’un point du visage étant directementcalculée pour toutes les transformations. Ce déplacement vaut

d ��PP� � a�k�r�

��Pv1

��Pv1�

� α �k

Le vecteur déplacement répond donc à une loi linéaire par rapport au paramètrek. On verra plus tardque l’implémentation du modèle tire profit de cette caractéristique en précalculant les valeurs desα .

3.1.3 Disposition des muscles sur le visages

Le modèle de Waters se compose de 18 muscles (cf. fig. 3.1), allant par paires muscle droit / musclegauche. Ces paires de muscles peuvent se ranger en fonction de leur zone d’influence:

– La bouche: Les muscles qui y participent sont lesZygomatic Majoret Angular Depressor.– Le front : Beaucoup de muscles entrent en jeu. Ils sont lesFrontalis Inner, lesFrontalis Major, les

Frontalis Outer, lesLateral Corigatoret lesSecondary Frontalis.– Le nez et les joues: Cette zone est influencée par lesLabi Nasiet lesInner Labi Nasi.

FIG. 3.1 –Disposition des muscles sur le visage.

3.2 Modèle paramétrique pour la parole : Facial Speech Parameters(FSP)

Le modèle retenu pour la génération de parole est une paramétrisation parFacial Speech Parameters[14]. Dans ce modèle, 6 paramètres (dont 4 vraiment significatifs) contrôlent le visage. Chaque paramètre

14 CHAPITRE 3. MODÈLE DE PAROLE EXPRESSIVE

est associé à une action biomécanique réelle (ouverture de la bouche,...). Le modèle a été développé pourfonctionner avec les langues anglaise et francaise, on peut donc reproduire tous les phonèmes de ces deuxlangues à partir des 4 paramètres.

3.2.1 Choix d’un modèle de FSP et paramétrisation

Chaque paramètre est associé à un champ de vecteur, et chaque paramètre possède un intervalle devalidité. Les FSP sont donc parametrés par les champs de vecteurs correspondant aux valeurs minimales etmaximales de l’intervalle. Dans le tableau de la figure 3.2, sont regroupées ces valeurs extrêmales.

On associe de plus une position de repos. C’est la configuration des paramètres telle que le visagerésultant ne parle pas et garde la bouche fermé. Cette configuration correspond aux paramètres:

– Ouverture de la mâchoire à +1– Arrondissement des lèvres à -1– Fermeture des lèvres à +2– Haussement des lèvres à 0

On note de plus que pour que les FSP soient corrects, le visage de départ (le visage "neutre"), doit corres-pondre aux valeurs nulles des FSP. Cette position est appeléeposition moyennedu visage (cf. fig. 3.3

3.2.2 Calcul de l’effet d’un FSP

Notons µ � ��µi �1�1��N le maillage du visage dans sa position moyenne. Notons de mêmeφMk �

��φM

i�k�1�1��N�k � 1� � �4 et φmk � �

��φm

i�k�1�1��N�k � 1� � �4 les maillages maximal et minimal du visage pourle FSP numérok. On note enfinλ k le paramètreLk la largeur de l’intervalle de validité du FSP numérok.

Le visage après application des FSP a donc un maillageX�λ 1 � � �λ4� égal à:

X�λ1 � � �λ4� � µ �4

∑k�1

λk��φM

k �φmk

Lk�

�i � 1� � �N�Xi�λ1 � � �λ4� � µi �4

∑k�1

λk��φM

i�k�φmi�k

Lk�

� µi �4

∑k�1

λk�βi�k

X�λ1 � � �λ4� � µ �4

∑k�1

λk�βk

Finalement, le calcul des FSP est linéaire par rapport auxλ k, rendant ainsi ce calcul rapide puisque l’onpeut précalculer les champs de vecteurs de déplacementβk

3.3 Intégration du modèle musculaire et du modèle paramètrique

En considérant l’effet des muscles et les FSP comme un champ de vecteurs, l’intégration du modèlemusculaire et du modèle paramètrique est simple:

– On calculeEm�γ1� � � � �γ18� l’effet global de tous les muscles qui ont pour paramètreγk. Pour ce faire,on prend la moyenne de l’ensemble des vecteurs de déplacement générés par les muscles.

– On calculeEf �λ1 � � �λ4� l’effet global de tous les FSP. D’après la formule précédente, celui-çi vautEf �λ1 � � �λ4� � X�λ1 � � �λ4��µ .

– On moyenne ceci, éventuellement avec un coefficientα pour faire varier la prépondérance desmuscles sur les FSP ou l’inverse:

X�γ1� � � � �γ18�λ1� � � �λ4� � αEm�γ1� � � � �γ18��1�α �Ef �λ1 � � �λ4�

3.3. INTÉGRATION DU MODÈLE MUSCULAIRE ET DU MODÈLE PARAMÈTRIQUE 15

FSP Intervalle Minimum Maximum

Ouverture de la mâchoire -2 à +1

Arrondissement des lèvres -2 à +1

Fermeture des lèvres -2 à +2

Haussement des lèvres -3 à +3

FIG. 3.2 –Valeurs extrêmales des FSP.

16 CHAPITRE 3. MODÈLE DE PAROLE EXPRESSIVE

FIG. 3.3 –FSP: Position au repos (à gauche) et position moyenne (à droite).

Chapitre 4

Taxonomie de visages et modèlemorphologique

De manière à rendre le modèle précédent plus générique, on aimerai:

– Dans un premier temps, être capable de déformer un visage selon une autre morphologie. On pourraainsi adapter rapidement un visage à la morphologie souhaitée.

– Ensuite, connaissant la morphologie de deux visages, pouvoir transposer le modèle de muscles et deFSP de l’un sur l’autre.

4.1 Taxonomie de visages

Afin d’établir un modèle morphologique à la fois simple et efficace, on analyse un ensemble de visagestypiques. Le choix d’un corpus de visages a été motivé par deux critères : lasimplicité (on ne cherche pasà travailler sur un modèle photoréaliste) etl’expressivité. Je me suis donc interessé au monde du jeu vidéoet surtout au monde du dessin animé. Beaucoup demangakaont déjà abordé le problème de la taxonomiedes visages. La taxonomie suivante est basée sur l’étude de Tadashi Ozawa [11].

4.1.1 Styles de visage

Je me suis basé sur 3 mondes différents pour établir cette taxonomie. Ces 3 mondes correspondent à 3styles de représentation différents. Ils sont :

– Le manga. Les personnages de manga ont la particularité d’être très simples. Un personnage demanga se dessine en quelques traits, mais reste néanmoins expressif. De plus, ce style de dessin nese limite pas à la bande dessinée japonaise, mais est aussi utilisé dans les jeux videos et les filmsd’animation.

– Le manga "super-deformed" (SD). Dans le manga SD, les personnages, en plus d’être simples,sont souvent très déformés par rapport à la réalité. Typiquement, les personnages ont de grandsyeux, des têtes disproportionnées par rapport au corps, et l’expression faciale est très accentuée (pardes déformations excessives et des effets de style propres au dessin). Ces dessins caricaturaux sontd’excellentes données pour identifier les parties du visage qui participe à la perception de l’émotion.

– Le jeu video. Le monde actuel du jeu video est dichotomique. Les phases de jeu non critiquesen temps (les cinématiques entre autre) sont souvent calculées dans une optique de photoréalisme,et les personnages sont donc assez ressemblant, au niveau morphologique, à la réalité (aspect quin’interesse pas mon étude). Quant aux phases de jeu en temps réel, la morphologie des personnagesqui y évoluent est souvent limitée à un ovale, et le travail d’expression faciale, s’il y en a, se situeuniquement dans l’animation de la texture du visage. Pourtant, la puissance des machines actuellespermet plus que ca.

18 CHAPITRE 4. TAXONOMIE DE VISAGES ET MODÈLE MORPHOLOGIQUE

4.1.2 Morphologie de visages

On peut caractériser les visages de mangas et jeux vidéos grâce à quelques critères principaux (cf fig.4.1):

– Le front: sa largeur, sa hauteur, sa profondeur.– Les joues:leur largeur, qui différencie les visages ronds des fins.– Le menton: sa largeur, qui différencie les mentons pointus des autres.– Les yeux:leur position verticale, facteur très important du visage.– La bouche:sa largeur et sa position verticale.La figure 4.1 montre les différentes morphologies de visages obtenues en prenant en compte les critères

précédents. Les lignes horizontales représentent de haut en bas: la ligne de front (redondante avec la lignedes yeux), la ligne des yeux, et la ligne de nez (en fait c’est la ligne qui passe entre le nez et la bouche). Onpeut d’abord remarquer que les visages de mangas sont beaucoup plus ronds que ceux des jeux videos. Eneffet, un visage rond est plus expressif, plus émotif qu’un visage droit, alors qu’un visage droit parait plusaggressif, ce qui est souvent le but recherché dans les jeux videos. En annexe B, se trouve un exemple dedessin pour chacune des morphologies identifiées.

4.2 Modèle morphologique

Le choix d’un modèle morphologique a été motivé par la taxonomie précédente, de manière à pouvoirreproduire les différentes morphologies de mangas et jeux videos.

4.2.1 Choix d’un modèle morphologique

L’étude précédente suggère un découpage du visage selon 3 paramètres (cf 4.2):– Une boite englobante:définissant les proportions globales du visage.– La ligne des yeux:définisant la hauteur des yeux.– La ligne du nez:définissant la hauteur de la bouche.Toutefois, et en préparation des calculs qui seront à effectuer sur ce modèle, j’ai apporté les modifica-

tions suivantes:– Le nez.Un paramètre de profondeur supplémentaire est ajouté pour pouvoir agir sur la taille du nez.

ce paramètre n’apparait pas dans la taxonomie précédente parce que, bien souvent, les personnagesn’ont pas de nez bien défini. Ce n’est que le prolongement du menton et de la bouche.

– Le contour du visage.Une seule boite n’est pas suffisante pour faire des calculs précis. J’ai ainsiajouté deux degrés de liberté : les largeurs et profondeurs de la boite englobante au niveau de la lignedu nez et des yeux. Le visage est ainsi découpé en trapèzes. Transformer un trapèze en un autre resteune chose facile et on peut ainsi agir sur le menton indépendamment du front et vice-versa.

– Symmétrie.On fait l’hypothèse que la morphologie du visage est parfaitement symmétrique (ce qui,bien entendu, ne s’avère pas toujours exact dans la réalité). Un modèle symmétrique simplifie lescalculs et la quantité d’informations à connaître sur le visage.

4.2.2 Méthode de calcul de la déformation morphologique

Le calcul suppose la connaissance:– d’un visage de départ (un maillage).– d’une morphologie (1) adaptée au visage de départ.– d’une morphologie (2) cible.

L’objectif du calcul est, bien entendu, d’adapter le visage de morphologie (1) à une morphologie (2). Lecalcul se déroule en trois phases.

– Tout d’abord, on va marquer les points constituant le visage comme appartenant à une certaine zonedu visage. Les zones sont définies par les volumes limités par les lignes de la morphologie (1). Ce

4.2. MODÈLE MORPHOLOGIQUE 19

FIG. 4.1 –Morphologies typiques issues du monde du manga et du jeu vidéo.

calcul a l’avantage de ne dépendre que de la morphologie (1), qui elle-même est définie une fois pourtoute; il ne sera donc effectué qu’une seule fois.

– Ensuite, on calcule les facteurs d’échelle entre les morphologies (1) et (2) (cf fig. 4.3). Un facteurd’échelle est le rapport de longueurs entre deux morphologies le long d’une droite. Ces facteursne sont recalculés qu’en cas de modification d’une des deux morphologies. Les changements surle maillage du visage ne conduisent donc pas à un recalcul de ces facteurs. Ainsi on identifie lesfacteurs d’échelle suivants:

– La largeur, la hauteur et la profondeur du front:x0, y0 etz0

– La largeur, la hauteir et la profondeur des yeux:x1, y1 etz1

– La largeur et la profondeur des jouesx2 et z2

– La largeur, la hauteur et la profondeur du mentonx3, y2 et z3

– On calcule un champ de vecteurs correspondant aux déplacements qu’il faut effectuer sur les pointsdu visage pour passer de la morphologie (1) à la morphologie (2). On préfère garder le champ devecteurs plutôt que de calculer directement les nouveaux points de manière à pouvoir par la suite


FIG. 4.2 –Choix d’une structure de boites pour caractériser la morphologie d’un visage. A gauche: modèlesuggeré par la taxonomie; à droite: modèle retenu.

integrer cette transformation aux autres transformations (muscles, FSP).

4.3 Intégration de la déformation morphologique au modèle de pa-role expressive

Il y a deux moyens d’utiliser cette déformation morphologique. On peut l’utiliser en tant que transfor-mation à part entière (elle est alors équivalente à un muscle ou un FSP), ou alors on peut l’utiliser pourtransporter un champ de vecteurs d’une morphologie à une autre (elle devient alors une déformation qui netransporte non pas le maillage du visage, mais lestransformationssur ce visage). On pourra alors générerautomatiquement les muscles et les FSP sur un visage à partir de cette transformation morphologique.

4.3.1 Utilisation de la morphologie comme transformation

Le calcul exposé en 4.2.2 donne un champ de vecteurs, tout comme le calcul des muscles et des FSP. Onpeut alors utiliser ce champ de vecteurs comme une transformation à part entière. Toutefois, contrairementaux muscles et aux FSP, son effet n’est pas moyenné avec les autres transformations, et ce pour deuxraisons:

– L’effet d’une transformation morphologique n’est pas du même ordre de grandeur que celui d’unmuscle ou d’un FSP (il est globalement beaucoup plus important). Une moyenne n’a donc ici pas desens, et fausserait le résultat.

– Une transformation morphologique, contrairement à un muscle ou à un FSP, ne correspond pas à unphénomène biomécanique réel. Elle est donc indépendante et doit donc être traitée à part.

En pratique, la somme de la transformation morphologique avec le résultat de l’ensemble des autres trans-formations donne un résultat correct.

Toutefois, bien qu’au niveau complexité algorithmique la transformation morphologique soit très inté-ressante (elle est en effet de complexité linéaire par rapport au nombre de points du visage), elle souffred’un défaut: les autres transformations sont calculées à partir du visage initial, indépendemment de la

4.3. INTÉGRATION DE LA DÉFORMATION MORPHOLOGIQUE AU MODÈLE DE PAROLE EXPRESSIVE21

FIG. 4.3 –Facteurs d’échelle.

transformation morphologique. La conséquence de ceci est que les vecteurs de déplacements des transfor-mations ne suivent plus la morphologie. Pourtant on s’attend intuitivement à ce que ces vecteurs soienttransformés de la même manière que le visage.

4.3.2 Utilisation de la morphologie pour transformer un champ de vecteurs

Pour palier au problème précédent, j’ai tenté d’utiliser la transformation morphologique d’une touteautre manière: la transformation morphologique va maintenant affecter les vecteurs de déplacements desautres transformations et les appliquer sur un autre visage (donc au maillage et à la topologie différente).Dans ce cas, les calculs deviennent beaucoup plus lourds dû à l’utilisation de fonctions à base radiale pourrésoudre la transformation.

Données de départ et objectifOn se donne deux visages (i.e. deux maillages), tous les deux disposant d’un modèle morphologique

leur correspondant. Les paramètres musculaires et de FSP sont de plus définis pour le premier visage (cffig. 4.4). On cherche à obtenir les champs de vecteurs des transformations du premier visage adaptés ausecond.


FIG. 4.4 –Données initiales nécessaires pour transformer un champ de vecteurs.

Etapes du calculLe calcul se déroule en deux étapes (cf. fig. 4.5):– Transformation morphologique. Cette étape consiste à calculer le champ de vecteurs de la trans-

formation source en fonction des deux morphologies. Ce calcul est très similaire à celui exposé en4.3.1, à cela près qu’il est appliqué deux fois : la première fois pour déterminer l’image des pointsd’attache du champ de vecteurs, et la seconde fois pour déterminer l’image des vecteurs proprementdits.

– Radial Basis Functions.Le champ de vecteurs obtenu lors de la première phase n’est pas applicableau second visage, car celui-ci n’a pas forcément la même topologie que le premier visage. Il estnécéssaire d’adapter ce champ de vecteurs au nouveau maillage, et pour cela on utilise lesfonctionsà base radiale(Radial Basis Functions, RBF).

FIG. 4.5 –Etapes du calcul de la transformation d’un champ de vecteurs.

Détail du calculConsidérons la transformation du visage du départ que l’on veut adapter à un autre. Celle-çi est caracté-

risée par un champ de vecteursVi qui s’applique auxN pointsPi du maillage du visage. Notons ce champde vecteur:

��Pi ��Vi �i�1��N

4.4. LIMITATION DU MODÈLE 23

On applique la transformation morphologique définie en 4.3.1 pour obtenir un nouveau champ de vec-teurs de même dimension:

��P�

i �

��V �

i �i�1��N

Le visage cible a une topologie différente. Notons��Qj� j�1��M les points de son maillage. On cherche

donc à calculer les vecteurs��Wj� j�1��M tel que�

��Qj �

��Wj� j�1��M soit le champ de vecteur de la transformation

initiale applicable au nouveau visage. Pour cela, on définit une fonction à base radialeϕ �r� par:

ϕ �r� � exp��rλ �2

�r � 0�λ constante

En un point��P quelconque, on note

��V ��

��P � la valeur du vecteur de déplacemnt. On a alors les relations:

��V ��

��P � �

N

∑i�1

ϕ ��P ��P�

i ��Ci

��C1 � � �

��CN

�3�N

�

��

ϕ ��P ��P�

1��...

ϕ ��P ��P�

N��

��

N�1

� C�φ��P �

Les��Ci sont à déterminer en fonction du champ de vecteurs�

��P�

i �

��V �

i �. On écrit pour cela:

��V ��

��P�

i � ��V �

i��V ��

��P�

1� � � �

��V ��

��P�

N��

� C�

��φ ��P�

1� � � �

��φ ��P�

N��

N�N��V �

1 � � �

��V �

N

�� C�Φ

V � � C�Φ

D’oùC�V �

�Φ�1

La matriceC permet de calculer rapidement le vecteur de déplacement associé à un pointQ du visage ciblepar

��W�

��Q� �

��V ��

��Q� �C�φ�

��Q� �V �

�Φ�1φ��Q�

Finalement, le champ de vecteurs vaut:

��Qj �

��W�

��Qj�� j�1��M

4.4 Limitation du modèle

Bien entendu, le modèle morphologique choisi est trop simple pour avoir une grande diversité de mor-phologies. Entre autre:

– L’hypothèse desymmétries’avère restrictive dans certains cas. Par exemple, le menton et le nez sonttoujours droit, ce qui n’est pas toujours le cas.

– L’hypothèse d’horizontalité, qui découle du point précédent, ne permet pas de casser l’horizontalitédes yeux.

– Lemanque d’informations sur la bouche, et notamment sur sa largeur et la commisure des lèvres,est très pénalisant quand il s’agit d’adapter des transformations qui concerne cette zone. En effet,le champ de vecteurs est souvent discontinu à la séparation des lèvres, et si le modèle n’est passuffisamment précis, les lèvres inférieures et supérieures se confondent.

Chapitre 5

Implémentation

5.1 Schemas généraux de l’application

L’application, réalisée en C++ / OpenGL possède deux modes de fonctionnement qui correspondentaux deux facons possibles d’utiliser la transformation morphologique.

– Avec un seul visage (cf. fig. 5.1), la transformation morphologique est utilisée comme une transfor-mation normale, à l’exception du fait qu’elle n’est pas moyennée avec les autres mais simplementsommée. L’application calcule d’abord l’effet global des muscles et des FSP en les moyennant (sym-bolex sur le schéma), puis en sommant le résultat avec la morphologie (symboleΣ sur le schéma).

– Avec deux visages (cf. fig. 5.2), on peut utiliser un visage comme source. Grâce à la connaissancedes morphologies des deux visages, on adapte les transformations de la source sur la cible. On créédonc un ensemble de transformation pour le visage cible que l’on peut ensuite appliquer.

FIG. 5.1 –Fonctionnement de l’application avec un seul visage.

5.2. CHOIX D’UNE MÉTHODE DE CALCUL EN VUE D’UNE UTILISATION EN TEMPS RÉEL25

FIG. 5.2 –Fonctionnement de l’application avec un visage source et un visage destination.

5.2 Choix d’une méthode de calcul en vue d’une utilisation en tempsréel

Bien entendu, il n’est pas concevable de recalculer l’effet de chaque transformation (muscle, FSP oumorphologie) à chaque mise à jour de l’application; on va donc profiter du fonctionnement linéaire destransformations. On entend par linéaire le fait que les vecteurs de déplacement d’une transformation secomportent de manièrelinéaire par rapport au paramètre de cette même transformation (linéarité pourchaque vertex).

L’application, de manière à fonctionner en temps réel, procède donc comme suit:– Avant l’execution la boucle principale, on précalcule le champ de vecteurs de chaque transformation

pour une valeur du paramètre égale à 1. Ce champ est stocké en mémoire. On précaclcule de mêmeles transformations morphologiques.

– Pendant l’execution de la boucle principale, la mise à jour du visage consiste à

– Recalculer le champ de vecteurs des transformations qui le nécéssitent (par exemple si le pointd’attache ou la zone d’influence d’un muscle a été modifié).

– Mettre à jour les paramètres des transformations– Réeffectuer la combinaison linéaire des différentes transformations, en affectant chacunes d’un

poids égal à la valeur de son paramètre.– Recompiler les directives d’affichage d’OpenGL

5.3 Génération de video, son

L’application permet, grâce à un format très simple, d’associer du son et une évolution temporelledes paramètres à un visage (cf. fig. 5.3). Toutefois, l’application ne fait aucun test de synchronisation etne garantit nullement le respect des temps d’execution. D’une manière générale, l’applicationn’est pasoptimisée et gagnerait bien évidemment à l’être.

26 CHAPITRE 5. IMPLÉMENTATION

AudioSource: ./Data/Ctmelody.wav

TimeLine: 190 T Expression_:_Neutre0 E 0 0.00100 E 0 0.20200 E 0 0.40300 E 0 0.60400 E 0 0.80500 T Expression_:_Joie500 E 0 1.01100 E 0 0.901200 E 0 0.801300 E 0 0.701400 E 0 0.601500 E 0 0.501600 E 0 0.40...

FIG. 5.3 –Extrait d’un fichier permettant de générer une animation.

Chapitre 6

Résultats

6.1 Validation du modèle

Valider un modèle de visage n’est pas une chose évidente. Le critère le plus utilisable, mais subjectif,dont nous disposions est tout simplement l’aspect visuel et la critique par un oeil humain. Toutefois d’autrescritères plus objectifs peuvent être utilisés : l’utilisation de données 3D réelles, et l’utilisation de sériesd’images ou d’enregistrements videos.

6.1.1 Critère visuel

Un critère visuel, bien que subjectif, reste tout à fait significatif dans notre cas. En effet, notre objectifn’est pas le réalisme, mais bien l’expressivité et la crédibilité du modèle. Le choix même des morphologiesde visage en est la preuve : les personnages de type dessin animé sacrifient beaucoup de réalisme pour êtreplus expressifs. Ainsi la meilleure preuve de la qualité du résultat obtenu n’est pas la comparaison avec laréalité, mais bien l’impact visuel et psychologique sur le spectateur.

6.1.2 Données 3D réelles et enregistrements audios et videos

Matériel utilisé:Pour l’acquisition nous avons utilisé:– Un camescope optique– Un système d’acquisition OPTOTRAK: c’est un système muni de trois caméras linéaires calibrées

pour repèrer des marqueurs magnétiques.– Des marqueurs magnétiques: 6 pour l’étalonnage de l’OPTOTRAK et 18 placés sur le visage pour

l’acquisition.– Le logiciel d’acquisition propriétaire de l’OPTOTRAK, fonctionnant sous Microsoft Windows 2000.

Protocole experimental:Le protocole experimental pour récuperer les données 3D à été le suivant:– Définition de deux dialogues types, en accord avec le stage de D.E.A de Nicolas Bailly sur la

génération de conversation et l’argumentation logique.– Etalonnage du matériel. L’OPTOTRAK s’étalonne en mesurant les coordonnées de 6 pastilles ma-

gnétiques fixées sur une planchette. La caméra a aussi été calibrée.– Fixation des pastilles magnétiques sur le sujet, avec vérification des problèmes d’occlusion des

capteurs.– Enregistrement des dialogues. On mesure simultanément le son, la video, et les coordonnées 3D.

Les dialogues ont été enregistrés à plusieurs reprises, avec différentes tonalités de voix et différentsétats d’esprit.

– Enregistrement des phonèmes. Ce corpus de données est spécifique à la validation du modèle deFSP.

28 CHAPITRE 6. RÉSULTATS

Comparaison avec le modèle:Je n’ai malheureusement pas eu le temps d’analyser les données que nous avons recueillies et de les

comparer avec le modèle théorique. Cette comparaison est néanmois intéressante à mettre en oeuvre dansun futur proche.

6.2 Quelques résultats

Modèle musculaire et FSPCes images montrent la définition des muscles ( à gauche) et le champ de vecteurs associé à un FSP (à

droite) sur deux modèles différents.

Modèle FSP, génération de paroleCes images montrent la combinaison de FSP avec des expressions faciales. On note à droite que des

valeurs extrêmes des paramètres peuvent conduire à des visages assez peu naturels.

6.2. QUELQUES RÉSULTATS 29

Modèle musculaire, expression d’émotionsTests de la position neutre (en haut) et des 6 expressions de base (respectivement la joie, la colère, la

surprise, la tristesse, le dégout et la peur).


Combinaison des FSP et des musclesLe tableaux suivants montre le résultat de la combianison de différentes expressions et FSP. Il montre

aussi que dans le cas d’un maillage trop simple (ici 312 points), le résultat perd en qualité. Ici on ne dis-tingue pas la différence entre la tristesse et la colère. Ceci est dû au fait que le modèle n’a pas d’arcadessourcilières, et la différence entre tristesse et colère (au niveau musculaire) se situe surtout dans les yeux.Le modèle doit donc être bien conçu (par un artiste de préférence) afin d’obtenir de bons résultats.

Pas de FSP Ouverture de la mâchoire Arrondissement des lèvres

Joie

Tristesse

Colère


Modèle morphologiqueVoici quelques exemples de déformations morphologiques associées à des expressions faciales diffé-

rentes.

Modèle Expression neutre Joie Colère

Source

Source avec morphologie 1

Cible avec morphologie 1

Résultat


Modèle Expression neutre Joie Colère

Source

Cible avec morphologie 2

Résultat

Adaptation d’un visage pour correspondre à un autreA gauche on voit deux visages avec leur informations morphologiques. A droite, le visage de gauche a

été déformé pour correspondre à la morphologie du visage de droite.


Utilisation des RBF pour transporter un champ de vecteursLe but de cette expérience à été d’appliquer aux visages de droites les FSPs définit sur les visages de

gauche.Visage neutre

Ouverture de la mâchoire = -2

Arrondissement des lèvres = +1

Arrondissement des lèvres = -2


Fermeture des lèvres = -2

Haussement des lèvres = +3

Haussement des lèvres = -3

Cette experience montre les limitations du modèle et de la méthode de calcul choisie. En effet,– Comme cela était prévisible, les lèvres inférieures et supérieures ne sont pas dissociées, ce qui fait

que le visage cible garde toujours la bouche fermée. L’écartement des lèvres du modèle source serépercute par un écartement de points sur le visage cible. Mais comme ceux-çi ne sont pas les bons(dans notre cas, ce sont des points du menton qui sont affectés), l’aspect visuel du visage change peu.cela confirme le besoin d’avoir des informations précises sur la positions des lèvres et surtout sur laligne de séparation des lèvres inférieures et supérieures.

– La méthode de RBF choisie utilise un paramètreλ dans le calcul (c.f. 4.3.2 ). Ce paramètre està l’heure actuelle fixe, et déterminé empiriquement. Pourtant, il caractérise la largeur de la zoned’influence d’une RBF sur les points voisins. Unλ trop grand signifie que chaque point de la ciblesera affecté par tous les vecteurs de déplacement, et provoquera ainsi un déplacement global (et nonlocal) des points de la cible. Inversement, unλ trop petit entraine que certoins points de la ciblepeuvent ne pas être affectés par le champ de vecteurs. En fait, il n’existe pas de valeur optimale fixepour ceλ . Il faudrait donc utiliser unλ local, lié par exemple à la distance au point du champ devecteurs le plus proche ou à la densité du maillage. Malheureusement cette experience n’a pas puêtre menée à bien, faute de temps.

Chapitre 7

Bilan

7.1 Travaux futurs

7.1.1 Contrôle du visage par analyse

Le modèle présenté ici doit être contrôlé manuellement, à savoir que l’on doit définir l’évolution tempo-relle de la valeur de chacun des paramètres. L’objectif de ce modèle étant un gain de temps dans la créationde têtes parlantes, il serait très intéressant de pouvoir directement contrôler le modèle à partir d’une sourcevidéo et audio. Les paramètres de paroles (FSP) seuls peuvent déjà être analysés à partir d’enregistrementsvideo, grâce à une analyse par suivi vidéo automatique [14]. Cette analyse a le double avantage d’être :

– Rapide: Elle peut se faire en temps réel.– Stable: Dans la mesure où l’on n’extrait que 4 paramètres de la video.Cela dit, il n’est pas évident qu’une analyse du même genre pour tous les paramètres du modèle (FSP

et paramètres musculaires) puissent se faire de manière aussi rapide, et surtout de manière aussi stable.Ainsi, une telle analyse aura sûrement besoin d’utiliser d’autres techniques pour extraire les paramètres demanière efficace (par exemple, utiliser un critère de continuité des paramètres au cours du temps).

Cette analyse permettrait de plus d’apporter une validation du modèle en comparant le visage réel et levisage synthétique pour deux jeux de paramètres identiques.

7.1.2 Paramétrisation du corps entier

Le modèle que j’ai retenu ne prend en compte que peu de paramètres. En effet, il ne considère que lagéométriedu visage. Il faudrait aussi prendre en compte:

– L’aspect du visage:la couleur de peau ( perception du rougissement ou du pâlissement de celle-ci),la brilliance ( perception de la sueur), la brilliance des yeux ( perception des larmes ), la texture de lapeau ( perception de la "chair de poule" par exemple). Tous ces paramètres, dont l’importance reste àtester, sont à l’heure actuelle très peu utilisés dans les modèles de visage et dans l’expression faciale.

– La posture du corps:une étude que j’ai menée cette dans le cadre d’un projet de recherche dans uneentreprise de jeux videos a permi de montrer que la posture du corps avait un impact aussi importantsur la perception des émotions que l’expression faciale. Mais plus important encore: l’étude a montréque la posture du corps était le complémentaire de l’expression faciale. Les résultats détaillés de cetteétude sont malheureusement confidentiels.

7.1.3 Problèmes detiminget de synchronisation

Je ne me suis interessé qu’à l’expression faciale dans le cadre d’images fixes. En effet, les problèmes desynchronisation entre l’expression faciale et la génération de parole n’ont pas été traités. De plus, l’impactdes vitesses de mouvement sur l’expression faciale a aussi été ignoré. Pourtant on s’attend par exemple àce qu’un mouvement de sursaut insiste sur la surprise. Encore une fois, ce sont des routes à explorées, carelles ne le sont pas beaucoup à l’heure actuelle.

36 CHAPITRE 7. BILAN

7.2 Conclusion

L’objectif principal de ce stage était de vérifier la possibilité d’integrer sur une même plate-forme deuxmodèles différents, chacuns adaptés à une tâche spécifique. Le modèle musculaire se destine à l’expressionfaciale, et le modèle de FSP sert à générer la parole. Cet objectif est atteint, dans la mesure où l’on sedonne un maillage bien construit pour le visage (à savoir, un maillage suffisamment détaillé aux endroitscritiques comme la bouche, les yeux et les arcades sourcilières). L’experience montre qu’un maillage de300 points est insuffisant, tandis qu’un maillage de 3000 points est trop détaillé (les performances en sontdégradées). Un bon compromis se situe entre 500 et 1000 points. Sachant que le budget actuel des jeuxvideos en matière de nombre de points sur un personnage complet est de 2500 à 3000 points, le modèleprécédent peut effectivement être utilisé en temps réel dans un jeu vidéo (ou une autre application).

Par ailleurs, le modèle morphologique mis en place, bien qu’incomplet et encore très peu performant,permet d’automatiser la génération de visages à partir d’un seul. En utilisant un modèle plus précis et plusoptimisé, on pourrait même envisager de ne créer qu’un seul visage complet (à savoir avec muscles et FSP)et obtenir de nouveaux visages à partir de celui-çi. Ayant déjà travaillé dans une entreprise de jeux videos,j’ai pu me rendre compte combien il est fastidieux de créer et de gérer une collection de personnages. Unmodèle morphologique efficace permettrait à l’artiste de se concentrer sur un seul personnage.

Finalement, ce stage a levé beaucoup de questions et d’extensions possibles, la plus importante à mesyeux étant bien sûr l’extension du modèle au corps entier, en introduisant la notion temporelle (avec tousles problèmes de synchronisation et de vitesse de déplacement que cela pose).

Annexe A

Codage FACS d’Eikman

Ce tableau décrit les unités d’action (Action Units, AU), etles muscles du visage concernés

AU Description Muscles Exemple

1 Inner Brow Raiser Frontalis, pars medialis

2 Outer Brow Raiser Frontalis, pars lateralis

4 Brow Lowerer Corrugator supercilii, Depressor supercilii

5 Upper Lid Raiser Levator palpebrae superioris

6 Cheek Raiser Orbicularis oculi, pars orbitalis

7 Lid Tightener Orbicularis oculi, pars palpebralis

9 Nose Wrinkler Levator labii superioris alaquae nasi

10 Upper Lip Raiser Levator labii superioris

11 Nasolabial Deepener Levator anguli oris

12 Lip Corner Puller Zygomaticus major

38 ANNEXE A. CODAGE FACS D’EIKMAN


13 Cheek Puffer Zygomaticus minor

14 Dimpler Buccinator

15 Lip Corner Depressor Depressor anguli oris

16 Lower Lip Depressor Depressor labii inferioris

17 Chin Raiser Mentalis

18 Lip Puckerer Incisivii labii superioris and Incisivii labii inferioris

20 Lip stretcher Risorius

22 Lip Funneler Orbicularis oris

23 Lip Tightener Orbicularis oris

24 Lip Pressor Orbicularis oris

25 Lips part Depressor labii inferioris

26 Jaw Drop Masseter, relaxed Temporalis and internal Pterygoid

27 Mouth Stretch Pterygoids, Digastric

28 Lip Suck Orbicularis oris

41 Lid droop Relaxation of Levator palpebrae superioris

42 Slit Orbicularis oculi

43 Eyes Closed Levator palpebrae superioris; Orbicularis oculi

44 Squint Orbicularis oculi, pars palpebralis45 Blink Levator palpebrae superioris; Orbicularis oculi46 Wink Levator palpebrae superioris; Orbicularis oculi

39


51 Head turn left

52 Head turn right

53 Head up

54 Head down

55 Head tilt left

56 Head tilt right

57 Head forward

58 Head back

61 Eyes turn left

62 Eyes turn right63 Eyes up64 Eyes down

Annexe B

Visages typiques issus du monde dumanga

B.1 Manga

Les personnages de manga, bien que visuellement très simplifiés, restent aussi (et souvent plus) expres-sifs que les représentations plus compliquées ou les photos. Voici 3 types identifiables de personnages demangas.

Type A:

Type B:

Type Shoujo:

B.2. MANGA TYPE SUPER-DEFORMED 41

B.2 Manga typesuper-deformed

C’est la version "exagerée" des personnages de manga: les yeux sont souvent très gros, et les expres-sions faciales sont souvent très accentuées, voire completées par des marques symboliques (par exemple,les veines du front ressortent et font une petite marque en croix lorsque le personnage est énervé). Il y a 3types de personnages:

Type A:

Type B:

Type C:

42 ANNEXE B. VISAGES TYPIQUES ISSUS DU MONDE DU MANGA

B.3 Jeu vidéo

Le monde du jeu vidéo est moins riche que celui du manga, et se contente de très peu de modèlesdifférents:Type Héros:

Type Antihéros:

Bibliographie

[1] James D. Edge ans Steve Maddock. Expressive visual speech using geometry muscle functions.EUROGRAPHICS UK, 2001.

[2] P. Ekman and E.L. Rosenberg.What The Face Reveals: Basic And Applied Studies Of SpontaneousExpression Using The Facial Action Coding System (FACS). Oxford University Press, New York,1997.

[3] Wayne E. Carlson Ferdi Scheepers, Richard E. Parent and Stephen F. May. Anatomy-based modelingof the human musculature. Proceeding of SIGGRAPH, 1997.

[4] Daniel D. Hung and Szu-Wen (Steven) T. Huang. Modeling human facial expressions. CS 718 Topicsin Computer Graphics.

[5] Waters K. A muscle model for animating three-dimensional facial expressions. Proceeding of SIG-GRAPH, 1987.

[6] Jörg Haber Kolja Kähler and Hans-Peter Seidel. Geometry-based muscle modeling for facial anima-tion. Graphic Interface, 2001.

[7] Gérard Bailly Lionel Revéret and Pierre Badin. Mother: A new generation of talking heads provi-ding a flexible articulatory control for video-realistic speech animation. Proceeding of the 6th Int.Conference of Spoken Language Processing, ICSLP’2000, Beijing, China, 2000.

[8] Herve Huitric Monique Nahas and Michel Saintourens. Animation of a b-spline figure. Visual Com-puter, 1988.

[9] E. Primeau N. Magnenat-Thalmann and D. Thalmann. Abstract muscle action procedures for humanface animation. Visual Computer, 1988.

[10] Jun-Yong Noh and Ulrich Neumann. Expression cloning. SIGGRAPH, 2001.[11] Tadashi Ozawa.How to draw anime and game characters, volume 1. Graphic-Sha, 2000.[12] F.I. Parke.Computer generated animation of faces. University of Utah, Salt Lake City, 1972.[13] Lionel Revéret. Conception et évaluation d’un système de suivi automatique des gestes labiaux en

parole. pages 1–34. Mémoire de thèse, INPG, Grenoble, France, 1999.[14] Lionel Revéret and Irfan Essa. Visual coding and tracking of speech related facial motion. IEEE

International Workshop on Cues in Communication, 2001.[15] Platt S. and Badler N. Animating facial expressions. Computer Graphics, 1981.[16] Thomas Vetter Volker Blanz. A morphable model for the synthesis of 3d faces. Proceeding of

SIGGRAPH, 1999.

modèles de paroles expressives rapport de deapayou.free.fr/pub/parolesexpressives.pdf ·...

Documents