5e journées nationales de la recherche en robotique

5e Journées Nationales de la Recherche en Robotique

Guidel, Morbihan, 5-7 octobre 2005

Coordination :François Chaumette IRISA-INRIA RennesDominique Duhaut Université de Bretagne Sud, Valoria, Lorient

JNRR’05

Avant-propos

Dans la continuité des quatre premières éditions à Toulouse en 1997, Mont-pellier en 1999, Presqu’île de Giens en 2001 et Clermont-Ferrand en 2003, lescinquièmes Journées Nationales de Recherche en Robotique se tiennent en 2005à Guidel dans le Morbihan.

Le but de ces rencontres reste de dresser un état de l’art des domaines fon-damentaux de la robotique : aspects théoriques ou applicatifs. Elles s’adressent àtous les acteurs de la Robotique, chercheurs et doctorants, industriels et utilisa-teurs.

L’objectif, cette année, est de faire un point sur l’état de la recherche françaiseen se focalisant sur des domaines particuliers que le comité scientifique a retenusoit pour leur importance ou leur nouveauté soit parce que des développementsrécents justifient qu’on leur accorde de l’attention.

En plus de ces actes écrits, les JNRR05 ont édité un CD rom contenant decourtes vidéos qui présentent l’activité en robotique de nombreux laboratoires dudomaine. Même s’il n’est pas exhaustif, ce support multimédia permet une vueinstantanée de la robotique en France en 2005.

Dans une ambiance agréable et studieuse les participants, convaincus que larobotique est l’une des disciplines qui apportera le plus de progrès pour les hommesde demain, seront appelés à réfléchir aux grands thèmes de la recherche françaisepour les années futures.

Les JNRR05 ont été réalisées avec le soutien de l’Université de Bretagne Sud,l’Université de Rennes 1, l’IRISA, la communauté d’agglomération de Lorient, leconseil général du Morbihan, le conseil régional de Bretagne, le CNRS, l’INRIA,le ministère délégué à la recherche, le programme ROBEA, le RTP 17 et le dépar-tement robotique et mini drones de Thalès Optronique, que nous remercions touschaleureusement.

François Chaumette et Dominique Duhaut.

i

Comité scientifique

Rachid Alami LAAS, ToulousePhilippe Bidaud LRP, Fontenay-aux-RosesRaja Chatila LAAS, ToulouseFrançois Chaumette IRISA, RennesEtienne Colle CEMIF, EvryDavid Daney INRIA, Sophia-AntipolisEtienne Dombre LIRMM, MontpellierStéphane Donikian IRISA, RennesDominique Duhaut UBS, LorientJacques Gangloff LSIIT, StrasbourgTarek Hamel I3S, NiceWisama Khalil IRCCyN, NantesChristian Laugier INRIA, Rhone-AlpesClaude Laurgeau ENSMP, ParisNadine Lefort-Piat LAB, BesançonRogelio Lozano-Leal UTC, CompiègneNacer M’Sirdi LSIS, MarseilleLionel Marcé UBO, BrestPhilippe Martinet LASMEA, Clermont-FerrandDominique Meizel GERME, LimogesAlain Micaelli CEA, Fontenay-aux-RosesMaurice Milgram LISIF, ParisEl Mustapha Mouaddib CREA, AmiensFrançois Peyret LCPC, NantesFrançois Pierrot LIRMM, MontpellierGérard Poisson LVR, BourgesAlain Pruski LASC, MetzMarc Richetin LASMEA, Clermont-FerrandVincent Rigaud IFREMER, ToulonPatrick Rives INRIA, Sophia-AntipolisJocelyne Troccaz TIMC, GrenobleSaid Zeghloul LMS, Poitiers

iii

Comité d’organisationEdith Blin-Guyot Irisa, RennesElian Carrillo UBS Valoria, LorientClaude Gueganno UBS Valoria, LorientYann Le Guyadec UBS Valoria, LorientStéphanie Lemaile Irisa, RennesNicolas Mansard Irisa, RennesEric Marchand Irisa, RennesMuriel Pressigout Irisa, RennesFabien Spindler Irisa, Rennes

iv

Sommaire

Robots à pattes et humanoïdesOrganisateurs : C. Chevallereau, P. Blazevic

Éléments de conception et de dimensionnement des robots à pattes 1G. Abba, ENIM, Metz

Recherche en robotique humanoïde 11P. Blazevic, JRL/LRV, Versailles

Quelques outils pour la commande des robots à pattess 13C. Chevallereau, IRCCyN, Nantes

Coopération multi-robotsOrganisateurs : R. Alami, P. Fraisse

Stratégie de commande collaborative réactive pour des réseaux de robots 23P. Fraisse, A.Gil, R. Zapata, LIRMM, MontpellierW. Perruquetti, LAGIS, LilleT. Divoux, CRAN, Nancy

Modèles de décision de groupe pour la coordination et le contrôled’un système multi-robots 31A.I. Mouaddib, GREYC, Caen

Coopération multi-robots: architecture et paradigmes 41Rachid Alami, LAAS, Toulouse

Vision et perceptionOrganisateurs : P. Rives, M. Mouaddib

Méthodes robustes d’estimation pour la vision robotique 51E. Malis, INRIA Sophia AntipolisE. Marchand, IRISA-INRIA Rennes

v

La vision omnidirectionnelle 61E.M. Mouadib, CREA, Amiens

De la modélisation des cellules de lieux à la navigation autonome 69G. Giovannangeli, P. Gaussier, ETIS, Cergy-PontoiseJ.P. Banquet, INSERM U483

Fusion d’informations numériques : panorama méthodologique 79I. Bloch, ENST, Paris

Outils mathématiques pour la mécaniqueOrganisateurs : P. Bidaud, D. Daney

Outils de calcul formel performants pour la résolution decertains problèmes en robotique 89J.-C. Faugère, F. Rouillier, LiP6/INRIA Paris

Géométrie et dynamique en robotique 99F. Boyer, IRCCyN Nantes

Optimisation de forme de micro-mécanismes compliants par laméthode des courbes de niveau 111G. Allaire, F. De Gournay, F. Jouve, CMAP, Palaiseau

Robotique médicaleOrganisateurs : G. Poisson, J. Gangloff, E. Dombre

La conception de robots pour l’assistance aux gestes médicauxet chirurgicaux 117P. Poignet, LIRMM, MontpellierG. Poisson, LVR, Bourges

Commande référencée capteurs en robotique médicale et chirurgicale 131G. Morel, LRP, Fontenay aux RosesJ. Gangloff, LSIIT, Strasbourg

Robotique pour le handicapOrganisateurs : A. Pruski, E. Colle

Outils théoriques de l’automatique au service de la modélisationet de la commande du système sensori-moteur humain 143D. Guiraud, INRIA/LIRMM, Montpellier

vi

Architecture symbolique du VAHM. Une adaptation de la commandeà l’utilisateur de fauteuil automatisé 153A. Pruski, LASC, Metz

Conception bio-mimétique d’un système de téléopération dans l’optiqued’une Coopération Homme-Machine 161P. Hoppenot, LSC, EvryY. Rybarczyk, LMP Marseille

Méthodologie de conception de machines d’entraînement d’évaluationet de rééducation musculaire 171L. Afilal, S. Moughamir, N. Manamanni, CReSTIC, Reims

Robots volantsOrganisateurs : S. Lacroix, R. Lozano

Ballons dirigeables autonomes 181S. Lacroix, LAAS Toulouse

Stabilisation de véhicules aériens à décollage vertical: théorie et application 189R. Lozano, P. Castillo, S. Salazar, D. Lara, Heudiasyc, Compiègne

Modélisation, estimation et contrôle des drones à voiluretournantes : un aperçu des projets de recherche français 197T. Hamel, I3S, Sophia AntipolisP. Soueres, LAAS, Toulouse

Automatique pour la robotiqueOrganisateurs : T. Hamel, C. Samson

Effets des retards sur la stabilité des systèmes de téléopération 211S.-I. Niculescu, Heudiasyc, Compiègne

Stabilisation de trajectoires pour des véhicules non-holonomesou sous-actionnés 217P. Morin, C. Samson, INRIA Sophia Antipolis

Stabilisation d’une classe de systèmes mécaniques sous actionnés parassignation de l’interconnexion et l’amortissement 229R. Ortega, A. D. Mahindrakar, L2S, Gif sur YvetteA. Astolfi, Imperial College, LondresJ. A. Acosta, ESI Séville

vii

Outils informatiquesOrganisateurs : L. Marcé, D.Duhaut

Architectures logicielles pour la robotique 239L. Nana, LISyC Brest

Automatique pour l’automobileOrganisateurs : N. M. Sirdi, D. Meizel

Problématique de l’identification de la liaison véhicule-sol 249M. Basset, B. Zami, G.L. Gissinger, MIPS, MulhouseP. Baggio, Renault, Aubevoye

Modélisations, représentations et observateurs robustes et à entréeinconnue pour l’estimation, le diagnostic et l’analyse du comportementdynamique des véhicules 257N.K. M’Sirdi, M. Ouladsine, H. Noura, LSIS, Marseille

Méthodes de l’automatique pour l’assistance et l’automatisation de laconduite automobile 263S. Mammar, L. Nouvelière, LSC EvryP. Martinet, B. Thuilot, Lasmea, Clermont FerrandS. Glaser, M. Netto, Livic, Versailles

La derivation non entière en isolation vibratoire : application aucontrole global de la suspension de véhicule 273X. Moreau, P. Serrier, A. Oustaloup, LAPS, Bordeaux

Posters

Le simulateur BirthSIM: Pour l’apprentissage du geste obstétriquesans risques 285R. Moreau, O. Olaby, M.T. Pham, X. Brun, T. Redarce, LAI, Lyon

viii

Architecture de contrôle pour la gestion contextuelle de tâchessur les AUV 287A. El Jalaoui, D. Andreu, B. Jouvencel, LIRMM, Montpellier

Réguler le flux optique latéral pour naviguer dans un corridor 289J. Serres, F. Ruffier, N. Franceschini, LMP, Marseille

Gestion des problèmes d’occultation et de collision durantune tâche référencée vision 291D. Folio, V. Cadenat, LAAS, Toulouse

Une architecture décisionnelle pour l’interaction homme-robot 293A. Clodic, V. Montreuil, R. Alami, R. Chatila, LAAS, Toulouse

Reconstruction 3D d’objets sous-marins par asservissement visuel 295V. Brandou, E. Malis, P. Rives, INRIA Sophia-AntipolisA.G. Allais, M. Perrier, Ifremer Toulon

CoSARC : Une approche globale pour le développement decontrôleurs de robots 297R. Passama, LIRMM, Montpellier

Une interface tactile portable à bas coût pour le handicap visuel 299R. Velázquez, J. Szewczyk, E. Pissaloux, LRP, Paris 6M. Hafez, CEA/LIST/SRSI, Fontenay aux Roses

Sélection et contrôle de modes de déplacement pour un robotmobile autonome en environnements naturels 301T. Peynot, LAAS, Toulouse

Robot médical pour l’implantologie dentaire : identification d’un axe 303R. Chaumont, E. Vasselin, M. Gorka, D. LefebvreGREAH, Le Havre

ix

Éléments de conception et de dimensionnement des robots à pattes

G. Abba∗

Laboratoire de Génie Industriel et de Production MécaniqueÉcole Nationale d’Ingénieurs de Metz, Île du Saulcy, 57045 METZ Cedex 1, France

[email protected]

RésuméCe document s’attache à donner les principes de base dufonctionnement des robots à pattes et plus spécialementles robots bipèdes. Après avoir analyser le point de vueénergétique et les analogies avec la roue et les pendules,nous abordons la détermination des trajectoires optimales.L’étude des structures très simples à 2 ou 3 corps permet dedégager une méthodologie de conception. La détermina-tion d’allures optimales peut se faire par une résolution decommande optimale, mais au vue du grand nombre d’arti-culation et de trajectoires possibles, les méthodes paramé-triques sont à privilégier. L’optimisation sous contraintepeut être effectuée avec des critères énergétiques ou de mi-nimisation de la commande. Un bilan énergétique est alorsfourni et les résultats sont comparés en termes de puis-sance, de couples et de vitesses maximums et avec un ob-jectif d’autonomie énergétique du robot. Les choix techno-logiques peuvent être alors analysés. Les principales solu-tions pour la motorisation, les transmissions cinématiquessont exposés et comparés. Ce travail évoque des perspec-tives sous forme d’une liste de problèmes ouverts et de so-lutions d’intégrations qui paraissent les plus prometteuses.

Mots ClefRobots à pattes, robot bipède, trajectoire optimale, bilanénergétique, marche, course, motorisation, transmission,conception de robot, dimensionnement de robot.

1 IntroductionLes êtres vivants ont développé un ensemble de modes delocomotion très diversifiés. La locomotion à pattes fait partides modes les plus efficaces et des plus intéressants à étu-dier. Une analogie avec le déplacement d’un véhicule àroue apporte un éclairage qui permet de mieux comprendrela commande et le dimensionnement des robots à pattes.La figure 1 montre le passage d’un mode de locomotion àroues vers un mode de locomotion à pattes [2]. Pour avan-cer sur un terrain irrégulier, un véhicule à roue nécessite undiamètre des roues très supérieur à la taille des obstacles.

∗L’auteur désire remercier tout particulièrement tous les participantsdu groupe de travail "Robots à pattes" du GDR Automatique du CNRS(1996-99) et du projet ROBEA "Commande pour la marche et la coursed’un robot bipède" (2000-04) pour leur travail et les nombreuses discus-sions constructives qui ont largement contribué à la synthèse présentéedans ce document.

Par exemple, pour une voiture, le diamètre des roues est aumoins quatre fois supérieure à la taille des trottoirs. L’iner-tie d’une roue de grande taille est très importante et néces-site ainsi un transfert d’énergie importante lors des phasesd’accélération et de freinage. Or à un instant donné, unegrande partie de la roue n’est pas directement en contactavec le sol. On peut donc imaginer découper la roue en sec-teurs angulaires dont seul celui qui est en contact avec le solet celui qui va entrer en contact par la suite sont présents.Le secteur perdant le contact lors du mouvement d’avancefera alors une rotation pour venir se positionner devant lesecteur en contact (Fig. 1.b). L’inertie de cette solution estnettement plus faible, mais l’énergie nécessaire pour fairepasser le secteur arrière vers l’avant est non négligeable carla variation d’énergie potentielle est importante. Il apparaîtalors que le levée du secteur arrière afin de le faire pas-ser vers l’avant par le bas est le plus avantageux (Fig. 1.c).Cette solution minimise les transferts d’énergie dans le sys-tème et permet d’augmenter le rendement quelque soit lemode de production de l’énergie mécanique fournie auxarticulations.Lors de son passage vers l’avant, la jambe arrière ou jambeen balancement effectue un mouvement de double penduledont le principal moteur est le champ de gravité terrestre.La jambe en contact avec le sol ou jambe fixe réalise lafonction du secteur correspondant de la roue avec le rayonde liaison avec la hanche du robot. Le paragraphe 4.2 décritles propriétés essentielles de ce robot bipède plan.On peut imaginer une autre solution en considérant lajambe fixe comme un pendule inverse en contact ponctuelavec le sol. Dans ce cas, l’articulation des hanches effectueun mouvement de rotation autour du point fixe de contactavec le sol (Fig. 10). Le pied de la jambe en balancementatteint le sol à la fin de son mouvement avec une vitessenon nulle. Le choc élastique avec le sol provoque la phasesuivante du mouvement avec décollement de la jambe ar-rière qui devient la jambe en balancement. Le paragraphe4.3 aborde l’étude de ce cas et montre quels sont les avan-tages que procurent cette solution.Cet article aborde principalement l’étude et le dimension-nement de robots bipèdes. Certaines méthodes de concep-tion exposées ci-dessous peuvent également être appli-quées à d’autres structures de robots à pattes, en particulierles quadrupèdes. On aborde successivement les structurescinématiques dans les paragraphes 2 et 3, puis les critères

5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 1

a) b) c)

FIG. 1 – Passage de la roue aux pattes

d’optimisation qui permettent de définir l’architecture glo-bale ainsi que la répartition des masses. Les choix techno-logiques permettent ensuite de concrétiser la réalisation durobot et sont abordés dans le paragraphe 5.

2 Structures cinématiques de robotsbipèdes

Les structures cinématiques de robots bipèdes se différen-cient couramment en fonction du nombre de degré de li-berté dans le plan sagittal et dans le plan frontal. Les fi-gures 2 et 3 donnent les principales configurations. Dansle plan saggital, la structure élémentaire est celle ressem-blant à un compas avec trois corps et deux articulations auniveau des hanches (Fig.2.a). Cette structure de base trèssimple apporte énormément d’informations sur la concep-tion et la commande de bipède [21], et l’ajout de jambestélescopiques [22] passives ou actives a permis à Hodgins[7][26] de réaliser un des premiers robots bipèdes à mou-vements dynamiques.L’ajout de genoux (voir Fig.2.b) permet d’éviter le frotte-ment du pied mobile avec le sol (configuration singulièredu robot) ou le franchissement d’obstacles de faible hau-teur. Cette structure possède deux variantes selon que laflexion du genou se fait vers l’avant ("human-like") ou versl’arrière ("bird-like"). La configuration singulière d’aligne-ment de la cuisse et du tibia n’est donc que rarement fran-chie. La solution consistant à ajouter une butée interdisantle franchissement de la singularité est intéressante pour lechoix des moteurs, mais pose un problème de synthèse decommande qui reste un problème ouvert. Il existe d’ailleursdes commandes qui utilisent cette singularité afin d’optimi-ser la consommation énergétique. De plus, une conceptionde l’axe des genoux avec une butée interdisant le passagepar la singularité apporte des avantages en terme d’éner-gie consommée. Le robot Rabbit [41] réalisé dans le cadred’un projet soutenu par le GDR Automatique et poursuivilors du projet Robéa reprend cette structure.La structure bipède la plus complète dans le plan saggital(Fig.2.c) comprend de plus deux pieds avec une articula-tion aux chevilles. Cette structure est habituellement appe-lée bipède à 7 corps.Le passage à des robots et à des trajectoires en 3D nécessitedes articulations dans le plan frontal. Ces articulations serajoutent aux liaisons déjà existantes dans le plan saggital(Fig.2.b ou Fig.2.c). A partir de la configuration (Fig.2.b),les premières articulations supplémentaires sont très sou-vent placées aux hanches (Fig.3.a). Elles permettent des

FIG. 2 – Structures dans le plan saggital

Structure Nb. de Nb. d’arti- Nb. Nb. de Mouve-corps culations DOF moteur ment

Fig.2.a 3 2 5 2 planFig.2.b 5 4 7 4 planFig.2.c 7 6 9 6 planFig.3.a 7 6 12 8 3DFig.3.b 7 7 10 7 3DFig.3.c 8 7 17 11 3DFig.3.c 8 7 22 16 3D

TAB . I – Structures de bipèdes et degrés de liberté

mouvements latéraux, un déplacement du centre de massesau dessus de la jambe d’appui, une stabilisation du mou-vement latéral et l’inclinaison de l’ensemble du robot lorsd’un mouvement de changement d’orientation. Le dépla-cement du centre de masses et une stabilisation du mou-vement peuvent également être obtenus par une articula-tion du tronc au niveau du bassin (Fig.3.b)[38]. La Fig.3.cmontre la structure la plus complète d’une jambe avec 5articulations dans le plan frontal. On peut alors imaginerdeux structures, l’une ayant des articulations de type rotuleau bassin, aux hanches et aux chevilles ou l’autre ayantune articulation rotule au bassin et deux rotations à axesconcourants aux genoux et aux chevilles, ce qui conduitaux structures bipèdes les plus complètes [18][38] corres-pondant à la dernière ligne de Tab.I.

FIG. 3 – Structures dans le plan frontal

Tab.I résume l’ensemble des structures et donne leurs pro-priétés essentielles. Le passage de la structure bipède laplus complète aux robots humanoïdes se fait par additiondes membres supérieurs et de la tête [24][25]. Pour certainshumanoïdes, les auteurs ont également prévu une articu-lation au centre du tronc. Les membres supérieures com-portent habituellement une liaison rotule à l’épaule et deuxrotations à axes concourants au coude. Le poignet et les


mains sont plus ou moins complexes en fonction de l’ap-plication prévue du robot et constitue un sujet de rechercheen soi qui n’est pas abordé ici.

3 Structures cinématiques de robotsquadrupèdes

Les structures cinématiques de robots quadrupèdes se dif-férencient des structures bipèdes par la localisation despattes et leur liaison à un corps commun couramment ap-pelé plateforme. Le nombre de degré de liberté pour unejambe dans le plan sagittal et dans le plan frontal peut sedéduire des configurations déjà vues sur les bipèdes. Lesfigures 4 et 5 montrent les principales configurations.Dans le plan saggital, la structure élémentaire comprendgénéralement la plateforme sensiblement horizontale etquatre pattes rattachées au niveau des épaules (pattes anté-rieures) et des hanches (pattes postérieures) (Fig.4.a). Cettestructure de base a été étudiée par [10], [19].La structure quadrupède la plus complète dans le plan sag-gital (Fig.4.b) comprend de plus une articulation aux che-villes. Cette structure est habituellement appelée quadru-pède à 13 corps.

FIG. 4 – Structures quadrupèdes dans le plan saggital

Le passage à des robots quadrupèdes en 3D nécessite desarticulations supplémentaires dans le plan frontal. Les ar-ticulations se rajoutent aux liaisons déjà existantes dans leplan saggital (Fig.4.b). Les articulations supplémentairessont placées aux hanches (Fig.5.b) et des chevilles. Ellespermettent des mouvements latéraux et différentes alluresde marche dynamiques.

FIG. 5 – Structures quadrupèdes dans le plan frontal

Tab.II résume l’ensemble des structures et donne leurs pro-priétés essentielles. Les robots quadrupèdes peuvent éven-

Structure Nb. de Nb. d’arti- Nb. Nb. de Mouve-corps culations DOF moteur ment

Fig.4.a 11 8 14 8 3DFig.4.b 15 12 18 12 3DFig.5.b 15 20 26 20 3DFig.5.b 15 20 30 24 3D

TAB . II – Structures de quadrupèdes et degrés de liberté

tuellement être munis d’une tête montée par une liaisonrotule. Le passage de la structure quadrupède aux robotsmultipèdes se fait par addition de pattes supplémentaires.Pour certains robots, les auteurs ont également prévu unearticulation rotule au centre de la plateforme. L’articulationde la plateforme permet d’allonger la longueur des pas, enparticulier lors du mouvement de course, et comportent ha-bituellement une liaison rotoïde d’axe horizontal (modèledu cheval) ou vertical (modèle reptile). L’étude des robotsquadrupèdes et multipèdes constitue un sujet de recherchequi n’est pas développé ici. Ils possèdent tous la propriétéd’avoir une démarche stable à faible vitesse (l’allure demarche permettant de maintenir à tout instant un polygonede sustentation ) et d’accepter une charge utile importante.

4 Optimisation énergétique4.1 IntroductionLes études sur les robots bipèdes dit "passifs" ont claire-ment illustré cette problématique énergétique. Un robot estdit passif lorsqu’il ne nécessite pas d’énergie externe. Ilne possède donc pas d’actionneurs électriques ou autres.Par contre, un robot passif peut avoir plusieurs disposi-tifs de stockage d’énergie, tel des ressorts. Les travaux deMcGeer [29][30] dans les années 1990 ont conduit plu-sieurs auteurs à s’intéresser à cette approche. L’idée prin-cipale consiste à chercher des structures mécaniques quisous l’effet de la gravité et de leur fréquence de résonancepropre reproduisent un mouvement d’avance qui nécessitetrès peu d’énergie [6][17][39]. Des robots bipèdes sans au-cun moteur ont ainsi été réalisés. Leur mouvement paraîttrès fluide et naturel. La figure 6 montre le robot réalisépar Collins [15]. Les robots passifs ont la particularité dene nécessiter que l’énergie perdue en interne dans le ro-bot. Comme le robot ne possède pas d’actionneurs, il suffitde compenser les frottements mécaniques qui sont de deuxtypes, les frottements dans les articulations et les frotte-ments ou l’énergie dissipée au niveau du sol. Une étudefaite par la société Honda [42] montre que les robots hu-manoïdes motorisés tel que le robot Asimo consomme àl’heure actuelle 16 fois plus d’énergie qu’un robot passif(ici le robot de Cornell University [15]) ou qu’un être hu-main. Cette étude ne donne cependant pas de précisions surles vitesses de marche qui conduisent à ces consommationsénergétiques, les données ne sont donc pas tout à fait com-parables. Évidemment, les vitesses de marche des robotspassifs sont liées très étroitement aux fréquences d’oscil-lations propres de la structure mécanique, ce qui limitent


FIG. 6 – Robot bipède de S. Collins

FIG. 7 – Comparaison des consommations énergétiquesentre le robot Asimo, un robot passif et l’homme (d’aprèsHonda Corp.)

considérablement les applications. Par contre, l’étude desrobots passifs a permis de développer les méthodes d’opti-misation des trajectoires de marche ou la synthèse de com-mande stabilisante. On admet généralement que les robotspassifs ont une allure de déplacement très anthropomorphe.À l’inverse, ceci sous-entend que le mouvement de marchehumain cherche à minimiser l’énergie consommée.D’autre part, les travaux de recherche entrepris dans lecadre du projet Robéa du CNRS [41] montrent qu’un robotsans pied peut être commandé et stabilisé et que les trajec-toires obtenues sont également d’allure anthropomorphe.La fonction essentielle des pieds est ainsi d’établir une liai-son optimale avec le sol et d’augmenter l’adhérence afin detransmettre les forces motrices d’avance. Ces dernières re-marques sont très importantes dans la démarche de concep-tion d’un robot car elle permet de fixer les fonctions prin-cipales de chaque articulation.L’étude des robots les plus simples (2 ou 3 corps) apportedes informations très pertinentes pour la conception et l’op-timisation de structures à pattes. Les deux paragraphes sui-vants montrent les résultats obtenus avec deux structuressimples.

=

=

=

=

=

=

FIG. 8 – Jambe en balancement

4.2 Mouvement du double pendule entraînéà vitesse constante

Le cas de la jambe en balancement, reliée au niveau deshanches à un secteur circulaire muni d’un rayon (la jambefixe) et entraînée dans un mouvement d’avance continu,est représenté Fig. 8. Ce système très simple permet déjàd’avoir un ordre de grandeur des énergies nécessaires à samise en marche. La figure 9 montre la consommation éner-gétique de ce système en fonction de la vitesse moyenned’avance et pour différentes répartitions des masses entrela cuisse et le tibia (caractéristiques physiques données enannexe). La valeurz2 fixe la distance entre le centre de gra-vité du tibia et l’axe de rotation du genou. On peut remar-quer que la meilleure solution est obtenue pour un centre degravité placé plus près du genou (courbe verte). La courberouge est obtenue pour une masse du tibiam2 = 2,2 kgplus faible que pour la courbe en magenta (m2 = 3,2 kg).Les lignes horizontales en bleu indiqués la puissance four-nie par un moteur à courant continu à aimants permanentsau Samarium-Cobalt pour une masse donnée de moteur.Sur la figure représentant le cas de la jambe en balance-ment, on constate qu’avec une masse totale des moteurs de1 kg, on peut atteindre toute la plage de vitesse proposée.Le cas de la jambe d’appui conduira à un dimensionnementbien plus lourd.En conclusion, on a intérêt d’une part, à avoir les centresde gravité des corps placés le plus près des articulationscorrespondantes et d’autre part à avoir la masse du tibia laplus faible possible, même s’il est nécessaire d’augmenterla masse des cuisses. Le même raisonnement est valablepour un robot ayant des pieds et il est donc très importantde diminuer le plus possible leur masse. Les moteurs decommande des degrés de liberté des chevilles seront doncplacés sur le tibia et le plus près possible deO3. De pus, on


0 0.5 1 1.5

100

101

jambe mobile, robot Rabbit

puis

sanc

e en

W

vitesse en m/s

m1 = 7,8 kg

m2 = 2,2 kg

z2 = 0,2 m

m1 = 6,8 kg

m2 = 3,2 kg

z2 = 0,15 m

m1 = 6,8 kg

m2 = 3,2 kg

z2 = 0,2 m

mm

= 1 kg

mm

= 0,5 kg

FIG. 9 – Puissance totale consommée par la jambe en ba-lancement

V

V

FIG. 10 – Pendule inverse

a intérêt à n’avoir que 2 degrés de liberté aux chevilles, larotation du pied étant reportée au niveau du genou.

4.3 Mouvement d’un robot ressemblant à un"compas"

Cette structure a été étudié en détail dans [20][21]. Ce ro-bot est représenté Fig. 10. Il comprend une jambe en ba-lancement, reliée au niveau des hanches à la jambe fixe encontact ponctuel avec le sol et est entraînée dans un mou-vement de pendule inverse pour la jambe fixe et de penduledirect pour la jambe mobile, En l’absence de frottementset de pertes énergétiques au niveau du contact avec le sol,le mouvement de marche impose pour la jambe fixe, desvitesses de la hanche identiques en début et en fin de pas.Le contact avec le sol a l’effet d’un choc élastique sur lastructure et on obtient ainsi une brusque variation de la di-rection de la vitesse des hanches (même effet qu’une bandede billard).La figure 11 montre les courbes de puissance du moteurde hanches nécessaire pour différentes masses de la jambemobile. On peut remarquer une augmentation significativede la puissance nécessaire en fonction de la masse. Lesminimums locaux de la courbe sont atteints pour les fré-quences de résonance de la structure mécanique. Les lignes

0 0.5 1 1.5

101

102

pendule double, z2=0,328m m

1=20kg z

1=0,2m

puis

sanc

e en

W

vitesse en m/s

m2 = 10 kg

m2 = 6 kg

m2 = 8 kg

mm

= 1 kg

mm

= 5 kg

mm

= 3 kg

FIG. 11 – Puissance consommée par la jambe fixe

horizontales en bleu indiquent comme précédemment lapuissance fournie par un moteur à courant continu à ai-mants permanents au Samarium-Cobalt pour une massedonnée de moteur. Si l’on répartit les masses en mouve-ment entre le moteur et les autres éléments de la jambe àraison de 50%, ces courbes montrent (en première approxi-mation) qu’une masse de la jambe de 6 kg (donc 3 kg pourle moteur) permet d’atteindre une vitesse maximale de 1,37m/s. Pour une masse de la jambe de 10 kg, le point d’inter-section des courbes avec la courbe bleu à 5 kg donne unevitesse maximale de 1,3 m/s.En conclusion, on a intérêt à avoir les masses des jambesles plus faibles possibles et les actionneurs électriques avecla puissance massique la plus importante pour pouvoir at-teindre des vitesses de déplacement élevées.

4.4 Critères d’optimisation

L’utilisation du robot bipède exige une autonomie maxi-male et par conséquent d’économiser l’énergie contenuedans une masse limitée de batteries. L’analyse des fluxd’énergie dans l’alimentation et les moteurs électriquesainsi que dans la structure mécanique des robots aide àdéfinir le critère d’optimisation le plus adaptée. Les mo-teurs habituellement utilisés sont des moteurs à courantcontinu ou des moteurs synchrones triphasés ("brushless").Ces moteurs sont alimentés par des convertisseurs de puis-sance commandés en MLI.Les différentes structures possibles sont représentées surles figures 12 et 13. La structure électronique classique uti-lisée dans la majorité des robots ne permet pas un trans-fert bidirectionnel de l’énergie. En cas de renvoi de l’éner-gie cinétique vers l’alimentation, un module dissipatif éva-cue cette énergie. Le critère énergétique le mieux appropriépour l’optimisation est alors donné par :

Γ =12

[∣∣∣∣∣n∑

i=1

Pi

∣∣∣∣∣ +n∑

i=1

Pi

](1)


FIG. 12 – Structure d’alimentation classique

FIG. 13 – Structure d’alimentation d’un robot autonome

avecPi la puissance fournie à laieme articulation motori-sée du robot etn le nombre d’axes motorisés.Dans le cas d’une structure d’alimentation par batterie(Fig.13), le stockage de l’énergie fournie par le systèmemécanique lors de certaines phases du mouvement est pos-sible. Le critère énergétique le plus approprié est alorsdonné par :

Γ =12

n∑

i=1

Pi (2)

Ce dernier critère revient au même que de minimiser l’en-semble des pertes (pertes Joule, pertes mécaniques par frot-tement dans les transmissions et les articulations, pertes decontact avec le sol). Les deux critères évoqués diffèrent deceux habituellement utilisés en automatique. Ils ne peuventpas être écrits sous une forme quadratique de la commandeet/ou de l’état.

4.5 Écriture du problème d’optimisation

Le comportement du robot peut être décrit par l’équationdifférentielle suivante :

X = F (X, t) + BU + JTe (X, t)Fe (3)

avec X le vecteur d’état du système composé de l’en-semble des coordonnées articulaires et des coordonnées deposition et d’orientation dans l’espace du robot, ainsi quedes dérivées des grandeurs précédentes. Le vecteurF (X, t)contient l’ensemble des forces d’accélération, inertielles etde Coriolis issus des équations de Lagrange. La matricede commandeB définit l’action des moteurs. La matriceJT

e (X, t) définit l’effet du vecteur des forces extérieuresFe sur le robot.

10 15 20 25 30 350

0.1

0.2

0.3

0.4

0.5

step length in cm

spee

d in

m/s

120 J

140 J

300 J

FIG. 14 – Consommation énergétique du robot bipède duLSIIT

Le robot est soumis à un ensemble d’équations decontraintes. On distingue les contraintes géométriques (bu-tées, espace atteignable, etc.), les contraintes dynamiques(vitesses maximales, couples maximums), les contraintesd’environnement (obstacles, tâches prédéfinies, etc.) et lescontraintes de contact (contact unilatéral avec le sol). Cescontraintes sont mises sous forme d’inégalitésg(X, t) < 0ou d’égalitésh(X, t) = 0.On désire minimiser le critère énergétiqueΓ défini précé-demment. Ce critère est multimodal et très sensible auxvariations de la structure du robot, en particulier aux va-riations des contacts avec le sol. De plus, la déterminationprécise de l’énergie consommée nécessite une modélisa-tion très précise et très fine de toutes les formes de frot-tements. L’énergie perdue dans le contact avec le sol (enparticulier en cas de choc) est très difficile à obtenir et de-mandera encore des études.

4.6 Méthodes d’optimisationDe nombreux auteurs se sont intéressés au problème d’op-timisation des allures de robots à pattes [3][4][5][8][9][11][12][14][16][28][31][32] [33][34][35]. Les allures étantdans la plupart des cas cycliques, on cherche générale-ment des solutions optimales avec des configurations spa-tiales initiale et finale identiques. La cyclicité a conduit denombreux auteurs à paramétrer les coordonnées du vec-teur d’étatX sous forme de développement en série (sé-rie de Fourier, de Legendre, série entière). Les travaux plusrécents ont montré que l’écriture des coordonnées articu-laires sous forme de polynôme de Bezier est la plus inté-ressante [34][35].La résolution du problème d’optimisation donne bien sûrl’allure du déplacement du robot. La longueur des pasLp

est habituellement fixée. En faisant varierLp, on obtient unensemble de courbes d’isoénergie qui permettent de choi-sir au mieux la trajectoire des pattes d’un robot. La figure14 montre ces courbes optimales dans le cas du robot bi-pède développé au LSIIT [5]. On remarque qu’on a intérêtà augmenter légèrement la longueur des pas lorsque l’onveut augmenter la vitesse de marche.Il est alors également possible de chercher des solutions


optimales en terme de structure, de position des masses, delongueur des segments des pattes, etc. Ce problème d’op-timisation de structure ou de placement des éléments dela conception mécanique des robots à pattes est nettementplus ardu. Le nombre de paramètres à optimiser augmenterapidement. Les algorithmes d’optimisation paramétriquebasés sur les méthodes du simplex ou les algorithmes gé-nétiques sont alors à privilégier [5].

5 Solutions technologiques pour lesrobots à pattes

5.1 Éléments de choix de la motorisationLa conception des robots à pattes nécessite des composantspour la réalisation de chaînes cinématiques complexes.L’essentiel des mouvements à générer étant des mouve-ments de rotation, on a besoin de deux fonctions de base :la réduction de la vitesse de rotation et la modification del’orientation ou le décalage d’un axe de rotation [36][37].La première fonction est rendue nécessaire par l’emploi demoteur électrique. Ces moteurs n’ont un bon rendementque pour des vitesses de rotation élevées (quelques mil-liers de tr/min). La deuxième fonction permet de déplacerla masse des moteurs et des réducteurs dans une zone durobot intéressante, soit du point de vue énergétique commeon a vu précédemment, soit du point de vue conception enoccupant mieux le volume dédié au robot.Le choix des moteurs est une étape capitale de la concep-tion d’un robot à pattes [13]. L’augmentation de la chargedu robot passe par une diminution des masses des élémentsmécaniques, des transmissions et des moteurs. Les tra-vaux de dimensionnement des moteurs électriques [27][40]montrent que l’élément déterminant pour le choix d’un mo-teur de robot bipède est son coefficient d’efficacité. Cecoefficient est défini par référence au moteur à courantcontinu, mais un coefficient similaire peut être obtenu pourtous les moteurs électriques. Le coefficient d’efficacitéKm

est défini par :

Km =Clim√

PJ

=ke√R

(4)

avecClim le couple moteur instantané limite,PJ les pertesJoule correspondantes,ke la constante de couple etR larésistance d’induit. Le coefficient d’efficacité est propor-tionnel à la masse du moteur puissance5/6.Lorsqu’il est nécessaire de comparer des moteurs de puis-sance ou de couple moteur très différent, il est utile de par-ler du coefficient de qualitéQm du moteur défini par :

Qm =Km

m5/6=

Clim√PJm5/6

(5)

avecm la masse du moteur.La figure 15 donne les valeurs du coefficient de qualitépour différentes technologies et différents dimensionne-ments de moteurs électriques. Les moteurs considérés ici

FIG. 15 – Coefficient de qualité pour différents types demoteurs

sont tous des moteurs à courant continu à aimants perma-nents. Le matériau de l’aimant et la forme du rotor carac-térisent chaque type de moteur. Les types de moteur repré-sentés sur la figure sont réalisés avec des aimants perma-nents en ferrite ou en Samarium-Cobalt (noté SmCo) ouen Neodym-Bore (noté Neodym). Les autres types sont ca-ractérisés par des moteurs sans matériau ferromagnétiqueau rotor (noté sans fer) ou par des grands couples moteurs(noté direct). Les moteurs dit "moteur couple" ou "directdrive" forment une catégorie particulière qui ne nécessitepas de réducteur.Certains moteurs nécessitant un réducteur et d’autres pas,la comparaison entre les différentes technologies évoquéesprécédemment demandent donc la prise en compte de lamasse de la transmission mécanique. On peut ainsi définirpar analogie un coefficient de qualitéQa de l’associationmoteur-réducteur. Ce coefficient est défini par :

Qa =Cmax√

PJ (mr + m)5/6(6)

ou encoreQ en tenant compte également des pertes méca-niques dues au réducteur

Q =Cmax√

PJ + PM (mr + m)5/6(7)

avecmr la masse etPM les pertes mécaniques des élé-ments de transmission (réducteur). On obtient ainsi les ré-sultats Fig. 16.La comparaison entre les deux figures montre clairementcomment le réducteur permet d’augmenter le coefficientde qualité de l’association. On aura intérêt à monter desréducteurs et des éléments de transmission mécanique surchaque axe.En conclusion sur le choix de la motorisation, il appa-raît nécessaire de choisir des moteurs électriques ayantdes aimants permanents de grandes efficacités, c’est-à-direcapable de produire une pression magnétique importante


FIG. 16 – Coefficient de qualité de l’association réducteur-moteur

FIG. 17 – Photo de la conception de la liaison des chevillesdu robot Bip

pour une masse d’aimant minimale. Les moteurs notés"SmCo" et "Neodym" sont donc à privilégier de même queles moteurs "sans fer au rotor" qui ne sont disponibles quepour des petites puissances.

5.2 Éléments de choix des transmissionsLa conception des chevilles et des pieds est l’un des pro-blèmes les plus difficiles. Il est nécessaire dans un espaceréduit de mettre en place deux articulations motorisées etéventuellement des articulations passives. Le pied contientégalement plusieurs capteurs (détection de contact, mesured’efforts et de mouvement de dérapage, etc.). Les moteursdoivent être placés le long du tibia afin de mieux utiliserl’espace utile, de diminuer la taille du pied et de rappro-cher les masses du tronc. Les transmissions à renvoie co-nique, les systèmes vis à billes et les structures parallèlessont donc à privilégier. Une très bonne conception des liai-sons de la cheville a été proposée par Sardain et al. dans[36][37] et est représentée Fig.17.

FIG. 18 – Détails de la conception de l’articulation du ge-nou du robot Rabbit

Pour l’articulation des genoux, l’utilisation d’un réducteurde type "Harmonic Drive" est à privilégier, car il possèdeun bon coefficient de qualité, il permet de réaliser éga-lement directement la fonction de guidage et une trans-mission par courroie permet de rapprocher le moteur deshanches et ainsi de remonter leur masse. Cette solution aété adoptée pour la construction du robot Rabbit (Fig.18).La complexité de réalisation de l’articulation des hanchesvient du fait qu’il est nécessaire de motoriser une liai-son rotule complète. La place pose dans une certaine me-sure moins de problèmes car les moteurs sont ici placéssur le corps central du bassin. Plusieurs développements[23][24][25][37] très réussis ont été proposés (voir Fig.19).Néanmoins, ces conceptions sont souvent très fragiles. Lesévolutions possibles de la conception de l’articulation deshanches doivent tenir compte des travaux sur les robotsparallèles [1]. Les liaisons rotules à centre de rotation va-riant dans le temps sont également à envisager avec la plusgrande attention.

6 ConclusionCe document présente d’abord les analogies entre les struc-tures de locomotion à roue et à pattes. Les structures ciné-matiques bipèdes et quadrupèdes dans les plans sagittal etfrontal sont ensuite présentées et analysées.La détermination des trajectoires optimales est un sujet trèsimportant puisqu’il détermine l’autonomie énergétique durobot. Leur détermination peut se faire par une résolutionde commande optimale, mais au vu du grand nombre d’ar-ticulation et de trajectoires possibles, les méthodes para-métriques sont à privilégier. L’optimisation sous contraintepeut être effectuée avec des critères énergétiques ou deminimisation de la commande. L’analyse des puissancesconsommées par des structures simples comme une seulejambe en balancement ou un robot de type "compas" a per-


FIG. 19 – Détails de la conception des articulations deshanches du robot HRP2

mis de fournir des règles de conception de ces robots.Les principales règles qu’il est nécessaire d’appliquer lorsde la conception et du dimensionnement des robots à pattesont été rappelées. L’analyse énergétique montre qu’il estnécessaire de remonter le centre de gravité des corps du ro-bot et donc placer les actionneurs des pattes le plus hautpossible dans la structure. Ce placement impose des trans-missions cinématiques qui augmente la masse. L’effica-cité de l’ensemble moteur-transmission mécanique repré-sente ainsi le meilleur critère pour le choix des techno-logies. Un second critère important est la puissance mas-sique de la chaîne d’actionnement. L’étude de structurestrès simples comme un double pendule ou un robot type"compas" donnent des indications très intéressantes sur leschoix à effectuer. Les principales solutions pour la motori-sation, les transmissions cinématiques ont été exposées etcomparées.

AnnexesLe modèle dynamique du robot de la figure 8 s’écrit :

MX + N + Q = Γ (8)

avecXT = [y z q3 q5], M = [Mij ], (i, j) ∈ [1, 2]; N =[Ni]; Q = [Qi]. Les coefficients des matrices et des vec-teurs sont donnés par :

M11 = m2 z22 − 2 m3 z3 L2 cos(q5) + m3 z2

3 + m3 L22

M12 = M21 = m3 z3 (z3 − L2 cos(q5))M22 = m3 z2

3

N1 = m3 z3 L2 (2 q3 + q5) q5 sin(q5)−(m2 z2 + m3 L2) y cos(q3) + m3 z3 y cos(q3 + q5)−(m2 z2 + m3 L2) z sin(q3) + m3 z3 z sin(q3 + q5)

N2 = −m3 z3 L2 q23 sin(q5) + m3 z3 y cos(q3 + q5)

+m3 z3 z sin(q3 + q5)Q1 = −g (m2 z2 + m3 L2) sin(q3) + g m3 z3 sin(q3 + q5)Q2 = g m3 z3 sin(q3 + q5)

Pour déterminer les résultats de la figure 9, on a choisi lesvaleurs numériques suivantes :L2 = 0, 4 m, z3 = 0, 2 m etg = 9, 81 m/s2.

Références[1] S.K. Agrawal, G. Desmier, S. Li. Fabrication and ana-

lysis of a novel 3DOF parallel wrist mechanism,Jour-nal of Applied Mechanics, 117 :343-345, 1995.

[2] J.V. Basmajian. The human bicycle,BiomechanicsV-A, In P.V. Komi (Ed.), Baltimore, MD, university ParkPress, pp. 297-302.

[3] V.V. Beletskii, V.E. Berbyuk, V.A. Samsonov. Parame-tric optimization of motions of a bipedal walking ro-bot,Izvestiya AN SSSR Mekhanika Tverdogo Tela [Me-chanics of Solids], 17(1) :28-40.

[4] Y.V. Bolotin. Energetically optimal gaits of a bipedalwalking robot,Mechanics of Solids, 19(6) :44-51.

[5] G. Cabodevilla, N. Chaillet, and G. Abba. Near Opti-mal Gait for a Biped Robot,In Proc. of the AMS’95,Kalrsruhe, Germany, 1995.

[6] G.A. Cavagna, N.C. Heglind, and C.R. Taylor. Mecha-nical work in terrestrial locomotion : Two basic me-chanisms for minimizing energy expenditure.Ameri-can Journal of Physiology, 233 :R243-R261, 1977.

[7] P.H. Channon, S.H. Hopkins, D.T. Pham. Derivation ofOptimal Walking Motions for a Bipedal Walking Ro-bot,Robotica, Vol. 10, pp. 165-172, 1992.

[8] P.H. Channon, S.H. Hopkins, D.T. Pham. A variatio-nal approach to the optimization of gait for a bipedalrobot,Proceedings of INSTN MECH ENGRS, ImechE,Vol.210, pp. 177-186, 1996.

[9] S. Chesse.Dynamique optimale de systèmes articulésà cinématique fermée. Application à la synthèse d’al-lures de marche optimales. Thèse, Université de Poi-tiers, Septembre 2002.

[10] C. Chevallereau, A.M. Formal’sky , B. Perrin. (1997)Control of a Walking Robot with Feet Following aReference Trajectory Derived from Ballistic Motion,IEEE Int. Conf. on Robotics and Automation, Albu-querque, NM, USA, Vol. 2, pp. 1094-1099.

[11] C. Chevallereau, Y. Aoustin. Optimal running trajec-tories for a biped,CLAWAR 99, 2nd Int. Conf. on Clim-bing and Walking Robots, Portsmouth, Sept. 1999.

[12] C. Chevallereau and Y. Aoustin. Optimal referencetrajectories for walking and running of a biped robot.Robotica, 19(5)557 :569, Sept. 2001.


[13] C. Chevallereau, G. Abba, Y. Aoustin, E.R. Plestan, F.Westervelt, C. Canudas de Wit, J.W. Grizzle. Rabbit :A testbed for advanced control theory.IEEE ControlSystems Magazine, 23(5) :57-79, October 2003.

[14] C.K. Chow and D.H. Jacobson. Studies of Loco-motion Via Optimal Programming,Studies of HumanLocomotion via Optimal Programming, MathematicalBiosciencesVol. 10, pp. 239-306, 1971.

[15] S. Collins, M. Wisse, A. Ruina. A 3D passive dyna-mic walking robot with two legs and knee,The Int. J.Robotics Res., 20(7) :607-615.

[16] O. Coussi.De l’observation cinématique à l’étudedynamique et énergétique de mouvements humains.Thèse, Université de Poitiers, Septembre 1997.

[17] H. Dankowicz, J. Adolfsson, A. Nordmark. 3D pas-sive walkers : finding periodic gaits in presence of dis-continuities,Nonlinear Dynamics, 24 :205-229.

[18] B. Espiau and the Bip Team. BIP : a joint projectfor the development of an anthropomorphic biped ro-bot,Proc. 1997 IEEE Int. Conf. on Advanced Robotics,Monterey, CA, USA, pp. 267-272.

[19] J. Furusho, M. Sano, M. Sakaguchi, E. Koizumi.Realization of bounce gait in a quadruped robot witharticular-joint-type legs.IEEE Int. Conf. on Roboticsand Automation,Nagoya, Japan, Vol. 1, pp. 697-702,May 22-27, 1995.

[20] A. Goswami, B. Espiau, A. Keramane. Limit cyclesand their stability in a passive bipedal gait,Proc. 1996IEEE Int. Conf. on Robotics and Automation, Minnea-polis, MN, USA, vol.1, pp. 246 - 251, April 22-28,1996.

[21] A. Goswami, B. Thuilot, B. Espiau. A study of pas-sive gait of a compass-like biped robot : symmetry andchaos,Int. J. of Robotics Research, 17(12) :1282-1301.

[22] A.A. Grishin, A.M. Formal’sky, A.V. Lensky, S.V.Zhitomirsky. Dynamic walking of a vehicle with twotelescopic legs controlled by two drives,The Int. J. Ro-botics Res., 13(2) :137-147.

[23] M. Gunther, R. Blickman. Joint stiffness of the ankleand the knee in running,Journal of Biomechanics,35 :1459-1474.

[24] K. Hirai. The Honda Humanoid Robot,Proc. 1997IEEE-RSJ Int. Conf. on Intelligent Robots and Systems,Grenoble, France, pp. 499-508.

[25] K. Hirai, M. Hirose, T.T. Kenada. The developmentof Honda humanoid robot,Proc. of IEEE Int. Conf.on Robotics and Automation, May 1998, Leuwen, Bel-gium, pp. 1321-1326.

[26] J.K. Hodgins. Biped gait transitions.Proc. IEEEConf. on Robotics and Automation, Sacramento, Ca-lifornia, pp. 2092-2097, April 1991.

[27] J.M. Hollerbach, I.W. Hunter, J. Ballantyne. A Com-parative "Analysis of Actuator Technologies forRobo-tics". The Robotics Review, Vol.2, O. Khatib and J.Canny and T. Lozano-Perez, MIT Press, 1992.

[28] D.C. Kar, I.K. Kurien, K. Jayarajan. Gaits and ener-getics in terrestrial legged locomotion,Mechanism andMachine Theory, 38 :355-366.

[29] T. McGeer. Passive walking with knees.In Proc. ofthe 1990 IEEE International Conf. on Robotics andAutomation, pp. 1640-1645, 1990.

[30] T. McGeer. Passive Dynamic Walking,The Int. J. Ro-botics Res., 9(2) :62-82.

[31] M. Rostami, G. Bessonnet, P. Sardain. Optimal GaitSynthesis of a Planar Biped,IFAC Int. Workshop onMotion Control, Grenoble, France, 1998.

[32] M. Rostami, G. Bessonnet. Sagittal gait of a bipedrobot during the single support phase. Part 2 : Optimalmotion,Robotica, 19 :241-253.

[33] L. Roussel, C. Canudas-de-Wit and A. Goswani. Ge-neration of Energy Optimal Complete Gait Cycles forBiped.IEEE Robotics and Automation Conf., Leuwen,Belgium, pp. 2036-2042, 1998.

[34] T. Saidouni and G. Bessonnet. Gait trajectory optimi-zation using approximation functions.Proc. Int. Conf.on Climbing and Walking Robots, Paris, France, Sept.2002.

[35] T. Saidouni.Synthèse numérique d’allures de marcheoptimales de robots bipèdes anthropomorphes, Thèse,Université de Poitiers, 11 Janvier 2005.

[36] P. Sardain, M. Rostami, G. Bessonnet. An anthropo-morphic biped robot : dynamic concepts and technolo-gical design,IEEE Transactions on Systems, Man andCybernetics, 28 :823-838.

[37] P. Sardain, M. Rostami, E. Thomas, G. Bessonnet. Bi-ped robots : Correlations between technological designand dynamic behavior,Control Engineering Practice,7(1999) :401-411.

[38] R. Sellouati, F.B. Ouezdou. Design and control of a3DOFs parallel actuated mechanism for biped applica-tion, Mechanism and Machine Theory, 2005.

[39] A.C. Smith, M.D. Berkemeier, Passive DynamicQuadrupedal Walking.Proc. of tbe 1997 IEEE Inter-national Conference on Robotics and Automation, Al-buquerque, NM, USA, - April 1997, Vol.1, pp.34-39,

[40] R.S. Wallace, J.M. Selig.Scaling Direct Drive Ro-bots. Technical Report TR1994-669, New York Uni-versity, August 1994.

[41] Site web du robot bipède Rabbit,http ://robot-rabbit.lag.ensieg.inpg.fr, 2005.

[42] Site web du robot Honda Asimo,http ://asimo.honda.com/, 2005.


Recherche en robotique humanoïde

Pierre BlazevicJRL/LRV, Versailles

RésuméLa recherche sur la robotique humanoïde est-elle une ap-plication de recherches d’autres domaines, une thématiquede recherche propre ou l’utilisation d’une plate-forme per-mettant de mettre en évidence les problèmes liés à l’inté-gration dans des systèmes complexes ? La réponse ne peutpas être trop simpliste sans risquer de tomber dans la cari-cature. Les investissements matériels lourds pour la réali-sation ou l’acquisition de telles machines et les coûts pourla maintenance et pour la mise à disposition nous imposentd’analyser les recherches en cours. Cette présentation adonc pour but de positionner les thèmes de recherches exis-tants au travers de ces trois points de vue. Des travaux liésà la manipulation, la locomotion, la perception et la plani-fication appliquées sur des robots humanoïdes seront pré-sentés. On essaiera de les classer de façon à mettre en évi-dence une spécificité de la recherche sur les humanoïdesdue à un couplage très important entre ces thématiquessur cette plate-forme très particulière. Enfin en prospec-tive seront dégagées des directions pour de futurs travauxpermettant de faire coopérer des chercheurs de différentshorizons.


Quelques outils pour la commande des robots à pattes

C. ChevallereauIRCCyN, Ecole Centrale de Nantes, Université de Nantes, UMR CNRS 6597

BP 92101, 1 rue de la Noë, 44321 Nantes cedex 3, [email protected]

Résumé

La commande d’un robot à pattes se distingue de la com-mande d’un robot manipulateur à cause des particulari-tés suivantes : les différentes phases du mouvement sontdécrites par des modèles différents (simple appui, doubleappui, vol . . .) ; l’impact est décrit par une discontinuitésur les vitesses du robot, le contact avec le sol est unilaté-ral, la recherche d’une marche cyclique se traduit par uneconvergence vers un mouvement cyclique. Compte tenu deces différences, des approches spécifiques existent. Cetteprésentation insistera sur les deux outils suivant et leurutilisation à travers quelques exemples : le Zéro MomentPoint ZMP, largement utilisées sur les prototypes japonais ;et l’application de Poincaré de premier retour utilisée dansles analyses de stabilité.

Mots Clef

Zero Moment Point, Système hybride, Stabilité, Poincaré

1 IntroductionOn distingue deux grandes classes de robots marcheurs,les robots à allure dite statiquement stable et les autres(dites dynamiquement stable). La première catégorie cor-respond à des robots qui se déplace suffisamment lente-ment pour que les effets dynamiques puissent être négli-gés. Une configuration du robot est dite stable si le centrede masse se projette dans le polygone convexedéfini par lesempreintes de pied au sol. Ces allures concernent souventdes robots qui ont toujours plus de trois pieds en contactavec le sol. Nous nous limiterons dans cette présentation aucas des allures qui ne sont pas statiquement stables. Les ef-fets dynamiques ne sont pas négligeables. Ces études s’ap-puient sur le modèle dynamique du robot.Dans la locomotion à pattes, les contacts avec le sol sontintermittents, selon le nombre et le type de contact, les ca-ractéristiques du système à commander diffèrent pour al-ler de la redondance au sous-actionnement. Une présenta-tion rapide de la modélisation dynamique des robots mar-cheurs sera faite en section 2. L’intermittence des contactsa aussi pour conséquence une commutation entre les mo-dèles du robot. Les levées des pieds peuvent être choisies(par une brusque variation de couple). Par contre, les po-sées des pieds ne sont pas choisis, ils sont liés à la hauteurdu pied en transfert et se traduisent pas un impact qui peut

être décrit par une discontinuité sur les vitesses du robot.Le modèle de robot s’écrit donc naturellement comme unsystème hybride (continu-discret).L’intermittence des contacts est possible puisque que parnature le contact entre le robot et le sol est unilatéral (lesol empêche la pénétration du robot mais pas son décolle-ment). Cette caractéristique primordiale est source de dif-ficultés. En effet une large majorité des commandes pro-posées aujourd’hui s’appuie sur un enchaînement prédéfinides différents contacts (appui sur un pied à plat, appui surdeux pieds, impact, rotation autour d’un talon . . .), et il estnécessaire d’assurer que le contact réel correspond bien aucontact prévu. En particulier il est difficile d’assurer qu’uncontact pied à plat sur le sol existe. Des critères utilisant leZMP (Zero Moment Point) ont donc été définis dans ce but,ceci sera abordé en section 3. Les méthodes de commandebasées sur la notion de ZMP, sont très largement utiliséessur les prototypes japonais. Un exemple d’utilisation seraprésenté en section 5.1.En dehors des spécificités dus au modèle des robots mar-cheurs, la tâche à accomplir est elle-même particulière. Onpourrait considérer que la tâche consiste à faire suivre à unrepère lié au robot (par exemple la tête) une consigne, maisce n’est pas la position généralement adoptée car ceci nepermet pas de gérer facilement les problèmes d’équilibre.Se basant sur le fait que la marche humaine c’est "mettreun pied devant l’autre puis recommencer" la tâche de loco-motion est traduite par la convergence vers un mouvementcyclique des différentes articulations qui induit un mou-vement d’avance le long d’un chemin de la tête du robot.Comme le modèle du système à étudier est hybride (diffé-rents modèles selon les phases) et comme la tâche à réa-liser est l’exécution d’un mouvement cyclique, l’étude del’évolution du système dans le diagramme des phases et lesanalyses de stabilité à l’aide de l’application de Poincaré depremier retour sont des outils particulièrement adaptés. Cesoutils seront présentés en section 4 et leur utilisation seraillustrée à travers deux applications la marche passive et lacommande du robot Rabbit aux paragraphes 5.2 et 5.3.

2 La modélisation des robots mar-cheurs pour la commande

L’étude des robots marcheurs fait appel aux modèles dy-namiques de ces robots. Les principales équations peuvent


être obtenues comme dans le cas des robots manipulateurs.Les principales différences qui existent entre un robot ma-nipulateur et un robot marcheur pour la modélisation dyna-mique sont :– les liaisons avec le sol sont intermittentes et unilatérales ;– il existe différents modèles selon le type de contact avec

le sol. A chaque modèle, des hypothèses sont associées(ex : non-glissement) et doivent être vérifiées ;

– il peut exister des impacts avec le sol ;– le nombre de degrés de liberté peut être important.

2.1 Un modèle dynamique pour chaquephase du mouvement

Les robots marcheurs ayant des appuis sur le sol, il estnécessaire de définir un modèle de contact. Celui-ci peuts’écrire sous la forme d’équations de contraintes représen-tant un contact rigide entre le robot et le sol. Ces équa-tions traduisent le fait que le pied en contact avec le sol nebouge pas et que sa vitesse et son accélération sont nulles.Les forces de contact sont alors des inconnues supplémen-taires. Une autre possibilité est de calculer directement lesforces de contact à partir d’un modèle de déformation dusol. Le premier choix permet de réduire le nombre de va-riables de configuration indépendantes, il est très largementutilisé pour les modèles dédiés à la commande.Un robot marcheur peut être vu comme une chaîne arbo-rescente. Un des corps du robot (tronc, tête ou pied) sertde corps de référence, les articulations du robot permettentun positionnement relatif des corps les uns par rapport auxautres. Le nombre de variables de configuration est égal aunombren d’articulations du robot plusn0 = 3 ou 6 pourle corps de référence suivant qu’il évolue dans un plan oudans l’espace. Le vecteur de configurationx regroupe l’en-semble de ces variables.Le modèle dynamique s’écrit :

Ac(x)x + Cc(x, x)x + Gc(x) = DcΓ + Df (x)F (1)

oùAc(x) est la matrice d’inertie de dimension((n+n0)×(n + n0)), Cc(x, x)x correspond aux termes de Corioliset centrifuge,Gc(x) à l’effet de la gravité,Γ est le vecteurdes couples moteurs,F est le vecteur des forces du réac-tion du sol sur le robot,Dc et Df sont des matrices quidéterminent comment les couples et forces agissent sur lemodèle dynamique.Des efforts de réaction du sol ne sont appliqués que selonles directions pour lesquelles la vitesse du pied est nulle.Les contraintes cinématiques associées à ce modèle sontdonc :

Df (x)tx = 0 (2)

Soit nf le rang de la matriceDf (x), les contraintes ciné-matiques peuvent être utilisées pour réduire la dimensiondu modèle dynamique. On noteq un jeu den+n0−nf co-ordonnées indépendantes tel que l’équation (2) permette dedéfinir x pour q etx connus. Le modèle dynamique s’écritalors quand les contraintes cinématiques (2) sont actives :

A(x)q + C(x, q)q + G(x) = DΓ (3)

où A(x) est la matrice d’inertie de dimension((n + n0 −nf ) × (n + n0 − nf )). On noteng le nombre d’articula-tions motorisées, la matriceD est de dimension((n+n0−nf ) × ng). Selon le type de contact avec le sol, la valeurdenf change et les caractéristiques du système étudié sontmodifiées.– Sin+n0−nf = ng, le système est dit complètement ac-

tionné, ce cas correspond généralement à un robot avec"1 pied à plat" ; Pour qu’une accélération désirée puisseêtre réaliser, elle doit être telle que les conditions liéesau contact soit satisfaite

– Sin+n0−nf < ng, le système est sous-actionné, toutesles accélérations désirées du robot ne peuvent pas êtreobtenues, ce cas correspond généralement à un contactponctuel ou linéique en simple appui ;

– Sin+n0−nf > ng, le système est redondant, plusieurscouples correspondent au même vecteur accélération durobot, ce cas correspond généralement à un robot avecdes appuis multiples ; il y a redondance d’actionnement,il faut choisir une répartition des efforts de réactions etcouples.

2.2 L’impactDans la marche, phases de support et de transfert des pattesalternent. Par conséquent, il faut tenir compte de la levée etdu posé des pattes. La prise en compte des levées est im-médiate : la force de contact est nulle. Les posés par contrenécessitent une modélisation spécifique, on considère unimpact entre deux corps rigides. Les hypothèses suivantessur l’impact [1, 2] sont considérées : l’impact se produitpendant une durée infinitésimale ; les forces extérieuresengendrées lors de l’impact sont impulsionelles ; l’impactprovoque des discontinuités au niveau des vitesses articu-laires, cependant les coordonnées articulaires demeurentinchangées durant l’impact ; les commandes générées parles moteurs ne sont pas impulsionnelles. L’utilisation d’unmodèle discontinu permet une écriture analytique des im-pacts. En intégrant le modèle dynamique complet pendantune durée qui tend vers zéro, les termes d’amplitude finiedisparaissent et on a :

Ac(x)(x+ − x−) = Df (x)IF (4)

La vitesse du robot après impact est notéex+, la vitesse durobot avant impact est notéex−, IF est la force impulsion-nelle de réaction du sol.Ce modèle dynamique impulsionnel (4) du robot combinéà différentes hypothèses sur la nature de l’impact (coeffi-cients de restitution des chocs et de frottement) déterminentles vitesses du robot après l’impact. L’hypothèse classique-ment utilisée est que le pied qui arrive au sol a une vitessenormale nulle après l’impact. Lors d’un impact après unephase de simple appui, le pied qui était précédemment ausol peut rester au sol ou décoller et/ou glisser [3]. Ceci dé-pend de la configuration du robot et de la vitesse de ses dif-férentes articulations. Ce point en très important car il dé-termine l’enchaînement des différentes phases d’un cyclede déplacement.


2.3 Système hybride

Une allure de marche peut se décomposer en une suite dephases de simple appui, d’impact, double appui. Selon letype d’allure pris en compte des phases de rotation au-tour d’une extrémité du pied peuvent être prises en compte.Deux exemples de marche sont schématisés sur la figure 1

SS Impact

SS Impact DS

Impact

ImpactDecollage

x = f (x) + g(x)u

x = fs(x) + gs(x)u

x = fd(x) + gd(x)u

φ(x) = 0

φs(x) = 0φd(x) = 0

x+ = ∆(x−)

x+ = ∆s(x−)x+ = ∆d(x

−)

FIG. 1 – En simple appui, le modèle du robot est continu,quand la hauteur du pied libre égale la hauteur du sol(φ(x) = 0), un impact est détecté, après une variation de lavitesse du robot on a une phase de simple appui sur l’autrepied ou une phase de double support. On quitte la phase dedouble appui par une décision de commande, en produisantune accélération verticale du pied pour qu’il quitte le sol

L’état du système est décrit parx et x. Pour une marchecomposée de simple support et d’impact, le modèle com-plet du système est un modèle hybride :

x = f(x) + g(x)u si x /∈ Sx(t+) = ∆(x(t)) si x ∈ S

(5)

où u est le vecteur des entrées de commande ;f , g et ∆sont des fonctions continues non linéaires qui se déduisentdes équations (1), (2) et (4). La deuxième équation ex-prime un saut conditionnel instantané (discontinuité) surles états du système qui se produit lorsque la trajectoirede l’état dont l’évolution, décrite par la première équation,heurte la surface de saut (ou de commutation) définie parS := x|Φ(x) = 0 où Φ est une application continue.On prendra par exempleΦ(x) = y2(x)2 + max(0, y2) oùy2 est la hauteur du pied en transfert [4]. Cette fonctions’annule quand le pied en transfert arrive au sol, avec unevitesse verticale négative. Juste après l’impact, la vitesseverticale du pied libre est positive et cette fonction n’estpas nulle.

3 Les contraintes liées au contactavec le sol

3.1 Contact Pied-sol : Centre de PressionLe sol (supposé horizontal) ne peut exercer sur les piedsen support du robot que des forces normales dirigées versle haut et des forces tangentielles incluses dans le cône defrottement. On suppose que le contact entre le sol et les se-melles en contact est composé d’une multitude de pointsde contactpk où le sol exerce une forcefk. Ces forces sontréparties sur les semelles des pieds en support. L’ensemblede ces efforts de contact est équivalent à une force résul-tanteR et un moment. Ce moment peut par exemple êtrecalculé au centreO d’un repère lié au pied en contact et telque les axesx et y définissent le plan du sol, l’axez estvertical et dirigé vers le haut.Par définition l’effort résultant est :

R =∑

k

fk (6)

Comme le sol ne peut pas empêcher le pied de décollermais seulement de pénétrer dans le sol (on suppose uncontact entre des corps rigides), chacune des forcesfk estdirigée vers le haut. La force résultante est donc dirigéevers le haut :Rz ≥ 0.Comme chacune des forcesfk est dans le cône de frot-tement, la force résultante est dans le cône de frottement√

R2x + R2

y ≤ µfRz.

Par définition, le moment résultant calculé enO est :

MO =∑

k

−−→Opk ∧ fk (7)

Les forcesfk sont appliquées aux pointspk qui appar-tiennent au planx,y. Les forces tangentielles de frottementcréent un momentMOz autour de l’axez, comme ceciest représenté sur la figure 2 [5]. Les forces normalesfkz

créent des couples autour des axesx et y. Ces forces sontdirigées vers le haut, on a donc pour toutk, 0 ≤ fkz ≤ Rz.Et de plus, les positions des points d’applications des forcessont limitées à la surface de contact entre les pieds et le sol,on a donc :

MOx =∑

k pkyfkz RzLymin≤ MOx ≤ RzLymax

MOy = −∑k pkxfkz −RzLxmax

≤ MOy ≤ −RzLxmin

(8)où Lxmin

, Lxmax, Lymin

, Lymaxdéfinissent les limites de

la surface de support. Ces termes sont présentés sur la fi-gure 2 dans le cas d’un contact sur un pied rectangulaire.Le centre de pression (CoP) notéC est le point contenudans le plan du sol (x,y) tel que le moment en ce pointest nul selon les axesx et y. Le moment enC est lié aumoment enO par :

MC = MO + −−→CO ∧ R (9)

soitMCx = MOx − CyRz

MCy = MOy + CxRz(10)


(b)

R

(c)

(a)

MCz

MCz

Lxmin

Lxmax

Lymin

Lymax

C

C

Cx

Cy

FIG. 2 – (a) Les forces dues au frottement créent un coupleporté par l’axe−→z s’opposant à la rotation du pied, (b) lesefforts exercés par le sol sont équivalents à une force Rappliquée en C et un momentMCz, (c) le point C (CoP)est sur la semelle du pied

CommeMCx = MCy = 0, on peut en déduire les coor-données deC, on a

Cy = MOx

RzLymin

≤ Cy ≤ Lymax

Cx = −MOy

RzLxmin

≤ Cx ≤ Lxmax

(11)

Une démarche similaire mais un peu plus fine permettraitde montrer queC appartient à la surface de support déli-mité par l’enveloppe convexe deszones de support dans lecas plus général correspondant à plusieurs pieds en supportou à un pied non rectangulaire.

3.2 Equilibre global du robot : Zero MomentPoint

A partir de certaines hypothèses sur le contact pied-sol (parexemple le robot est en appui sur le pied gauche qui està plat sur le sol), une loi de commande est établie. Parl’intermédiaire des couples articulaires, cette commandeva produire une accélération articulaire et compte tenu descontacts on peut en déduire le vecteur des accélérationsx.Une caractéristique de la locomotion à patte est l’utilisa-tion des appuis sur le sol pour obtenir le comportementdésiré du robot. Les efforts exercés par le sol sur le robotsont fondamentaux. Les efforts correspondants au compor-tement souhaité peuvent être déterminés à partir du modèledynamique complet (1) ou à partir de l’équilibre global durobot [6]. En considérant globalement le robot, les effortsextérieurs sont la gravité et les forces de réaction du sol,

(les couples moteurs n’interviennent pas). Dans un premiertemps on considérera globalement l’action du sol sur le ro-bot par un torseur résultantR, MO. On obtientn0 équa-tions :

m−→γG(x, x, x) = R − mg−→zδO(x, x, x) = MO + m

−−→OG ∧ −g−→z (12)

oùm est la masse totale du robot,−g−→z est le vecteur accé-lération de la gravité,G est le centre de gravité,γG l’accé-lération du pointG, δO est le moment dynamique calculéau pointO.Le moment à exercer par le sol dépend du point où il estcalculé, on appelle Zero Moment Point (ZMP) le pointPdu plan du sol tel qu’en ce point, l’équilibre est assuré alorsque le sol exerce un moment dont les composantes enx eteny sont nulles.A partir de l’équation (12) d’équilibre global et de l’équa-tion de transport d’un moment (9) on en déduit :

R = mg−→z + m−→γG

δO = MP + −−→OP ∧ R + m

−−→OG ∧ −g−→z (13)

L’équilibre en rotation autour des axesx ety donne :

δOx = +m(g + γGz)Py − mgGy

δOy = −m(g + γGz)Px + mgGx(14)

Les coordonnées du ZMP sont donc :

Py = δOx+mgGy

m(g+γGz) Px = −δOy+mgGx

m(g+γGz) (15)

Si vitesse et accélération du robot sont nulles, alorsγG etδO sont nuls, le ZMP et la projection du centre de gravitésont confondus :Px = Gx, Py = Gy.

3.3 Condition d’équilibre liée au ZMPOn a calculé au paragraphe 3.2, le torseur d’effort sol-piedcorrespondant à l’accélérationx du robot. On a vu au pa-ragraphe 3.1, les limites qui existent sur le torseur d’effortqui peut être exercé par le sol.Or la position du ZMP a été calculée en s’appuyant sur deshypothèses de contact, mais ces contacts sont intermittentset unilatéraux, ces hypothèses peuvent ne pas être valideset on doit donc vérifier qu’elles sont bien satisfaites.Deux cas peuvent se produire.Si le calcul du torseur des efforts assurant l’équilibre glo-bal du robot (section 3.2) satisfait les limites définies ensection 3.1, les hypothèses de contact sont valides, les ac-célérationsx et les efforts sol/pied sont corrects, les pointsC (CoP) et P (ZMP) sont confondus.Si le calcul du torseur des efforts exercé pour assurerl’équilibre global du robot (section 3.2) ne satisfait pas leslimites définies en section 3.1, les hypothèses de contact nesont pas valides. L’accélération réelle du robot ne sera pasx et les efforts sol/pied ne seront donc pas ceux calculés ensection 3.2.Si Rz < 0 1, le robot décolle.

1on impose souventRz > Fmin pour assurer le non-décollementavec une certaine robustesse


Si√

R2x + R2

y > µfRz le robot glisse.

Si le ZMP n’est pas dans la surface de support (déli-mitée par l’enveloppe connexe contenant les surfaces decontact), l’équilibre en rotation n’est pas satisfait, on ob-servera une rotation du robot autour d’une limite de la sur-face de contact. Comme l’accélération réelle du robot n’estpas l’accélération qui a servi à calculer la position du ZMPon peut dire que ce "ZMP" n’existe pas [5]. Mais la dis-tance entre le point P ainsi calculé et la surface de supportquantifie la différence entre l’accélération espérée du robot(en supposant certaines hypothèses de contact) et l’accélé-ration réelle du robot, la position de ce point apporte doncune information. S’il est situé en dehors de la surface decontact, il est nommé le Fictitious Zero Moment Point [5],ou Foot-Rotation Indicator (FRI) [7].Remarque 1 : Pour les robots marcheurs l’hypothèse cou-rante est que les pieds ne glissent pas sur le sol, avec unehypothèse de glissement il faudrait vérifier que la résultantedes efforts est à la frontière du cône de frottement.Remarque 2 : Si l’effort résultant pied/sol est produit parun appui sur plusieurs pieds en contact avec le sol, il fautde plus assurer que le torseur des efforts associés à chaquepied satisfait aussi les hypothèses de contact (qui peuventêtre établies d’une façon tout à fait similaire mais avec unesurface de contact limitée à la surface d’un pied). Cette ré-partition des torseurs de contact ne peut plus être détermi-née avec l’équilibre global du robot, le modèle dynamiquecomplet (1) doit être utilisé. Une même accélérationx durobot peut être obtenue avec plusieurs répartition des tor-seurs de contact, selon les couples articulairesΓ appliqué[6].Remarque 3 : Si l’accélération et la vitesse du robot sontnulles, on a noté que projection du centre de gravité et ZMPsont confondus. Pour les robots marcheurs à allures sta-tiquement stables, la condition de stabilité (au sens d’unéquilibre stable) est que la projection du centre de gravitédoit être à l’intérieur de la surface de support [8]. Quandles effets dynamiques ne peuvent pas être négligés, il estcohérent de remplacer cette notion de stabilité par "le ZMPdoit être à l’intérieur de la surface de support". Mais cecin’est pas une condition de "stabilité" c’est une condition devalidité des hypothèses faites sur le type de contact entre lerobot et le sol. C’est donc une condition qui doit être vé-rifiée en priorité (avant toute notion de stabilité) sinon lemodèle de comportement du robot n’est pas valide.Remarque 4 : Pour un déplacement lent du robot lescontraintes sur la position de ZMP seront souvent activesalors que les contraintes correspondant au non-glissement,non-décollement ne seront pas actives. Si les déplacementsdu robot sont rapides, les contraintes de non-décollement,non-glissement et non-rotation du pied peuvent interveniret il est judicieux de les traiter de manière homogène.Remarque 5 : Ce type d’analyse n’est mené que dans lecas où on suppose qu’il y a non rotation des pieds quisont en phase de support, si une hypothèse de rotation au-tour d’un bord du pied est faite, on connaît la position du

ZMP (au moins selon une direction) et l’équation d’équi-libre correspondant (14) permet de déterminer l’accéléra-tion en rotation du pied dans la direction où la rotation estlibre.Remarque 6 : Ce type d’analyse suppose que l’ensembledes zones de contact pied-sol soit dans un plan unique, cequi n’est pas le cas par exemple pour les phases de doubleappui d’un bipède montant des escaliers, ou en cas de ma-nipulation d’objet [9].

4 Analyse de stabilité : convergencevers un mouvement cyclique

L’objectif d’une commande pour la marche ou la coursed’un robot marcheur sur sol plat est généralement d’ob-tenir un mouvement cyclique. Ces cycles sont constituésde phases de simple appui et d’impact pour la marche,une phase de vol est ajoutée pour la course. Pour atteindrecet objectif il n’est a priori ni nécessaire ni suffisant quela commande proposée soit stable sur chacune des phasesprise indépendamment, seule la convergence vers un cyclelimite est recherchée.La description du comportement d’un système dynamiquenon linéaire dans le plan de phase est un outil graphiqued’analyse [10] bien utile dans ce contexte. Partant de condi-tions initiales données, le mouvement du robot est tracédans un plan de phase, les particularités des courbes ob-tenues sont alors étudiées. Pour les robots marcheurs, lenombre d’états étant supérieur à 2, on projettera le mou-vement dans un plan de phase par articulation : la vi-tesse articulaire est représentée en fonction de la position.Le mouvement du robot correspond à l’enchaînement desdifférentes phases (figure 3). Un mouvement cyclique setraduira par une boucle fermée sur chacun des plans dephases.Si ce cycle fermé est isolé, c’est un cycle limite. qui peutêtre stable, instable ou semi-stable. Des mouvements com-mencés à proximité de ce cycle limite convergeront ou nonvers le cycle limite. Une technique classique pour analy-ser la stabilité des systèmes dynamiques a été développéepar Henry Poincaré. Une hyper-surface de dimension n-1transverse au cycle limite est définie, et on observe l’inter-section du flot avec cette hyper-surface créant ainsi un sys-tème discret nommé "application de Poincaré de premierretour" [11]. Dans le cas des robots marcheurs, la sectionde Poincaré choisie est généralement définie par le contactde la jambe libre du robot avec le sol [12], [13]. Entre 2contacts, indicésk et k + 1, les étatsX décrivant l’inter-section du flot et de la section de Poincaré sont reliés par :

Xk+1 = P (Xk) (16)

Un mouvement cyclique se traduit par un point fixeX∗

pour l’application de Poincaré :X∗ = P (X∗). Si l’inter-section du flot et de la section de Poincaré peut être définiepar un scalairep, un outil graphique existe aussi pour vi-sualiser de la convergence du mouvement du robot vers le


ImpactSS jambe 2

Impact

Angle genou jambe 2

Vitessegenoujambe 2

SS jambe 1

FIG. 3 – Un mouvement cyclique du robot correspond à uncycle fermé pour chaque projection du mouvement dans lesplans de phase d’une variable de configuration. Les phasesd’impact sont représentées par des traits verticaux corres-pondant à une variation de vitesse articulaire sans variationde position.

cycle limite. On tracep(k + 1) en fonction dep(k). Lepoint fixe correspond à l’intersection de ce graphe avec labissectrice. La position du graphe par rapport à cette bis-sectrice indique si on a convergence ou non vers le pointfixe (figure 4).La convergence vers le cycle limité est liée à la conver-gence de la fonctionP qui peut aussi être étudiée par lalinéarisation de l’équation (16). On a :

Xk+1 − X∗ = JP (X∗)(Xk − X∗) (17)

oùJP (X∗) est la Jacobienne enX∗ de l’applicationP (X).Si les valeurs propres deJP (X∗) sont à l’intérieur ducercle unité, le cycle limite est stable au sens de Lyapu-nov. Dans [14] il est montré que ces résultats peuvent êtreappliqués pour des systèmes autonomes continus mais pascontinus dans le sens de Lipchitz en présence d’impact.Dans le cas des robots marcheurs la dimension de l’état estsouvent importante, le calcul analytique deJP (X∗) est gé-néralement impossible et le test de stabilité est fait numéri-quement. L’inconvénient d’une méthode numérique est quel’information obtenue est pauvre, le cycle de marche eststable ou non stable mais ceci n’apporte pas d’informationsur les raisons pour lesquelles cette réponse est obtenue.C’est pourquoi il est utile de pouvoir réduire la dimensionde l’espace dans lequel l’application de Poincaré est étu-diée. Dans le cas d’utilisation d’une commande assurantune convergence en temps fini avec un temps de conver-gence inférieur à la durée d’un pas, l’application de Poin-caré peut être définie dans un espace de dimension réduite.Une première approche de cette stratégie de commande aété proposée dans [14]. Durant chaque pas de marche, lacommande assure que les sorties choisies s’annulent avantla phase d’impact. Lors de l’intersection du flot et de la sec-tion de Poincaré, l’état du robot évolue sur la dynamique de

P1

P3

P2

Point fixe

pk

pk + 1

x1

x2

FIG. 4 – Pour un système décrit par 2 variables d’état, lesintersections successives du flot avec la section de Poincaré(de dimension 1) sont décrites par une suite de PointsPk

ou de scalairespk. On représentepk+1 en fonction depk,un point fixe correspond à l’intersection avec la bissectrice.Un cycle est stable si la pente au point fixe est inférieure à45˚. Les flèches illustrent la convergence vers le point fixe.

zéro. A partir du deuxième pas, l’application de Poincarérelie un état du robot qui se trouve dans l’intersection dela dynamique de zéro et de la section de Poincaré au pask à un autre état au pask + 1 qui se trouve aussi dansl’intersection de la dynamique de zéro et de la section dePoincaré. La stabilité est étudiée à partir du2eme pas grâceà cette application de dimension réduite (dimension : 1). Sila dynamique de zéro est invariante par le modèle d’impact,l’étude peut se limiter à l’étude du comportement du robotsur cette dynamique.

5 Des exemples d’utilisation de cesoutils

Après avoir présenté rapidement quelques outils utiliséspour la commande des robots marcheurs, nous verrons danscette partie comment ces outils peuvent être utilisés. Pourceci nous allons explorer différentes approches. Nous abor-derons dans un premier temps : l’utilisation du ZMP dansla commande car cette approche est très largement utili-sée pour les robots humanoïdes japonais très performantscomme les robots Honda [15]. Dans un deuxième para-graphe nous parlerons de la marche passive, cette approcheintroduite par Mac Geer dans les années 90, [16] est actuel-lement très largement reprise. C’est ce type de méthode,basée sur un placement sur une pente de mécanisme nonactionné, qui a été l’occasion des premières études théo-riques de stabilité (au sens de l’automatique) et elle est


prometteuse de la recherche de mouvement energétique-ment économique [17]. Nous verrons dans une troisièmepartie comment les outils de commande peuvent être com-biner pour obtenir des conditions explicites de stabilité quipeuvent apporter une certaine compréhension des principesde la marche dans le cas du robot Rabbit [18]

5.1 Utilisation du ZMPComme nous l’avons vu précédemment, le critère du ZMPest un critère "vital" qui doit être satisfait pour que lescontacts pied-sol soient bien les contacts prévus. Si le cri-tère n’est pas satisfait, on aura une rotation inattendue durobot autour d’une des limites de la surface de contact pied-sol. Eviter une chute du robot dans un tel contexte devientdifficile. Deux applications principales sont visées : la gé-nération de mouvement et la commande.

Génération de mouvements de consigne. Deux ap-proches sont possibles : l’évolution du ZMP est imposée,les limites sur l’évolution du ZMP sont utilisées commedes contraintes.Pour les robots humanoïdes (avec tronc articulé et bras), ladéfinition des trajectoires de consigne peut s’appuyer surdes évolutions choisies des pieds, des mains et du ZMP. Larésolution de ce problème fait alors intervenir les modèlesgéométriques, cinématiques et dynamiques. Cette résolu-tion peut être itérative et utiliser des modèles dynamiquessimplifiés. Elle utilise des décompositions en série de Four-rier [19] ou des systèmes discrets [20], [21].Les méthodes de recherche de trajectoires optimales (enénergie) inclut généralement des contraintes traduisant leslimites sur l’évolution du ZMP [3].L’introduction de marge sur l’évolution du ZMP (il reste"loin" des limites de la zone de support) permet d’obtenirune certaine robustesse qui conduira à un comportant cor-rect du robot lors des expérimentations.

Commande : exemple du robot Honda. [15]La position réelle du CoP est mesurée par l’intermédiairede plusieurs capteurs d’efforts répartis sur le pied.Des consignes articulaires temporelles sont définies à par-tir d’un type de marche souhaité qui se traduit par des si-tuations (positions/orientations) désirées pour les pieds, letronc et les bras sont considérés globalement (figure 5).Une accélération horizontale de G (CoG) est recherchée(figure 5). La position désirée du ZMP correspond à un mo-ment dynamique nul autour de G du robot (équation (15)).Si le robot marche dans des conditions idéales alorsC(CoP) doit coïncidé avecP d (le ZMP désiré). En réalité leterrain est souvent irrégulier etC peut différer deP d alorsun moment de basculement apparaît, celui-ci est évalué parl’équation suivante :

Mb = (P dx − Cx)Rd

z (18)

Cette équation sera la base de deux actions : la correctionde la position deC pour réduire le moment de basculement,la modification de la position deP d pour créer un moment

C

G

Distance entre C et ZdDistance entre C et Zd

Moment de basculement

P d

FIG. 5 – Les consignes choisies correspondent à un mo-ment dynamique nul autour deG. La position désirée duZMP est donc telle que le vecteur reliantP d etG soit dirigéselon la direction de la force de réaction du sol. La mesuredes forces de contact sur le pied par des capteurs d’effortpermet de définir la position réelle du centre de pressionC. Si P d et C ne sont pas confondus, une modification del’orientation des pieds est mise en place pour modifier lecontact pied-sol et ramener leC sur P d (le contact n’estpas parfaitement rigide) [15].

de basculement qui peut permettre d’éviter la chute du ro-bot.L’intégration de ces actions dans la loi de commande durobot est présentée sur la figure 6.En cas de détection d’un écart entreC et P d, la positiondes pieds est ajustée pour ramenerC sur P d et éviter lacréation d’un mouvement de basculement intempestif. Parexemple si, en simple appui, le corps du robot bascule versl’avant, le robot baisse l’avant de son pied pour que lesefforts exercés par le sol sur les orteils soient plus élevés etainsi ramener le centre de pression vers l’avant et annulerle couple de basculement. En double support une rotationdes pieds autour deP d est recherchée (voir figure 5).Si le tronc du robot est trop incliné vers l’avant, une chuteest possible même en l’absence de couple de basculementvers l’avant, il faut donc créer un couple de basculementvers l’arrière pour que l’inclinaison du tronc redeviennecorrecte. La position deP d sera décalée vers l’arrière, etla première action maintiendraC sur la valeur initiale deP d. Progressivement l’inclinaison du tronc reviendra à desvaleurs correctes. Comme l’asservissement est articulaire,la position du pied libre est asservie relativement au tronc,en cas d’inclinaison vers l’avant, le robot touchera le solavec une configuration non désirée, la trajectoire relativedu pied en transfert par rapport au tronc est donc modifiéeen accord avec la modification en ligne deP d.

5.2 La marche passive

Des bipèdes descendant de faible pente sont apparuscomme jouets au début du 20ème siècle. Leurs jambes


Commande idéale

Robustesse aux irrégulartiédu sol

Correction de l’orientation globale pour éviter des chutes

FIG. 6 – La commande mise en place sur le robot Honda :l’algorithme de commande utilise des consignes générées àpartir d’une évolution désirée des pieds et du ZMP et d’unasservissement articulaire. Une première correction est ap-portée pour assurer un bon contact pied-sol. Si l’inclinai-son du tronc atteint certaines limites, l’évolution désirée duZMP est modifiée, et la pose du pied libre peut aussi êtremodifiée [15].

sont droites et il bascule latéralement pour permettre auxpieds de décoller du sol. L’analyse du comportement de telsystème purement passif est beaucoup plus récente [16].Un intérêt de tel dispositif est leur faible consommationd’énergie. L’énergie apportée au système vient de la va-riation d’énergie potentielle liée à la pente. Elle compensel’énergie perdue lors de l’impact. Les robots passifs des-cendant une pente sont pour les robots marcheurs, ce queles planeurs sont pour les avions.L’étude a commencé par des robots contraint à un déplace-ment dans le plan sagittal [16] puis a évolué vers des robotsévoluant dans l’espace avec par exemple le robot présentésur la figure 7a[22]. Ce robot présente les caractéristiquessuivantes : la forme des pieds a été spécialement conçuepour favoriser la stabilité dans le plan frontal, des amortis-seurs dans les pieds réduisent l’effet des impacts, les brasjouent un rôle important pour la stabilité latérale, pour li-miter le roulis, et pour le changement de jambe d’appui.Pour un robot avec un torse il n’est pas possible d’obte-nir une marche cyclique passive avec un tronc érigé, ilest alors possible d’étendre cette approche à des alluressemi-passive, des couples permettant alors d’asservir unangle relatif cuisse-tronc les autres articulations étant pas-sives [23]. Dans le cas de genoux sans butées pour éviterles contre-flexions l’approche semi-passive peut aussi êtreutile.La recherche de mouvements passifs cycliques peut êtreexpérimentale, elle peut aussi s’appuyer sur le modèle durobot. Le principe est le suivant, à partir d’une conditioninitiale appropriée (configuration et vitesse articulaire) onobserve un mouvement cyclique du robot sans couple arti-culaire sur une pente. La perte d’énergie cinétique lors del’impact compense exactement la variation d’énergie po-tentielle due à la pente. La recherche des conditions ini-

AB

FIG. 7 – A) Le robot bipède passif Cornell, ce robot avecgenou et bras est probablement un des robots passifs res-semblant le plus à un humain. B) Le robot bipède actifCornell s’inspirant du robot passif peut se déplacer sur solplat en consommant une énergie très réduite (son effica-cité énergétique est comparable à celle d’un humain) C) Lebipède du MIT apprend à marcher, ses mouvements sontinspirés par la marche passive.[17]

tiales conduisant à un mouvement passif est réalisée nu-mériquement à partir d’un modèle dynamique linéarisé ounon. Après un pas on doit retrouver l’état initial du robot.Dans le cas d’une linéarisation du modèle dynamique, onsuppose de plus la durée du pas connu, le système hybridelinéarisé devient :

x = Ax si t < Tx(T +) = ∆x(T−) (19)

Par intégration l’état après un pas estx(T +) =∆eAT x(T +). Il existe un mouvement cyclique si la ma-trice ∆eAT a une valeur propre unitaire, les conditionsinitiales correspondantes sont déterminées par le vecteurpropre associé. Le cycle périodique sera attractif si lesautres valeurs propres sont inférieures à 1. Si les conditionsinitiales ne sont pas exactement sur le cycle on convergeravers le cycle.On peut éviter l’utilisation d’un modèle linéarisé en utili-sant la section de Poincaré et les outils présentés en section4. L’évolution du système se calcule après du modèle hy-bride (5) avecu = 0. En général la section de Poincarésélectionne l’état du robot juste avant l’impact (on a alorsφ(x) = 0). L’état correspondant au mouvement cycliqueest le point fixe de l’application de Poincaré. Les valeurspropres deJP permettent de savoir si le cycle est attractif.Les intérêts principaux de ces mouvements passifs sont :– La génération "automatique" de cycle articulaire corres-

pondant à un déplacement du robot, ces mouvementssont visuellement proche de démarche humaine.

– Sur pente ces mouvements son énergétiquement effi-caces, puisque les couples sont nuls. La morphologiedes robots est "adaptés" pour que de tels mouvementsexistent, pas de tronc érigé, forme des pieds ...

– Des commandes peuvent être développées pour en s’ins-pirant de ces allures obtenir des mouvements non-passifs sur sol plat. Pour des robots de type com-pas, des commandes basées sur l’énergie du système


conviennent [24]. Pour des robots complètement ac-tionné, les couples articulaires peuvent compenser l’effetde la gravité [25].

5.3 La marche de RabbitLe robot Rabbit est un robot bipède plan qui a été conçupour étudier l’effet de phase de déséquilibre dans lamarche. Dans ce but le contact entre le sol et le robot estponctuel et passif.L’originalité de l’approche consiste à proposer un suivi ar-ticulaire de chemin et non de mouvement, l’enchaînementdes postures est imposé par l’intermédiaire de contraintesvirtuelles mais pas l’évolution temporelle. On a vu au pa-ragraphe 4, qu’un mouvement cyclique se traduit par uneorbite. En cas de perturbation, il est probablement plus im-portant de chercher à se rapprocher de cette orbite que de"rattraper le temps perdu".Deux stratégies permettre d’atteindre cet objectif. Soitles consignes sont exprimées comme des fonctions de laconfiguration courante du robot (plus précisément d’unangle permettant de décrire l’orientation absolue du ro-bot et ayant une évolution monotone au cours d’un pas)[14], [26]. Soit les consignes sont exprimées à l’aide d’untemps virtuel dont l’évolution est calculée pour satisfaireles équations de la dynamique [27].Dans les deux cas, il est possible de proposer des lois decommande permettant d’assurer une convergence des va-riables articulaires vers leurs consignes en un temps fini. Siles consignes sont choisies de façon à prendre en comptela phase d’impact, après un temps fini (correspondant autemps de réponse de la commande) on assure un suivi deconsigne parfait, on aq = qd(s) où qd(s) représente lesconsignes exprimées en fonction d’une variable d’états.On peut étudier le comportement du robot à partir de ladynamique de zéro hybride. Un mouvement cyclique estdéfini par une évolution cycliques(t). Avec la commande,la dynamique du système est définie par l’équilibre globaldu robot en rotation. L’évolution du robot étant planaire,l’équilibre autour du point de contact donne :

δy(s, s, s) = mgxG(s) (20)

Les consignes étant "géométrique" et la condition d’impactétant géométrique, les conditions de début et de fin de pascorrespondent à une valeur constante des, on choisits = 0ets = 1 par normalisation.A partir des conditions initiales pour un simple supportk,s(0) = 0, s(0) = sik l’équation (20) permet d’obtenirl’évolution s(t) (et doncq(t)). A s = 1, l’impact se pro-duit, et la valeursik+1 peut être déterminer.Le système à étudier étant de faible dimension (2 variablesd’états, s) les outils présentés en section 4 sont particuliè-rement adaptés. L’analyse peut être faite numériquement[14], elle peut aussi être menée analytiquement [27], unchangement de variable faisant intervenir l’énergie d’unpendule équivalent permet d’obtenir une application dePoincaré de premier retour affine. Des conditions simples

sur les consignes de référence pour avoir convergence versun mouvement cyclique de marche ont alors été obtenuespour le robot Rabbit. La position relative du centre de gra-vité par rapport au point de contact est prépondérante pourla stabilité de la commande et pour la vitesse d’avance durobot.

(a)

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1−1

0

1

2

3

4

5

6phase plan of the zero dynamics

(b)

1.5 2 2.5 3 3.5 4 4.5 5 5.5 6 6.51.5

2

2.5

3

3.5

4

4.5

5

5.5

6

6.5poincaré return map

(c)

FIG. 8 – (a) Le robot Rabbit. (b) Représentation dans leplan de phase (s,s) de l’évolution du robot avec la com-mande pour un simple support. Avec une vitesse tropfaible, le robot retombe en arrière, le pas ne s’effectue pas.(d) Application de Poincaré typique : on utilise la valeur des en fin de simple appui pour caractériser un simple sup-port, le point fixe définit la marche cyclique.

Cette approche a aussi été étendue pour la course [28].Les travaux menés sur Rabbit peuvent être très naturelle-ment étendus aux cas d’un robot avec pied si l’on sup-pose que l’évolution du ZMP est imposée (en fonction des). L’équation traduisant le sous-actionnement est modifiéepour tenir compte du déplacement du ZMP, il était fixe ensimple appui dans le cas de Rabbit. L’évolution des va-riables articulaires et du ZMP sont des fonctions imposéesdes, l’évolution temporelle des en est déduite, des condi-tions d’existence d’un mouvement cycliques stables sontdéduites. Cette approche peut être utilisée aussi bien pourla génération de trajectoire que pour la commande [29].

6 ConclusionIl y a bien sûr d’autres approches de commande non citéesici puisqu’elle ne repose pas sur l’utilisons des outils spéci-fiques que j’avais choisi d’aborder. En particulier, on peutciter les approches basées sur une commande "intuitive"comme [30] ou les approches basées sur l’utilisation de ré-seaux de neurones pour élaborer les consignes ou les loisde commandes et permettre ainsi un apprentissage du ro-bot [31], la commande prédictive pour pouvoir générer desmouvements du robot sans utiliser de trajectoires de réfé-rence mais seulement des contraintes ( avance du centre demasse du robot, position érigée du tronc . . .) [32].


Références[1] Y. Hurmuzlu and D.B. Marghitu. Rigid body colli-

sions of planar kinematic chains with multiple contactpoints. Int. J. Rob. Research, 13(1) :82–92, 1994.

[2] P. Orhant.Contribution à la manipulation Fine. Etudede la phase d’impact. PhD thesis, Institut NationalPolytechnique de Grenoble, 1994.

[3] S. Miossec. Contribution à la marche d’un bipède.PhD thesis, Université de Nantes, Ecole Centrale deNantes, 2004.

[4] A. Chemori. Quelques contributions à la com-mande non linéaire des robots marcheurs bipèdessous-actionnés. PhD thesis, Institut National Poly-technique de Grenoble, 2005.

[5] M. Vukobratovic and B. Borovac. Zero moment point-thirty five years of its live.Int. Journal of HumanoidRobotics, 1(1) :157–173, 2004.

[6] B. Perrin. Modélisation et commande d’un robotquadrupède pour une allure dynamiquement stable.PhD thesis, Université de Nantes, Ecole Centrale deNantes, 1999.

[7] A. Goswami. Postural stability of biped robots andthe foot rotation indicator (fri) point.Int. J. Rob. Re-search, 18(6), 1999.

[8] K.J. Waldron. Force and motion management in leg-ged locomotion.IEEE Journal of Robotics and Auto-mation, 2(4) :214–220, 1986.

[9] K. Harada, S. Kajita, K. Kaneko, and H. Hirukawa.Pushing manipulation by humanoid considering two-kinds of zmps. InICRA, 2003.

[10] J-J. Slotine and W. Li. Applied nonlinear control.Prentice Hill, 1991.

[11] J. Guckenheimer and P. Holmes.Nonlinear Oscilla-tions, Dynamical Systems, and Bifurcations of VectorFields. Springer-Verlag, 1985.

[12] A. Goswami, B. Espiau, and A. Keramane. Li-mit cycles in a passive compass gait biped andpassivity-mimicking control laws.Autonomous Ro-bots, 4(3) :273–286, 1997.

[13] Y. Hurmuzlu and C. Bastogan. On the measurementof dynamic stability of human locomotion.Journalof Biomechanical Engineering, 1994.

[14] J.W. Grizzle, G. Abba, and F. Plestan. Asymptoticallystable walking for biped robots : Analysis via systemswith impulse effects.IEEE Transaction on AutomaticControl, 46 :51–64, 2001.

[15] K. Hirai, M. Hirose, Y. Haikawa, and T. Takenaka.The development of honda humanoîd robot. InICRA,pages 1321–1326, Leuven, Belgium, 1998.

[16] T Mac Geer. Passive dynamic walking.Int. J. Rob.Research, 9(2) :62–82, 1990.

[17] S. Collins, A. Ruina, R. Tedrake, and M. Wisse. Ef-ficient bipedal robots based on passive-dynamic wal-kers.Science Magazine, 307(19) :1082–1085, 2005.

[18] C. Chevallereau, G. Abba, Y. Aoustin, F. Plestan, E.R.Westervelt, C. Canudas-de Wit, and J.W. Grizzle.Rabbit : A testbed for advanced control theory.IEEEControl Systems Magazine, 23(5) :57–79, 2003.

[19] J. Yamagucchi, E. Soga, S. Inoue, and A. Takanishi.Development of a bipedal humanoid robot - controlmethod of whole body cooperative dynamic bipedwalking. In ICRA, 1999.

[20] S. Kagami, K. Nishiwaki, T. Kitagawa, T. Sugihiara,M. Inaba, and H. Inoue. A fast generation method ofa dynamically stable humanoîd robot trajectory withenhanced zmp constraint. InIEEE Int. Conf. on Hu-manoîd Robotics, 2000.

[21] S. Kajita, F. Kanehiro, K. Kaneko, K. Fujiwara,K. Harada, K. Yokoi, and H. Hirukawa. Biped wal-king pattern generation by using preview control ofzero-moment point. InICRA, 2003.

[22] S. H. Collins, M. Wisse, and A. Ruina. A three-dimensional passive-dynamic walking robot with twolegs and knees.Int. J. Rob. Research, 20(7) :607–615,2001.

[23] N. Khraief, N.K. M’Sirdi, and Spong M.W. An al-most passive walking of a kneeless biped robot withtorso. InECC, 2003.

[24] B. Espiau and A. Goswami. Compass gait revisited.In SYROCO, pages 839–846, 1994.

[25] M.W. Spong and F. Bullo. Controlled symmetries andpassive walking. IEEE Transactions on AutomaticControl, 2003.

[26] Aoustin Y. and Formal’sky A. Control design for abiped : Reference trajectory based on driven angles asfunctions of the undriven angle.Journal of Computerand Systems Sciences International, 42(4), 2003.

[27] C. Chevallereau, A. Formal’sky, and D. Djoudi. Tra-cking of a joint path for the walking of an underac-tuated biped.Robotica, 22 :15–28, 2004.

[28] C. Chevallereau, E.R. Westervelt, and J.W. Grizzle.Asymptotically stable running for a five-link, four-actuator, planar bipedal robot.Int. J. Rob. Research,2005.

[29] D. Djoudi and C. Chevallereau. Stability analysis ofa walk of a biped with control of the zmp. InIROS,2005.

[30] J. Pratt and G. Pratt. Intuitive control of a planar bipe-dal walking robot. InICRA, pages 2014–2021, 1998.

[31] R. Tedrake, T.W. Zhang, and H.S. Seug. Stochasticpolicy gradient reinforcement learning on a simple 3dbiped. InIROS, pages 2849–2854, 2004.

[32] C. Azevedo and P. Poignet. Commande prédictivepour la marche d’un robot bipède sous-actionné. InCIFA, 2002.


Stratégie de commande collaborative réactive pour des réseaux de robots

P. Fraisse1 W. Perruquetti 2

A.P. Gil 1 T. Divoux 3

R. Zapata 1

1 LIRMM CNRS UMR 55062 LAGIS CNRS UMR 80213 CRAN CNRS UMR 7039

161 rue ADA, 34392 Montpellier cedex [email protected]

Résumé

Ces travaux font l’objet d’une étude concernant l’élabo-ration d’une stratégie de commande décentralisée réactivepour une flottille de robots mobiles terrestres. Cette straté-gie de commande est basée sur un contrôle décentralisé quis’appuie sur le principe Leader-Follower utilisant à la foisdes informations de positionnement absolu (GPS) et rela-tif entre véhicule (niveau de réception des liens WiFi) ainsique des informations d’existence d’obstacles de proximités(capteurs ultra-sons). Cette méthode permet d’intégrer etd’optimiser à chaque instant ces diverses contraintes afinde générer un chemin faisable capable de maintenir la flo-tille dans une forme géometrique donnée, avec un niveaude réception des transmissions entre les véhicules minimal,ainsi que l’évitement local d’obstacles.

Mots Clef

Commande collaborative, systèmes plats, génération detrajectoire, commande décentralisée

1 IntroductionLes systèmes multi-robots est un champ important de la re-cherche robotique car il ouvre des perspectives très impor-tantes dans les domaines de l’exploration ou des missionsde recherche et de secours des personnes. En effet, cestypes de missions nécessitent de couvrir un espace consé-quent d’une zone déterminée. Pour ce faire, le partage d’in-formations capteurs tels que la localisation de l’ensembledes véhicules ainsi que des retours vidéo ou sonore versun opérateur distant assurent une couverture rapide et opti-male de la recherche. D’autres types de missions collabora-tives ont déjà été envisagées tels que le transport coopératif[1] ou le jeux d’équipe [2]. Pour réaliser ces tâches, dif-férentes techniques coopératives du contrôle décentraliséau comportement inspiré du vivant ont déjà été abordées.Dans la plupart des cas, ces techniques s’appuient sur l’uti-lisation de capteurs de positionnement relatif et/ou absolu

(vision, GPS, capteurs proprioceptifs..), dont le partage desinformations s’effectue par l’utilisation de moyen de trans-missions sans fil.Notre travail de recherche s’est focalisé sur l’étude et ledéveloppement d’une stratégie de commande capable demaintenir une flotille de véhicules terrestres en formationavec une contrainte de maintien des liens de transmissionentre véhicules, quelle que soit la structure de l’environne-ment (bâtiment, mur, obstacle). En effet, la force et l’effi-cacité d’une flottille de robots est dans le partage des infor-mations ainsi que le déplacement coordonnée permanent etréactif. Ces contraintes maintenues, on peut envisager la té-léopération de la flotille par un opérateur distant (cf. figure(1)).

FIG. 1 – Flottille de robots mobiles

La stratégie de commande que nous avons développée estbasée sur le principe d’une commande décentralisée déjàproposée dans [3]. Cependant le déploiement d’une flottillede robots d’extérieur dans des environnements urbains parexemple, peut engendrer des difficultés d’une part de loca-lisation avec le GPS et d’autre part de coupure des liens decommunications entre véhicules. Aussi avons-nous choisid’utiliser le dispositif de transmission sans fil (WiFi) entant que capteur, nous permettant ainsi de mesurer le niveau


de réception du lien de transmission avec son voisin immé-diat. Cette nouvelle variable de commande associée à l’évi-tement local de collision, va nous contraindre d’élaborer unschéma de commande adapté capable de gérer à la fois lepositionnement absolu et relatif des véhicules, le niveau deréception des transmissions entre véhicules et l’évitementde collision.Ce projet nécessite des compétences dans les domaines dela commande, de la robotique mais aussi des réseaux etde la qualité de services sur les réseaux sans fil. Aussiavons-nous crée un projet de collaboration avec deux autreséquipes de recherche afin d’adresser la globalité du pro-blème. Ce papier consacre cependant l’essentiel de sa pré-sentation aux résultats concernant le domaine de la robo-tique.

2 Stratégie de commande décentrali-sée

2.1 IntroductionLa stratégie de commande décentralisée est basée sur lemodèle Leader-Follower (cf. figure (2). Au début de la mis-sion le véhicule le plus proche de l’opérateur est choisi ar-bitrairement comme leader de la flottille. Les autres véhi-

FIG. 2 – Stratégie de commande décentralisée

cules sont les followers. La position désirée du leader estdéfinie par la position courante de l’opérateur augmentéed’une distance dol qui peut être constante ou variable. Lespositions désirées des followers sont définies par la po-sition courante du voisin immédiatement supérieur (plusproche du premier leader), augmentée d’une distance dfifj

(distance entre le suiveur i et j).Si cette configuration est respectée, alors les véhiculesvont suivre le déplacement de l’opérateur (cf. figure (2))à condition que chaque véhicule ait accès à chaque instantà la position de son voisin immédiat. Dans ce cas de figure,l’opérateur pourra disposer d’un retour d’informations cap-teurs de l’ensemble de la flottille (vidéo par exemple).

2.2 Positionnement Leader-FollowerLa détermination des positions désirées des véhicules pourchacun des robots qui constitue la flottille, se déduit desinformations de positionnement absolu (GPS) courantes dechacun des véhicules xi, yi, associées à la connaissance de

l’angle relatif ψi entre le leader et follower local mesurépar une antenne sectorielle motorisée pointant le niveau deréception maximal du véhicule voisin immédiat (cf. figure(3)). En utilisant l’ensemble de ces informations, on peut

FIG. 3 – Positionnement Leader-Follower

écrire les équations du positionnement tel que :

xdj = xi − Ld

ijcos(θj + ψij)

ydj = yi − Ld

ijsin(θj + ψij)

θdj =

ydj −yj

xdi−xi

ξdi = θd

j − θj

(1)

Avec Ldij qui représente la distance désirée entre le véhi-

cule i et j, ψ l’angle entre les deux véhicules et θ l’orienta-tion relative du véhicule. La position du premier leader estdéfinie directement par l’opérateur.

3 Positionnement avec le niveau deréception

Pour assurer le maintien du lien de communication, ilest nécessaire d’introduire une nouvelle variable de com-mande qui est le niveau de réception du dispositif (WiFi)qui s’exprime en dBm. On considère que les véhicules sontmunis de deux dispositifs WiFi. Le premier muni d’une an-

FIG. 4 – Positionnement Leader-Follower

tenne omnidirectionnelle permettant d’envoyer à son ou sesfollower(s), sa position courante et le deuxième muni d’uneantenne sectorielle motorisée capable de suivre et de me-surer le niveau de réception concernant la transmission deson leader local (cf. figure (4)). Cette nouvelle variable de


commande qui représente une puissance de réception peuts’exprimer en fonction de la distance entre les véhicules :

PjdBm = 10log10Pj

10−3= 10log10

Pei

4πL2ij

(2)

Avec Pj la puissance de réception mesurée sur le véhiculej, Pei la puissance d’emission du véhicule i.

4 Evitement de collisionLa dernière contrainte que nous souhaitons inclure danscette stratégie de commande est l’évitement de collision.Cet évitement de collision est basé sur une zone défor-mable entourant et protégeant le robot à partir d’informa-tions de capteurs de proximité (ultra-sons). Pour un robotmobile cette zone virtuelle déformable (cf. figure (5)), [9],sera paramétrable en fonction de la vitesse du véhicule etdes connaissances éventuelles de l’environnement dans le-quel il évoluera. Lorsqu’un obstacle va pénétrer dans l’en-vironnement, une déformation va apparaître dans la zonequi sera directement propagée vers le contrôleur avec pourobjectif de restituer la forme initiale. On peut comparer cetalgorithme à un jeu à deux joueurs où le premier qui estl’environnement va créer des déformations non désirées etle deuxième, le contrôleur du robot, va essayer de recons-truire la forme initiale. Cette déformation peut-être écrite

FIG. 5 – Zone virtuelle déformable

par l’équation suivante :

∆ = Ξ − Ξh = β(I) − ρ(Udvz) (3)

Avec Ξ = β(I) qui dépend de l’information de proximité Iet Ξh = ρ(Udvz représente la part de la déformation com-mandée par le robot. Par différentiation de l’équation (3)par rapport au temps, nous obtenons :

∆ = −∇π[ρ] φ+ ∇I [β] ψ (4)

Avec ∇ξ [.] est l’opérateur dérivé par rapport aux variablesξ et ψ = I :

φ = Udvz =

(Uvj

Uωj

)(5)

Cette équation peut être écrite :

∆ = Aφ+Bψ (6)

Les variations de ∆ sont contrôlées par le vecteur d’entréeu = [φ ψ]T . Le premier vecteur φ, envoyé au contrôleurtend à minimiser la déformation de la DVZ. Le second, ψ,est inconnu et induit par l’environnement.Une fois l’équation (6) obtenue, son intégration peut êtrecalculée en quatre étapes :

1. Calcul de l’information d’intrusion I par mesure de ladistance dans les s directions données par les capteursde proximité.

2. Choix de la variation désirée de cette déformationcomme une fonction de la déformation réelle et de sesdérivées :

∆des = −Kprop∆ −Kder∆ (7)

AvecKprop etKder choisis à partir d’une heuristique.

3. Calcul du vecteur de contrôle φ à l’instant t obtenupar l’invertion de l’équation (6) après avoir replacé la

dérivée de la déformation par sa valeur désirée·

∆des :

φ = A†(∆des −Bψ) (8)

Avec A† la fonction inverse (pseudo-inverse) de lafonction linéaire A et Bψ une estimation du secondvecteur de commandeψ à l’instant t obtenu à (t− 1) :

Bψ(t) = ∆measured(t− 1) −Aφ(t− 1) (9)

4. Intégration de φ afin d’obtenir le vecteur de com-mande : Udvz =

∫ t+dt

tφdt

5 Génération de trajectoire réactiveLa commande de la flottille de robots mobiles doit êtrecompatible avec l’ensemble des contraintes énoncées ci-dessus en incluant de plus la contrainte de non-holonomiede chacun des véhicules et les saturations des actionneursde chaque véhicule. En effet, si un véhicule pendant le dé-placement de la formation a un de ses actionneurs qui at-teint la saturation en vitesse ou en direction, on aura inévi-tablement un comportement en boucle ouverte qui risquerade fragiliser la formation voire de la détruire. Aussi est-ilindispensable de prendre en compte cette contrainte.

5.1 Modélisation et sorties platesLe modèle dynamique d’un véhicule de type électriquepeut s’écrire :

x(t)y(t)

θ(t)

ξ(t)v(t)w(t)

=

v cos(θ)v sin(θ)vLtan(ξ)w

− vτv

+ Uv

τvR

− wτw

+ Uw

τw

(10)

Avec v la vitesse linéaire du véhicule, w la vitesse angu-laire de la direction, τv et τw respectivement les constantesde temps des actionneurs, U le vecteur de commande des


actionneurs et R le rayon des roues. En considérant le vec-teur de sortie z = x, y et ses dérivées, on obtient :

θ = tan−1 y′

x′

(11)

v =√

(x′)2 + (y′)2 (12)

ξ = tan−1L(x

′

y′′

− x′′

y′

)

( 3

√(x′)2 + (y′)2)

(13)

w =(−3(x

′

y′′

− x′′

y′

)(x′

x′′

+ y′

y′′

) + v2(x′

y(3) − x(3)y′))v

v6 + ((x′

y′′ − x

′′

y′))L2

(14)

Uv =τv2(x

′

x′′

+ y′

y′′

) + (x′

)2 + (y′

)2

R√

(x′ )2 + (y′)2(15)

Uw = (τww′

+ w) (16)

Cet ensemble de sortie z sont les sorties plates du système[11]. Cette représentation du modèle dynamique du roboten fonction de ses sorties plates va permettre de réaliser uneparamétrisation d’une trajectoire basée sur des B-Splines.Cette génération pourra prendre en compte des contraintestelle que la saturation des actionneurs par exemple.

5.2 Paramétrisation et optimisation des tra-jectoires

Les sorties plates du véhicule sont paramétrisées par l’uti-lisation de B-Splines. Le problème d’optimisation peut êtreformalisé pour chaque robot par la minimisation en tempsoptimal de la fonctionnelle suivante :

J =

∫ t0

t0

dt (17)

avec t0 le temps initial ou courant et tf le temps final in-connu. Les trajectoires doivent atteindre l’état final x(t0)et x(tf ) et doivent satisfaire les contraintes suivantes :

Umin ≤ U ≤ Umax (18)

ξmin ≤ ξ ≤ ξmax (19)

Le problème peut s’écrire à nouveau :

min

∫ tf

t0

dt (20)

Sous les contraintes suivantes :

Umin ≤ fU(z(t), z′

(t), .., zp(t)) ≤ Umax (21)

ξmin ≤ fξ(z(t), z′

(t), .., zp(t)) ≤ ξmax (22)

Ce problème optimal est modifié en un problème de pro-grammation non linéaire et peut être résolu par une mé-thode du gadient utilisant la méthode de type quasi-Newton

[10]. Nous proposons la prise en compte de l’évitement decollision par une modification de l’index de performance,équation (17), en ajoutant le terme ψs à cet index. L’ob-jectif de cette méthode est que chaque robot trouvera unetrajectoire à temps optimal qui permet de rejoindre l’étatdésiré en minimisant la déformation de la zone virtuelledéformable. Le traitement de ces interactions et de ces dif-férentes contraintes va assurer l’obtention d’une trajectoireassurant le suivi du leader avec évitement des obstaclessans saturation des actionneurs. Cette nouvelle fonctionpermet ainsi de créer une géneration de trajectoire réactivecapable de se modifier en ligne à chaque détection d’obs-tacle.

5.3 Configuration de la commandeL’inclusion de la génération de trajectoire réactive dans unschéma de commande d’un véhicule est réalisée figure (6).Cette configuration assure à chaque véhicule la construc-

FIG. 6 – Schéma de commande

tion d’une trajectoire optimale à partir de son état cou-rant vers son état désiré au moyen des sorties plates. Uncontrôle linéaire de type proportionnel dérivé est ajoutéafin de compenser les erreurs de modélisation du véhi-cule ainsi que des contacts roue-sol qui ne sont pas prisen compte dans cette étude.

6 Résultats de simulationNous avons réalisé un simulateur incluant le modèle dy-namique des véhicules ainsi que la contrainte de non-holonomie. Les paramètres du modèle dynamique ont étéidentifiés à partir du site expérimental que nous avons dé-veloppé qui comprend trois véhicules électriques incluantquatre capteurs de proximité ainsi que deux émetteurs ré-cepteur WiFi (cf. figure (7)).

FIG. 7 – Site expérimental


6.1 Validation de la commande décentraliséeCette première validation a pour objectif le suivi du leadersans obstacle avec la contrainte de distance entre les véhi-cules. La figure (8) présente trois véhicules, un leader dontla trajectoire est prédéfinie par l’opérateur et deux follo-wers qui suivent à une distance de 10m le leader. Le cercleautour du leader indique un niveau de réception de -5dBmque le follower 1 devra suivre au milieu de la trajectoirependant un certain temps car la position courante du leaderne sera plus, à ce moment là, disponible.

−10 0 10 20 30 40 50 60 70 80−10

0

10

20

30

40

50

60

X (m)

Y (

m)

Evolution des vehicules leader et followers

FIG. 8 – Trajectoires leader et 2 followers

Ce suivi s’effectue sans génération de trajectoire avec sim-plement la loi de commande proportionnelle-dérivée soiten position soit en niveau de réception.La figure (9) représente une formation de cinq véhiculesavec une distance entre les véhicules cette fois-ci de 100m.Le niveau de réception désiré pour les followers 1 et 2 sesitue à -25dBm. La position courante du leader n’est plusdisponible durant le virage, la commutation sur le niveau deréception s’effectue pendant cette phase. Il est intéressant

−200 −100 0 100 200 300 400 500 600 700−100

0

100

200

300

400

500

600

X (metres)

Y (

met

res)

Evolution des vehicules leader et followers

FIG. 9 – Trajectoires leader et 4 followers

de souligner que le maintien d’une formation lorsque lesdistances entre véhicules deviennent importantes (>50m)induit lors de manœuvres des déformations de la formationqui sont liées d’une part aux contraintes de non-holonomiesdes véhicules et d’autre part à la saturation des actionneurs(vitesse et direction). Il est donc nécessaire, en conclusion,d’utiliser même dans le cas sans obstacle une génération detrajectoire afin de gérer les erreurs de poursuite.

6.2 Validation de l’algorithme de générationde trajectoire réactive

Cette simulation a pour objectif de visualiser les effets dela génération de trajectoire réactive sur une formation mi-nimale de deux robots en présence d’un obstacle. La tra-jectoire du leader est supposée définie par l’opérateur, latrajectoire désirée du follower est définie figure (10).

FIG. 10 – Formation diagonale

La première simulation figure (11), présente un suivi duleader avec un obstacle sur la trajectoire du follower. Onpeut distinguer sur cette figure l’ensemble des trajectoirescalculées et réactualisées à chaque période d’échantillon-nage en fonction des informations des capteurs de proxi-mité qui ont une distance de détection de 10m environ.Après l’évitement de l’obstacle le follower reprend sa po-sition initiale.

5 10 15 20 25

0

1

2

3

4

5

X(m)

Y(m

) ObstacleTrajectoires optimisees

Trajectoire du vehicule

FIG. 11 – Trajectoire du follower

La simulation suivante figure (12), propose une conditioninitiale de démarrage différente de la précédente, avec uneposition du follower inversée suivie de la rencontre d’unobstacle. Cette contrainte extrêmement forte montre la sou-plesse de cette méthode réactive.


−20 0 20 40 60 80

−20

0

20

40

60

X(m)

Y(m

)

Leader

Follower

FIG. 12 – Trajectoires leader et follower

Enfin, la dernière simulation figure (13), propose d’insérersur la trajectoire du follower un obstacle de grande dimen-sion par rapport à la capacité de détection des capteurs deproximité.

−10 −5 0 5 10 15 20 25 30

−15

−10

−5

0

5

10

15

X (m)

Y (

m)

Evitement d’obstaclePositionnement Leader−FollowerTrajectoire robotObstacleTrajectoire planifiee

FIG. 13 – Evitement d’obstacle sous contraintes

L’ensemble des trajectoires calculées en ligne sont pré-sentes sur la courbe et montre de quelle manière le véhiculeadapte son mouvement à la présence de l’obstacle tout enconservant l’objectif final de suivi du leader.

7 PerspectivesCe projet réalisé conjointement en collaboration avec leLAGIS et le CRAN au sein d’un groupe de recherche surla commande collaborative de véhicules mobiles comprend

d’autres aspects de recherche très importants nécessairesà son succès. En effet, la commande d’une flottille de ro-bots mobiles est construite sur l’hypothèse que les liens decommunications entre les véhicules sont parfaits et n’en-gendrent aucun problème pouvant nuire au succès de lamission.

La réalité expérimentale est très différente. La qualité deservice (QoS) sur les liaisons de transmissions sans filne peut être assurée de part la nature même du médiumde communication. Considérant ce fait, il est importantde modéliser et identifier ces phénomènes perturbateurspour la commande afin de construire un contrôleur adapté.L’équipe du CRAN a développé un outil de métrologie desréseaux [7] capable d’effectuer des mesures et des estima-tions en temps réel des retards de transmission aller et re-tour ainsi que des taux de pertes des paquets. Cet outil per-met ainsi d’avoir une observation et une prédiction sur lesretards moyens et instantanés des transmissions entre lesvéhicules. Ces retards quelquefois très importants (5ms à1,5s avec WiFi) exigent à la fois une prise en compte auniveau de la commande mais aussi dans le mécanisme detransmission (protocole adapté).

C’est pour cela que le LAGIS, fort de son expérience dansla commande des systèmes à retards a développé des tech-niques de commande capablent de prendre en compte cesvariations de retards [5], [6] dans la boucle globale de lacommande constituée par la flottille de robots mobiles etl’opérateur distant. Les perspectives, sont à moyen termela proposition d’un algorithme de commande collaboratifglobal prenant en compte à la fois les contraintes liées auxvéhicules mais aussi celles des retards de transmission.

8 Conclusions

Nous avons proposé une nouvelle méthode de générationde trajectoire réactive capable de prendre en compte un en-semble de contraintes différentes et parfois antagonistes.Les résultats que nous avons obtenus sont extrêmement en-courageants. La prise en compte du niveau de réception ra-dio en tant que variable de commande de la flotille afin demaintenir le lien de communication intact quels que soientles obstacles rencontrés, est un point important qui doit êtreapprofondi par la prise en compte d’un modêle de rayonne-ment des antennes non isotrope. Une étude de modélisationet de commande globale comprenant à la fois les liens decommunications et les robots mobiles va constituer, dansles années qui viennent, un défi scientifique important pourla commande de flottille de robots mobiles terrestres.

Dans la continuité, on pourra citer le domaine exploratoireque constitue la commande collaborative réactive de robotsmobiles sous-marins (AUV) où les problèmes rencontrésen termes de commande, de génération de trajectoires ainsique de retards de transmission sont bien plus complexes àtraiter et commence à faire l’objet d’un certain intérêt [8].


Références[1] K. Kosuge, T. Oosumi, M. Satou, K. Chiba, K.

Takeo,"Transportation of a single object by twodecentralized-controlled nonholonomic mobile ro-bots", in Proc. Conf. Robotics and Automation, Leu-ven, Belgium, May 1998, pp. 2989-2994.

[2] T. Weigel, J. Gutmann, M. Dietl, A. Kleiner, B. Ne-bel, "CS Freiburg : Coordinating Robots for Success-ful Soccer Playing, IEEE Transactions on Robotics andAutomation, Special Issue on Advances in MultirobotSystems, Vol. 18, N5, October 2002, pp. 685-699.

[3] J.T. Feddela, C. Lewis, D.A. Schoenwald, "Decentrali-zed Control of Cooperative Robotic Vehicles : Theoryand Application", IEEE Transactions on Robotics andAutomation, Special Issue on Advances in MultirobotSystems, Vol. 18, N5, October 2002, pp. 852-863.

[4] A.K. Das, R. Fierro, V. Kumar, J. P. Ostrowski, J.Speltzer, C. J. Taylor, "A Vision-Based FormationControl Framework", IEEE Transactions on Roboticsand Automation, Special Issue on Advances in Mul-tirobot Systems, Vol. 18, N5, October 2002, pp. 813-825.

[5] W. Perruquetti, J.P. Richard, S.V. Drakunov," Estima-teurs de retards basés sur un observateur à mode glis-sant, CIFA’2004, Tunisie.

[6] E. Fridman, F. Gouaisbaut, M. Dambrine and J.P. Ri-chard, "Sliding mode control of systems with time-varying delays via descriptor approach", InternationalJournal of Systems Science.

[7] F. Michaud, F. Lepage," A Tool to Monitor theNetwork Quality of Service", NET-CON’2002, IFIPConference on Network Control and Engineering, Pa-ris, France, Octobre 2002.

[8] D. J. Stilwell,"Decentralized Control Synthesis for aPlatoon of Autonomous Vehicles", Proceeding of the2002 IEEE ICRA, pp. 744-747, May 2002, Washing-ton, DC, USA.

[9] R. Zapata, R. Caciti, P. Lepinay,"DVZ-Based CollisionAvoidance Control of Non-holonomic Mobile Manipu-lator", JESA, Vol 38, N5, PP. 559-588.

[10] M. Milan, "Real-Time Ooptimal Trajectory Genera-tion for Constrained Dynamical Systems", PhD. The-sis. California Institute of Technology, 2003.

[11] P. Martin,"Contribution à l’étude des systèmes dif-férentiellement plats", thèse de doctorat, Ecole desMines de Paris, 1992.


Modèles de décision de groupe pour la coordination et le contrôle d’un systèmemulti-robots

Abdel-Illah Mouaddib∗

GREYC-Université de CaenMaréchal Juin, BP 5186

14032 Caen [email protected]

Résumé

Nous étudions de nouveaux modèles décisionnels pour laconception de systèmes d’agents autonomes évoluant dansun environnement dynamique et incertain. Cette orienta-tion commence à prendre de plus en plus d’ampleur dansla communauté internationale dans les domaines de la pla-nification multi-agent et des systèmes complexes appliquésà plusieurs domaines dont le plus notable est la coordina-tion dans les systèmes multi-robots.Pour cela nous faisons appel aux processus décisionnelsde Markov décentralisés (DEC-MDP). La résolution deDEC-MDP est un problème difficile. Une solution opti-male ne peut donc être calculée que pour de très petitsproblèmes. De nombreux travaux se sont intéressés à lamise en place de techniques d’approximation mais elles negèrent que très peu de contraintes sur les problèmes posés.Dans cet article, nous identifions une classe de DEC-MDP,OC-DEC-MDP, pouvant gérer des contraintes temporelleset de précédence entre les tâches. De plus, nous proposonsun algorithme polynomial pouvant résoudre cette classede DEC-MDP. Plusieurs extensions sont actuellement dé-velopés pour la prise en compte de la coordination spa-tiale pour une meilleure planification collective des che-mins des robots et la coordination des décisions localespour la construction d’une décision globale proche de l’op-timum.

Mots Clef

Processus Décisionnels de Markov Décentralisés, planifi-cation multi-objective, décision, systèmes multi-agents

1 IntroductionNous étudions de nouveaux modèles décisionnels pour laconception de systèmes d’agents autonomes évoluant dansun environnement dynamique et incertain. Cette orienta-tion commence à prendre de plus en plus d’ampleur dansla communauté internationale dans les domaines de la pla-nification multi-agent et des systèmes complexes appli-qués à plusieurs domaines comme les moteurs de recherche

∗Cet article contient du matériel des publications de l’équipe MAD duGREYC

adaptatifs, Internet et les réseaux informatiques et la robo-tique. L’objectif du projet est de formaliser les problèmesde la prise de décision par un groupe d’agents par des pro-cessus décisionnels de Markov décentralisés (DEC-MDP).Ces modèles que nous avons utilisé pour le contrÃ´le d’unagent autonome (un robot) dans les domaines de la robo-tique exploratoire , nous souhaitons les étudier dans uncadre multi-robot en étudiant les problèmes de l’interac-tion et la coordination entre ces processus, et la communi-cation qui peut être impossible pendant certaines périodesde temps (panne, visibilité, bruit, etc.). Ces modèles serontévalués dans des scénarios de la robotique de combats oude secours lors d’une situation de crise.

Différents travaux se sont intéressés à l’extension desMDPs et POMDPs pour le contrôle décentralisé de sys-tèmes multi-agents coopératifs. Parmi les approches misesen place, différentes hypothèses concernant l’observa-bilité des agents et les types de communication ontété envisagées, néanmoins il reste très difficile de ré-soudre les problèmes considérés. Il a été prouvé queles DEC-MDP et les DEC-POMDP étaient des pro-blèmes NEXP [Bernstein et al.2000]. La plupart des tra-vaux tentent donc de trouver de bonnes approxima-tions de la solution optimale. Certaines approches per-mettent d’atteindre des optima locaux comme le JointEquilibrium based Search for Policies (JESP) de Nair etTambe [Yokoo et al.2003]. D’autres modèles ont recoursà des méthodes heuristiques afin d’approximer la poli-tique optimale : les DEC-POMDP avec communication(DEC-POMDP-Com) proposés par Goldman et Zilber-stein [Goldman and Zilberstein2003], le CommunicativeMulti-agent Team Decision Problem (COM-MTDP) dé-crit par Pynadath et Tambe [Pynadath and Tambe2002] ; oubien elles utilisent l’apprentissage on-line comme le PartialObservable Identical Payoff Stochastic Game (POIPSG)par Peshkin et al. [Peshkin et al.2000]. L’une des princi-pales difficultés des DEC-MDP et DEC-POMDP résidedans le manque d’observabilité entre les agents : chaqueagent ne perçoit que partiellement les autres. Dans les tra-vaux qui viennent d’être cités, les décisions des agentsreposent sur les observations locales et les informationscollectées en communiquant, à condition que les agents


puissent communiquer.Becker et al. ont identifié deux classes de MDPs pou-vant être résolues de manière optimale, par un algorithmeexponentiel en espace d’états : Decentralized DecisionProcess with Event Driven Interaction (ED-DEC-MDP)[Becker et al.2004] et les Transition-Independent Decen-tralized MDPs (TI-DEC-MDP) [Becker et al.2003]. Cesapproches permettent de gérer des dépendances entre lestâches. Cependant, seuls de très petits problèmes peuventêtre traités.Dans cet article, nous identifions une classe de DEC-MDP,OC-DEC-MDP, pouvant gérer des contraintes complexeset pouvant être résolue par un algorithme polynomial. Lesproblèmes auxquels nous nous intéressons sont constituésde plusieurs agents ayant un ensemble de tâches à réali-ser. Aucune restriction n’est posée concernant le nombred’agents. Chaque tâche est associée à un agent. Le pro-blème de la répartition des tâches sur les agents n’est pasdétaillé dans cet article mais des extensions de cette ap-proche sont proposées pour combler ce besoin.Chaque tâche possède des contraintes temporelles repré-sentées par une fenêtre temporelle [EST, LET ]. EST (Ear-liest Start Time) correspond à la date de début au plustôt de la tâche. LET (Latest End Time) décrit sa date defin au plus tard. Chaque tâche ti possède également desprédécesseurs : les tâches devant être achevées afin queti puisse commencer. Par ailleurs, les agents considérésévoluent dans des environnements incertains, différentesdurées d’exécution et différentes consommations de res-sources doivent donc être envisagées pour chaque tâche.Chaque tâche possède un ensemble de durées d’exécu-tion représentées par une distribution de probabilités, ainsiqu’un ensemble de consommations de ressources égale-ment représentées par une distribution de probabilités. Lesdurées d’exécution et les consommations de ressourcessont supposées discrètes. Pc(δc)ti

désigne la probabilitéque l’exécution d’une tâche ti prenne δc unités de temps.Pr(∆r)ti

désigne la probabilité que l’exécution d’unetâche ti consomme ∆r unités de ressources. Enfin, une ré-compense est associée à chaque tâche, elle correspond àla récompense obtenue par l’agent lorsqu’il a exécuté latâche.L’ensemble des tâches que les agents ont à réaliser est ap-pelé “mission” et peut être représenté par un graphe orientéacyclique. Chaque noeud du graphe correspond alors à unetâche et les arêtes traduisent les contraintes de précédenceentre les tâches. Afin de réaliser leur mission, les agentsdoivent agir de manière coopérative. Durant l’exécution dela mission, les agents ne peuvent pas communiquer et nepeuvent pas observer les états des autres agents. Ils doiventdonc coopérer sans communication et tout en gérant l’in-certitude sur les actions, les contraintes du problème et lecaractère non-observable des autres agents.La figure 5 présente un exemple de mission pour 3robots (agents) “rescue” devant gérer une situation decrise. Les robots “rescue” sont des robots devant inter-

venir lors de tremblements de terre ou d’autres catas-trophes du même type. Ils remplacent ou assistent deséquipes de secours utilisées traditionnellement. Dans lescénario que nous présentons, des robots pompiers, am-bulanciers et policiers doivent agir de manière coopéra-tive afin de gérer une situation de crise. De tels scénarisont inspirés de ceux utilisés lors de la RoboCup Re-scue [http ://www.rescuesystem.org/robocuprescue/]. Lesarêtes du graphe représentent les contraintes de précédenceentre les tâches : les blessés doivent être secourus avantque les pompiers puissent éteindre le feu. Les contraintestemporelles sur les tâches sont mentionnées par des inter-valles : l’immeuble a pris feu au temps 3 et les blessésdoivent être secourus avant le temps 6. Notre modèle per-met de gérer des graphes de tâches beaucoup plus impor-tants, de plus de 200 tâches. D’autres domaines d’applica-tions peuvent également être envisagés : les robots chargésd’explorer d’autres planètes ou des terrains radioactifs, lesrobots dockers, les satellites, ...

Agent 2 Agent 2

Soigner

les blessés à l’hopital

Agent 2Agent 2

[3 ,6] [4 ,7] [7 ,9]

trafic

Agent 1Agent 1

[3 , 8]

Agent 3Agent 3

Rentrer à la

Agent 3

Se déplacersur le site 1

Se déplacersur le site 2

Gérer le

Secourir Se rendreles blessés

caserneEteindre

le feusur le site 1Se déplacer

FIG. 1 – Graphe d’une mission

Le problème que nous cherchons à résoudre est un pro-blème de planification multi-agent. Il consiste à détermi-ner une politique coopérative pour chaque agent. Une po-litique associe, à chaque état de l’agent, une action. Ellepermet alors à celui-ci, lors de l’exécution de la mission,de décider quelle action entreprendre et quand. L’approcheque nous présentons se base sur des Processus Décisionnelsde Markov décentralisés (DEC-MDP) et utilise la notionde coût occasionné. Les processus décisionnels de Mar-kov décentralisés (DEC-MDP) constituent une extensiondes processus décisionnels de Markov (MDP) pour les sys-tèmes multi-agents. Ils fournissent un outil mathématiquepermettant de formaliser et résoudre des problèmes de dé-cision séquentielle dans des systèmes multi-agents où lecontrôle est distribué.La résolution des DEC-MDP étant NEXP, nous proposonsde ramener notre problème à un ensemble de MDP locaux.Chaque agent construit son propre MDP local et calculesa politique locale, en tenant compte des effets de sa dé-cision sur les autres agents. Les contraintes temporelles etde précédence devant être respectées, plus un agent retardela fin de l’exécution d’une tâche, plus il retarde ses succes-seurs. Afin de réaliser la mission de manière coopérative,chaque agent doit tenir compte de l’impact de ses décisionssur les autres agents. Pour ce faire, lors du calcul des poli-


tiques des MDPs locaux, l’utilité espérée de chaque actionest pondérée par le coût qu’elle occasionne sur les autresagents. Cette approche permet de ne pas avoir recours à desobservations sur les états des autres agents, ni à la commu-nication durant l’exécution. Ainsi, la complexité du pro-blème est fortement diminuée.Nous allons tout d’abord présenter notre approche baséesur l’utilisation de MDP Décentralisés avec Coût Occa-sionné (OC-DEC-MDP). Nous commencerons par décrirecomment construire les différents MDPs locaux consti-tuant le OC-DEC-MDP. Nous présenterons ensuite les dif-férentes équations et l’algorithme permettant de calculerles politiques locales et nous justifierons l’aspect polyno-mial de notre algorithme. Enfin, nous décrirons différentsrésultats expérimentaux.

2 PréliminairesAfin de mettre en place les différents MDPs locaux, il esttout d’abord nécessaire d’avoir de plus amples informa-tions sur la mission. A partir des contraintes temporelles etde précédence ainsi que des durées des tâches, l’ensembledes intervalles d’exécution possibles de chaque tâche peutêtre déterminé. Des bornes sur les dates de début sont éga-lement calculées. Par la suite, LBi (Lower Bound) dési-gnera la première date de début valide de ti et UBi (Up-per Bound) la dernière date de début valide. Chacun desintervalles est ensuite pondère par une probabilité. La pro-babilité associée à un intervalle I d’une tâche ti représentela probabilité que l’exécution de ti se déroule dans I . Unalgorithme de propagation des probabilités a été mis enplace afin de déterminer ces valeurs. Il tient compte descontraintes de précédence et de l’incertitude sur les duréesd’exécution.

Probabilités sur les dates de début Afin de calculerles probabilités des intervalles d’une tâche ti, il est toutd’abord nécessaire de calculer la probabilité de chaque datede début de ti. La probabilité qu’une tâche commence à st

dépend des contraintes de précédence et plus particulière-ment des probabilités sur les dates de fin des prédécesseurs.Supposons que la politique initiale d’un agent consiste àcommencer l’exécution de ses tâches le plus tôt possible,c’est-à-dire dès que ses prédécesseurs ont terminé. Parconséquent, la probabilité DP (t) que l’agent commencel’exécution d’une tâche ti à t est égale au produit des pro-babilités que tous les prédécesseurs aient fini leur exécutionavant ou à t et au moins l’un d’entre eux a fini à t (sinonl’exécution de la tâche aurait commencé plus tôt). Plus for-mellement, pour les racines : DP (t) = 1, t = LBroot =UBroot . Pour les autres noeuds :

DP (t) =∏

a∈predecessors(ti)

Paend(δe ≤ t) −

∑t1<t

DP (t1)

où a est un prédécesseur de ti dans le graphe de la missionet Pend(δe ≤ t) est la probabilité que le prédécesseur a fi-nisse à t ou avant. DP (t) est appelé “probabilité absolue”.Supposons maintenant que l’agent décide de commencerl’exécution de ti à t même s’il aurait pu commencer avant

(t n’est pas obligatoirement la date de début au plus tôt).La probabilité que l’agent puisse commencer à t est égaleà la probabilité que les prédécesseurs aient fini à t ou avant,soit :

∑t′≤t DP (t′). Cette probabilité est appelée “proba-

bilité relative” car elle est relative à une décision de com-mencer l’exécution à une certaine date t pouvant être dif-férente de la première date de début possible, et par consé-quent différente de la date de début dictée par la politiqueinitiale.Etant donné une tâche ti, P abs

w (I) désignera la probabilitéque ti s’exécute dans l’intervalle I sachant que l’agent suitsa politique initiale. P rel

w (I) désignera la probabilité que ti

s’exécute dans l’intervalle I sachant que l’agent décide decommencer à st, cette probabilité est relative à la décisionprise par l’agent qui peut être différente de celle dictée parsa politique initiale.La probabilité P a

end(δe ≤ t) que le prédécesseur a ait finià t est définie par :

Paend(δe ≤ t) =

∑I1∈intervalles(a),et(I1)≤t

Pabsw (I1)

Elle est égale à la somme des probabilités que le prédéces-seur a soit exécuté dans un intervalle I1 telle que la date defin et(I1) de I1 soit inférieure à t.Connaissant les probabilités sur les dates de début destâches, il est possible de calculer les probabilités sur lesintervalles d’exécution.

Probabilités des intervalles d’exécution La probabilitéqu’une tâche ti+1 s’exécute dans un intervalle I = [st, et]est égale à la probabilité que ti+1 commence à st et queson exécution dure ∆t = et − st unités de temps. Parailleurs, un agent ne peut commencer ti+1 que s’il a finisa tâche précédente ti. Par conséquent, il connaît la date defin et(I ′) de ti, lorsqu’il commence l’exécution de ti+1.De plus, la date de fin de ti influence la date de débutde ti+1 et la probabilité des intervalles d’exécution deti+1. C’est pourquoi, lors du calcul de la probabilité dechaque intervalle, nous devons tenir compte de la date defin et(I ′) de ti. Pour ce faire, nous calculons les probabili-tés P abs

w (I |et(I ′)ti) et P rel

w (I |et(I ′)ti) que ti+1 s’exécute

dans l’intervalle I sachant que ti s’est terminée à et(I ′).P abs

w (I |et(I ′)ti) suppose que l’agent suit sa politique ini-

tiale, et P relw (I |et(I ′)ti

) suppose que l’agent décide decommencer à st(I).

Pabsw (I|et(I ′)ti

) = DP (st(I)|et(I ′)ti).Pc(et(I)− st(I))

Prelw (I|et(I ′)ti

) =∑

t′≤st(I)

DP (t′|et(I ′)ti).Pc(et(I) − st(I))

La probabilité DP (st(I)|etti(I ′)) utilisée ci-dessus cor-

respond à la probabilité que les prédécesseurs de la tâcheaient fini à st(I) et au moins l’un d’eux a fini exactement àst(I), sachant que ti s’est terminée à et(I ′) :

DP (st(I)|et(I ′)ti) =

∏a∈predecessors(ti+1)−ti

Paend(δe ≤ st(I)|et(I ′)ti

)

−∑

t1<st(I′)

DP (t1|et(I′)ti

)


Paend(δe ≤ t|et(I ′)ti

) =∑

I1∈intervalles(a),et(I1)≤t

Pabsw (I1|et(I

′)ti)

3 Formalisation du problèmeUne fois les intervalles d’exécution et leurs probabilités dé-terminées, il est possible de construire et de résoudre leOC-DEC-MDP correspondant à notre problème.

3.1 Modèle OC-DEC-MDP

A partir du graphe de la mission, il est possible deconstruire le graphe des tâches de chaque agent Ai. Cedernier ordonne les tâches que l’agent doit accomplir. Ilest également utilisé lors de la construction du OC-DEC-MDP. La figure 2 présente les graphes des tâches des agentset le OC-DEC-MDP, associés à la mission décrite dans lafigure 5.

OC−DEC−MDP

gérer

Se rendre

secourir

se rendre

Agent 2INI 2

Se rendresite 1 site 2

hopital

soigner

Agent 3 Agent 1

éteindre

rentrer

site 1Se rendre

INI 3 INI 1

gérer

Se rendre

site 2

Se rendresite 1

éteindre

rentrer

soigner

se rendre

hopital

secourir

Se rendresite 1

Agent 3 Agent 2 Agent 1

graphes des taches

FIG. 2 – Relations entre les graphes des tâches et le OC-DEC-MDP

Un OC-DEC-MDP pour n agents est un ensemble de n

MDPs locaux. Chaque MDP local d’un agent Ai est définipar le tuple < Si, Ti, Pi, Ri > où :– Si est l’ensemble fini des états de l’ agent Ai

– Ti est l’ensemble fini des tâches que l’agent Ai doit exé-cuter

– Pi est la fonction de transition telle que P (s′i|si, ti) estla probabilité d’arriver dans l’état s′i lorsque Ai exécutela tâche ti à partir de l’état si

– Ri est la fonction de récompense telle que Ri(ti) est larécompense obtenue par Ai lorsqu’il a exécuté ti.

Nous allons maintenant détailler chacune des composantesdes MDPs locaux.

Etats A chaque étape de décision deux situation peuventse présenter. Soit, l’agent Ai vient d’exécuter une tâche ti

pendant un intervalle I et il lui reste r unités de ressources.L’état de l’agent est alors un triplet [ti, I, r] où ti est la der-nière tâche exécutée, I l’intervalle d’exécution de ti et r laquantité de ressources disponible. L’agent peut aussi avoiressayé d’exécuter une tâche ti+1 mais avoir échoué car lesprédécesseurs de ti+1 n’avaient pas terminé. L’agent estalors dans un état [ti, et(I

′), I, r] tels que ti est la dernièretâche exécutée par Ai avant qu’il tente d’exécuter ti+1 et

et(I ′) est la date de fin de ti.I désigne l’intervalle pen-dant lequel l’agent à tenté d’exécuter ti+1 et r est la quan-tité de ressources disponible. A chaque étape, l’agent a uneconnaissance complète de son état, ce dernier est donc lo-calement totalement observable. En revanche, l’agent neconnaît pas les états des autres agents. Chaque agent ob-serve de manière indépendante son état : les observationsd’un agent ne dépendent pas des observations des autresagents.

Tâches - Actions A chaque étape de décision, l’agentdoit choisir quelle tâche exécuter et quand. Les actionssont donc de la forme E(ti, st) : exécuter la tâche ti à st.Les durées et les consommations de ressources étant incer-taines, les actions sont non déterministes.

Transitions A partir d’un état [ti, I′′, r] ou

[ti, et(I′′), I, r] , si un agent décide d’exécuter une tâche

ti+1 à st, cinq transitions différentes sont envisageables :– Exécution réussie : L’exécution se déroule sans pro-

blème, l’agent arrive dans un état sûr [ti+1, I, r′] . Latâche ti+1 a été exécutée dans l’intervalle I ′ tout en res-pectant les contraintes temporelles EST et LET de latâche. r′ = r − ∆r est la quantité de ressources restantaprès l’exécution de la tâche. La probabilité P1 d’arriverdans un tel état est définie de la façon suivante :

P1 =∑

r≥∆r

∑et(I′)≤LET

Pr(∆r).Pw(I ′|et(I)ti)

– Date de début invalide (st ≤ UB) : L’exécution dela tâche a commencé trop tôt, c’est à dire avant queles prédécesseurs de la tâche aient terminé leur exécu-tion. L’agent arrive donc dans un état d’échec partiel[ti, et(I

′′), [st, st + 1], r′] (la dernière tâche exécutée ti

s’est terminée à et(I ′′)). Cet échec est partiel car l’agentva pouvoir ré-essayer d’exécuter la tâche ti+1 par lasuite. Nous supposons que l’agent réalise immédiate-ment (à st + 1) que les prédécesseurs de la tâche n’ontpas terminé. La probabilité d’arriver dans un tel état estégale à la probabilité Pnot_end(st) que les prédécesseursn’aient pas terminé à st et que l’agent ait assez de res-sources pour s’en apercevoir. Pnot_end(st) est égale àla probabilité qu’ils finissent après st ou ne finissent ja-mais, soit :

Pnot_end(st) = (∏

a∈predecessors(ti+1)−ti

∑Ia :et(Ia)>LET−minδi

Pw(Ia|et(I)ti) −

∑t′≤st

DP (t′|et(I)ti))+

(1 −∏

a∈predecessors(ti+1)−ti

∑Ia

Pw(Ia|et(I)ti))

où DP (t′|et(I)ti) est la probabilité que ti+1 commence

à t′ sachant que ti s’est achevée à et(I)ti.

La probabilité d’arriver dans l’état d’échec partiel[ti, et(I

′′), [st, st + 1], r′] est alors définie de la façonsuivante : P2 = Pnot_end(st).P (∆r′ ≤ r) sachant que∆r′, la quantité de ressources consommée pour s’aper-cevoir que les prédécesseurs n’ont pas terminé, est telleque r ≥ ∆r′. P (∆r′ ≤ r) = 1 si ∆r′ ≤ r , sinonP (∆r′ ≤ r) = 0


– Manque de ressources : Si l’exécution de la tâcheconsomme plus de ressources que la quantité disponibleou que les prédécesseurs de la tâche n’ont pas terminé etl’agent n’a pas assez de ressources pour s’en apercevoir(∆r′ > r), alors l’agent arrive dans un état d’échec to-tal [failureti+1

, [st, +∞], 0]. La probabilité d’une telletransition est :

P3 =( ∑

t′≤st

DP (t′|et(I)ti)

∑r<∆r

Pr(∆r)

+Pnot_end(st).P (∆r′> r)

)

P (∆r′ > r) = 1 si ∆r′ > r, sinon P (∆r′ > r) = 0– Date de début invalide (st > UB) : Si la tâche com-

mence trop tard, c’est-à-dire après sa date de débutau plus tard, l’agent arrive dans un état d’échec total[failureti+1

, [st, +∞], r]. Ce type de transition ne doitêtre envisagé que si la date de début st de la tâche esttelle que st > UB, sinon la probabilité d’une telle tran-sition est nulle, P4 = 0. Si st > UB, La probabilitéd’une telle transition est : P4 = Pnot_end(st)

– Violation deadline : Si l’agent commence l’exécu-tion de la tâche à st mais que la durée d’exécutionδ

ti+1

c de la tâche est telle que st + δti+1

c > LET ,alors l’agent arrive, en raison de la violation d’unedes contraintes temporelles, dans un état d’échec total[failureti+1

, [st, +∞], r]. La probabilité associée à unetelle transition est :

P5 =∑

r≥∆r

∑

st+δti+1

c >LET

Pr(∆r).DP (st|et(I)ti).Pc(δ

ti+1

c )

Il peut facilement être démontré que P1 + P2 + P3 + P4 +P5 = 1. Ainsi, le système de transition est complet.

Récompenses En fonction de la tâche exécutée, chaqueagent Ai reçoit une récompense Ri. La fonction de récom-pense Ri(ti) est supposée connue.Une fois les MDPs locaux mis en place, il est possible decalculer la politique locale de chaque agent.

4 Résolution du problèmeAfin de déterminer les politiques des agents nous avonsmis en place un algorithme basé sur les principes de laprogrammation dynamique, et utilisant une équation dé-rivée de l’équation de Bellman couramment utilisée dansles processus décisionnels de Markov. Nous faisons égale-ment appel au coût occasionné, afin que les agents suiventdes politiques coopératives. Dans cette section, nous dé-taillerons les différents aspects du calcul des politiques desagents.

4.1 Evaluation des politiquesEquations de Bellman La politique locale de chaqueagent est calculée à l’aide de deux équations. La premièrepermet de déterminer la valeur V d’un état s. Elle corres-pond à une équation de Bellman usuelle :

V [ti, I, r] =

gain immédiat︷︸︸︷Ri(ti) +

Utilité espérée︷︸︸︷maxE(ti+1,s),st>t(V

′) (1)

La seconde équation est utilisée afin de déterminer la poli-tique Π des agents. Elle correspond à une équation de Bell-man dans laquelle nous avons introduit un coût occasionné(OC) :

Π([ti, I, r]) = argmaxE(ti+1,st),st>t

(Utilité espérée︷︸︸︷V

′ −

OC espéré︷︸︸︷OC(ti+1, st)

)

(2)où OC(ti+1, st) est le coût occasionné espéré que l’exé-

cution de ti+1 peut provoquer si elle commence à st.Quelle que soit l’équation utilisée (1 ou 2), V ′ est tel que :V ′ = V 1 + V 2 + V 3 + V 4 + V 5. Il existe cinq typesde transitions, chacun des termes de V ′ correspond à l’und’entre eux. On a alors :– Exécution réussie : V 1 = P1.V ([ti+1, I

′, r − ∆r])– Date de début invalide (st ≤ UB) :

V 2 = P2.V ([ti, et(I′), [st, st + 1], r − ∆r

′])

– Ressources insuffisantes :

V 3 = P3.V ([failureti+1, [st, +∞], 0])

– Date de début invalide (st > UB) :

V 4 = P4.V ([failureti+1, [st,+∞], r])

– Violation deadline :

V 5 = P5.V ([failureti+1, [st,+∞], r])

La valeur d’un état d’échec total V ∗fail(ti)

associé à la tâcheti est donnée par l’équation suivante :

V∗fail(ti)

= −Rti−

∑suiv∈agent(ti)

Rsuiv

où −Rtiest la pénalité immédiate pour avoir échoué to-

talement, −∑

suiv∈agent(ti)Rsuiv représente la perte fu-

ture de l’agent, elle correspond à la somme des récom-penses que l’agent aurait pu obtenir s’il avait eu la possibi-lité d’exécuter toutes les tâches qu’il lui restait à réaliser.Comme le montre l’équation 2, la meilleure action à exé-cuter dans un état s est déterminée en considérant :– l’utilité espérée de l’agent, calculée à l’aide d’une équa-

tion de Bellman (eq. 1). Elle prend en compte ce quel’agent peut espérer gagner en exécutant les tâches qu’illui reste à réaliser.

– le coût occasionné espéré provoqué sur les autres agents.L’exécution de la prochaine tâche ti+1 va en effet provo-quer un certain OC sur les autres agents dont certainestâches sont des successeurs directs ou indirects de ti+1.L’exécution de ti+1 va donc influencer l’exécution deleurs tâches.

Comme nous l’expliquerons par la suite, le OC doit êtrepris en compte si on souhaite déterminer le gain réel d’uneaction. Ce dernier est égal à l’utilité de la tâche moins soncoût occasionné espéré. La meilleure action à exécuter dansun état s est celle qui maximise le gain réel de l’agent.


Coût Occasionné Le coût occasionné est un terme pro-venant des sciences économiques. La théorie du coût occa-sionné montre que toute décision a un coût caché, et igno-rer ce coût peut conduire à un raisonnement erroné.Dans notre modèle, le OC est utilisé afin que chaque agentprenne en compte le coût de ses actions sur les autresagents. Tout agent dépense du temps pour exécuter unetâche ti+1 et entraîne un OC sur les autres agents. Ce OCcorrespond à la perte en utilité des autres agents, due au faitque l’exécution de certaines de leurs tâches est retardée parl’exécution de ti+1.Supposons qu’on ait deux tâches ti+1 et tj exécutées pardeux agents différents et telles que tj soit un successeurde ti+1. La figure 3 représente deux exécutions possiblesde ti+1. La première commence à st1 et termine à et1,la seconde commence à st2 et termine à et2. Les bornesLBj et UBj sur les dates de début de tj sont égalementreprésentées. Lorsque ti+1 termine à et1, tj peut commen-cer son exécution dans l’intervalle [LBj , UBj ]. Soit stj lameilleure date de début pour tj dans cet intervalle. En re-vanche, si ti+1 termine à et2, l’intervalle des dates de dé-but possibles pour tj est restreint à [LBj + ∆t, UBj ] où∆t = et2 − LBj . Soit st′j la meilleure date de début dansl’intervalle [LBj + ∆t, UBj ]. Si stj = st′j , alors le faitque ti+1 termine plus tard ne change pas la meilleure datede début pour tj et le OC est nul. Sinon ( stj 6= st′j), l’uti-lité espérée V stj lorsque tj commence à st est supérieure àl’utilité espérée V st′j lorsque tj commence à st′j (sinon onaurait stj = st′j). Le fait que ti+1 finisse à et2 provoquealors un coût occasionné sur l’agent exécutant tj .

LBj UBjLBj + t

t

st1 st2

et1

et2

ti+1

ti+1

FIG. 3 – Coût occasionné

Le OC sur un agent se traduit donc par la perte en utilitéprovoquée par un retard ∆t. Elle est égale à la différenceentre V ∗0

tj, l’utilité espérée de l’agent lorsqu’il commence

l’exécution de tj dans l’intervalle [LBj , UBj ], et V ∗∆ttj

l’utilité espérée de l’agent lorsqu’il commence l’exécutionde tj dans l’intervalle [LBj + ∆t, UBj ]. On a alors :

OCtj(∆t) = V ∗0

tj− V ∗∆t

tj(3)

où : V ∗∆ttj

=∑

∆ttjc

Pc(δtjc ).V [tj , [stj , stj + δ

tjc ], rmax

tj] stj

est la meilleure date de début pour tj appartenant à l’in-tervalle [LBj + ∆t, UBj ]. [tj , [stj , stj + δ

tjc ], rmax

tj] dé-

crit les états pouvant être atteints lorsque l’exécution de tj

commence à stj ∈ [LBj + ∆t, UBj ] et dure δtjc unités de

temps. Si stj +δtjc > LET , l’exécution échoue totalement,

on a alors :

V [tj , [stj , stj + δtjc ], rmax

tj] = V (failure(tj))

Si ∆t > UBtj− LBtj

l’exécution ne peut commen-cer avant la dernière date de début UBtj

, les contraintes

temporelles sont violées et on a : V ∗∆ttj

= −(R(tj) +

∑a∈AllSucc(tj)

R(a))

Sinon, V [tj , [stj , stjt + δtjc ], rmax

tj]

est calculée à partir de l’équation de Bellman (eq. 1).Pour chaque tâche tj , une valeur de OC est calculée pourchaque retard ∆t. Pour une tâche, le nombre de valeurs deOC à calculer, dans le pire cas, est égal à UBtj

− LBtj.

Lors du calcul du OC, les ressources des successeurs sontconsidérées comme maximum. S’ils disposent de moins deressources (que le maximum possible), le OC provoqué parAi sera sur-estimé.

rmaxtj

= rini −∑

tk∈Pred(tj)

mintk(∆r)

où Pred(tj) est l’ensemble des tâches exécutées parl’agent avant tj , et mintk

(∆r) est la consommation mi-nimale de ressources de tk. Afin de remédier à cette sur-estimation, il est possible d’avoir recours à un OC multi-critères c’est-à-dire dépendant du temps et des ressources(OC(∆t, r)).Le OC qui vient d’être décrit, suppose que nous sachionsexactement quel est le retard provoqué par ti+1 sur lesautres agents. Cependant, les actions des agents ne sont pasdéterministes donc lorsqu’un agent décide de commencerune tâche à un instant st, il ne sait pas avec certitude quelleva être sa date de fin. C’est pourquoi le OC provoqué par unagent Ai sur les autres agents, lorsqu’il commence l’exé-cution d’une tâche ti+1 à st est un coût occasionné espéréet doit tenir compte des différentes transitions possibles etde leurs probabilités. Le OC espéré provoqué par un agentlorsqu’il décide de commencer une tâche ti+1 à st est telque :

OC(ti+1, st) = P1 ×∑

ag∈autres_agentsOCag,ti+1

(eti+1)

+(P3 + P4 + P5) ×∑

ag∈autres_agentsOCag,ti+1

(fail)

+P2 × OC(ti+1, s = next_start) (4)

où autres_agents est l’ensemble des agents privé del’agent exécutant ti+1, eti+1 est une date de fin de ti+1,OCag,ti+1

(eti+1) est le OC espéré provoqué sur l’agent ag

lorsque Ai termine l’exécution de ti+1 à et. OC(ti+1, s =next_start) est le OC espéré si l’exécution de ti+1 échouepartiellement et que Ai ré-essaye d’exécuter la tâche à s

(la prochaine date de début d’après la politique calculée).Chaque type de transition doit être pris en compte dans lecoût occasionné espéré OC(ti+1, st).Par ailleurs, si l’agent Ai termine ti+1 à etti+1

, il n’est pascertain que la prochaine tâche tj exécutée par ag va com-mencer à etti+1

. Si tj est un successeur direct de ti+1, tj


peut être retardée par d’autres prédécesseurs qui vont fi-nir encore plus tard. Dans ce cas, ce n’est pas ti+1 qui re-tarde l’exécution de tj mais les autres prédécesseurs. Parailleurs, si tj n’est pas un successeur direct de ti+1, il existed’autres tâches tk entre ti+1 et tj dans le graphe. Le retardprovoqué par ti+1 peut alors être compensé ou accentuépar les tâches tk. C’est pourquoi le coût occasionné espéréprovoqué par ti+1 tient compte, pour chaque date de débutsttj

de tj , de la probabilité que tj commence à sttjquand

ti+1 s’est terminée à etti+1. Il est alors calculé par l’équa-

tion suivante :OCag,ti+1

(etti+1) =

∑st∈ST (tj)

DP (sttj, etti+1

, ti+1) × OCtj(sttj

− LB)

+(1 −∑

st∈ST (tj)

DP (sttj, etti+1

, ti+1)) × OCtj(fail) (5)

où tj est la prochaine action la plus proche dans le graphequi va être exécutée par ag. DP (sttj

, etti+1, ti+1) est la

probabilité que tj commence à sttjquand ti+1 s’est termi-

née à etti+1. De plus, OCag,ti+1

(fail) = OCtj(fail).

4.2 Calcul d’une politiqueAlgorithme de résolution. Afin d’évaluer chacun desétats des agents et de calculer leurs politiques locales, unalgorithme basé sur les principes de la programmation dy-namique, a été mis en place. En raison des dépendancesentre les agents, tous les MDPs locaux doivent être éva-lués en parallèle. L’ensemble des états du OC-DEC-MDPest constitué de l’union des états des MDPs locaux. Il estorganisé en niveaux. Le premier niveau L0 contient la ra-cine du graphe de la mission. Le niveau Ln contient lessuccesseurs des tâches du niveau Ln−1. L’algorithme par-court chaque niveau à partir du dernier et jusqu’au premier,et évalue les états associés aux tâches du niveau courant.Le pseudo-code de l’algorithme est le suivant :

1. Pour chaque niveau Ln des feuilles à la racine du graphe

2. Pour chaque tâche ti appartenant au niveau Ln

3. • Calculer la valeur V de l’état d’échec total :[li−1, [∗, +∞], ∗]

4. Pour chaque date de début st de UBtià LBti

5. Pour chaque taux de ressources rtiassocié à un état

d’échec partiel

6. • Calculer la valeur V et la politique Π associées àl’état d’échec partiel : [ti, [st, st + 1], rti

]

7. fin pour

8. Pour chaque durée ∆t1 de ti

9. Pour chaque taux de ressources rtiassociée à

une exécution correcte de ti

10. • Calculer la valeurV et la politique Π associéesaux états : [ti, [st, st + ∆t1], rti

]

11. fin pour

12. fin pour

13. • Calculer V ∗∆tk où ∆t = st − LBti

14. fin pour

15. Pour chaque V ∗∆tk calculé précédemment

16. • Calculer OC(∆t) = V ∗0k − V ∗∆t

k

17. fin pour

18. fin pour

19. fin pour

L’évaluation de chaque état s = [ti, r, I ] est réalisée àl’aide de l’équation de Bellman présentée précédemment.La politique en s est déterminée à l’aide de l’équation 2.Cet algorithme peut être exécuté de manière centralisée oudécentralisée. L’évaluation des états et le calcul des poli-tiques sont réalisés off-line, c’est-à-dire avant l’exécutionde la mission. Dans le cas d’une exécution centralisée tousles états du OC-DEC-MDP sont évalués par une entité cen-trale, puis chaque agent reçoit sa politique locale. Dans lecas d’une exécution décentralisée, chaque agent évalue sespropres états et communique les valeurs de coût occasionnéde ses tâches, aux autres agents. Chaque agent connaît alorsson graphe de tâches, il n’a pas besoin de connaître l’en-semble du graphe de la mission. Dans tous les cas, le cal-cul de la politique locale d’un agent ne requiert pas laconnaissance des politiques des autres agents, seul le OCsur les autres agents doit être connu. L’exécution de la mis-sion (on-line) est toujours décentralisée. Chaque agent neconnaît que sa propre politique locale et ne peut observerles états des autres agents. Durant l’exécution, les agentsne communiquent pas de façon directe. Chaque agent peutobtenir des informations de manière indirecte sur l’état deses prédécesseurs. Un agent sait si les prédécesseurs d’unetâche ti ont terminé, quand il commence à exécuter ti.

Etude de la complexité. Afin de prouver l’efficacité denotre approche, nous nous sommes intéressés à la com-plexité, dans le pire cas, des OC-DEC-MDP. Cette com-plexité repose sur la taille de l’espace d’états du pro-blème, et par conséquent dépend des paramètres sui-vants : le nombre maximum de tâches par agent #ntasks,le nombre maximum d’intervalles d’exécution par tâche#nMax_Interv , le nombre maximum de dates de débutpour une tâche #Max_Date_Deb, et le nombre maximumde taux de ressources pour chaque tâche #nMax_Res. Lataille de l’espace d’état dans le pire cas, est expriméepar l’équation suivante : #ntasks × (#nMax_Interv +#Max_Date_Deb) × #Max_Res L’algorithme de réso-lution d’un OC-DEC-MDP est polynomial en espaced’états. Preuve : L’algorithme décrit précédemment per-met de résoudre tout OC-DEC-MDP. Il parcourt et éva-lue tous les états des MDPs locaux. Le calcul de la va-leur V d’un état et la détermination de la politique Π∗

ont une complexité en O(1). Les lignes 4 à 14 éva-luent et calculent la politique de tous les états asso-ciés à la tâche ti. La complexité de cette phase est enO((#nMax_Interv +#Max_Date_Deb).#nMax_Res). Leslignes 15 à 17 calculent les valeurs du OC pour chaqueretard possible pour ti. Dans le pire cas, le nombre deretards possibles est égal au nombre de dates de dé-but possibles pour ti soit UB − LB. La complexité


de cette partie de l’algorithme est en O(UB − LB).Les lignes 4 à 17 sont exécutées pour chaque tâche.Par ailleurs, O(UB − LB) << O((#nMax_Interv +#Max_Date_Deb).#nMax_Res). La complexité globale del’algorithme est donc en O(#ntasks.(#nMax_Interv +#Max_Date_Deb).#nMax_Res) c’est-à-dire en O(|S|).Par conséquent, l’algorithme est polynomial en espaced’états.

FIG. 4 – Une mission réalisée par 2 rescue robots

The problem can be represented using a graph of tasks.Each node of the graph is a task and edges stand for prece-dence constraints. Figure 5 illustrates this graphical repre-sentation with a space mission scenario involving two ro-bots that have to explore a set of sites. This scenario is des-cribed on Figure 4. Exploration consists of different kindsof measurements. Precedence constraints has to be consi-dered : the first robot must snap the sites before the otherrobot could perform measurements. This mission involvestemporal constraints, for instance measurements of site Acannot start before 5 and must be finished at 9.

Site AMove to

Site A

Move toSite B

Move to Move toExplore ExploreSite B

ExploreExploreMove to Explore Move to Explore Move to

Site H

Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1 Agent 1

[5 , 9] [5 , 9] [5 , 13] [5 , 13] [10 , 20] [13 , 16] [14 , 17]

Move to

Agent 2 Agent 2 Agent 2 Agent 2 Agent 2

[3 , 12][3 ,6]

Explore

Site C Site C

Site D Site D

Move toExploreMove toSite D Site D

Site E Site E

Agent 2 Agent 2 Agent 2 Agent 2

[5 , 13] [17 , 19]

Explore Move to Explore

Site F Site F

Site F Site F

Move to

Site ISite G

Site G Site G

Site G

FIG. 5 – Un graphe de mission de 2 rescue robots

5 Exploration ScenarioLe scénario décrit dans la Figure 5 a été implémenté en uti-lisant des robots Koala. Les robots doivent se coordonnerles visites aux sites D, F et G : le premier robot doit quit-ter le site afin de laisser le second y entrer. Comme montrédans la figure Figure 6, la coordination a fonctionné sansque ls robots ont eu à communiquer. Les contraintes tem-porelles comme temporelles ont ét é respectées. Les robotsprennent des décisions sur le moment de commencer unetâche en tenant compte le fait que d’autres robots attendent(coût occasionné). La décision du second robot est fondée

sur la probabilité que les autres robots ont quitté le site, lecoût de l’échec partiel et son gain espéré.

6 Extensions : Coordination Spatialeet Allocation dynamique de tâches

Dans le travail ci-dessus décrit, nous nous donnons ungraphe de tâches et une allocation des tâches aux robots.Dans cette section, nous présentons quelques techniquespermettant l’allocation des tâches et la coordination spa-tiale permettant une meilleure répartition des tâches sur lesagents. En effet, les robots évoluent dans un environnementdans lequel des tâches sont à effectuer. Ces tâches peueventêtre inter-dépendantes. Cette dépendance qu’on a jusqu’àmaintenant représenter par une contrainte de précédencemais qu’on souhaite étendre à d’autres types de dépen-dances comme les dépendances entre qualités de réalisa-tion des tâches : la rálisation d’une tâche dégrade, amélioreou interdit la réalisation d’une autre tâche sont des dépen-dances que nous souhaitons intégrer dans notre approche.Ces types des dépendances sont importantes dans la coordi-nation spatiale car le déplacement d’un robot vers une zonepeut rendre le déplacement des autres robots facile, difficileou impossible. La décision locale d’un robot de se dirigervers cette zone doit tenir compte de ces trois critères : lebénéfice individuel, le bénéfice collectif et les dégâts pro-voqués par une décision. Cette formalisation mène vers unproblème de décision multi-critères [Mouaddib2004] quenous présentons ci-dessous.

6.1 MDP multicritères pour la coordinationspatiale

Le formalisme adopté est un DEC-MDPmulti-critère donné par le n-uplet <

Si, Ai, ARi, Pi, FBij , LBij , Fij , Lij > :– Si est l’espace d’états du robot i, qui représente les

tâches effectuées par le robot i comme précédemment.– Ai est l’ensemble des actions.– ARi est une fonction de récompense augmentée par la

satifaction individuelle, la satifaction du groupe et lespenalités provoqués sur le groupe. Cette fonction est re-présentée par un vecteur à trois diemnsions que nous dé-taillerons ci-dessous.

– Pi une distribution de probabilités comme ci-dessus.– Enfin, l’ensemble FBij , LBij , Fij , Lij qui exprime

toutes les dépendances qu’il peut y a voir entre les tâches.Ainsi pour une tâche tij d’un robot i, on associe 4 en-sembles FBij qui contient les tâches qui améliorent la réa-lisation de la tâche tij , LBij qui contient les tâches quidégradent la réalisation de la tâche tij , Fij qui contient lestâches dont la réalisation est améliorée par la réalisation dela tâche tij , et Lij qui contient les tâches dont la réalisa-tion est dégradée par la réalisation de la tâche tij . L’état deces 4 ensembles a une incidence sur la fonction ARi quenous expliquons ci-dessous. La fonction de récompenseaugmenté ARi(s − it) est un vecteur donné par le triplet :


FIG. 6 – Execution de la mission (passage au site D)

ARi(sti) = (Ri(t

ji |FBij , LBij), Rij(Fij |t

ji ), P enaltyij(Lij |t

ji ))

telle que :Ri(t

ji |FBij , LBij) est la récompense immédiate que le

robot a lorsqu’il réalise la tâche tji étant donné l’état des

emnsembles FBij , LBij .Rij(Fij |t

ji ) est la récompense collective lors de la réalisa-

tion tji sur les robots réalisant les âches de Fij .

Enfin, Penaltyij(Lij |tji ) est le coût occasioné par la

réalisation de la tâche tji sur les robots réalisant les tâches

de Lij . L’équation de Bellman dans ce contexte est :

Vi(sti) = ARi(s

ti) + max

aki

∑Pi(s

t+1i , a, st

i).Vi(st+1i )

(6)La résolution de cette équation où les fonctions Vi et ARi

sont des vecteurs consiste à redéfinir un autre opérateurmax qui permet de préférer un vecteur de valeur sur unautre. Une première version de ce travail consistà utiliserun ordre lexicographique permettant ainsi de tenir comptede tous les critères de décisions.

6.2 Allocation dynamique de tâchesDans notre contexte, les robots évoluent dans un environ-nement en vue de réaliser des tâches. Ces tâches qui, engénéral, sont situées dans l’espace vers lesquelles les ro-bots doivent se diriger. La satisfaction individuelle d’unrobot telle qu’elle est utilisée dans la section précédenteest de se diriger vers une zone où les tâches relevant deses compétences (soucourir des blessés, éteindre les feux,ect) à réaliser sont nombreuses. Pour sela, nous utilisonsdes grilles pondérées qui permettent d’associer un poids àune zone selon l’importance des tâches à réaliser 7. Chaqueagent choisit les tâches qui maximisent son espérance degain [Hanna and Mouaddib2002] et lorsqu’un conflit sur

une tâche existe, le robot dont le coût occasionné de latâche est le plus petit est celui qui prend la tâche. Ce coûtoccasionné est calculé par :

OC(tji ) = V (st) − V (st+1)

où V (st) est la gain espéré actuel sans la tâche tji est

V (st+1) est le gain espéré avec la prise de la tâche ji . Ce

coût est utilisé pour résoudre les conflits.

FIG. 7 – Exemple de grille pondérée

7 Architecture GlobaleL’architecture de tel syst‘eme consiste en trois couches :– Allocation de tâches : Après perception du monde, les

robots se construisent des grilles pondérées qui leur per-mettent de localiser les zones les plus riches en tâchesqu’ils se répartissent. Ce processus se répètent jusuq’à


ce que toutes les tâches ou les plus importantes soientallouées. Toutes les tâches peuvent ne pas être allouéesà cause des ressources limitées des robots.

– Coordination Spatiale : lorsque l’allocation des tâchesest effectuées, les robots doivent se mouvoir et choisirl’ordre de réalisation des tâches en tenant compte descontraintes entre les tâches et la satisfaction globale desrobots en utilisant l’approche DEC-MDP multicritères.

– Contrôle de réalisation : Les deux premières étapes per-mettent de construire les graphes de tâches et l’allocationtelles qu’elles sont utilisées dans le mod‘eles OC-DEC-MDP. Ensuite, OC-DEC-MDP contrôle la réalisation etl’évolution en calculant des politiques pour les différentsrobots.

8 ConclusionNous avons proposé une approche basée sur les Proces-sus Décisionnels de Markov Décentralisés et permettant derésoudre des problèmes de contrôle décentralisé dans dessystèmes multi-agents coopératifs. Ce modèle, OC-DEC-MDP, permet de traiter des problèmes de grande taille (plusde 200 tâches) et de tenir compte de contraintes tempo-relles et de précédence entre les tâches. De plus, cette ap-proche ne nécessite pas de communication entre les agentslors de l’exécution, elle peut donc être utilisée dans dessystèmes où la communication est impossible ou très coû-teuse. Afin que les agents agissent de manière coopérative,nous utilisons la notion de coût occasionné. Elle permetà chaque agent de déterminer une politique locale tenantcompte de sa propre utilité mais également de l’impact deses décisions sur les autres. Le calcul des politiques desagents est réalisé par un algorithme polynomial en espaced’états. Les expérimentations ont montré que la politiqueobtenue donne de meilleurs résultats que des approchesheuristiques et laissent penser que cette politique est trèsproche de la politique optimale.Nous avons aussi décrits des extensions possibles de cemodèles pour une meilleure coordination spatiale pour lanavigation et l’allocation de tâches. L’architecture globaleest définie qu’on utilisera dans plusieurs scénarios en coursd’élaboration pour de flottes de robots.

Références[Becker et al.2003] R. Becker, S. Zilberstein, V. Lesser,

and C. Goldman. Transition-independent decentralizedmarkov decision processes. In AAMAS, 2003.

[Becker et al.2004] R. Becker, V. Lesser, and S. Zilber-stein. Decentralized Markov Decision Processes withEvent-Driven Interactions. In The Third Internatio-nal Joint Conference on Autonomous Agents and MultiAgent Systems, volume 1, pages 302–309, NYC, 2004.IEEE Computer Society.

[Bernstein et al.2000] D. Bernstein, S. Zilberstein, andN. Immerman. The complexity of decentralized controlof mdps. In UAI, 2000.

[Goldman and Zilberstein2003] C. Goldman and S. Zil-berstein. Optimizing information exchange in coope-rative multiagent systems. In AAMAS, 2003.

[Hanna and Mouaddib2002] H. Hanna and AI Mouaddib.Task selection as decision making in multiagent system.In AAMAS, pages 616–623, 2002.

[http ://www.rescuesystem.org/robocuprescue/]http ://www.rescuesystem.org/robocuprescue/.

[Mouaddib2004] AI Mouaddib. Multi-criteria path plan-ning. In IEEE International Conference on Robotic andAutomaton, pages 2814–1819, 2004.

[Peshkin et al.2000] L. Peshkin, K.E. Kim, N. Meuleu,and L.P. Kaelbling. Learning to cooperate via policysearch. In UAI, pages 489–496, 2000.

[Pynadath and Tambe2002] D. Pynadath and M. Tambe.The communicative multiagent team decision problem :Analyzing teamwork theories and models. Journal ofArtificial Intelligence Research, pages 389–423, 2002.

[Yokoo et al.2003] M. Yokoo, R. Nair, S. Marsella,M. Tambe, and D.V. Pynadath. Taming decentralizedpomdps : Towards efficient policy computation for mul-tiagent settings. In Proceedings of the InternationalJoint Conference on Artificial Intelligence, 2003.


Multi-robot Cooperation : Architectures and Paradigms

Rachid ALAMILAAS-CNRS,

7, Avenue du Colonel Roche31077 Toulouse Cedex 4, France

[email protected]

Résumé

This paper presents a generic architecture for the opera-tion of a team of autonomous robots to achieve complexmissions. Its interest stems from its ability to provide a fra-mework for cooperative decisional processes at differentlevels : high level plan synthesis, task allocation and taskachievement. It is based on a combination of local indi-vidual planning and coordinated decision for incrementalplan adaptation to the multi-robot context.Indeed, we claim that it is often possible (and useful) totreat these three issues separately. As we will see, this levelsdeal with problems of different nature, leading to specificrepresentations, algorithms and protocols.

Mots Clef

Multi-robot cooperation, coordination, cooperative task al-location, control architectures

1 IntroductionWe propose a generic architecture for the operation of ateam of autonomous robots. This architecture is based on acombination of local individual planning and coordinateddecision for incremental plan adaptation to the multi-robotcontext. It has been designed to cover issues ranging frommission planning for several robots, to effective conflictfree execution in a dynamic environment. It is aimed notonly to integrate our past contributions but also to allow toinvestigate new cooperation and coordination schemes.After a brief analysis of related work, we present an over-view of the architecture. We will successively address (1)a distributed task allocation protocol and (2) a cooperativetask achievement scheme that detects and treats resourceconflict situations as well as sources of inefficiency.The overall system allows a set of autonomous robots notonly to perform their tasks in a coherent and non-conflictmanner but also to cooperatively enhance their perfor-mance taking into account the robots capabilities as wellas their execution context.

2 Related workResearch devoted to multi-robot systems[Dudek, 1997,Cao et al., 1997, Parker, 2000] covers a large spectrum of

topics. We limit our analysis of related work to contribu-tions proposing cooperative schemes at the architecturaland/or decisional level.In such stream, behavior-based and similar ap-proaches [Mataric, 1994, Mackenzie and Arkin, 1997],propose to build sophisticated multi-robot cooperationthrough the combination of simple (but robust) interactionbehaviors. ALLIANCE [Parker, 1998] is a distributedbehavior based architecture, which uses mathemati-cally modeled motivations that enable/inhibit behaviors,resulting in tasks (re)allocation and (re)decomposition.AI-based cooperative systems have proposed domainindependent models for agents interaction. For example,[Boutilier and Brafman, 1997] and [Ephrati et al., 1994]enrich the STRIPS formalism, aiming to buildcentralized/decentralized conflict-free plans, while[Clement and Durfee, 1999] develops specialized agentswhich are responsible for individual plans coordination.Several generic approaches have been proposed concer-ning goal decomposition, task allocation and negotia-tion [Asama and Ozaki, 1991, DesJardins et al., 1999].PGP [Durfee and Lesser, 1987] (and laterGPGP [Decker and Lesser, 1992]) is a specializedmission representation that allows exchanges of plansamong the agents. DIPART [Pollack, 1996] is ascheme for task (re)allocation based on load balan-cing. Cooperation has also been treated through ne-gotiation strategies [Rosenschein and Zlotkin, 1994]like CNP-based protocols [Smith, 1980], or BDIapproaches where agents interaction is based ontheir commitment to achieve individual/collectivegoals [Jennings, 1995, Sullivan et al., 1999]. Ano-ther perspective is based on the elaboration ofconventions and/or rules. For instance, “social be-haviors” [Shoham and Tennenholtz, 1995] have beenproposed as a way to program multi-agent systems. InSTEAM [Tambe, 1998], coordination rules are designedin order to facilitate the cohesion of the group and theprogramming of its activities.Coordination while achieving independent goalshas been mostly addressed in the framework ofapplication-specific techniques such as multi-robotcooperative navigation [Yuta and Premvuti, 1992,Brumitt, 1996, Azarm and Schmidt, 1997]. There


are also efforts to build decentralized algorithmsfor specific tasks like cooperative manipula-tion [Wang and Kumar, 2002, Gravot and Alami, 2002] orenvironment mapping [Burgard et al., 2002].

3 A multi-robot architecture for in-cremental plan enhancement

The generic architecture that we propose covers issues ran-ging from mission planning for several autonomous robots,to effective conflict free execution in a dynamic environ-ment.This architecture is based on a combination of local indi-vidual planning and coordinated decision for incrementalplan adaptation to the multi-robot context. It is built on theassumption that, in a complex system composed of severalautonomous robots equipped with their own sensors and ef-fectors, the ability of a given robot, to achieve a given taskin a given situation can be best computed using a planner.Indeed, we claim that the robots must be able to plan/refinetheir respective tasks, taking into account the other robots’plans as planning/refinement constraints, and thus produ-cing plans containing coordinated and cooperative actionsthat ensure their proper execution and will serve as a basisfor negotiation.It remains to determine what are the relevant decisionalproblems that should be addressed. The architecture wepropose is precisely an answer to this question. It pro-vides a framework where multi-robot decisional issues canbe treated at three different levels : thedecompositionofa mission into tasks (mission planning), theallocation oftasks among the available robots and thetasks achievementin a multi-robot context (Figure 1).Indeed, we claim that it is often possible (and useful) totreat these three issues separately. As we will see, this le-vels deal with problems of different nature, leading to spe-cific representations, algorithms and protocols.This architecture is directly derived from the LAAS1

architecture [Alami et al., 1998a]. It involves a hierar-chy of three decisional levels having different temporalconstraints and manipulating different data representations.Each level has a reactive (supervisor) and a deliberativecomponent (planner, plan-merger. . .).Communication between robots can take place at a dif-ferent levels. For a given level, both components commu-nicate with their corresponding component. The reactivecomponents exchangesignalsand runprotocols; the deli-berative components exchangeplans, goalsand data.

Let us examine the three levels with more details.

3.1 Mission Planning and Supervision

This is a pure plan synthesis problem. It consists in de-composing a mission, expressed at a very high level, intoa set of partially ordered tasks that can be performed by a

1LAAS : LAAS’ Architecture for Autonomous Systems.

given team of robots. One can consider that this plan ela-boration process is finished when the obtained tasks have asufficient range and are sufficiently independent to allow asubstantial “selfish” robot activity.We assume that there is no need at this level to know preci-sely the current robots states. It should be enough to knowthe types of available robots, their number, their high levelfeatures.An example of such a mission could be transporting and as-sembling a superstructure in a construction site. It may re-quire to synthesize a sophisticated plan composed of nume-rous partially ordered tasks to be performed by various ro-bot types with different capabilities [Gravot et al., 2003] :transport of heavy loads, maneuvers in cluttered environ-ment, manipulation. . .Mission decomposition is a purely deliberative. It is at thislevel that there are less needs of context dependent infor-mation. It can be done in a central way. Indeed, it is essen-tially a one thread process.Of course it can benefit from several CPUs but this is adistribution of computing load, which is different in naturefrom problems calling for cooperative decision-making ba-sed on independent goals, on various robot capabilities andcontexts.In our current implementation, mission planning is pro-duced by a central high level planner, for instance Ix-TeT [Laborie, 1995, Lemai 04], or the mission is provideddirectly by the user as a set of partially ordered tasks.

3.2 Task allocation among the robots

At this level, a mission is a set of partially ordered tasks,where each task (Ti) is defined as a set of goals to be achie-ved. The tasks are allocated to the robots based on theircapabilities and on their execution context.This level is not necessarily distributed. However, its dis-tribution is clearly preferred since task allocation is essen-tially based on proper or local information.We have implemented this level throughM+NTA2 [Botelho and Alami, 1999]. The tasks areallocated (and re-allocated when necessary) incrementallythrough a negotiation process between robot candidates.This negotiation is derived from the Contract-Net Proto-col [Smith, 1980]. It is combined with a task planning andcost estimation activity which allows each robot to decideits future actions taking into account its current contextand task, its own capacities as well as the capacities of theother robots.Note that multi-robot task allocation is now well explored[Gerkey and Mataric 04, Dias et al ;, 2005]. An illustrativeexample can be found in [Lemaire 04] where task alloca-tion has been studied in the framework of the Comets pro-ject [Comets-url].Role assignment can also be performed at this level.Such an activity can also be performed in a distributed

2NTA : NEGOTIATION FOR TASK ALLOCATION


SupervisorPlannerMission Decomposition

M+CTA

M+NTA

M+CTA

M+NTA

The Generic Architecture

Opportunism

R1

Tasks

Task Allocation

MissionMission

Planner

An Instance...: M+

High LevelDecomposition

R2

Supervisor

Problems?

RedundancyConflict

SupervisorPlannerTask Achievement

Action

Problems?

Allocated Task

Centralized

FIG. 1 – Our architecture for multi-robot cooperation. NTA stands for “ Negotiation for task allocation” and CTA stands for“Cooperative Task Achievement”

way[Tambe, 1998, Gancet 05] and give the opportunity forcontext-based negotiation.

3.3 Task achievement in a multi-robotcontext

The allocated tasks, and this is a key aspect inrobotics, cannot be directly “executed” but requirefurther refinement taking into account the executioncontext [Alami et al., 1998a].Since each robot synthesizes its own detailed plan, weidentify two classes of problems related to the distributednature of the system : (1) coordination to avoid and/or solveresource conflicts and (2) cooperation to enhance the effi-ciency of the system. The first class has been often treatedin the literature. The second class is newer and raises someinteresting cooperative issues linked to the improvement ofthe global performance by detecting sources of inefficiencyand proposing possible enhancements.

Coordination to avoid conflicts

Each robot, while seeking to achieve its goal will haveto compete for resources, to comply with other robotsactivities. Indeed, the higher levels, even if they pro-duce valid mission decomposition, do not consider all

possible conflicts that may appear at task execution le-vel. We have already treated resource conflict situa-tions as well as coordinated navigation [Alami et al., 1997,Gravot and Alami, 2001]. We will see, in the sequel, thatthe Plan-Merging Paradigm can be extended to more gene-ral conflicts.

Cooperation to enhance the system perfor-mance

We have identified several cooperative issues based on lo-cal interactions :

1. opportunistic action re-allocation : one robot canopportunistically detect that it will be beneficial forthe global performance if it could perform an actionthat was originally planned by another robot ;

2. detection and suppression of redundancy: it mayhappen that various robots have planned actionswhich lead to the same world state. There should besome reasoning capabilities to allow them to decidewhen and which robot will perform actions that leadto the desired state while avoiding redundant execu-tions ;


3. incremental/additive actions: the robots detect thatan action originally planned by one robot can be in-crementally achieved by several robots with a “cumu-lative” effect and that this could be beneficial to theglobal performance.

In our current instantiation of the architecture,M+CTA3 implements [Botelho and Alami, 2000,Alami and Botelho, 2002] this incremental task achieve-ment level.

3.4 Discussion on main design issues

In the following we discuss some design issues relative toour architecture. Architectural choices may often be consi-dered somehow as arbitrary. Our design is partially intui-tive and partially based on our own observations and on themain domains in the literature where multi-robot coopera-tion has been applied.

One, two or three levels. It may happen that for someapplications, it is impossible to separate the mission de-composition and the task allocation aspects because theyare too tightly linked. This is the case when the missiondecomposition depends heavily not only on the types ofrobots available in the environment but also on their num-ber and their current situation. In such case, the two levelsshould be merged in a one step planning process.The frontier between levels that corresponds to a real qua-litative change is between the task allocation and the taskachievement levels. But, of course, it is still possible to de-vise intricate examples that challenge any architectural de-composition.For instance, in the great majority of multi-robot controlarchitectures described in the literature, only one aspect orthe other is addressed. But this is only possible if the otheraspects are simplified. At the highest level, the mission isoften given already decomposed or with a small numberof (trivial) decompositions. For example : transferring abunch ofn objects is trivially decomposed inn transfertasks of individual objects. Numerous other possibilities(perhaps more efficient) may exist depending on the typesof objects, the robot capabilities and their current state. . .In numerous multi-mobile robot systems, elaborated mo-tion coordination - which clearly belongs to the task achie-vement level - is neglected or ignored. Such simplificationis acceptable only for non constrained environments wherelocal non-coordinated obstacle avoidance schemes are suf-ficient.

Cooperative skills. Not all levels are activated or evenpresent on all robots in a given application. For instance,one can imagine, in a hospital environment, the operationof several teams of mobile robots : a cleaning robots team,a meals and linen delivery team, and a set autonomouswheel-chairs (some of them do not even belong to the hos-pital)

3CTA : COOPERATIVETASK ACHIEVEMENT

The robots within cleaning team may cooperate togetherat mission level. The meals and linen delivery team maycooperate at task allocation level. All robots need at leastcoordinate their use of common resources ; indeed, this ismandatory level.

Global coherence and efficiency. While the architecturemay be considered as satisfactory in terms of identificationof the relevant levels of abstractions and their articulation,this is not a guarantee of global coherence nor of efficientoperation of the robots.Indeed, such properties depend primarily on the coopera-tive schemes and the algorithms that are implementedin-sideeach level. For example, the Plan-Merging Paradigmhas been devised to provide incremental plan adaptationwhile maintaining two key features [Qutub et al., 1997,Alami et al., 1998b] :– the coherence of the global scheme and the ability to

detect the situations where it is not applicable– a localized management of the planning and coordina-

tion processes with, in particularly intricate situations,a progressive transition to more global schemes whichmay “degrade” to a unique and centralized planning ac-tivity.

We describe, in the sequel, the Plan-Merging Paradigm andshow how it can be used for distributed incremental planadaptation.

4 Plan-Merging for CooperativeTask achievement

FIG. 2 – The Plan Merging Paradigm

The Plan-Merging Paradigm (Figure 2) has been ini-tially developed in the framework of coordinated resourceuse in a constrained environment[Alami et al., 1995,Alami et al., 1997, Alami et al., 1998b].


The Plan-Merging scheme involves two aspects : (1) theprotocol that defines control a distributed decision for planadaptation that we have called “plan-merging” and (2) thealgorithmic part of the operations on plans performed wi-thin this framework.We will restrict ourselves, in the sequel, to the pro-tocol aspect, i.e. the incremental adaptation of a robotplans to the multi-robot context. The interested readermay refer to [Alami et al., 1997, Gravot and Alami, 2001,Alami and Botelho, 2002] for the algorithmic issues.

4.1 The Plan-Merging ProtocolLet us assume that we have a set of autonomous robots anda higher-level system (users, a central station or a higherdecisional level) which, from time to time, sends tasks torobots. Tasks are expressed as individual goals to achieve.Whenever a robot receives a new goal, it elaborates anIn-dividual Planwhich takes as initial state the final state ofits current plan.An action a in this context has a temporal extent. It canbe represented by a set of events that are partially orde-red. There are two particular events : thestart and theendevents.A robot plan can be represented by :P = (I,A, E,L)where :– I is the initial state– A is a set of actions– E is a set of events (including all actionsstart events)– L is a set of temporal order relations between eventsL =(ei < ej). The set of all temporal relations betweenevents is a DAG (Directly Acyclic Graph).

WhenRi receives its(k + 1)-th goalGk+1i , it elaborates a

planIP k+1i which achieves it. This is an Incremental Plan-

ning step :IP k+1i = PLAN(IP k

i , Gk+1i )

Plan updating happens when events occur :IP ki =

UPDATE(e, IP ki ). If the next event is astart then the

corresponding action is started.

Waiting PMO eventsDeadlock processing

New coordinationplan required byexecution.

Plan MergingOperation

Waiting for theright to perform

a PMO

Got the right

PMO successPMO deferred

PMO failure

State 1

State 2

State 0

State 3

in progressNo PMO

FIG. 3 – The Plan Merging Protocol.

However, in the Plan-Merging scheme, before executingthis plan, the robot must ensure that it is valid in the multi-robot context. Indeed, it is at least necessary to detect andsolve all potential resource conflicts with the other robotsplans. ButRi can try to do more and to adapt its plan to thesurrounding activities.We call this operationPlan Merging Operation(PMO) andthe resulting plan aCooperative Plan. Such aCooperativePlan (CPi) consists of a sequence of actions andexecu-tion eventsto be signaled to other robots as well asexecu-tion eventsthat are planned to be signaled by other robots.Suchexecution eventscorrespond to temporal constraintsbetween actions involved in the different coordinated plans.ThePMO (Figure 3 state 2) is performed under mutual ex-clusion (Figure 3 state 1).Ri collects the plansCP k

j of the

robots which may interfere withIP k+1i , and builds their

union GP ki =

⋃j CP k

j . Then it performs the merge of

IP k+1i into GP k

i : CP k+1i = PMO(GP k

i , IP k+1i )

Various operations on plans can be performed in order to“merge” IP k+1

i . The “only” constraint is that the obtainedCP k+1

i is feasible in the current context, and does not in-troduce any cycle in the resultingGP k+1

i .

FIG. 4 – Robot 2 performs a PMO.

However aPMO performed byRi may fail because thefinal state of at least another robotRj (as specified inGP k

i

forbidsRi to merge its own planIP k+1i in GP k

i .There are various ways to deal with such a situation. Forinstance, the robot may, heuristically, abandon its cur-rent goal and the associated plan. While such a reactionmay help to avoid the problem, there is no guarantee ofconvergence nor of global coherence. The next section pre-sents a distributed detection and treatment of such casesthat induce, depending on the intricacy of the situation,a progressive transition to more global schemes which


may even ‘degrade” to a unique and centralized planningactivity[Qutub et al., 1997].

4.2 Global coherence and deadlock manage-ment

Let us callPredi = ..Rj .. the set of robots that forbidsRi to merge its own plan. In this case,Ri defers its PMOand waits (Figure 3 state 3) until at least one of the robotsin Predi has performed a new successful PMO which maypossibly change the world attributes preventing to mergeIP k+1

i . Thus, we introduce temporal order relations bet-ween the different plan-merging activities.Indeed, in addition toexecution events, i.e. events elabora-ted by the PMOs and which allow the robots to synchronizetheir plans, we defineplanning events, i.e. events which oc-cur whenever a robot performs a new successful PMO. Thetemporal relations between robots plan-merging activitiesare maintained by each robotRi in a data structure calledPlanning Dependency GraphPDGi.The Planning Dependency Graphserves to managePMOs order (when necessary) as well as to detectwaitingcyclescorresponding to “Merging Deadlock Situations”.The detection of deadlocks during the coordinated deci-sion phase allows execution deadlocks to be anticipatedand avoided. Indeed, physical “backtracks” are not alwayspossible or induce inefficient maneuvers.

Dependency Graph Construction. This section focuseson the incremental distributed construction of the PlanningDependency GraphPDGi and its constraints propagationmechanism.WhenRi starts a newPMO, Predi is set to the empty list.If the merging ofIP k+1

i in GP ki , Ri signals aplanning

eventto all robots inSucci4 and clears its current graph

PDGi.If the PMO has failed,Ri determinesPredi and checks ifit induces planning dependencies which produce cycles inPDGi(figure 5) :– If the newly establishedplanning dependenciesdo not

introduce any cycle inPDGi, Ri transmitsPDGi toPredi.

– If a cycle is created aplanning deadlock situationisdetected which means that the given goals are inter-dependent and cannot be treated simply by the plan-merging algorithm used, but need to be handled in asingle planning step.

When the robotRk receivesPDGi from Ri, Rk adds itto its own Dependency GraphPDGk and propagates thisnew information to all robots inPredk. Rk is sure thatthe receivedPDGi can be merged withPDGk withoutcreating any cycle5.

Deadlock Resolution Strategy. The deadlock resolutionstrategy that we present is based on a cooperative scheme.We assume that all robots are equipped with a multi-robot

4We callSucci the set of robots that are directly blocked byRi.5If such cycle existed,Ri would have discovered it.

! "#$

% '&(*)

+

(,.-/&1012&35476890:; < +

FIG. 5 – Management of Plan Dependency Graphs

planner6 which can be used, when necessary, for an arbi-trary number of robots.Let us callDLk

i the set of robots involved in a cycle de-tected byRi. When detecting a cycle,Ri has the necessaryinformation inPDGi to elaborate and validate a plan forall blocked robots inDLk

i . Note that the blocked robotsare unable to add any new executable action to their cur-rent coordinated plansCPj . Therefore, if nothing is done,they will come to a complete stop when their plansCPj

will be completely executed.To solve the deadlock,Ri becomes the local coordinator(notedRLC

i ) for all robots inDLki . To do so, it makes use

of its Local Multi-robot Plannerthat will take explicitly,in one planning operation, the conjunction of goals of allthe blocked robots (figure 6). This fact will be represen-ted in the Dependency GraphPDGi as aMeta-Nodethatincludes all robots inDLk

i .The local coordinatorRLC

i must find anIncremental Multi-robot Plan (notedIMP k+1

i ), if it exists, that solves theconjunction of goals. Once the solution found,RLC

i triesto mergeIMP k+1

i into the set of current coordinated plansCPj of the robots which are not involved inDLk

i :CMP k+1

i = PMO(GP ki , IMP k+1

i ) where GP ki =⋃

j 6∈DLkiCPj

Note thatCMP k+1i , like IMPik+1 is a multi-robot co-

operative plan that involve action of all robots belonging toDLk

i .– If the merge ofIMPik+1 succeeds,RLC

i sends to eachrobot inDLk

i its corresponding sub-plan. The meta-nodeis destroyed and each robot inDLk

i recovers its initial

6Note that it is not strictly necessary to have a multi-robot planneron each robot. A unique multi-robot planner, installed somewhere on thenetwork (at the central station for instance), is sufficient to ensure a correctbehavior of the system. The main point, here, is that our scheme is ableto determine, in a conservative and incremental way, the set of robotsinvolved in a deadlock and to invoke the multi-robot planner on the set ofconcerned robots without systematically taking into account all the robots.


Composition

Metanode

Multi−robotPlanner

InsertMultiFailure

Dependency

Cycle ?Cycle

PlanMulti−robot

Valid multi−robotPlan

FIG. 6 – Creation of a meta-node in a Plan DependencyGraph

planning and plan-merging autonomy.– If the merge fails, this means that the final state of at least

one robot (not included inDLki ) forbidsRLC

i to mergeIMPik+1. RLC

i determinesPredLCi and verifies that

these newly established constraints do not introduce anycycle in PDGLC

i . In such case,RLCi defers its PMO,

transmitsPDGLCi to all robots inPredLC

i and waitsuntil one of them has performed a new PMO.If a new cycleDLk+1

i is detected,RLCi generates a new

Meta-Nodecontaining the union ofDLki and DLk+1

i

and recursively restarts the same process, acting as a co-ordinator of a greater set of robots.

Note that several deadlocks, which do not interfere, mayappear in “parallel” and be solved independently. At thesame time, we may have some intricate situations wherethe Meta-Nodegrows up until it includes the whole sys-tem transforming momentarily our distributed system to acompletely centralized one (Figure 7).

Found

Pas deSolution

New Deadlock

Solution

Decision

Global Solution

Detected

Found

Completely centralized

Detected

Global deadlock

Deadlock

Detected

Opérator...

DistributedPartially

Completely

DecisionDistributed

Decision

FIG. 7 – Progressive transition to a more global scheme

4.3 Accounting for execution failuresThe Plan-Merging paradigm is also robust to execution fai-lures. Indeed, as execution is synchronized through eventproduced by the robots, when a robot fails in the executionof one of its actions, it is able to inform robots which askfor the occurrence of events it is supposed to produce, thatsuch events will never occur.This information may cause other robot plans to fail. All ro-bots which have a “broken” coordination plan will rebuildtheir state and try a PMO again.Depending on the constraints imposed by an event whichwill not occur, a cascade of plan failures may occur. Thismay cause a brutal increase of PMO activities with severalrobots trying to perform a PMO at almost the same time,but the system will be maintained safe thanks to the proper-ties discussed earlier (guarantee of always having a validglobal plan and of detecting deadlocks or situations wherea PMO should be deferred).

4.4 General considerationsThe are a number of issues that can be discussed within theplan-merging scheme, such as :– the representation of plans and robot actions– the operations that can be performed on the plans– the representation of time, priorities as well as external

constraintsFor instance, robots may be authorized (or not) to modifythe plans that they collect. Indeed, a robot must complywith the “rigid” (non-modifiable) part of the other robotplans, but might be allowed to act on the “flexible” part ofthe other robot plans.There are interesting issues such as the definition of newdesired features for planners. For example, a useful plannerfeature can be to synthesize plans that are “easily merge-able”.As already mentioned, we have implemented several ins-tances of the plan-merging paradigm that explore someof these issues. The obtained systems were run on realis-tic simulation platforms and on real mobile robots (coor-dinated navigation [Alami et al., 1997]). The overall sys-tem allowed a set of autonomous robots not only to per-form their tasks in a coherent and non-conflict mannerbut also to cooperatively enhance their task achievementperformance taking into account the robots capabilities aswell as their execution context [Botelho and Alami, 2000,Alami and Botelho, 2002].

5 ConclusionWe have discussed a generic architecture for multi-robotoperation that provides a framework for cooperative deci-sional processes at different levels.Then, we have discussed a coordinated decision schemecalled “Plan-Merging Paradigm” that can be used withinsuch an architecture. This paradigm has been designedto control incremental plan adaptation to a multi-robotcontext.


Various algorithms may be devised to be used within aplan-merging operation, ranging from resource conflictsynchronization to more elaborate operations on plans.

Acknowledgments :This work is the fruit of a various contribu-tions from several researchers and particularly : F. Robert, S. Qu-tub, S. Botelho, F. Gravot, S. Lacroix, J. Gancet, T. Lemaire,G. HattenbergerI would like also to acknowledge the effective involvement ofL. Aguilar, S. Fleury, P. Gaborit, M. Ghallab, M. Herrb, T. Si-méon, S. Suzuki.

Références[Alami et al., 1995] Alami, R., Robert, F., Ingrand, F., and

Suzuki, S. (1995). Multi-robot cooperation through in-cremental plan-merging. InIEEE ICRA’95.

[Alami et al., 1997] Alami, R., Fleury, S., Herrb, M., In-grand, F., and Robert, F. (1997). Multi-robot coopera-tion in the martha project.IEEE Robotics and Automa-tion Magazine, Special Issues : Robotics and Automa-tion in Europe.

[Alami et al., 1998a] Alami, R., Chatila, R., Fleury, S.,Ghallab, M., and Ingrand, F. (1998a). An Architec-ture for Autonomy.International Journal of RoboticsResearch, 17(4) :315–337.

[Alami et al., 1998b] Alami, R., Ingrand, F., and Qutub, S.(1998b). A scheme for coordinating multi-robot plan-ning activities and plans execution. InECAI’98.

[Alami and Botelho, 2002] Alami, R. and Botelho, S.(2002). Plan-based multi-robot cooperation. In Beetz,M., Hertzberg, J., Ghallab, M., and Pollack, M., edi-tors, Plan-Based Control of Robotic Agents, volume2466 ofLecture Notes in Computer Science. SpringerVerlag.

[Asama and Ozaki, 1991] Asama, H. and Ozaki, K.(1991). Negotiation between multiple mobile robotsand an environment manager. InIEEE ICRA’91, pages533–5382.

[Azarm and Schmidt, 1997] Azarm, K. and Schmidt, G.(1997). A decentralized approach for the conflict-freemotion of multiple mobile robots.Advanced Robotics,11(4) :323–340.

[Botelho and Alami, 1999] Botelho, S. S. C. and Alami,R. (1999). M+ : a scheme for multi-robot cooperationthrough negotiated task allocation and achievement. InIEEE ICRA’99.

[Botelho and Alami, 2000] Botelho, S. S. C. and Alami,R. (2000). Robots that cooperatively enhance theirplans. InDistributed Autonomous Robotic Systems4, Lynne E. Parker, George Bekey, and Jacob Barhen(eds.), Springer.

[Boutilier and Brafman, 1997] Boutilier, C. and Brafman,R. (1997). Planning with concurrent interaction ac-tions. InAAAI’97.

[Brumitt, 1996] Brumitt, B. Stentz, A. (1996). Dynamicmission planning for multiple mobile robots. InIEEEICRA’96.

[Burgard et al., 2002] Burgard, W., Moors, M., andSchneider, F. (2002). Collaborative exploration ofunknown environments with teams of mobile robots.In Beetz, M., Hertzberg, J., Ghallab, M., and Pollack,M., editors, Plan-Based Control of Robotic Agents,volume 2466 ofLecture Notes in Computer Science.Springer Verlag.

[Cao et al., 1997] Cao, Y., Fukuna, A., and Kahng, A.(1997). Cooperative mobile robotics : Antecedents anddirections.Autonomous Robots, 4 :7–27.

[Clement and Durfee, 1999] Clement, B. and Durfee, E.(1999). Top-down search for coordinating the hierar-chical plans of multiple agents. InThird InternationalConference on Autonomous Agents, pages 252–259.Association of Computing Machinery.

[Comets-url] Comets project official web page. [Online].Available :www.comets-uavs.org

[Decker and Lesser, 1992] Decker, K. and Lesser, V.(1992). Generalizing the partial global planning algo-rithm. In International Journal of Cooperative Infor-mation Systems 92.

[DesJardins et al., 1999] DesJardins, M., Durfee, E., C.,O., and Wolverton, M. (1999). A survey of researchin distributed, continual planning.AI Magazine, pages13–22.

[Dias et al ;, 2005] B. Dias, R.M. Zlot, N. Kalra, and A.StentzMarket-Based Multirobot Coordination : A Sur-vey and Analysis Tech. report CMU-RI-TR-05-13,Robotics Institute, Carnegie Mellon University, April,2005.

[Dudek, 1997] Dudek, G. (1997). A taxonomy for multi-agent robotics.Autonomous Robots, 3 :375–397.

[Durfee and Lesser, 1987] Durfee, E. and Lesser, V.(1987). Using partial global plans to coordinate dis-tributed problem solvers. InIJCAI87.

[Ephrati et al., 1994] Ephrati, E., Perry, M., and Rosen-schein, J. S. (1994). Plan execution motivation inmulti-agent systems. InAIPS.

[Gancet 05] J. Gancet, G. Hattenberger, R. Alami & S. La-croix. Task planning and control for a multi-UAVsystem : architecture and algorithms. IEEE Interna-tional Conference on Intelligent Robots and Systems(IROS’05), 2005.

[Gerkey and Mataric 04] Brian Gerkey and Maja J Mata-ric´ A Formal Framework for the Study of Task Allo-cation in Multi-Robot SystemsInternational Journal ofRobotics Research, 23(9), Sep 2004, 939-954.

[Gravot and Alami, 2001] Gravot, F. and Alami, R.(2001). An extension of the plan-merging paradigmfor multi-robot coordination. InIEEE International


Conference on Robotics and Automation, Seoul,Korea.

[Gravot and Alami, 2002] Gravot, F. and Alami, R.(2002). Preliminary results on planning multi-robotcooperative manipulation tasks. InIEEE IROS 2002,Lausanne, EPFL, Switzerland.

[Gravot et al., 2003] F. Gravot, S. Cambon, and R. Alami,‘aSyMov : a planner that deals with intricate symbolicand geometric problems’,ISRR, (2003).

[Jennings, 1995] Jennings, N. (1995). Controlling coope-rative problem solving in industrial multi-agent sys-tems using joint intentions.Artificial Intelligence, 75.

[Laborie, 1995] Laborie, P. (1995).IxTeT : une approcheintegrée pour la Gestion de Ressources et la Synthèsede Plans. PhD thesis, Ecole Nationale Supérieure desTélécommunications.

[Lemai 04] S. Lemai & F. Ingrand.Interleaving TemporalPlanning and Execution in Robotics Domains. In Inproceedings of the National Conference on ArtificialIntelligence (AAAI’04), 2004.

[Lemaire 04] T. Lemaire, R. Alami & S. Lacroix.A Distri-buted Tasks Allocation Scheme in Multi-UAV Context.In Proc. of the International Conference on Roboticand Automation (ICRA’04), 2004.

[Mackenzie and Arkin, 1997] Mackenzie, D. and Arkin,R. (1997). Multiagent mission and execution.Auto-nomous Robots, 4 :29–52.

[Mataric, 1994] Mataric, M. (1994).Interaction and Intel-ligent Behavior. PhD thesis, Massachusetts Institute ofTechnology.

[Parker, 1998] Parker, L. (1998). Alliance : An architec-ture for fault tolerant multirobot cooperation.IEEETrans. on Robotics and Automation, 14(2) :220–239.

[Parker, 2000] Parker, L. (2000). Current state of the art indistributed robot systems. InDistributed AutonomousRobotic Systems 4, Lynne E. Parker, George Bekey, andJacob Barhen (eds.), Springer, pages 3–12.

[Pollack, 1996] Pollack, M. (1996). Planning in dyna-mic enviroments : the dipart system.Advanced Plan-ning Technology : Technology Achievements of theARPA/Rome Laboratory Planning Initiative.

[Qutub et al., 1997] Qutub, S., Alami, R., and Ingrand, F.(1997). How to solve deadlock situations within theplan-merging paradigm for multi-robot cooperation. InIEEE IROS’97.

[Rosenschein and Zlotkin, 1994] Rosenschein, J. S. andZlotkin, G. (1994). Rules of and encounter : Designingconvention for automated negotiation among compu-ters.Artificial Intelligence - MIT press.

[Shoham and Tennenholtz, 1995] Shoham, Y. and Ten-nenholtz, M. (1995). On social laws for artificialagent societies : off-line design.Artificial Intelligence,0(75) :231–252.

[Simmons 02] R. Simmons, T. Smith, M. Dias, D. Gold-berg, D. Hershberger, A. Stentz, and R. Zlot, “A laye-red architecture for coordination of mobile robots,” inMulti-Robot Systems : From Swarms to Intelligent Au-tomata, Proc. of the 2002 NRL Workshop on Multi-Robot Systems. Kluwer Academic, 2002.

[Smith, 1980] Smith, R. (1980). The contract net proto-col : High-level communication and control in a distri-buted problem solver.IEEE Transactions on Compu-ters, c-29(12).

[Sullivan et al., 1999] Sullivan, G., Glass, A., Grosz, B.,and Kraus, S. (1999). Intention reconciliation in thecontext of teamwork : an initial empirical investiga-tion. Cooperative Information Agents III, LectureNotes in Artificial Intelligence, 1652 :138–151.

[Tambe, 1998] Tambe, M. (1998). Agent architectures forflexible, practical teamwork. InFirst InternationalConference on Autonomous Agents.

[Wang and Kumar, 2002] Wang, Z. and Kumar, V. (2002).Object closure and manipulation by multiple cooperating mobile robots. InDistributed Autonomous Ro-botic Systems 5, H. Asama, T. Arai, T. Fukuda and T.Hasegawa (eds.), Springer, pages 165–174.

[Yuta and Premvuti, 1992] Yuta, S. and Premvuti, S.(1992). Coordination autonomous and centralized de-cision making to achieve cooperative behaviors bet-ween multiple mobile robots. InIEEE IROS’92.


Méthodes robustes d’estimation pour la vision robotique

Ezio MALIS Éric MARCHANDProjet ICARE Projet Lagadic

INRIA Sophia-Antipolis IRISA-INRIA [email protected] [email protected]

Résumé

L’objectif de cet article est de présenter un état de l’art desméthodes d’estimation robustes utilisées en vision par ordi-nateur, avec une attention particulière aux applications ro-botiques. Dans ce contexte particulier, les contraintes duesau temps de calcul doivent être prises en compte pour lechoix des algorithmes d’estimation. Parmi les nombreusestechniques qui ont été proposés dans la littérature pourobtenir des estimations robustes, on peut citer, dans êtreexhaustif, la transformée de Hough, RANSAC (RandomSample Consensus), les LMS (Least Median of Squares),les M-estimateurs, etc. Dans cet article nous décrirons lesdifférentes méthodologies en prenant comme exemple desapplications robotiques.

Mots Clef

Robustesse, optimisation, estimation de paramètres, visionrobotique

1 IntroductionL’objectif de cet article est de présenter un état de l’art desméthodes robustes d’estimation utilisées en vision par ordi-nateur, avec une attention particulière aux applications ro-botiques. Dans ce contexte particulier, les contraintes duesau temps de calcul doivent être prises en compte pour lechoix des algorithmes d’estimation. Nous adoptons la dé-finition de robustesse suivante: un algorithme d’estimationest dit “robuste” s’il garde ses propriétés malgré les incer-titudes sur le modèle, les erreurs de mesure et les change-ments de l’environnement.Le fait que l’information visuelle issue de l’image doiveêtre calculée avec une précision suffisante est une hypo-thèse importante. Si les caméras fournissent une informa-tions de bas niveau extrêmement riche sur l’environne-ment, il est extrêmement difficile d’extraire l’information,paramètres de haut niveau, pertinente pour résoudre telou tel problème de vision robotique. À partir de ces in-formations et un modèle du processus d’acquisition, il estpossible d’estimer les paramètres recherchés. Ces informa-tions de haut niveau peuvent prendre différentes formes enfonction du problème considérée : information de profon-deur, position de la caméra par rapport à la scène, déplace-ment de la caméra ou du robot, paramètres intrinsèques,etc. Pour de nombreuses applications, des modèles pho-

tométriques et géométriques simples peuvent suffire. Lagéométrie projective est, par exemple, un outils mathé-matique très bien adaptée à la modélisation de la géomé-trie de l’environnement et du processus d’acquisition descaméras. Toutefois, des lors que l’on se confronte à desimages réelles (et particulièrement dans les applications ro-botiques en environnement extérieur) la modélisation de-vient inexacte et des algorithmes robustes sont nécessaires.De plus, des mesures aberrantes peuvent être provoquéespar un changement de l’éclairage ou par une occultation.Deux groupes principaux d’algorithmes robustes per-mettent de prendre en compte ces données aberrantes (out-liers). La première approche consiste à détecter les outliersavant de procéder à l’estimation des paramètres. Les ap-proches de ce type les plus classiquement utilisées sontla transformée de Hough et l’algorithme Ransac (RandomSample Consensus) [13]. Ce dernier algorithme consisteà estimer les paramètres recherchés avec le minimum demesures nécessaires puis à vérifier si d’autres mesuresconfirment cette première estimation. Si un consensus estobtenu, l’estimation est retenue. La seconde approche per-met de résoudre simultanément le problème de la détec-tion des outliers et de l’estimation (e.g., LMS et LTS [35],M-estimateurs, L-Estimateurs ou R-Estimateurs [21]). Cestechniques visent à redéfinir la fonction d’objectif à mini-miser afin que le minimum global de la fonctionnelle nesoit pas affecté par les données aberrantes. Ces approchescherchent par ailleurs à estimer de façon robuste l’écarttype des “bonnes” mesures ou des mesures non aberrantes.La caractéristique principale d’une méthode robuste estson “point de rupture” (“breakdown point” en anglais). Lepoint de rupture est le pourcentage de mesure aberrante quimettent en défaut l’algorithme. À titre d’exemple, l’algo-rithme des moindres carres a un point de rupture de 0% caril suffit d’une seule mesure aberrante pour obtenir une es-timation fausse des paramètres. D’autres caractéristiquestrès importantes dans les applications robotiques sont lacomplexité algorithmique et la vitesse de convergence desalgorithmes. Ces deux facteurs différents se traduisent enune diminution de la fréquence des boucles de commande.Nous verrons qu’il y a un compromis entre la vitesse deconvergence et le point de rupture des algorithmes.Pour illustrer ces techniques d’estimation nous considé-rerons par la suite trois problèmes classiques en visionrobotique: le calcul de pose, le suivi dans une séquence


d’images et l’asservissement visuel.

2 Estimation de paramètresLe problème que nous cherchons à résoudre est celui del’estimation d’un certain nombre de paramètres à partird’une ou plusieurs images. Nous considérons ici des appli-cations robotiques. Pour cette raison nous tiendrons comptedes performance en temps de calcul des algorithmes consi-dérés.

2.1 Les moindres carrés

Supposons que nous disposions d’un modèle des signauxsk(x), qui changent en fonction d’un certain nombre deparamètres inconnus x, et d’une mesure s∗k = sk(x∗) deces signaux. Nous définissons le résidu rk = sk(x)− s∗k etr(x) le vecteur (n×1) contenant tous les résidus ordonnéspar ordre croissant, de telle manière que r21(x) ≤ r22(x) ≤... ≤ r2n(x). Notre problème est de retrouver la valeur x

∗

des paramètres à partir des signaux mesurés. La méthodela plus utilisée, qui remonte à Gauss et Legendre [35], estla méthode des moindres carrés LS (Least Squares). Oncherche à minimiser la fonction de coût suivante:

C(x) = r>r =

n∑k=1

r2k(x) (1)

La solution de ce problème d’optimisation peut être obte-nue de manière itérative en partant d’une estimation initialex0 des paramètres.

2.2 Une exemple très simple

Nous considérons dans cet article un exemple très simplequi nous servira de “cas d’école” afin de comparer les diffé-rentes méthodes d’estimation. Supposons n = 100 pointsd’intérêts vus dans deux images différentes.

Supposons que la caméra a effectué une translation de 10mm suivant l’axe ~x. Notre objectif est d’estimer le déplace-ment de la caméra à partir des coordonnées des points dansles deux images et la connaissance des profondeurs dans lerepère d’une des deux images. En effet, l’équation qui lieles coordonnées normalisées des points dans l’image est lasuivante:

u2k = u1k +tx

Z1k

Nous avons alors un seul paramètre a estimer (x = tx) etnous pouvons visualiser plus facilement les fonctions decoût des différentes méthodes.

Dans ce cas d’école la fonction de coût est quadratique etson minimum est x∗ = 10 mm. Le problème LS est doncfacilement résolu pour n’importe quelle condition initiale.Toutefois, nous considérons ici dans toutes les exemplesque la condition initiale est x0 = 0.

−20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5

2

2.5x 10

5

FIG. 1 – Fonction de coût des moindres carrés (LS).

2.3 Problèmes avec des mesures aberrantes

En présence d’un certain nombre de mesures aberrantes(erreur de mise en correspondance, occultations, change-ment d’éclairage,...) la fonction de coût du LS est modi-fiée de telle manière que le minimum ne correspond plus àla valeur réelle des paramètres à estimer. Par exemple, surla figure 2a on peut voir la fonction de coût du LS quandl’ensemble des mesures est corrompu de manière aléatoireavec 20 % d”’outliers”. Le minimum de la fonction de coûtest x = 6 mm au lieu de x = 10 mm. De manière si-milaire dans la figure 2b on peut voir la fonction de coûtdu LS quand l’ensemble des mesures est corrompu de ma-nière aléatoire avec 40 % d”’outliers”. Le minimum de lafonction de coût est x = 4 mm au lieu de x = 10 mm.Dans ces graphiques, le points verts représentent la valeurinitiale de x et le points rouges représentent la valeur trou-vée après minimisation. La méthode LS est très peu ro-buste aux mesures aberrantes. Son “breakdown point” estde 0% cal il suffit d’une seule mesure aberrante pour faus-ser le minimum. Dans certains cas, le minimum peut chan-ger de manière considérable si l”’outliers” a une influencetrès importante (on parle alors d’effet de levier [35]). Lesméthodes d’estimation robustes que nous allons décrire àprésent sont capables d’estimer la valeur correcte des para-mètres malgré la présence de ces mesures aberrantes.

−20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5

2

2.5x 10

5

a −20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5

2

2.5x 10

5

b

FIG. 2 – Fonction de coût du LS en présence de (a) 20% et(b) 40% de mesures aberrantes.


3 Méthodes robustes

Les moindres carrés ne sont pas robustes car la fonction decoût peut grandir indéfiniment et des mesures aberrantespeuvent devenir prépondérants par rapport aux mesures vé-rifiant le modèle correcte (inliers). Les méthodes robustesd’estimation modifient la fonction de coût de manière à li-miter l’influence des résidus les plus importants. La consé-quence principale est un ralentissement de la vitesse deconvergence des algorithmes d’optimisation. En effet, il esttrès difficile (voir impossible) de distinguer dans un pre-mier temps entre les mesures aberrantes et les mesures cor-rectes. Donc, des résidus correctes importants sont aussiinitialement filtrées ce qui comporte une réduction de la vi-tesse de convergence. Le cas le plus difficile à résoudre seprésente quand des résidus faibles mais aberrants déplacentle minimum de la fonction de coût.

3.1 LMS (Least Median of Squares)

La méthode robuste LMS [34, 35] minimise la fonction decoût suivante:

C(x) = median((r21(x), r22(x), ..., r2n(x))) (2)

La médiane est vu comme un estimateur robuste car elle neconsidère pas les 50% des résidus les plus importants. Ellea cependant deux inconvénients majeurs:

– la fonction de coût n’est généralement pas différentiable.Des méthodes de minimisation basées sur le gradient dela fonction de coût sont donc très délicates à mettre enœuvre;

– la vitesse de convergence des algorithmes de minimisa-tion peut être extrêmement lente si les résidus sont dis-tribuées de telle manière que la médiane a un gradienttrès faible.

Dans le cas d’école considéré le minimum est correctementlocalisé même en présence de 20% ou 40% d’outliers sur latotalité des mesures. La figure 3 montre l’allure de la fonc-tion de coût dans les deux cas. En partant de x0 = 0 (lepoints vert dans la figure) on trouve correctement le mini-mum (le point rouge dans la figure). Cette méthode a un“breakdown point” de 50% (le plus haut possible) maisaussi une convergence extrêmement lente. Afin d’augmen-ter la vitesse de convergence plusieurs techniques sont pos-sibles. L’une d’elle consiste à effectuer des tirages aléa-toires d’un sous ensemble des mesures de manière similaireà l’algorithme RANSAC. Une autre possibilité est d’utili-ser la méthode LTS.

−20 −15 −10 −5 0 5 10 15 200

500

1000

1500

2000

2500

−20 −15 −10 −5 0 5 10 15 200

500

1000

1500

2000

2500

FIG. 3 – Fonction de coût du LMS en présence de (a) 20%et (b) 40% de mesures aberrantes.

3.2 LTS (Least Trimmed Squares)

Afin d’améliorer la vitesse de convergence de la méthodeLMS, Rousseeuw [35] a proposé la méthode dite LTS. Elleconsiste à minimiser la somme des carrés des q premiersrésidus:

C(x) =

q∑k=1

r2k(x) (3)

En général, on choisit q = n/2 mais une connaissance apriori du taux d’outliers permet d’optimiser le choix de lavaleur de q. La fonction de coût a une allure similaire àcelle de la méthode LMS mais le gradient est généralementplus élevé. La contribution des q premiers résidus rends lafonction de coût un peu plus lisse. Toutefois cette fonctionreste généralement non différentiable. La figure 4 montrel’allure de la fonction de coût dans les cas précédemmentconsidérés. Le minimum est trouve correctement en pré-sence de 20 % d’outliers. Quand le pourcentage d’outliersest de 40 % il est toujours possible de trouver le vrai mi-nimum mais un minimum local apparaît dans la fonctionde coût. Ce problème, qui peut arriver aussi pour d’autreméthodes robustes (y compris pour le LMS), dépends dela distribution des outliers et il est très difficile à analyser.De manière générale, il est a priori impossible de prévoirquelle méthode robuste permettra d’éviter la formation deces minima locaux.

−20 −15 −10 −5 0 5 10 15 200

1

2

3

4

5

6

7

8x 10

4

−20 −15 −10 −5 0 5 10 15 200

1

2

3

4

5

6

7

8x 10

4

FIG. 4 – Fonction de coût du LTS en présence de (a) 20%et (b) 40% de mesures aberrantes.

3.3 M-estimateurs

Le principe des M-estimateurs est de modifier la fonctionde coût du LS en pénalisant les résidus les plus grands. La


fonction de coût s’écrit:

C(x) =

n∑k=1

ρ(rk(x)) (4)

où la fonction ρ est au moins C0. Différentes fonction ρont été proposées dans la littérature. Le plus utilisées sontcelles proposées par Tukey [1] et Huber [21]. Le break-down point des M-estimateurs est théoriquement de 0%comme pour le LS. Toutefois, il s’agit du pire des cas et onverra qu’il faut des mesures aberrantes importantes avantde mettre en défaut les M-estimateurs.

Huber. La fonction ρ proposée par Huber est la suivante:

ρ(rk(x)) =

12r

2k(x) if r2k(x) ≤ c

c(|rk(x)| − c

2

)if r2k(x) > c

(5)

ou c = 1.345σ et σ est une estimation robuste de l’écarttype. En générale on utilise le Mad (Median Absolute De-viation):

σ = 1.48median(|r − median(r)|). (6)

Dans la fonction ρ proposée par Huber, les résidus les plusfaibles sont considérés comme dans un LS alors que les ré-sidus les plus importants sont rapidement limités (mais nonannulés). La figure 5 montre l’allure de la fonction de coûtdans les cas considérés. Même si théoriquement le break-down point est de 0%, la fonction de coût des M-estimateurà son minimum global correctement localisé. Toutefois,quand le pourcentage d’outliers est élevé des minima lo-caux peuvent, là encore, apparaître.

−20 −15 −10 −5 0 5 10 15 200

1000

2000

3000

4000

5000

6000

7000

8000

9000

10000

a −20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5

2

2.5

3

3.5x 10

4

b

FIG. 5 – Fonction de coût du M-estimateur de Huber enprésence de (a) 20% et (b) 40% de mesures aberrantes.

Beaton-Tukey. La fonction ρ proposée par Beaton-Tukey [1] est la suivante:

ρ(rk(x)) =

c2

6

[1 −

(1 −

(rk

)2)3

]if r2k(x) ≤ c

c2

6 if r2k(x) > c

(7)

où c = 4.6851σ et où σ est une estimation de l’écarttype du bruit sur les bonnes mesures (voir paragraphe 3.3).Comme dans le cas précédent, dans la fonction ρ proposéepar Beaton-Tukey, les résidus le plus faibles sont considé-rés comme dans un LS alors que les résidus le plus impor-tants sont rapidement annulés (totalement cette fois). La

figure 6 montre des résultats très similaires aux résultatsobtenus par le M-estimateur de Huber.

−20 −15 −10 −5 0 5 10 15 200

1000

2000

3000

4000

5000

6000

7000

8000

9000

a −20 −15 −10 −5 0 5 10 15 200

0.5

1

1.5

2

2.5

3x 10

4

b

FIG. 6 – Fonction de coût du M-estimateur de Tukey enprésence de (a) 20% et (b) 40% de mesures aberrantes.

Algorithme IRLS. En pratique, les M-estimateurs sontimplémentés avec l’algorithme des moindres carrés pon-dérés itérés IRLS (Iteratively Reweighted Least Squares).L’algorithme vise à résoudre le système suivant DAx =Db où D = diag

(w1, . . . , wk

)est une matrice diagonale.

Le calcul du poids wi associé à chaque mesure représentela confiance que l’on a dans chacune d’elles.Cet algorithme opère de la façon suivante : estimation despoids en utilisant l’un des multiples critères robustes pré-sentés dans la littérature (Huber, Tukey), estimation de lavaleur de x en résolvant le système précèdent, et réitérerjusqu’à convergence.Les poids wi, éléments de la matrice D, reflètent laconfiance en chaque primitive et sont définis par [21] :

wi =ψ(ds)

ds(8)

où ψ(ds) = ∂ρ(δi)/∂δi, δi est le résidu normal donné parδi = ∆i − mediane∆ (mediane∆ correspond à la valeurmédiane des résidus). Le paramètre σ, qui représente lavaleur de l’écart type du bruit sur les “bonnes” mesures,peut varier énormément au cours du processus de minimi-sation. σ est souvent traitée comme une variable d’ajuste-ment qui est choisie manuellement en fonction d’une ap-plication particulière. Il est aussi possible, afin d’améliorerla précision de détection des données aberrantes, d’estimerla valeur de σ parallèlement à la minimisation de l’erreuren utilisant une statistique robuste. Le Mad pour MedianAbsolute Deviation est l’une de ces statistiques :

σ = 1.48Medi(|δi −Medj(δj)|). (9)

4 Méthodes robustes de voteL’estimation des paramètres avec les méthodes de vote re-pose sur l’utilisation du minimum de données nécessairesa l’estimation. Chaque estimation, avec un jeux de donnéesparticulier, correspond à un “vote” pour les paramètres ob-tenus. Le jeu de paramètres élu, i.e. le plus “voté”, est re-tenu comme résultat de l’estimation.


4.1 Transformée de Hough

La transformée de Hough [20] est une méthode de votetrès robuste. La version originale de la méthode proposéepar Hough a été modifiée par [11]. Depuis plusieurs va-riantes ont été proposées [23]. Cette approche repose surune discrétisation de l’espace des paramètres. On obtientalors des hypercubes dans l’espace d’état auquel sont asso-ciés des accumulateurs. Pour un jeux de données de tailleminimale, les paramètres recherchés sont estimés et l’ac-cumulateur correspondant de l’hypercube est incrémenté.Ce processus est itéré jusqu’à considérer toute les combi-naisons possibles des données à disposition. L’accumula-teur ayant la valeur la plus importante correspond alors à lameilleure estimation des paramètres.La transformée de Hough est bien adaptée aux problèmesayant un nombre important de données par rapport auxnombre des paramètres à estimer. En effet, si les donnéeset les inconnues sont de taille équivalente il est difficilede trouver un accumulateur prépondérant par rapport auxautres. En plus, dû à la discrétisation et au bruit il estpossible que l’optimum soit delocalisé. La transformée deHough est très robuste car elle effectue une recherche glo-bale et exhaustive. Finalement, cette technique est capablede segmenter les données en plusieurs populations qui vé-rifient le modèle de référence. Toutefois, la transformée deHough est très rarement utilisée en vision robotique carpour des problèmes qui nécessitent l’estimation de plus detrois ou quatre paramètres les temps de calculs deviennentprohibitifs.

4.2 RANSAC

La méthode RANSAC [13] (en anglais Random SampleConsensus) est une méthode de vote probabiliste qui a étéproposée afin de réduire le temps de calcul des méthodesde votes classiques (comme par exemple la transformée deHough). À partir d’un sous ensemble minimal de s signauxmesurés il est possible de calculer les paramètres dans unesituation non dégénerée. Ensuite, on calcule une fonctionla fonction de coût suivante:

C(x) =n∑

k=1

ρ(rk(x)) (10)

ou:

ρ(rk(x)) =

0 if r2k(x) ≤ c

1 if r2k(x) > c(11)

et c = 2.5 σ.Soit p la probabilité de trouver la bonne solution, s lenombre minimum de signaux nécessaire pour l’estimationdes paramètres et r le pourcentage d’inliers. Le nombre mde tirages aléatoires nécessaire pour avoir une probabilitép de retrouver les bons paramètres est :

m =log(1 − p)

log(1 − (1 − r)s)

Dans la figure 7 est représentée la fonction de coût duRANSAC. Le barres rouges représentent les résultats d’es-timation des paramètres a partir des tirages aléatoires (pourcertains tirages on obtient le même jeu de paramètres). Onpeut voir que pour 20% d’outliers 5 tirages aléatoires seule-ment sont suffisant pour avoir une probabilité de 95% detrouver la bonne solution. Quand le pourcentage d’outliersest de 40 % 13 tirages sont nécessaires.

−20 −15 −10 −5 0 5 10 15 200

10

20

30

40

50

60

70

80

90

100

a −20 −15 −10 −5 0 5 10 15 200

10

20

30

40

50

60

70

80

90

100

b

FIG. 7 – Fonction de coût du RANSAC en présence de (a)20% et (b) 40% de mesures aberrantes.

5 Application a la vision robotiqueUn certain nombre de problèmes en vision par ordinateursont intéressants pour la robotique. Nous considérons iciles exemples suivants:– suivi d’un objet dans une séquence d’images ;– localisation de la caméra ;– asservissement visuel.

5.1 Suivi d’un objet dans l’image.Les algorithme d’estimation robuste que nous avons décritprécédemment peuvent être applique à un problème clas-sique de la vision robotique : le suivi d’un objet dans uneséquence d’images. Si l’on suppose que l’objet est planle problème de suivi peut être résolu en estimant la ma-trice d’homographie qui lie deux points homologues dansdeux images successives. La méthode utilisé est présen-tée dans [2]. La matrice d’homographie est de dimension(3×3) et elle est définie à un facteur d’échelle. Seulement8 paramètres sont donc à estimer. L’estimation de ces para-mètres par une technique de moindres carrés donne géné-ralement de très bons résultats même en présence de cer-taines perturbations. Cependant, dès que des erreurs aber-rantes se produisent (comme par exemple une réflexionspéculaire sur la surface de l’objet), l’algorithme de suivin’est plus capable d’estimer correctement les paramètres.Il est donc souhaitable d’utiliser une méthode d’estimationrobuste. La figure 8 montre un exemple où une estima-tion reposant sur l’utilisation des M-estimateurs. L’objet àsuivre dans la séquence d’images est sélectionné dans pre-mière image et il est entouré par un rectangle rouge. Dansles image suivantes, l’objet est suivi malgré des très grandschangements d’éclairage et de grands déplacements. Enutilisant un moindre carrés classique il n’est pas possible desuivre l’objet pendant toute la séquence. À partir de l’ho-mographie estimée il est ensuite possible de commander un


FIG. 8 – Suivi d’un objet dans l’image par estimation robuste d’une transformation homographique. L’objet suivi est entouréen rouge.

robot en utilisant des techniques d’asservissement visuel.

5.2 Localisation d’une caméra.Le calcul de pose vise à déterminer la position d’une ca-méra en effectuant un recalage 2D-3D. C’est un problèmetrès anciens en vision par ordinateur (citons les travaux surle P4P [13] – Perspective from 3 points –) et en photogram-métrie [3] mais qui ont suscité et continuent de susciter denombreuses études. Considérons, pour illustrer ce point, leproblème de la localisation 3D à partir de la projection depoints. Ce problème de recalage 2D-3D revient à détermi-ner les paramètres extrinsèques de la caméra, définis parla matrice homogène de changement de repère c

Mo, quiminimise l’erreur de reprojection suivante :

∆ =

N∑i=1

(pi −K

cMo

oPi

)2(12)

où oP représente la position des N points considérés dans

un repère lié à la scène (modèle de l’objet), pi leur projec-tion dans le plan image et K est la matrice de projectionperspective.Dans le cas où un faible nombre de primitives est dispo-nible, il existe des solutions purement analytiques à ce pro-blème consistant à résoudre directement le système d’équa-tions non-linéaires issu de l’équation 12 [13, 19, 9]. Parnature, ces problèmes sont non linéaires par rapport auxparamètres de pose mais il existe des solutions linéaires(e.g., [12, 25]) reposant sur la résolution de systèmes li-néaires aux moindres carrés pour estimer la pose et éven-tuellement les paramètres intrinsèques de la caméra. Dansce cas, l’efficacité de ces approches repose principalementsur la représentation choisie pour la matrice de rotationet des contraintes retenues pour assurer l’orthonormalitéde cette matrice. Elles sont cependant extrêmement sen-sibles aux bruits de mesure. Ces méthodes ne fournis-sant généralement pas un résultat de très bonne qualité,

d’autres approches comme les techniques de minimisationnon-linéaire (e.g., [26, 27, 10, 29, 8, 6]) peuvent alors êtreconsidérées.Nonobstant la méthode de minimisation retenue, le cri-tère 12 peut être optimiser de façon robuste. Historique-ment, l’algorithme Ransac [13] développé par Fischler etBolles au SRI a été initialement décrit dans ce contexte(problème du P3P). Les M-estimateurs on aussi été large-ment mis à contribution [17, 10, 6, 37].La figure 9 montre le résultat d’un suivi 3D en utilisant unalgorithme de localisation 3D robuste (M-estimation Tu-key) dans chaque image [6]. Cette localisation est utilisépour réaliser une expérience d’asservissement visuel 2 1/2D.Des problèmes similaires sont aussi souvent résolue en uti-lisant des techniques robuste. Citons par exemple l’esti-mation d’homographie à partir de point 2D mis en corres-pondance [18, 14, 33, 38], , l’estimation d’un mouvement2D [31, 16], l’estimation d’une transformation rigide entredeux ensemble de points 3D [14], l’estimation de la matriceessentielle ou fondamentale (RANSAC [13], LMedS [41])

5.3 Asservissement visuel robuste aux me-sures aberrantes

Si l’asservissement visuel est très efficace pour réaliser destâches de positionnement, il apparaît cependant que la pré-cision de positionnement est très sensible aux erreurs inhé-rentes au processus d’extraction des données. L’efficacitéde l’asservissement visuel dépend en effet de la précisionde localisation de cette information visuelle mais aussi dela précision de l’appariement entre les valeurs courante etdésirée de cette information. Si la mise en correspondanceentre les informations visuelles est entachée d’erreur ou sil’estimation de la valeur de s est imprécise, la précisionde la tâche de positionnement sera imprécise, voire même,dans certains cas, l’asservissement sera un échec.


FIG. 9 – Suivi d’un objet pendant une expérience d’asservissement visuel 2D 1/2. L’objet suivi est en vert et sa positiondésirée dans l’image est en bleu. Les images de la première ligne correspondent à l’étape initiale de positionnement. Dansla suivante, à la fois l’objet et le robot sont en mouvement et subi de multiples occultations correctement traitées par lesestimateurs robustes.

Traditionnellement, la robustesse d’une loi de commandeest définie par : “stability results which remain true in thepresence of modeling errors or certain classes of distur-bance” [36]. Deux solutions peuvent donc être exhibéespour assurer la robustesse de la loi de commande : la pre-mière est de créer un modèle le plus précis possible dusystème considéré (perturbations potentielles comprises) etla seconde est de traiter (limiter) au mieux les perturba-tions en travaillant directement sur la commande. Dans lepremier cas, il est raisonnable de penser qu’une modéli-sation et une estimation correcte de l’ensemble des para-mètres intrinsèques du système permettent d’améliorer lesrésultats. En asservissement visuel, ce type d’approche aconduit à modéliser la caméra par un modèle de projectionperspective, à disposer d’une formulation analytique de lamatrice d’interaction [4] et à estimer en ligne l’informationde profondeur présente dans cette matrice [30, 15, 5, 39],etc. D’autres sources d’erreurs proviennent du bruit dansl’extraction des indices visuels, ou d’erreurs de suivi voired’importantes erreurs de mise en correspondance entre pri-mitives courantes et désirées. La prise en compte de ceserreurs se fait le plus souvent en aval de la loi de com-mande, c’est-à-dire au niveau de l’extraction des indicesvisuels (voir figure 10a) : amélioration de la qualité desalgorithmes de suivis [40] ou sélection de primitives par-ticulières [32], fusion d’informations redondantes (par desapproches de vote ou de consensus [24]).

Les solutions mentionnées dans le paragraphe précé-dent sont des solutions partielles pouvant prendre encompte certains types d’erreurs bien définis. Une séquenced’images acquises à la cadence vidéo est cependant unesource quasi infinie d’erreurs qu’il est impossible de carac-tériser et de traiter de manière exhaustive. Ceci inclut lesproblèmes dus au mouvement plus ou moins rapide des ob-jets, aux occultations éventuellement multiples, aux chan-

-

+Tc

λ

Lp

+∑ esd

Robuste

Controleur

Extraction de primitives

s

qrejet des donnees aberrantes

(a)

-

+ e

λ

Tcsd ∑

Robuste

Extraction deprimitives

s

(DLp)+Poids

D q

Controleur

(b)

FIG. 10 – (a) Asservissement visuel robuste “classique” :le rejet des données aberrantes se fait dans l’extraction desdonnées, (b) Nouvelle loi de commande : le rejet des don-nées aberrantes se fait dans la loi de commande.

gements d’illumination, etc. Il semble évident qu’établirun catalogue analytique de toutes les sources de pertur-bations possibles et de proposer une solution pour traiterchacune d’entre elles est un travail complexe voire impos-sible à réaliser. Nous avons donc décidé d’essayer de li-miter l’effet des perturbations potentielles en modifiant laloi de commande. Nous avons en effet considéré le pro-blème de l’asservissement visuel robuste en introduisantdirectement dans la loi de commande des estimateurs ro-bustes permettant de quantifier la confiance dans chacunedes informations visuelles et, si nécessaire, de les rejeter(voir figure 10b). L’incertitude sur chaque primitive estdonc modélisée statistiquement, ce qui permet de prendreen compte tout type de perturbations dans l’extraction desdonnées.

Nous considérons la tâche générique qui consiste à dépla-cer une caméra pour observer un objet à une position don-née dans l’image. Ceci est accompli en minimisant l’erreur∆ entre un état désiré des primitives dans l’image s

∗ et leur


état courant s.En asservissement visuel, la loi de commande qui réalisela minimisation de ∆ est traitée habituellement par une ap-proche aux moindres carrés [4, 22]. Cependant, s’il y a desdonnées aberrantes, la réalisation de la tâche sera en échecet une prise en compte explicite de ce problème est né-cessaire. La fonction à minimiser est donc modifiée afinde réduire la sensibilité aux données aberrantes. L’erreur àminimiser est alors donnée par :

∆R =N∑

i=1

ρ(si(r) − s∗i

)2, (13)

où ρ(u) est une fonction robuste [21]. De façon similaireau problème des moindres carrés pondérés itérés, nous in-troduisons dans la loi de commande une matrice de pondé-ration, où les poids reflètent la confiance dans chaque pri-mitive visuelle. Nous avons donc une nouvelle loi de com-mande qui assure une minimisation robuste de ∆ définiepar l’équation 13. L’erreur à minimiser est donc:

e = D (s(r) − s∗) , (14)

où D est une matrice diagonale. Le calcul du poids wi as-socié à chaque information visuelle représente la confianceque l’on a dans chacune des informations visuelles. Sansentrer dans les détails (voir [7]), on obtient une loi de com-mande donnée par :

v = −λ(DLs)+D

(s(r) − s

∗). (15)

où un modèle ou une approximation Ls de Ls sont utilisés(un modèle D de D peut aussi être considéré).Les résultats obtenus ont montré l’efficacité d’une telle ap-proche (comme le montrent les résultats de la figure 11.Des résultats plus complets sont données dans [7, 28]). Ilreste que l’utilisation d’une telle loi de commande robusten’est pas incompatible, loin de là, avec un processus effi-cace d’extraction des données. Une fusion des deux sché-mas de la figure 10 est non seulement possible mais sou-haitable.

6 ConclusionDans cette article nous avons passe en revue les méthodesd’estimation robuste le plus utilisées en vision robotique.L’utilisation de ces méthodes est nécessaire afin de réali-ser de taches en environnement réel. Le prix a payer est untemps de calcul un peu plus élevé et une vitesse de conver-gence réduite. Si les techniques de vote (Hough, Ransac)sont très efficaces, le temps de calcul est souvent trop élevépour assurer une utilisation des algorithmes de vision à unecadence compatible avec la commande d’un robot. Commeon a pu le voir dans les exemples données dans la sectionprécédente l’utilisation de M-estimateurs représente un boncompromis entre robustesse et efficacité algorithmique.

a b

c d

FIG. 11 – Tâche classique de positionnement en considé-rant une loi de commande classique et une loi de com-mande robuste. L’image (a) montre l’image initiale acquiseavant le début de la tâche. Les trois autres images corres-pondent aux images acquises à l’issue de la tâche de posi-tionnement : (b) correspond à un positionnement reposantsur une loi de commande classique mais sans données aber-rantes (expérience de référence), (c) reprend la même loi decommande classique mais la mise en correspondance entrepoints courants et désirés est faussée introduisant des don-nées aberrantes (c’est un des cas d’erreurs possibles, maisd’autres cas son envisageables [7, 28]. Comme on peut s’yattendre la commande converge vers un minimum local, (d)considère la même expérience mais avec une loi de com-mande robuste. Malgré les données aberrantes, la tache depositionnement se déroule correctement.

Références[1] A.E. Beaton and J.W. Tukey. The fitting of po-

wer series, meaning polynomials, illustrated on band-spectroscopic data. Technometrics, 16:147–185,1974.

[2] S. Benhimane and E. Malis. Real-time image-basedtracking of planes using efficient second-order mini-mization. In IEEE/RSJ Int. Conf. on Intelligent Ro-bots Systems, Sendai, Japan, October 2004.

[3] D.C. Brown. Close-range camera calibration. Photo-grammetric Engineering, 4(2):127–140, March 1971.

[4] F. Chaumette. Asservissement visuel. In W. Kha-lil, editor, La commande des robots manipulateurs,Traité IC2, chapter 3, pages 105–150. Hermès, 2002.

[5] F. Chaumette, S. Boukir, P. Bouthemy, and D. Ju-vin. Structure from controlled motion. IEEETrans. on Pattern Analysis and Machine Intelligence,18(5):492–504, May 1996.

[6] A.I. Comport, E. Marchand, and F. Chaumette. Effi-cient model-based tracking for robot vision. Advan-ced Robotics, 2005.

[7] A.I. Comport, M. Pressigout, E. Marchand, andF. Chaumette. A visual servoing control law that is


robust to image outliers. In IEEE Int. Conf. on Intel-ligent Robots and Systems, IROS’03, volume 1, pages492–497, Las Vegas, Nevada, October 2003.

[8] N. Daucher, M. Dhome, J.T. Lapreste, and G. Rives.Modelled object pose estimation and tracking by mo-nocular vision. In British Machine Vision Conf.,BMVC’93, pages 249–258, Guildford, UK, Septem-ber 1993.

[9] M. Dhome, M. Richetin, J.-T. Lapresté, and G. Rives.Determination of the attitude of 3D objects from asingle perspective view. IEEE Trans. on Pattern Ana-lysis and Machine Intelligence, 11(12):1265–1278,December 1989.

[10] T. Drummond and R. Cipolla. Real-time visual tra-cking of complex structures. IEEE Trans. on Pat-tern Analysis and Machine Intelligence, 24(7):932–946, July 2002.

[11] R.O. Duda and P.E. Hart. Use of the hough transfor-mation to detect lines and curves in pictures. Com-munication of the ACM, 15:11–15, 1972.

[12] O. Faugeras, F. Lustman, and G. Toscani. Motion andstructure from motion from point and line matches. Iniccv, pages 25–34, London, UK, June 1987.

[13] N. Fischler and R.C. Bolles. Random sample consen-sus: A paradigm for model fitting with application toimage analysis and automated cartography. Commu-nication of the ACM, 24(6):381–395, June 1981.

[14] A.W. Fitzgibbon. Robust registration of 2d and 3dpoint sets. Image and Vision Computing, 21(12-13):1145–1153, December 2003.

[15] E. Grosso, G. Metta, A. Oddera, and G. Sandini. Ro-bust visual servoing in 3D reaching tasks. IEEETrans. on Robotics and Automation, 12(5):732–742,October 1996.

[16] G. Hager and P. Belhumeur. Efficient region trackingwith parametric models of geometry and illumina-tion. IEEE Trans. on Pattern Analysis and MachineIntelligence, 20(10):1025–1039, October 1998.

[17] R. Haralick, H. Joo, C. Lee, X. Zhuang, V Vaidya,and M. Kim. Pose estimation from correspondingpoint data. IEEE Trans on Systems, Man and Cyber-netics, 19(6):1426–1445, November 1989.

[18] R. Hartley and A. Zisserman. Multiple View Geome-try in Computer Vision. Cambridge University Press,2001.

[19] R. Horaud, B. Conio, O. Leboulleux, and B. Lacolle.An analytic solution for the perspective 4-points pro-blem. Computer Vision, Graphics and Image Proces-sing, 47(1):33–44, July 1989.

[20] P.V.C. Hough. Machine analysis of bubble chamberpictures. In Int. Conf. on High Energy Acceleratorsand Instrumentation, pages 554–556, CERN, 1959.

[21] P.-J. Huber. Robust Statistics. Wiler, New York, 1981.

[22] S. Hutchinson, G. Hager, and P. Corke. A tutorial onvisual servo control. IEEE Trans. on Robotics andAutomation, 12(5):651–670, October 1996.

[23] J. Illingworth and J. Kittler. A survey of the houghtransform. Computer Vision, Graphics, and ImageProcessing, 44(1):87–116, 1988.

[24] D. Kragic and H. Christensen. Cue integration forvisual servoing. IEEE Trans. on Robotics and Auto-mation, 17(1):19–26, February 2001.

[25] Y. Liu, T.S. Huang, and O.D. Faugeras. Determi-nation of camera location from 2D to 3D line andpoint correspondences. IEEE Trans. on Pattern Ana-lysis and Machine Intelligence, 12(1):28–37, January1990.

[26] D.G. Lowe. Three-dimensional object recognitionfrom single two-dimensional images. Artificial In-telligence, 31(3):355–394, March 1987.

[27] D.G. Lowe. Fitting parameterized three-dimensionalmodels to images. IEEE Trans. on Pattern Analysisand Machine Intelligence, 13(5):441–450, May 1991.

[28] E. Marchand, A.I. Comport, and F. Chaumette. Im-provements in robust 2D visual servoing. In IEEEInt. Conf. on Robotics and Automation, ICRA’04,volume 1, pages 745–750, New Orleans, Louisiana,April 2004.

[29] F. Martin and R. Horaud. Multiple camera trackingof rigid objects. Int. Journal of Robotics Research,21(2):97–113, February 2002. (Rapport INRIA RR-4268, septembre 2001).

[30] S.-J. Maybank and O. Faugeras. A theory of self cali-bration of a moving camera. Int. Journal of ComputerVision, IJCV, 8(1):123–152, 1992.

[31] J.-M. Odobez and P. Bouthemy. Robust multiresolu-tion estimation of parametric motion models. Journalof Visual Communication and Image Representation,6(4):348–365, December 1995.

[32] N. P. Papanikolopoulos and P. K Khosla. Selectionof features and evaluation of visual measurements for3D robotic visual tracking. Int. Symp. on IntelligentControl., pages 320–325, August 1993.

[33] M. Pressigout and E. Marchand. Model-free augmen-ted reality by virtual visual servoing. In IAPR Int.Conf. on Pattern Recognition, ICPR’04, volume 2,pages 887–891, Cambridge, UK, August 2004.

[34] P.J. Rousseeuw. Least median of squares regression.Journal American Statistic Association, 79:871–880,1984.

[35] P.J. Rousseeuw and A.M. Leroy. Robust Regressionand Outlier Detection. John Wiley and Sons, NewYork, 1987.

[36] C. Samson, M. Le Borgne, and B. Espiau. RobotControl: the Task Function Approach. ClarendonPress, Oxford, United Kingdom, 1991.


[37] G. Simon and M.-O. Berger. A two-stage robuststatistical method for temporal registration from fea-tures of various type. In Int. Conf. on Computer Vi-sion, ICCV’98, pages 261–266, Bombay, India, Jan-vier 1998.

[38] G. Simon and M.-O. Berger. Pose estimation for pla-nar structures. IEEE Computer Graphics and Appli-cations, 22(6):46–53, November 2002.

[39] C.-J. Taylor, J.-P. Ostrowski, and S.-H. Jung. Robustvisual servoing based on relative orientation. Int Confon Computer Vision and Pattern Recognition, pages574–580, June 1999.

[40] T. Tommasini, A. Fusiello, E. Trucco, and V. Roberto.Making good features track better. In IEEE Int. Conf.on Computer Vision and Pattern Recognition, pages178–183, Santa Barbara, USA, June 1998.

[41] Z. Zhang, R. Deriche, O. Faugeras, and Q.-T. Luong.A robust technique for matching two uncalibratedimages through the recovery of the unknown epipolargeometry. Artificial Intelligence, 78:87–119, October1995.


La Vision Omnidirectionnelle

El Mustapha MouaddibCREA - Université de Picardie Jules Verne

7, Rue du Moulin Neuf - 80000 Amiens - [email protected]

Résumé

Augmenter le champ de vue des systèmes de vision pour lerendre panoramique, voire omnidirectionnel, tel est l’ob-jectif de la vision omnidirectionnelle. Plusieurs solutionsont été imaginées pour y arriver parmi lesquelles l’ap-proche catadioptrique tient une place privilégiée. Beau-coup d’applications, notamment en robotique mobile, ontprouvé l’intérêt de cette approche de la perception visuelleartificielle. Elles ont aussi soulevé une multitude de ques-tions théoriques et pratiques. Après une période "empi-rique" de conception des caméras, beaucoup de travaux derecherche ont traité de la formalisation et la modélisationgéométrique et optique. C’est actuellement l’aspect le plusabouti. En revanche, la grande majorité des outils déve-loppés en vision perspective, doit être re-visitée et adaptéeaux images omnidirectionnelles à cause de la modificationintroduite par les miroirs, du voisinage et de la résolution.Nous montrerons les nombreux apports de la vision omni-directionnelle et nous tenterons de donner un aperçu desproblèmes ouverts. Nous fournirons également une carto-graphie nationale des équipes et des projets de recherchedans cette thématique ainsi que quelques indications sur lecontexte international.

Mots Clef

Vision, omnidirectionnel, panoramique, catadioptrique.

1 GénéralitésLa vision omnidirectionnelle est le procédé de vision quifournit une sphère de vue du monde observé à partir deson centre. La vision panoramique est une réduction de lavision omnidrectionnelle et elle fournit une (image) bandede vue.Dans la pratique, nous avons l’habitude de nommer com-munément la vision omnidirectionnelle ou la vision pa-noramique, le résultat d’une vision avec un champ cou-vrant les 360˚ par rapport à l’axe vertical. Dans la na-ture, on trouve chez certains mammifères des dispositifsde vision naturelle capables d’approcher ce champ, grâce àdes formes adaptées ou à des mouvements très amples desyeux. Chez les êtres qui ont en sont dépourvus, cette ca-pacité est relayée par une rotation du support des organesvisuels pour permettre de couvrir les zones non visibles di-rectement.

Dans les systèmes artificiels, auxquels nous nous intéres-sons dans cet article, l’omnidirectionalité est obtenue pardes moyens semblables auxquels s’ajoutent des dispositifsoptiques basés sur la réflexion à l’aide de miroirs.

Le dispositif ayant été en vogue après l’apparition des ca-méras CCD et connu des photographes qu’ils soient pro-fessionnels ou non, est celui basé sur les objectifs grandsangles (oeil de poisson). Simples d’utilisation puisqu’ilss’adaptent comme les autres objectifs sur les caméras, ilsprésentent néanmoins l’inconvénient d’introduire de fortesdistorsions dans l’image.

Accéder à l’omnidirectinalité par le mouvement du capteur,qu’il soit linéaire [6] ou matriciel, est un moyen a prioriintuitif et simple. En réalité, cette approche pose des pro-blèmes de positionnement, de synchronisation des prisesdes vues et de temps de prise des images. En effet, là où ilfaut une acquisition avec une caméra munie d’un objectif,il en faut plusieurs avec un dispositif tournant pour recons-tituer la totalité d’une image. Cette approche n’est pas uti-lisable dans le cas des scènes dynamiques. Multiplier lescaméras pour former une ceinture est également une so-lution qui fait toujours l’objet d’études. Mais l’unificationdes différentes vues en une seule cohérente par coïncidencedes centres de vues, nécessite des précautions de fabrica-tion qui ne sont pas triviales.

Enfin le dernier procédé, repose sur l’association d’une ca-méra et d’un miroir de révolution (Fig. 1, Fig. 2) qui enréfléchissant les rayons lumineux provenant de toutes lesdirections, forme une image omnidirectionnelle une foisprojetée sur le capteur. Ces dispositifs se nomment des cap-teurs catadioptriques : dioptres pour la réfraction (lentilles)et catoptrique pour la réflexion (miroirs). Cette dénomina-tion est classique chez les opticiens. Ce procédé est appeléla caméra centrale panoramique par [43].

Nous nous intéresserons dans le cadre de cet article, à cettedernière approche, pour en expliquer le principe, la théo-rie, la pratique et surtout pour insister sur ses apports théo-riques et ses apports pour certaines applications comme larobotique mobile.

On ne peut finir cette introduction sans conseiller au lecteurde consulter le livre traitant de manière complète de la vi-sion omnidirectionnelle et qui a été édité en 2001 [5] ainsique le numéro spécial de la revue française Traitement duSignal - Numéro spécial Vision Omnidiectionnelle - 2005.


FIG. 1 – Un robot mobile muni d’une caméra panoramique(miroir paraboloïde).

FIG. 2 – Un exemple d’image omnidirectionnelle : un an-niversaire.

1.1 Prodromes d’un champ de recherche

L’idée de l’omnidirectionalité a été exploitée pour des dis-positifs optiques avant le 20ème siècle. Mais la premièreexploitation d’un miroir de révolution (un hyperboloïde)couplé avec une caméra a été réalisée par Rees en 1970[38]. Ensuite, il a fallu attendre près de 20 ans pour queYagi, en concevant le système COPIS [47], donne un coupd’accélération aux travaux de recherche dans ce domaine.Le système COPIS utilise un miroir conique et il était des-tiné à la navigation de robots mobiles (localisation, détec-tion d’obstacles et évitement d’obstacles). L’efficacité dece système dans le cadre de cette application est certaine-ment pour beaucoup dans ce regain d’intérêt. Mais le mi-roir conique n’est pas l’idéal d’un point de vue optique(astigmatisme, absence de point de vue unique (section2.1)). Pour l’application évoquée ci dessus, nul besoin deces propriétés car l’image est exploitée directement dansle plan d’évolution du robot. On montre facilement, quecette simplification se fait moyennant une hypothèse fortesur l’alignement de l’axe optique de la caméra avec celuidu miroir conique. Pour d’autres applications nécessitantla reconstruction, on va chercher d’autres formes géomé-triques pour les miroirs.C’est ainsi que [19], a utilisé un miroir sphérique pour uneapplication de navigation par comparaison entre les imagesacquises avec une image de référence. Dans [49], c’est uneautre application pour la navigation d’un robot mobile quia été développée avec un miroir hyperboloïde. Toutes lesapplications citées et les autres, se caractérisent par leur dé-

marche plutôt "empirique". C’est dans [33] que la géomé-trie (voir la section 2.1) des différentes formes de miroirspanoramiques ainsi que la formation des images obtenuesavec ces capteurs ont été étudiées. Les auteurs en ont déduitla théorie du point de vue unique. A partir de là, les basesde la compréhension des différences entre les diverses géo-métries des miroirs et leurs différences optiques (flou, réso-lution,...) étaient connues. A l’issue de cette étude, les au-teurs ont conçu un capteur omnidirectionnel catadioptriquesur la base de deux contraintes : facilité d’implémentationet du calibrage et facilité de reconstruction 3D.Cette mise en place des fondations, a donné lieu à touteune série de travaux sur la modélisation, le formalisme, lecalibrage et à des applications.

2 Les caméras catadioptriques : as-pects théoriques et pratiques

Nous allons décrire, très brièvement, dans cette section laconstruction des caméras catadioptriques et plus particu-lièrement une contribution très intéressante sur la visionomnidirectionnelle. Il s’agit de ce qu’on appelle la théoriedu point de vue unique (Single View Point) ou encore lathéorie de la formation des images catadioptriques. Cettethéorie a été publiée par Nayar et Baker dans [33] et onpeut trouver une version très complète dans [1].

2.1 Le point de vue unique

C’est un centre de projection unique. Sa nécessité a étésoulignée pour la première fois par [38] puis mentionnéeà nouveau dans [49], [31] et [34]. Dans cet article, lesauteurs, à partir de la formation d’une image sur un mi-roir ponctuel et en respectant les lois de la réflexion, ontconstruit la contrainte du point de vue unique. La résolu-tion de cette contrainte (équation) fournit deux solutionsgénérales. Des cas particuliers de ces solutions, donnentles formes et les conditions à respecter pour obtenir desmiroirs avec un point de vue unique. Tous les miroirs sui-vants admettent un point de vue unique : miroirs plans,miroirs paraboloïdes, miroirs hyperboloïdes, miroirs ellip-soïdes, miroirs sphériques, miroirs coniques. Pour les deuxderniers, le respect de la contrainte du point de vue im-pose de positionner la caméra sur le sommet du cône et surla surface de la sphère. Dans de telles configurations, cesmiroirs sont inutilisables. Dans la pratique, on éloigne lescaméras des miroirs. On perd la propriété du point de vueunique, mais les capteurs sont utilisables. Pour résumer lesmiroirs sphériques et coniques admettent un point de vueunique, mais le montage miroirs+caméras n’en a pas.

Le miroir plan. Le point de vue unique existe et il estsur la bissectrice perpendiculaire à la droite reliant le pointfocal et son image virtuelle. [31] a réalisé un capteur om-nidirectionnel à l’aide de quatre miroirs et de quatre ca-méras, disposés en pyramide. Moyennant une juxtapositiondes quatre points de vue, il a réussi à obtenir un point devue unique et un champ de 360˚x50˚.


C

c) Miroir

sphérique

C=F

a) Miroir

hyperboloïde

F'

F'

b) Miroir

paraboloïde

d) Miroir

conique

FIG. 3 – Formes géométrique des miroirs.

Le miroir ellipsoïde. : Le point de vue unique de ce mi-roir est à l’intérieur. C’est un miroir concave.

Le miroir hyperboloïde. (Fig. 3) : Le point de vueunique se trouve en F’. Les rayons réfélchis convergent aupoint F. C’est une solution intéressante. Comme on le voitsur la figure ci dessus, la réussite de la réalisation d’un cap-teur hyperboloïde nécessite de faire coïncider le point focalavec le point F (centre optique de la caméra et 2ème foyerde l’hyerpboloïde). Ce miroir a été réalisé pour la premièrefois par [38].

Le miroir paraboloïde. (Fig. 3) : Pour contourner lacontrainte de l’alignement lors de la fabrication, Nayar aproposé d’utiliser un miroir paraboloïde. Comme ce der-nier réalise une projection orthographique, le problèmeconsistant à faire coïncider le point de vue unique et lepoint focal est supprimé. Pour exprimer les choses autre-ment, on peut dire, en citant [32], que "il y a invariancedes images par translations du miroir par rapport au sys-tème". Il existe un autre moyen pour obtenir une projec-tion orthographique, c’est l’utilisation d’une optique télé-centrique. [32] a combiné l’utilisation des deux (le miroirparaboloïde et l’objectif télécentrique) afin de simplifier lescontraintes de réalisation du capteur, comme cela a été pré-cisé ci-dessus, et afin d’améliorer la qualité optique desimages (notamment pour réduire la coma et l’astigmatismeintroduits par la courbure du miroir). Pour éviter les in-convénients des objectifs télécentriques (prix, poids, taille),on peut remplacer les lentilles télécentriques par un miroirsphérique concave. Ces objectifs sont commercialisés. En-fin, les capteurs utilisant un miroir paraboloïde donnet unmodèle simple et des propriétés intéressantes pour le cali-brage.

Le miroir conique. (Fig. 3) : Le point focal et le pointde vue unique sont confondus au sommet du cône. Autre-ment, le lieu des points de vue uniques est un cercle derayon dépendant de la distance entre le pinhole et le som-met du cône ainsi que de l’angle au sommet du cône. Mal-

gré cela, le miroir conique a fait l’objet de plusieurs utilisa-tions, car il offre une résolution verticale intéressante et lesdroites verticales sont bien exploitables. [48] a proposé lecapteur COPIS et a préconisé de choisir une focale courte.Ce principe a été utilisé dans [29] et dans [7]. Une étudetrès récente [23] a montré qu’il est possible dans certainesconditions de considérer qu’une caméra associée à un mi-roir conique peut être considérée comme ayant un point devue unique.

Le miroir sphérique. (Fig. 3) : Le point de vue uniqueet le point focal sont confondus. Cette solution n’est pasintéressante, car l’image ne contiendrait que l’image de lacaméra ! Cependant, comme dans le cas du miroir coniquedes caméras utilisant ce miroir sont utilisées dans plusieursapplications de robotique et de télésurveillance.

2.2 Les miroirs sans point de vue uniqueEn dehors des quadriques citées ci dessus, toute autreforme ne possède pas de point de vue unique. Cesformes de miroirs sont souvent utilisées pour obtenirdes comportements géométriques et optiques particuliers[18](résolution verticale constante, résolution centrale plusimportante, ...).

3 Modélisation de caméras catadiop-triques

Il s’agit de la modélisation de tout le processus de forma-tion des images.

3.1 Les modèles ad hocCes modèles utilisent directement les équations du miroirainsi que celles des caméras associées.

3.2 Les modèles génériquesDans [15], Geyer et Daniilidis ont introduit une théoried’unification pour les caméras catadioptriques ayant unpoint de vue unique (i.e. single viewpoint, central catadiop-tric image). En substance, ils ont montré qu’il est possiblede modéliser ces caméras en utilisant d’abord une projec-tion sur une sphère (de rayon égal à un par exemple) sui-vie d’une projection sur un plan à partir d’un point. Cedernier point se trouve sur le pole nord dans le cas d’unmiroir paraboloïde (projection stéréographique) et entre lepole nord et le centre de la sphère pour les miroirs hy-perboloïdes. Cette modélisation introduit deux paramètresqui sont reliés aux paramètres des miroirs en fonction dechaque forme. Une version modifiée a été proposée dans[3]. Ces modèles sont intéressants car ils permettent d’exhi-ber des propriétés intéressantes pour le calibrage et pour ladétection de droites par exemple. Mais il faut que la condi-tion du point de vue unique soit vérifiée, ce qui est parfoisdélicat à cause de l’assemblage miroir+caméra.

3.3 Les caustiquesUne caustique (bien connue et depuis très longtempsdes opticiens) est l’ensemble des rayons réfléchis par un


dioptre. Les miroirs ne satisfaisant pas (volontairementpour des raisons de résolution ou involontairement à causedes imprécisions d’assemblage) la contrainte du point devue unique (convergence des rayons caustiques en unpoint) peuvent être modélisés à l’aide des caustiques [4],[44]. Pour une méthode de construction géométrique, voir[20].

4 CalibrageLe calibrage est une opération qui consiste à estimer lesparamètres intrinsèques de la caméra. Dans le cas des ca-méras catadioptriques, ces paramètres englobent les para-mètres du miroir, ceux du dispositif optique (objectif), ceuxdu capteur CCD (la rétine) et de la carte de numérisation dusignal vidéo. Afin de pouvoir réaliser le calibrage, il est in-dispensable de modéliser tout le processus de formation del’image. Le modèle doit faire l’objet d’un compromis entresimplicité et précision. La simplicité est indispensable à larésolution analytique ou numérique des équations et la pré-cision est garante de la fidélité du comportement du mo-dèle. Le calibrage en vision omnidirectionnelle est l’aspectle plus étudié (abouti) à l’heure actuelle. Nous proposons laclassification suivante pour (espérer) une lecture plus aisée.

4.1 Le calibrage intrinsèqueLe calibrage intrinsèque consiste à utiliser l’image du mi-roir et les données du fabricant du miroir pour estimer lesparamètres intrinsèques de la caméra catadioptrique. [22]a proposé une technique simple et rapide pour calibrer lesmiroirs paraboliques. Les paramètres estimés sont les co-ordonnées du centre optique et le paramètre du miroir. Laprécision obtenue n’est pas bonne. Mais le technique estintéressante pour l’initialisation des paramètres avant desles affiner avec une méthode non linéaire. Les auteurs de[13] estiment les paramètres intrinsèques de la caméra etla position du miroir par rapport à la caméra (défauts d’ali-gnements). Mais les paramètres propres du miroir sont sup-posés connus.

4.2 Le calibrage avec des miresLes méthodes utilisant des mires externes ont recours à laconnaissance partielle (quelques droites) ou totale (coor-données 3D des points) des mires.

Les points. L’objectif est de calibrer le maximum de pa-ramètres du capteur catadioptrique. On exploite des mirescomprenant des points (ou d’autres formes géométriques)connus dans un repère local. En utilisant les points imagescorrespondants, on peut résoudre numériquement le mo-dèle, par une technique d’optimisation. L’avantage est quel’approche est utilisable pour tout type de miroir et de ca-méras et permet de traiter des modèles complets. Cela peutaller jusqu’à 19 paramètres [8] (6 paramètres extrinsèques,2 paramètres du miroir, 5 paramètres pour la transforma-tion rigide miroir-caméra, 4 paramètres intrinsèques et 2pour la distorsion). Dans [17], les auteurs ont calibré unecaméra associée à un miroir paraboloïde convexe et un mi-

roir sphérique concave (c’est une approximation d’un mi-roir paraboloïde et d’une lentille télécentrique). Le mon-tage mécanique des deux miroirs peut provoquer un désa-lignement des axes des miroirs. C’est pour cela que les au-teurs ont proposé d’estimer en plus des paramètres intrin-sèques de la caméra et du miroir paraboloïde, ce désali-gnement. Ce calibrage est ensuite validé en rectifiant lesimages et en calculant une carte 3D. Le nombre impor-tant de paramètres amène des difficultés d’initialisation deconvergence. Dans [45], nous avons proposé une méthodebasée sur cette dernière approche, c’est à dire l’utilisationd’une mire externe. Le modèle que nous utilisons est lemodèle générique (sphère d’équivalence) de [3]. L’avan-tage de cette approche est qu’avec un modèle unique, nousmontrons qu’on peut calibrer des caméras catadioptriquesdifférentes : miroirs paraboloïdes ou hyperboloïdes.Afin de simplifier la procédure de calibrage, les auteurs de[9] ont automatisé toute cette procédure. Ils l’ont appliquéà un miroir hyperboloïde associé à une caméra perspective.Pour cela, ils ont proposé une méthode de calibrage para-métrique qui englobe une mire adaptée (grille plane à collerautour du support du miroir), l’extraction automatique despoints par des intersections de droites et l’estimation desparamètres du calibrage. Parmi les apports de cet article,il y a la génération automatique des points 3D de la mire(de part sa conception) et l’extraction précise des pointsimages.Très récemment, dans [40] et [37], les auteurs ont pro-posé une méthode de calibrage générique (caméras avecou sans point de vue unique) et non paramétrique. Ils pro-cèdent en utilisant une mire de calibrage qui est déplacéeplusieurs fois. Ces déplacements ne sont pas connus, maisils doivent permettre un recouvrement suffisant de points.C’est la mise en correspondance et un calibrage initial (faità l’aide d’une seule mire) entre les points de recouvrementqui va permettre d’estimer le mouvement et d’affiner le ca-librage en incorporant les autres points.

Les droites. Au contraire des méthodes utilisant lespoints, les méthodes qui ont recours aux droites cherchentdes propriétés intéressantes des capteurs catadioptriquespour simplifier le calibrage. Ainsi dans [14], les auteursdécrivent un algorithme de calibrage de caméras paracata-dioptriques (miroir paraboloïde) basé sur l’utilisation d’en-sembles de droites parallèles. Les propriétés géométriqueset l’hypothèse, faite par les auteurs, d’alignement entrel’axe du miroir et celui de la caméra, rend possible l’esti-mation des paramètres intrinsèques. Un parallèle peut êtrefait avec l’utilisation des lignes de fuite de l’image d’unobjet parallélépipédique capté par une caméra perspective.Cette méthode a l’avantage de ne nécessiter que le paral-lélisme entre les droites. Aucune autre information n’estnécessaire. L’inconvénient est que la méthode ne concerneque les caméras paracatadioptriques. Barreto et Al. dans [3]ont généralisé l’approche. Ils ont montré que 3 droites quel-conques suffisaient pour calibrer toute caméra avec pointde vue unique. Néanmoins, ces méthodes supposent que


l’axe optique du miroir et celui de la caméra sont confon-dus. Une autre difficulté réside dans le fait qu’il est indis-pensable d’estimer la conique (l’image de la droite) de ma-nière robuste.

Les sphères. Dans cet article [50], les auteurs présententune nouvelle méthode de calibrage basée sur l’utilisationdes invariants qui permet d’obtenir un formalise uniquepour le calibrage soit en utilisant des images de lignes soiten utilisant des images de sphères. Les résultats expéri-mentaux montrent que le calibrage utilisant des images desphère est plus robuste et plus précis que celui obtenu avecdes droites.

4.3 L’autocalibrageL’autocalibrage ne nécessite pas la connaissance de miresexternes. Comme dans le cas des caméras convention-nelles, il nécessite deux images et la mise en correspon-dance d’une image à l’autre. A partir de là, il faut estimerla matrice fondamentale [22] et [15].

4.4 Choix du modèleQuel modèle choisir pour la calibrage ? Quels paramètresestimer ? Les modèles génériques, qui ont été développésà partir du théorème de l’équivalence, permettent d’obte-nir un algorithme unique de calibrage des capteurs avecpoint de vue unique. Quel que soit la caméra à calibrer,on estime la même quantité de paramètres. Cet algorithmeest séduisant, mais il implique qu’on estime plus de para-mètres qu’il n’en faut. On peut parfois corriger les défautsde courbure des miroirs, mais on peut aussi introduire unbiais dans l’estimation des paramètres. A contrario, l’uti-lisation des modèles paramétriques ad hoc peut être plusprécise si le miroir est conforme dans sa forme au modèleutilisé pour le calibrage.

5 Traitement des imagesLes miroirs utilisés pour obtenir des images omnidirection-nelles introduisent des déformations et modifient notable-ment la notion de voisinage et la résolution à l’intérieur del’image. Il en résulte que si on utilise de manière aveugleles opérateurs de traitement des images développées pourles images perspectives, alors on ne peut pas obtenir de ré-sultats satisfaisants.

5.1 La convolutionCertains auteurs ont donc proposé de revisiter ces opéra-teurs. C’est ainsi que [10] a proposé de réécrire la convo-lution en tenant compte précisément de la transformationgéométrique supplémentaire introduite par le miroir.

5.2 La correction du voisinageDans [41], c’est le problème de la mise en correspondancede points d’intérêts entre deux images prises avec deux ca-méras catadioptriques qui a été solutionné en utilisant unvoisinage dont la géométrie et la taille dépend de la posi-tion dans l’image. La forme de ce voisinage a été calcu-

lée en deux étapes : calcul de l’intersection d’angles so-lides avec le miroir et projection de ces intersections surle plan de l’image. Une méthode similaire se trouve dans[21]. Dans le cadre du projet OMNIBOT (Robea), deuxapproches ont été développées pour la prise en compte dela particularité de la formation des images omnidirection-nelles. La première consiste à calculer le voisinage (surl’image) en projetant un voisinage conçu sur un cylindre(3D). Ensuite, ils utilisent des opérateurs morphologiquesflous à noyaux variables pour images omnidirectionnellesafin de compenser les effets de l’échantillonnage et du voi-sinage. Dans [12], les auteurs ont adapté les champs deMarkov à ces images après avoir redéfini la notion de voi-sinage en utilisant le théorème de l’équivalence (sphèred’équivalence).Tous ces travaux ont montré clairement que la correctiondu voisinage améliore les résultats.

5.3 Les droitesLa difficulté vient du fait que, dans le cas général, unedroite se projette en une portion de conique sur l’image. Leproblème peut être simplifié si on suppose les paramètresintrinsèques (caméra et miroir) connus, car on réduit alorsle nombre de paramètres à estimer à 2. Ceci peut être faitsoit en projetant l’image sur la sphère équivalente [45], soitdirectement dans l’image [51].

6 Asservissement visuelL’objectif est d’aboutir à l’asservissement visuel en uti-lisant des images omnidirectionnelles catadioptriques. Cedomaine a été très peu étudié. La principale difficultéconsiste à déterminer la matrice d’interaction, qui du coupdoit prendre en compte la projection supplémentaire intro-duite par le miroir. Il a d’abord été abordé en utilisant lespoints comme primitives [2]. Ensuite, l’étude a été étendueen utilisant des droites comme primitives et ce pour des as-servissements visuels de robots holonomes [25] puis pourdes robots non holonomes [26]. Par ailleurs, une étude de larobustesse de l’asservissement visuel vis à vis de l’estima-tion des paramètres 3D est disponible dans[27]. La com-mande d’une formation de robots mobiles a été abordéedans les [36] et [46]. Enfin citons [24] qui utilise la géomé-trie épipolaire pour la commande d’un robot à 3 degrés deliberté.

7 Multi-vues/stéréovisionDe la même façon qu’en utilisant plusieurs (au moins 2)caméras perspectives on peut réaliser de la stéréovision, onpeut faire de la 3D en utilisant plusieurs caméras panora-miques ou plusieurs miroirs et une seule caméra.La géométrie épipolaire des images panoramiques a été trèslargement étudiée (voir par exemple [42]). La formulationdes matrices fondamentales et essentielles a été établie. Leslignes épipolaires sont des coniques (intersection du planavec les miroirs). Pour la reconstruction 3D dense, les pre-miers travaux en France ont été faits à l’université de Paris


+ + + + +

+ + + + +

+ + + + +

+ + + + +

> > > > >

> > > > >

> > > > >

> > > > >

RotationTranslation

Images conventionnelles du flot optique

Scène observée

Images omnidirectionnelles du flot optique

FIG. 4 – Schéma du flot optique dans le cas critique.

VI [6] en utilisant une paire de caméras linéaires alignéesverticalement (géométrie épipolaire simple) en rotation.En stéréovision catadioptrique, un important travail de ca-librage de la paire stéréo et de reconstruction 3D a été faiten utilisant 2 caméras panoramiques alignées verticalement[17]. Un autre moyen pour faire de la stéréovision, consisteà utiliser une caméra avec plusieurs miroirs. [30] ont publiéune étude sur les différentes configurations possibles, leurcaractérisation et leur comparaison. Un autre système [35]combinant une caméra catadioptrique et la projection d’uncercle émis par un laser et réfléchi par un miroir de révolu-tion sur l’environnement. Ce système permet de faire unereconstruction 3D euclidienne à l’échelle.

8 Navigation en robotique mobileLa vision omnidirectionnelle est très utile pour la naviga-tion des robots mobiles. Ceci peut être illustré à l’aide dedeux axes : l’estimation du flot optique et la localisation.Les premiers travaux ont été faits sur l’évitement d’obs-tacles après analyse du flot optique [47]. Dans le cas desimages conventionnelles il y a ambiguïté entre une transla-tion et une rotation lorsque l’amplitude du mouvement estfaible. L’autre difficulté avec les images conventionnellesréside dans le fait que le champ de vue étant réduit, lesprimitives à suivre peuvent manquer. L’ambiguïté disparaîtdans le cas d’une projection sphérique 4 grâce à l’équiva-lence entre la vision omnidirectionnelle catadioptrique etla projection sphérique. Des expérimentations ont été réa-lisées par [16] en utilisant un capteur parabolique en mou-vement et elles ont montré que l’ambiguïté a été levée.Mis à part [11], cet aspect de la vision omnidirectionnelleest très peu étudié en France.Parallèlement, beaucoup de travaux sur la localisation ontété menés. Le fait que les amers soient répartis, offre deux

avantages : pouvoir sélectionner les amers et améliorer laprécision. On peut à titre indicatif se référer à [28].

9 La recherche en omnidirectionnelen France

Les travaux sur la vision omnidirectionnelle ont commencéen France presque simultanément au début des années 1990au LISIF (Paris 6), au CREA (Amiens) et à l’Universitéde Franche-Comté. Au LISIF, c’est l’approche caméras li-néaires tournantes qui a été privilégiée pour obtenir desimages de grande résolution [6]. Au CREA , c’est la vi-sion catadioptrique omnidirectionnelle (un miroir conique-Projet SYCLOP) qui a été utilisé pour répondre à des be-soins en localisation de robots mobiles [29]. A Besançon,c’est le projet STAN (Système de Transport à Apprentis-sage Neuronal) qui a utilisé la vision omnidirectionnelleà l’aide d’un miroir conique également [7]. Cette activitén’a pas eu de suite à Besançon. Le GRAVIR (Grenoble)a entamé des travaux sur la reconstruction 3D en 2000[39]. A partir de 2000, plusieurs projets régionaux et na-tionaux (notamment le projet OMNIBOT (Robea)) de re-cherche ont donné un coup d’accélérateur. L’autre raisonest due au fait que les caméras panoramiques disponiblessont de plus en plus fiables. Actuellement, les équipes tra-vaillant sur la VO sont : CREA (Amiens), LISIF (Paris 6),GRAVIR (Grenoble), LAAS (Toulouse), LIRMM (Mont-pellier), LASMEA (Clermont Ferrand), INRIA (Sophia),IRIT (Toulouse). Toutes les thématiques sont à peu prèscouvertes.

10 ConclusionsNous avons présenté dans ce papier un aperçu général surl’état d’avancement des recherches en vision omnidirec-tionnelle. Nous avons donné la priorité aux références bi-bliographiques nationales quand elles existent. Si ce "cré-neau" a été pendant plusieurs années cantonné à 2 ou 3laboratoires, il est devenu depuis les années 2000 bien cou-vert grâce à quelques projets nationaux. Comme on peutle constater également, tous les aspects sont traités de ma-nière conséquente par des équipes françaises.En robotique mobile, plusieurs démonstrateurs utilisant descaméras panoramiques existent. Des contributions très ori-ginales en asservissement visuel (champ qui demeure assezpeu couvert à l’étranger), en géométrie et en traitement desimages ont été apportées par des équipes françaises.On peut considérer que la géométrie est très bien avan-cée. Mais des efforts restent à faire au niveau du calibrage,comme par exemple sur des mires adaptées, même si lestravaux existants sont très satisfaisants. En revanche pourles traitements de ces images, nous n’en sommes qu’au dé-but. Nous avons vu dans ce papier que la connaissance desparamètres intrinsèques (le calibrage) permet d’améliorerles résultats en corrigeant le voisinage et de simplifier l’ex-traction des droites. La question est de savoir si on seratoujours obligé de payer ce prix pour l’amélioration des ré-


sultats de traitement de ces images ?On a parfois laissé croire que la vision omnidirectionnellepouvait promettre plus notamment sur des aspects théo-riques. Pour l’instant, il n’en est rien. Mais son intérêt pra-tique pour la robotique mobile, les véhicules et la télésur-veillance, pour ne citer que ces aspects, est suffisammentconséquent pour qu’elle mérite qu’on continue à s’y inté-resser.

10.1 Liens utileshttp ://www.cis.upenn.edu/ kostas/omni.htmlhttp ://www.panoramicphoto.com/timeline.htmhttp ://www.cs.drexel.edu/ ahicks/design/design.html

Références[1] S. Baker and S.K. Nayar. A theory of single-

viewpoint catadioptric image formation. IJCV,35(2) :175–196, November 1999.

[2] J. Barreto, F. Martin, and H. Horaud.Visual Ser-voing/Tracking Using Central Catadioptric Images,chapter VI, pages 245–254. Springer Tracts in Ad-vanced Robotics 5. Springer Verlag, 2003.

[3] J.P. Barreto and H. Araujo. Geometric properties ofcentral catadioptric line images. InECCV02, pageIV : 237 ff., 2002.

[4] C. Bellver Cebreros, E. Gomez Gonzalez, and M. Ro-driguez Danta. Obtention of meridian caustics and ca-tacaustics by means of stigmatic approximating sur-faces. InApplied optic, volume 3, 1994.

[5] R. Benosman and S.B. Kang.Panoramic Vision : Sen-sors, Theory, Applications. Springer, 2001.

[6] R. Benosman, T. Maniere, and J. Devars. Multidirec-tional stereovision sensor, calibration and scene re-construction. InICPR 96, pages ? ?– ? ?, 1996.

[7] E. BIDEAU. Système de transport à apprentissageneuronal - Application de la vision omnidirection-nelle à la localisation d’un robot mobile autonome.PhD thesis, Université de Franche-Comté, 1 1995.

[8] C. Cauchois, E. Brassart, C. Pégard, and C. Clérentin.Technique for calibrating an omnidirectional sensor.In IEEE/RSJ int. Conf. on Int. Robots ans Systems-IROS 99, pages ? ?– ? ?, 1999.

[9] F. Comby, C. Cadreas de Kereleau, and O. Strauss.Etalonnage de caméras catadioptriques hyperbo-loides. Traitement du Signal, Numéro Spécial sur laVision Omnidirectionnelle, 2005.

[10] K. Daniilidis, A. Makadia, and T. Bülow. Image pro-cessing in catadioptric planes : Spatiotemporal deri-vatives and optical flow computation. InOMNIVIS02,pages 3–10, 2002.

[11] C. Demonceaux and D. Kachi. Optical flow esti-mation in omnidirectional images using wavelet ap-proach. IEEE Workshop on Omnidirectional Vi-sion and Camera Networks (OMNIVIS03) hel withCVPR03, June 21, 2003.

[12] C. Demonceaux and P. Vasseur. Champs de markovpour le traitement d’images catadioptriques.Traite-ment du Signal, Numéro Spécial sur la Vision Omni-directionnelle, 2005.

[13] J. Fabrizio, J.P. Tarel, and R. Benosman. Calibra-tion of panoramic catadioptric sensors made easier.In OMNIVIS02, pages 45–52, 2002.

[14] C. Geyer and K. Daniilidis. Catadioptric camera ca-libration. In ICCV99, pages 398–404, 1999.

[15] C. Geyer and K. Daniilidis. A unifying theory forcentral panoramic systems. InIn Proc. Europ. Conf.on Computer Vision, Dublin, Ireland, 2000, 2000.

[16] J. Gluckman and S.K. Nayar. Ego-motion and om-nidirectional cameras. InICCV98, pages 999–1005,1998.

[17] J. J. Gonzalez-Barbosa.Vision panoramique pour larobotique mobile : stéréovision et localisation par in-dexation d images. PhD thesis, Université de Tou-louse III- LAAS, 1 2004.

[18] R. Andrew Hicks and Ronald K. Perline. Equi-arealcatadioptric sensors. InProc. of Omnivis02, pages13–18, June 2, 2002.

[19] J. Hong, X. Tan, B. Pinette, R. Weiss, and E.M. Rise-man. Image-based homing. InProceedings. of IEEEInternational Conference on Robotics and Automa-tion, pages 620 –625, vol.1, 9-11 April 1991.

[20] S. Ieng and R. Benosman. Les surfaces caustiquespar la géométrie - application aux capteurs catadiop-triques.Revue Traitement du signal TS, Numéro spé-cial Vision omnidrectionnelle 2005, 2005.

[21] S. S. Ieng, R. Benosman, and J. Devars. An efficientdynamic multi-angular feature points matcher for ca-tadioptric views. InOmnivis 03 OmnidirectionalVision and Camera Networks Workshop, CVPR03,pages ? ?– ? ?, 2003.

[22] S.B. Kang. Catadioptric self-calibration. InCVPR00,pages I : 201–207, 2000.

[23] S.S. Lin and R. Bajcsy. True single view pointcone mirror omni-directional catadioptric system. InICCV01, pages II : 102–107, 2001.

[24] G.L. Mariottini, E. Alunno, J. Piazzi, and D. Pratti-chizzo. Epipole based visual servoing for central ca-tadioptric cameras. InIEEE International Conferenceon Robotics and Automation, Barcelona, Spain, June2005.

[25] Y. Mezouar, H. Hadj Abdelkader, and P. Martinet.Utilisation des droites en asservissement visuel om-nidirectionnel.RFIA, 1, 2004.

[26] Y. Mezouar, H. Haj Abdelkader, P. Martinet, andF. Chaumette. Central catadioptric visual servoingfrom 3d straight lines. InIEEE/RSJ Int. Conf. onIntelligent Robots and Systems, IROS’04, volume 1,pages 343–349, Sendai, Japan, September 2004.


[27] Y. Mezouar and E. Malis. Robustness of central cata-dioptric image-based visual servoing to uncertaintieson 3d parameters. InIEEE/RSJ Int. Conf. on Intel-ligent Robots and Systems,IROS’04, volume 1, pages1389–1394, Sendai, Japan, September 2004.

[28] E. Mouaddib and B. Marhic. Geometrical matchingfor mobile robot localisation.Trnasactions on robo-tics and Automation, Vol 16, Num 5 :542–552, 2000.

[29] E. Mouaddib and C. Pegard. Localization using om-nidirectional vision. In7th Int. Conf. on Advan-ced Robotics (ICAR 95), Barcelona, volume 1, pages133–138, 1995.

[30] E. Mouaddib, R. Sagawa, T. Echigo, and Y. Yagi. Ste-reo vision with a single camera and multiple mirrors.IEEE International Conference on Robotics and Au-tomation, ICRA2005, April 2005.

[31] V. Nalwa. A true omnidirectional viewer. InTech-nical report, Bell Laboratories, Holmdel, NJ 07733,USA, pages ? ?– ? ?, 1996.

[32] S.K. Nayar. Catadioptric omnidirectional camera. InCVPR97, pages 482–488, 1997.

[33] S.K. Nayar and S. Baker. Catadioptric image forma-tion. In IUW 97, pages 1431–1437, 1997.

[34] S.K. Nayar and S. Baker. Catadioptric image forma-tion. In DARPA97, pages 1431–1438, 1997.

[35] R. Orghidan, E.M. Mouaddib, and J. Salvi. Omni-directional depth computation from a single image.IEEE International Conference on Robotics and Au-tomation, accepted for publication, 2005.

[36] A. Paulino and H. Araujo. Multiple robots in geo-metric formation : Control structure and sensing. InInternational Symposium on Intelligent Robotic Sys-tems, pages 103–112, University of Reading, UK,July 2000.

[37] S. Ramalingam and S. K. Sturm, P.and Lodha. To-wards complete generic camera calibration. InPro-ceedings. IEEE CVPR, 2005.

[38] D. Rees. Panoramic television viewing system. InUnited States Patent No. 3,505,465., pages ? ?– ? ?,1970.

[39] P. Sturm. A method for 3d reconstruction of piece-wise planar objects from single panoramic images. InProceedings. IEEE Workshop on Omnidirectional Vi-sion, pages 119 –126, 2000.

[40] P. Sturm and S. Ramalingam. A generic concept forcamera calibration. InECCV, 2004.

[41] T. Svoboda and T. Pajdla. Matching in catadioptricimages with appropriate windows and outliers. InProc. of the 9th International Conference on Compu-ter Analysis of Images and Patterns. Springer Verlag.Warsaw, Poland, 5–7 September, pages ? ?– ? ?, 2001.

[42] T. Svoboda, T. Pajdla, and V. Hlavac. Epipolar geo-metry for panoramic cameras. InECCV98, pages218–232, 1998.

[43] T. Svoboda, T. Pajdla, and V. Hlavac. Central panora-mic cameras. InResearch Report K335/97/147, De-cember 5, 1997.

[44] R. Swaminathan, M.D. Grossberg, and S.K. Nayar.Caustics of catadioptric cameras. InProceedings.Eighth IEEE ICCV 2001., pages 2 –9 vol.2, 2001.

[45] P. Vasseur and E. Mouaddib. Central catadioptric linedetection. In15th British Machine Vision Conference,September 2004.

[46] R. Vidal, O. Shakernia, and S. Sastry. Formationcontrol of nonholonomic mobile robots with omnidi-rectional visual servoing and motion segmentation. InIEEE International Conference on Robotics and Au-tomation, pages 584–589, Taipei, Taiwan, September2003.

[47] Y. Yagi and S. Kawato. Panoramic scene analysiswith conic projection. InIROS90, pages xx–yy, 1990.

[48] Y. Yagi and S. Kawato. Panoramic scene analysiswith conic projection. InIEEE/RSJ InternationalConference on Intelligent Robots and Systems, vo-lume 1, pages 181 – 187, 1990.

[49] K. Yamazawa, Y. Yagi, and M. Yachida. Omindi-rectional imaging with hyperboliodal projection. InIROS93, pages 1029–1034, 1993.

[50] X. Ying and Z. Hu. Catadioptric camera calibrationusing geometric invariants. InICCV03, pages 1351–1358, 2003.

[51] X. Ying and Z. Hu. Catadioptric line features detec-tion using hough transform. InICPR04, pages IV :839–842, 2004.


De la modélisation des cellules de lieux à la navigation autonome

C. Giovannangeli 1 P. Gaussier1 J.P. Banquet2

1 CNRS UMR8051 ETIS-Neurocybernétique2 INSERM U483 Neuroscience and Modelization

6 Av du ponceau, 95014 Cergy-Pontoise, [email protected]

RésuméLe but de cet article est de montrer comment la robotiqueet les sciences cognitives peuvent interagir pour s’enrichirmutuellement. Un exemple intéressant est la modélisationdu système hippocampique. En effet, les neurobiologistesont trouvé dans cette structure sous corticale du cerveaudes neurones dont l’activité dépend de la position de l’ani-mal dans son environnement, à tel point que ces neuronesont été appelés des "cellules de lieux". Nous avons déve-loppé un modèle relativement simple basé sur l’appren-tissage et la reconnaissance d’amers visuels. Ce modèlepermet de simuler des cellules de lieux très stables et pré-cises pour guider la navigation d’un robot mobile. Les dif-férences entre les activités obtenues sur ces neurones arti-ficiels et celles enregistrées chez l’animal nous ont amenéà questionner les neurobiologistes sur le rôle et la natureréelle des cellules qu’ils enregistraient. En effet, nos cel-lules de lieux artificielles ont une activité pertinente sur detrès grandes distances (plusieurs mètres en intérieur) alorsque celles enregistrées chez l’animal se limitent à un rayonde l’ordre de 15 à 20 cm. Ceci, nous a conduit à proposerque les "vraies" cellules de lieux se trouvaient en amontde l’hippocampe et que l’hippocampe servait plutôt à inté-grer ces informations afin de prédire des transitions entredes événements multimodaux.

Mots ClefCellules de lieux, navigation visuelle, modèle de l’hippo-campe, perception active.

1 IntroductionLes études en éthologie sur la navigation animale montrentqu’une grande variété de capteurs peut être utilisée par lesanimaux pour naviguer et se localiser. Parmi eux, la vi-sion est un moyen de navigation très précis, robuste et non-intrusif. Les informations visuelles peuvent être impliquéesdans la navigation à base de taxons (retour vers un amerparticulier) ou pour reconnaître un lieu, au moyen d’amersdistants [16]. La plupart des modèles utilisent l’azimutou la distance apparente des amers [4, 5], et plus rare-ment, leur identité ou une conjonction des deux approches

[2, 9, 11]. Dans un premier modèle, proposé en 1994 [8],nous montrions comment l’apprentissage de quelques as-sociations sensori-motrices autour d’un but était suffisantpour obtenir un comportement robuste de retour au nid (ho-ming) dans un environnement simple (i.e. navigation enchamps ouvert ne nécessitant pas de planifier un détour).Dans les modèles précédents, la découverte de cellules delieux dans l’hippocampe du rat mais aussi des primates asuggéré l’encodage de la cognition et de la navigation spa-tiale dans le cerveau des mammifères[17, 30]. Une hypo-thèse centrale de notre modèle considère que certains as-pects des fonctions hippocampiques sont dédiés à la détec-tion et à l’apprentissage rapide de transitions entre des évè-nements multimodaux [3]. Par conséquent, des cellules delieux statiques devraient exister en amont de l’hippocampe.Nos expérimentations montrent que des cellules de lieuxrobustes peuvent être construites simplement en fusionnantles informations du quoi et du où venant du système visuel.Nous proposons que cette fusion ait lieu dès le cortex para-hippocampique. La reconnaissance de lieu serait effectuéepar le cortex entorhinal (EC : entrée principale de l’hip-pocampe), et le gyrus dentelé (DG : une sous-structure del’hippocampe). L’hippocampe lui-même (CA1/CA3) seraitdédié à l’apprentissage de transitions.Nous allons donc analyser certains paramètres contrôlant larobustesse de nos cellules de lieu. Nous montrerons que lesaller-retours et les échanges entre la robotique et la modé-lisation neurobiologique peuvent permettre d’obtenir descellules de lieux plus robustes pour les applications ro-botiques, et expliquer pourquoi la mémoire à court terme(Short Term Memory - STM), la compétition “douce” oumolle (soft competition), et le codage épars (sparse coding)sont si importants dans le fonctionnement du cerveau. Nousterminerons en proposant une définition formelle de la per-ception d’un lieu vue comme étant la capacité à retournervers ce lieu.

2 Modèle de Cellules de lieuxNous décrivons dans cette section un modèle biologique-ment plausible de cellules de lieux pre-hippocampiques,testé sur plusieurs types de robots mobiles (Koala, Labo3


et Pioneer), évoluant en environnement ouvert, intérieur etextérieur. La figure 1 résume la chaîne de traitement.

Lien de un vers unLien de un vers tousActivité croissante

Ent

rée

visu

elle Vue locale

FIG. 1 – Schéma bloc de l’architecture.Notre architecture est composée d’un système visuel extra-yant des vues locales en coordonnées log-polaires, d’uneétape de fusion (PrPh) de l’identité des vues locales (Pr)et de leur azimut (Ph), et d’un étage de reconnaissance delieux (EC-DG).

Le modèle avait déjà été testé en environnement ouvert etstructuré (salle de travail par exemple) [11], nous le testonsaujourd’hui en environnement intérieur et extérieur. Lesimages utilisées dans cet article proviennent d’une camérapanoramique CCD utilisant un miroir conique, permettantla capture instantanée d’un panorama sur 360. Afin de mi-nimiser les problèmes liés à l’éclairage, l’entrée visuelle denotre système est l’image du gradient (1500 × 240 pixels)extraite à partir de l’image panoramique. L’image du gra-dient est ensuite convoluée avec un filtre de type DOG1,pour détecter des points de forte courbure (points d’intérêt)en basse résolution (voir fig. 2). Le mécanisme de com-pétition entre les points de focalisation permet de sélec-tionner en priorité les points les plus intenses (en terme decontraste et de rayon de courbure).Enfin, une transformation log-polaire [29] de chaque vuelocale extraite autour de chaque point focal est calculée surl’image du gradient. Cette représentation des amers est ro-buste à de petites rotations et aux changements d’échelle.La figure 2 illustre les points de focalisation et la zone utiledes vues locales.Ce modèle du système visuel fournit deux flux d’informa-tion : le quoi (Pr), la reconnaissance d’une vue locale encoordonnée log-polaire de 32 × 32 points, et le où (Ph),l’azimut absolu du point focal, obtenu à l’aide d’une bous-sole ou de tout autre simulation du système vestibulaire.Les deux flux sont ensuite fusionnés dans un espace pro-duit, au moyen d’une matrice neuronale. Celle ci comprendL×Θ unités sigma-pi [27].Tous les neurones d’une même ligne sont liés à un des Lneurones de reconnaissance des amers (cortex périrhinal -Pr dans le modèle). Tous les neurones d’une même colonnesont liés à un des Θ neurones de Ph (Parahippocampe Ph- neurones codant pour l’azimut dans notre modèle). Cettematrice sera nommée dans la suite PrPh (voir [20] pourune présentation détaillée de l’anatomie du cerveau du rat).

1Difference Of Gaussian

FIG. 2 – Illustration des traitements visuels. De haut enbas : une image panoramique et son image du gradient. Lescercles représentent la taille des vignettes apprises et utili-sées ensuite comme amers. La deuxième figure montre les7 points d’intérêts les plus actifs et la troisième l’ensembledes 15 premiers points d’intérêt. On remarque que certainsde ces derniers ne sont pas forcement pertinents.

Nous postulons en outre l’existence d’une STM au niveaude PrPh, mémorisant les entrées passées. Avant chaque ex-ploration séquentielle du panorama, toutes les activités desneurones de PrPh sont remis à 0. La STM permet de mé-moriser au cours d’une exploration l’activité de l’ensembledes couples quoi et où. L’activité intégrée dans PrPh est en-suite apprise comme une image codant une représentationinvariante du lieu. L’activité de chaque neurone de PrPhest le produit SPrPhij = SLi × S

Θj , avec SPrPhij l’activité

du neurone ij de PrPh. Ce neurone est lié à la sortie SLidu neurone codant la vue locale i, et à la sortie SΘ

j cor-respondant au neurone j de Pr donnant le déplacement enazimut de la vue locale extraites. Un tel codage des infor-mations quoi et où est acceptable, mais utilise beaucoup deressources et n’est pas biologiquement plausible. En effet,le rapport du nombre de neurones actifs sur le nombre deneurones réellement utilisés par EC-DG est globalementde L×NΘ

L×Θ = NθΘ avec NΘ le nombre moyen d’azimuts dif-

férents sous lesquels un amer peut être appris. Pour unebonne précision azimutale, Θ doit être suffisamment grand(90 neurones codant 360).

Obj

ect r

ecog

nitio

n

Pla

ce o

r vie

w re

cogn

ition

EC−DGPr−Phmerging

Object location (azimuth)

Pr

Ph

FIG. 3 – Détails de la connectivité pour la fusion dansPrPh. Chaque neurone est lié à un neurone de Pr et un sous-ensemble connexe de neurones de Ph.


Dans un esprit de compression de l’information, la ma-trice PrPh n’a pas besoin d’avoir plus de colonnes quele nombre maximal d’azimuts différents sous lesquels unamer peut être appris (en rapport avec NΘ). La connecti-vité doit alors être repensée pour ne pas perdre en précisionsur l’azimut. Ainsi chaque neurone de la matrice peut êtrelié non pas à un unique neurone d’azimut mais à un sousensemble connexe de Ph (voir fig. 3). Cette connectivitéempêche qu’un amer ne soit appris sous des azimuts tropproches. L’azimut exact de l’amer est codé par un des liensdes connections venant de Ph. Ainsi, notre matrice disposede moins de colonnes (6 colonnes empêchant un mêmeamer d’être appris sous des azimuts distants de moins de3606 = 60), tout en conservant la même précision (90 neu-

rones codant 360). Plus précisément, au départ, les poidsde toutes les connexions sont nuls. Les neurones sont re-crutés lorsque un couple amer-azimut est rencontré : l’ac-tivation simultanée d’un neurone codant une vue locale etdu neurone donnant son azimut déclenche l’apprentissagede la synapse correspondante dans PrPh. Le poids de laconnexion entre le neurone Π (neurone produit de PrPh) etle neurone donnant l’azimut de la vue locale est mis à 1(la connexion venant du neurone codant la vue locale estaussi mis à 1). Comme une seule connexion de Ph a étéapprise, la précision sur l’azimut est conservée. Enfin, encas de besoin, les neurones inutiles pourraient être identi-fiés et réalloués. Cette architecture est dans notre cas ab-solument équivalente à la matrice pleine mais elle est plusrapide car elle utilise moins de neurones. Il est intéressantde constater que modéliser plus précisément une structurebiologique (ici PrPh) amène à réduire les temps de simula-tion et augmenter l’efficacité de l’algorithme.La forme de l’activité sur PrPh peut alors être apprise parun autre groupe de neurones (EC-DG). Une simple me-sure de la distance entre l’image de PrPh apprise et l’imagecourante de l’activité sur PrPh caractérise la plus ou moinsbonne reconnaissance d’un lieu. L’activité Pk d’une cellulede lieu k s’exprime alors de la manière suivante :

Pk =1

lk

L∑i=1

ωik.fs(Li).(1− gd(θLik − θi)) (1)

avec lk =∑l

i=1 ωik, ωik = 0, 1 exprime le fait que lavue locale i a servi à coder le lieu k, lk le nombre d’amersutilisé pour coder la cellule k, L le nombre de vues localesapprises, Li le niveau de reconnaissance de la vue locale i,fs(x) la fonction d’activation du groupe de neurone PR dereconnaissance des amers, θLik l’azimut appris par le groupede neurones azimutaux (PPC2 pour les rats et les primates[19]) de la ieme vue locale pour le keme lieu, et θi l’azimutcourant de la vue locale i. d est un paramètre de diffusionde l’information angulaire définissant la pente de la fonc-tion gd(x). Le rôle de fs(x) et gd(x) est d’adapter la dyna-mique des neurones codant le quoi et le où. Leur définition

2Posterior Parietal Cortex

est :

gd(x) =

|x|

d.πif |x| < d.π

1 sinon(2)

fs(x) =1

1− s[x− s]

+ (3)

où [x]+ = x si x > 0, et 0 sinon. La figure 4 présentel’activité de 5 × 5 cellules apprises de manière superviséedans une expérience robotique afin de montrer l’étendue etl’homogénéité du champs d’activité de ces neurones.

FIG. 4 – En haut, activité de neurones enregistrés dans lecortex entorhinal d’un rat. En bas, activité de 5×5 neuronessimulés enregistrés dans une pièce de 4m × 5m (champd’activités larges décroissants en fonction de la distance aulieu appris).

Ces champs sont bien trop larges pour correspondre auxcellules enregistrées dans l’hippocampe du rat (régionsCA3 et CA1 [17]). En revanche, si l’on met en compétitionces neurones (voir fig. 5) leurs champs peuvent être extrê-mement localisés comme les cellules enregistrées dans legyrus dentelé de l’hippocampe [13]. Cependant, dans lecas d’une tâche de navigation simple, utiliser l’informa-tion après compétition revient à se priver d’une capacitéde généralisation importante. On peut alors s’interroger surl’interprétation par les neurobiologistes des cellules hippo-campiques. Dans [3, 13], nous proposons que les “vraies”cellules de lieux sont celles enregistrées dans le cortex en-torhinal et que les cellules enregistrées dans l’hippocampeservent dans des tâches plus complexes pour coder destransitions entre des états multimodaux (détection de nou-veauté, planification...). Dans cet article, nous ne dévelop-perons pas ces travaux. Nous nous focaliserons sur l’ana-lyse détaillée des paramètres importants pour la constitu-


tion de nos cellules de lieux et leur utilisation en environ-nement extérieur.

FIG. 5 – En haut, activité de neurones enregistrés dans legyrus dentelé d’un rat. En bas, activité des 5× 5 neuronessimulés de la fig. 4 après compétition entre eux.

Pour une application robotique, ces cellules de lieuxpeuvent être utilisées dans une architecture PerAc [9] re-présentée en figure 6 permettant alors d’apprendre un bas-sin d’attraction qui définit dynamiquement l’attraction versle but sans nécessiter d’apprendre ce dernier explicitement.Le mécanisme de navigation repose sur l’association d’unmouvement avec un lieu donné. Une fois appris un mini-mum de 3 lieux proches du but, le robot n’a plus qu’à ré-

-60 o 0o 60o120o-120 o

Azimut Objectif

neurones actifsdiffusion du gagnant

‘‘chaises’’

‘‘frigo’’

Vigilance

Azimut

Direction du Mouvement

lien de 1 à 1liens inconditionels de 1 à tous

‘‘étagères’’

Cellules de lieuxAmer Amers Azimuts

FIG. 6 – Architecture PerAc permettant de générer uncomportement d’attraction vers un lieu but. Les groupes«azimut» et «direction du mouvement» sont des WTA Legroupe amer azimut (ou landmark azimuth) représente lafusion des informations quoi et où permettant de recon-naître un lieu à partir d’information visuelles.

agir en fonction des associations Sensation-Action qu’il aapprises. Itération après itération, la distance du robot aubut se trouve ainsi réduite : le robot est attiré par le but.L’architecture PerAc permet donc d’apprendre à construireempiriquement un bassin d’attraction dont la forme estcontrôlée par les couples lieux-actions appris [10, 11, 22].Le robot peut alors être considéré comme une sorte de billeroulant vers le fond d’une vallée. L’apprentissage sensori-moteur revient donc à «tailler» cette vallée. Nos résultatsconfirment ainsi que des tâches de navigation simples enenvironnement ouvert peuvent être réalisées par des cel-lules de lieux pré-hippocampiques (voir fig. 7).

Panneaux

PorteA

scenseur

Poubelle

Porte double

Robot

Chariot

Chaise

Balcon

7 m

Trajectoire

Lieu et direction apprisVitres transparantes

8.50 m

FIG. 7 – Trajectoires réelles de retour au nid en environne-ment intérieur. 8 lieux (points noirs) sont appris autour dubut à 1 m de distance (taille des carreaux au sol).

Le robot est capable de revenir vers son but sur un trèslarge domaine (capacité de généralisation). Nous verronsdans la suite que cela est dû au fait que dans l’architecturePerAc, la décision réelle n’est prise qu’au niveau moteur etdoit être comprise en fonction de la dynamique globale dusystème. Il est intéressant de constater qu’en réduisant lechamps de vision du robot de 360 degrés à 180 degrés (lataille du champs de vision d’un homme ou d’un primate),l’activité des neurones devient dépendante de l’orientationdu robot et de la vue qu’il perçoit. L’activité des cellules,qui était au préalable du type cellule de lieu, devient uneactivité de type cellule de vue. Elles ressemblent très for-tement à celles trouvées dans l’hippocampe des primates,au même endroit que les cellules de lieux enregistrées dansl’hippocampe des rats [13, 26].

3 Intérêt d’une compétition “douce”Dans ce paragraphe, nous nous interessons au problèmespécifique de l’encodage des amers. En particulier, l’in-térêt d’utiliser une compétition plus biologiquement plau-sible qu’un simple WTA au niveau de Pr pour augmenter lacapacité de généralisation des champs de lieu va être illus-trée. Une première approche pour reconnaître un lieu estde supposer que chaque vue locale correspond à un uniqueamer. Quand le robot bouge, d’un lieu PA à un lieu PB ,un amer donné L peut être perçu comme correspondant àdeux indices visuels distincts (L1 ou L2). Par conséquent,


L1: 1.000

L2: 1.000

L3: 1.000

L4: 1.000

L1: 0.909L3: 0.893

L2: 0.931L4: 0.922

Exemple de 2 amers appris au lieu A

Reconnaissance des amers au lieu C (position intermédiaire)

NM

M

M N

N

Exemple de deux nouveaux amers appris au lieu B

FIG. 8 – Apprentissage et reconnaissance d’un même amer par différents neurones (voir plan fig. 11). Un même amer (iciM ou N) a été appris pour deux lieux A et B distants de 5 m, comme deux formes visuelles distinctes (figures du haut). Parconséquent, à mi-chemin entre les deux lieux (figure du bas), l’amer a deux interprétations valides (L2 et L4 pour M ou L1et L3 pour N) dont les niveaux sont quasiment identiques. Pour des raisons de lisibilité, l’activité des 148 autres neuronescodant pour l’ensemble des autres vignettes apprises n’est pas affichée (leur activité étant ici inférieure à 0.82).

pour PA, l’amer L devrait être reconnu par le neurone L1

et par L2 pour PB (voir Fig. 9).

Wall

??

Amer L

Le système focalise sur un amer.Est ce ou est ce ?

PSfrag replacementsθ1 θ2θ

PBPA

L1

L1

L2

L2

FIG. 9 – Apprentissage de cellules de lieux utilisant lemême amer vu sous deux points de vue différents. Pendantla navigation, deux interprétations du même amer peuvententrer en compétition et introduire un biais important pourla reconnaissance de lieu.

En effet, comme l’activité des cellules de lieux résulte duproduit entre le niveau de reconnaissance des informationsquoi et où (voir eq. (1)), autoriser une unique interprétationdes vues locales observées est équivalent à imposer uneerreur azimutale maximale pour les autres interprétationsou à considérer que l’amer correspondant aux autres inter-prétations n’est pas présent. De plus, la distance entre lesprototypes des vues locales apprises diminue avec l’aug-mentation du nombre de vues locales encodées. Les erreursinduites par une stricte compétition deviennent de plus enplus fréquentes (problème classique de classification). Unexemple réel en environnement extérieur (voir la fig. 8)illustre le cas de deux objetsM etN appris respectivement

comme étant 2 vues L1 et L2 dans le lieu PA et comme 2autres vues L3 et L4 dans le lieu PB . La distance PAPBmesure 5 mètres. Au lieu PC , le milieu de deux lieux PAet PB , le niveau de reconnaissance de chaque vue localeapprise est donné. On peut voir que L1 et L2 (ou L3 et L4)ont presque le même niveau d’activité et qu’une compéti-tion stricte induit un choix aléatoire du gagnant, défavori-sant ainsi une des deux cellules de lieux. Il semble donc trèsdifficile, et pas vraiment nécessaire d’assigner une étiquetteunique pour chaque vue locale. Chercher à lever les ambi-guïtés de l’information sensorielle semble être une erreur.Seul le comportement général importe [14, 22]. Au lieu defaire un choix impossible, autoriser de multiples interpréta-tions de la même vue locale semble apporter de nombreuxavantages, si la prise de décision finale, ici trouver le lieule plus proche ou décider du mouvement à réaliser, est ca-pable de gérer ce type de codage.

Une solution pourrait être de fixer un seuil de reconnais-sance maximal (SR), en dessous duquel les neurones nedéchargent pas. Mais ce SR pourrait s’avérer difficile à op-timiser, d’autant plus que le nombre de neurones au dessusde ce SR pour une même vue locale va augmenter avec lenombre de vues locales apprises (la plupart des interpréta-tions sera donc considérée comme du bruit). Une alterna-tive très simple est de fixer un nombre maximal d’interpré-tations au dessus d’un SR sans risque. Toute interprétationen dessous de ce SR sera considérée comme fausse. Si lesystème focalise sur une vue locale non apprise, le SR de-vrait pouvoir inhiber une grande partie des interprétations.Afin d’augmenter la dynamique des neurones codant lesamers, l’activité entre SR et 1 peut être réétalonnée entre


0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

Activ

ity

Position in meters

Activity of the place cells, level of diffusion is 0.33

cell 1cell 2cell 3cell 4cell 5cell 6

0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

Activ

ity

Position in meters



FIG. 10 – Enregistrements de nos cellules de lieux artificiels en environnement intérieur (plan fig.11). Les activités descellules de lieux sont calculées tous les 2 cm sur une ligne de 4,8 m de long. La distance entre chacun des 5 lieux appris estde 60 cm (position des pics). La figure de gauche montre les champs de lieux induits par une compétition stricte et la figurede droite les champs de lieux induits par une compétition “douce”. La compétition stricte au niveau de la reconnaissance desamers ne permet pas une bonne généralisation.

0 et 1, ce qui est fait par la fonction fs(x) avec s le seuilSR (voir eq. 1). Néanmoins, la distance entre les prototypesappris va diminuer chaque fois qu’un nouvel amer est ap-pris. Le nombre maximal d’interprétations doit donc êtrecorrélé avec le nombre de vues locales apprises. Le rap-port g

L, où g est le nombre maximal d’interprétations ga-

gnantes et L est le nombre de vues locales apprises, doitêtre plus grand qu’un certain niveau de confiance accordéà la méthode d’extraction des amers. La figure 10 permetde comparer les champs de lieu induits par une compétitionstricte, par rapport à une compétition molle. Dans cette ex-périence, cinq lieux alignés ont été appris dans une pièce de5.4 × 7.2 m. Puis le robot parcourt la ligne formée par leslieux et l’activité de chaque cellule de lieu est calculée enchaque position. La généralisation est largement amélioréegrâce à l’utilisation de la compétition molle. La compéti-tion stricte empêche la généralisation des champs de lieux(voir la fig. 10). Cette solution de codage épars permet auxchamps de lieux de s’étendre très loin du centre du lieuappris, sans réduire la précision en leur centre, à l’imagedes cellules de lieux biologiques enregistrées dans EC. Cesrésultats montrent une autre facette de l’intérêt du codageépars dans les systèmes biologiques.On peut noter que le succès du comportement du robot nedépend ni du niveau absolu de reconnaissance des vueslocales (amers) ni du niveau absolu de reconnaissanced’un lieu. Seul le rang dans les processus de compétitiona de l’importance. Parce que la plupart des perturbationsvisuelles ont le même effet sur chaque reconnaissanceélémentaire, notre architecture continue de fonctionnercorrectement jusqu’à ce que le niveau de bruit ait un effetsur le rang dans la compétition (alors que classiquement lessystèmes échouent lorsque le ratio bruit/activité dépasseun certain seul absolu). La capacité de généralisation descellules de lieux conduit le robot à produire le mêmemouvement appris dans toute la zone codant pour le lieu.

Pour accroître encore la robustesse de notre mécanismede compétition, on peut utiliser le fait que les neurones

Sol

Cha

riot

Koala

Porte

WE

S

N

Sens de déplacement du robot et lieu appris

TV

table

table

7.2m

5.4m

radiateur radiateur

caisse

étagères

chaisetrucs

chaise

corbeille

table

FIG. 11 – Plan de l’environnement utilisé dans l’expériencede la fig. 10. Les 5 croix représentent les 5 lieux appris surla ligne de test.

semblent capables de réagir dès les premiers potentielsd’action reçus. Ainsi, on peut imaginer que la reconnais-sance d’un lieu ne tienne compte que des N amers apprisles mieux reconnus (le neurone déchargeant dès qu’il a in-tégré suffisamment de potentiels d’actions et inhibant lesautres neurones). De telles modifications sur le calcul del’activité des cellules de lieux permet de rendre notre archi-tecture de contrôle beaucoup plus robuste3 à des occlusionsou à des déplacements d’amers très importants illustrés parles exemples de perturbations présentés sur la figure 12.

4 Mémoire dynamique dans PrPhLe fonctionnement de la STM peut lui aussi être criti-qué. En effet, lors des premières expérimentations en envi-ronnement intérieur et structuré, les informations visuelles

3On peut noter que notre précédent algorithme était déjà robuste audéplacement aléatoire de quelques amers tant que ces déplacements nefavorisent pas une cellule de lieu particulière.


(proche de P1)P1: 0.6137P2: 0.3073P3: 0.3662

Activité en P1’

(proche de P1)P1: 0.5533P2: 0.3476P3: 0.2801

Activité en P1’

(proche de P1)P1: 0.3896P2: 0.2332P3: 0.2284

Activité en P1’

FIG. 12 – De haut en bas : exemple d’un des panoramas appris (P1) dans la salle de la fig. 13. Exemple de 3 panoramasobtenus en P1’ et utilisés pour le test de la robustesse des cellules de lieux (voir fig. 12).

Radiateur

8.50 m

7 m Balcon

panneaux

après apprentissageObjets deplacés

Porte double

PorteA

scenseur

Poubelle

Chaise

Chariot

Table

Porte vitrée

Lieu et direction appris

Lieu et direction lors de l’expérience

P1’

P1

P2

P3

FIG. 13 – Plan de l’environnement utilisé pour tester la ro-bustesse des cellules de lieux au déplacement et/ou à l’oc-clusion de plusieurs amers (voir fig. 12).

étaient abondantes. L’activité de PrPh, codant pour une re-présentation courante de l’environnement était réinitialiséeavant l’analyse de chaque panorama (les champs de lieuxde la fig. 10 était obtenus ainsi). En revanche, les expé-riences en environnement extérieur ont abouti à des champsde lieux fortement instables. Le variance était telle quemême au lieu appris, l’activité de la cellule de lieu pou-vait être très basse (courbes de gauche de la fig. 15). Néan-moins, il semble que l’interpolation des maxima locaux, oumême la moyenne peuvent générer des résultats cohérents

et permettre de lutter contre le manque d’efficacité du sys-tème visuel. L’étude du modèle en cours de fonctionnementa révélé que le principal problème est la forte variance surle nombre de vues locales retrouvées à chaque instant. Lesimages d’environnement extérieur étant très complexes, lemécanisme de focalisation basé sur les points de forte cour-bure n’est pas capable de garantir, pas après pas, la focali-sation sur un nombre équivalent d’amers appris pour lesdifférentes cellules de lieux en compétition (faible proba-bilité de retrouver les amers et donc de les reconnaître).Néanmoins après l’exploration de 2 ou 3 panoramas suc-cessifs, un très grand nombre d’amers finit par être passéen revue et le risque de ne pas avoir trouvé un amer impor-tant devient négligeable. Il est donc pertinent de conser-ver l’information intégrée sur une fenêtre temporelle supé-rieure au temps d’analyse d’un seul panorama : c’est à dired’utiliser une véritable mémoire à court terme (STM). UneSTM était déjà présente dans notre modèle de PrPh, afin demémoriser les associations amers-azimuts au cours de l’ex-ploration d’un panorama mais PrPh était réinitialisé avantchaque panorama.D’un point de vue système biologique, il est évident queles mammifères n’ont pas constamment besoin de voir4

l’ensemble des amers de leur environnement pour pouvoir

4De nombreuses expériences de psychologie vont même beaucoupplus loin en montrant que notre perception du monde peut être biaisée pardes processus inconscients nous rendant aveugles à de très importantesmodifications de notre environnement [23].


naviguer. L’utilisation d’un nombre réduit d’amers devraitdonc être suffisante pour naviguer sans ambiguïté. L’exis-tence d’une réelle STM au niveau de PrPh pourrait per-mettre de mémoriser les informations intégrées dans lesinstants passés, et pourrait expliquer pourquoi les mammi-fères n’ont pas besoin de vérifier, à tout moment, la positionde chacun des amers.

25 m

Plan d’herbe

Plan d’herbe

Voiture

120 m

50 m

Bas

sin

Courbe de niveau

Batiment surélevéBatiment de plein pied

Mur surélevéMur

Vitre (périodique)

Route du robot avec lieu appris

FIG. 14 – Plan de l’environnement utilisé pour les résultatsde la fig. 15. Le robot se déplace sur la flêche en gras. Lescroix représentent les lieux appris.

On peut noter que l’utilisation d’une vraie mémoire à courtterme induit formellement un calcul faux de l’activité descellules de lieux, car l’hypothèse faite que les amers mémo-risés ne se déplacent pas par rapport au robot est évidem-ment fausse. Cependant, cette approximation n’est pas unproblème tant que ce qui nous intéresse est le niveau relatifdes cellules d’un voisinage donné et non le niveau absolud’une cellule. Le biais dans l’activité des cellules étant enmoyenne le même pour toutes, leur rang dans la compéti-tion ne change pas et les comportements de navigation nesont pas ou peu perturbés (bien au contraire, ils peuvents’en trouver stabilisé en évitant des variations erratiques del’activité des cellules de lieux).En pratique, la STM de PrPh a été étendue pour couvrirtemporellement l’exploration d’un certain nombre de pa-noramas. Entre chaque image, l’activité des neurones estpondérée d’un certain facteur d’oubli (0.95), jusqu’à l’ex-tinction si aucun stimulus ne vient raviver l’activité du neu-rone (i.e. si l’information à intégrer n’est pas supérieure àl’information présente). L’exploration partielle ou incom-plète de l’environnement est désormais capable de générerdes niveaux d’activité stables des cellules de lieux, dont leschamps deviennent largement plus robustes et plus stablesspatialement (voir fig. 15). Nous remarquons aussi que leschamps de lieux sont bien plus larges qu’en environne-ment intérieur. Ces résultats confirment la théorie qui pré-dit que les champs d’activité s’agrandissent avec l’éloigne-ment des amers. Sur la figure 15, les champs de lieux ontun rayon utile d’environ 25 m, ce qui est presque la taillede l’environnement (les résultats d’intérieur de la figure 10vont eux aussi dans ce sens). Ainsi, ce type de cellules de

lieux permet un comportement robuste de retour au nid etune généralisation de l’apprentissage sensori-moteur sur detrès longues distances (voir les exemples de trajectoires fig.7).

5 Conclusions et perspectivesDans cette étude, nous avons montré comment l’interac-tion entre la robotique et la neurobiologie nous a mené àintroduire plus de plausibilité biologique dans notre mo-dèle, conduisant à accroître les performances du systèmerobotique, et à nous questionner sur l’importance de méca-nismes tels que la STM et de la compétition douce dans lefonctionnement du cerveau. Nos résultats suggèrent aussique, même en environnement extérieur, une carte carté-sienne n’est pas nécessaire pour naviguer correctement.L’apprentissage d’un certain nombre de cellules de lieuxancrées visuellement permet de réaliser un grand nombred’expériences de retour au nid (homing) en environnementouvert. Pour des environnement plus complexes, le simpleajout d’une carte cognitive semble suffisant [6, 13]. Ce-pendant, l’information visuelle étant parfois limitée et am-biguë, les informations idiothétiques pourraient permettrede désambiguïser la reconnaissance de lieux dans des en-vironnements complexes [1, 24] même si nous affirmons,contrairement à certaines modèles de l’hippocampe [24]que les informations visuelles sont prépondérantes pour lanavigation.Nos expériences en environnement extérieur ont aussimontré l’intérêt d’introduire un système attentionel, quipermettrait d’augmenter la probabilité de retrouver demanière plus efficace les vignettes ou amers appris enfonction de la tâche en cours. Finalement, d’autres indicesvisuels tel que la taille apparente ou la distance des amers(déduite de la parallaxe) devraient être pris en compte pourune meilleure reconnaissance des amers et des lieux.

Si l’on considère qu’un objet peut être représenté par unensemble de vue en 2 dimensions, il est possible de trans-former une architecture servant à reconnaître ou à aller versdes lieux en une architecture permettant de reconnaître desobjets. Pour séparer les objets et les reconnaître, nous avonsajouté à notre architecture la possibilité d’agir sur l’imageen recalant les objets en fonction de leur position lors del’apprentissage. Cette action interne (projection de l’atten-tion visuelle) permet ensuite d’utiliser directement le sys-tème de reconnaissance de lieux pour la reconnaissanced’objets (pour plus de détails voir [7, 21]). En manipulantl’objet lors de l’apprentissage (le faire tourner par ex.), ilest possible d’accroître encore la robustesse du dispositif.En effet, si le robot sait que toutes les images sont liées aumême objet, il peut supposer que l’interprétation doit resterla même et apprendre de manière auto-supervisée quellessont les imagettes les plus pertinentes et les plus invariantespar rapport aux mouvements effectués. Pour aller plus loinet imaginer des architectures qui, tout en restant relative-ment simples, résolvent des problèmes encore plus com-


0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0 5 10 15 20 25

Activ

ity

Position in meters



0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

0 5 10 15 20 25

Activ

ity

Position in meters



FIG. 15 – Champs de lieux sans STM (à gauche) et avec (à droite) STM en environnement extérieur (voir plan fig 14).La figure de gauche montre des champs de lieu instables. La figure de droite illustre l’intérêt de la STM. En environnementextérieur, le rayon utilisable des champs de lieu peut atteindre 25 m. L’activité des cellules de lieux est calculée tous les 10 cmle long d’une ligne de 25 m. Les lieux ont été appris à 5 m de distance. Une compétition molle au niveau de la reconnaissancedes amers est utilisée.

pliqués, il faut garder présent à l’esprit que dans tous lesexemples que nous avons développés dans notre laboratoirele robot se comporte comme un homéostat conçu pour res-ter au fond de son bassin d’attraction5. Si des perturbationsapparaissent, le système réagit pour revenir à l’état d’équi-libre (l’attracteur le plus proche). L’apprentissage revientà trouver de nouveaux couples perception/action permet-tant de mieux répondre aux contraintes environnementales(modification de la forme de l’attracteur). Dans ce type desystème dynamique, un «invariant» correspond alors à ladynamique sensori-motrice elle-même. Perception et Ac-tion ne doivent plus être considérées comme séparées maisintégrées dans un unique état perception/action [12, 22].Dans la théorie des systèmes dynamiques, l’action est dé-finie comme la dérivée d’une fonction potentiel [18, 28].Si le champ est défini en fonction d’une position ~p dansl’environnement, nous pouvons définir :

−→Ac = −m.

−−→grad Per (4)

avec m la masse réelle ou virtuelle prenant en comptela réalité physique et/ou l’embodiment du robot. Laperception Per peut être vue comme une fonction scalaireψ représentant un invariant du système (une sorte demesure d’énergie). Ainsi, la perception ne peut être définieque pour un système actif et elle dépend des capacitésdynamiques de ce système (type de corps, senseurs etactuateurs). Reconnaître un objet peut alors bien être vucomme étant la capacité à avoir un certain comportementsensori-moteur (ou certaines affordances [15]) face à cetobjet (par exemple aller vers l’objet ou prendre l’objet).Reconnaître un objet n’est donc pas si différent d’aller versun lieu et peut être vu comme le fait d’être dans le bassind’attraction d’un système dynamique relativement simplepouvant être appris en ligne par de simples associationssensori-motrices (voir [14] pour plus de détails).

5L’attracteur peut très bien être dynamique (un cycle limite parexemple ou même un attracteur à la frontière du chaos)

Enfin, dans le contexte de la robotique autonome, unagent «intelligent» devrait être capable d’évoluer pourpouvoir combler le déficit entre ce qu’il perçoit et ce qu’ilprédit. Un système défini selon ces critères n’est alorspas dans l’attente de stimuli mais plutôt à leur recherche(stimulus expectant). Notre opinion est que cette évolutionpasse par une spécialisation d’une sous-partie de l’archi-tecture globale qui évoluerait et se raffinerait au coursdu temps en fonction de la disparité entre prédiction etperception. L’introduction de capacités de représentationdu type «carte cognitive» de l’environnement permet parexemple à notre robot de planifier ces mouvements etd’exhiber des capacités «d’apprentissage latent» (sanssignal de renforcement) [25]. Il devient alors possiblede s’interroger dans le cadre d’expériences robotiquessur la manière de faire coopérer des mécanismes réactifsavec des mécanismes plus anticipatifs et de participerainsi pleinement à la compréhension du cerveau et à lamodélisation des mécanismes cognitifs.

(vidéos disponibles sur http ://www-etis.ensea.fr/Members/pgaussier)

RemerciementsCes recherches sont supportées par la Délégation Généralepour l’Armement (DGA), marché n 04 51 022 00 470 2775. Nous remercions particulièrement Gael Desilles poursa collaboration et son investissement dans nos travaux.

Références[1] A. Arleo and W. Gerstner. Spatial cognition and

neuro-mimetic navigation : A model of hippocam-pal place cell activity. Biol. Cybern., 83(3) :287–299,2000.

[2] I.A. Bachelder and A.M. Waxman. Mobile robot vi-sual mapping and localization : A view-based neuro-computational architecture that emulates hippocam-


pal place learning. Neural Networks, 7(6/7) :1083–1099, 1994.

[3] J.P. Banquet, P.Gaussier, M. Quoy, A. Revel,and Y. Burnod. A hierarchy of association inhippocampo-cortical systems : cognitive maps andnavigation strategies. Neural Computation, 17 :1339–1384, 2005.

[4] N. Burgess, M. Recce, and J. O’Keefe. A mo-del of hippocampal function. Neural Networks,7(6/7) :1065–1081, 1994.

[5] B.A. Cartwright and T.S. Collett. Landmark learningin bees. Journal Comp. Physiology, 151 :521–543,1983.

[6] N. Cuperlier, M. Quoy, P. Laroque, and P. Gaussier.Transition cells and neural fields for navigation andplanning. In Lecture Notes in Computer Science, vo-lume 3561, pages 346–355, 2005.

[7] P. Gaussier and J.P. Cocquerez. Simulation d’un sys-tème visuel comprenant plusieurs aires corticales :application à la reconnaissance de scènes complexes.Traitement du Signal, 8(6) :441–466, 1992.

[8] P. Gaussier and S. Zrehen. Navigating with animalbrain : a neural network for landmark identificationand navigation. In Proceedings of Intelligent Ve-hicles. Paris IEEE Press, 1994.

[9] P. Gaussier and S. Zrehen. Perac : A neural architec-ture to control artificial animals. Robotics and Auto-nomous System, 16(2-4) :291–320, December 1995.

[10] P. Gaussier, C. Joulain, S. Zrehen, J.P. Banquet, andA. Revel. Visual navigation in an open environementwithout map. In International Conference on Intelli-gent Robots and Systems - IROS’97, pages 545–550,Grenoble, France, September 1997. IEEE/RSJ.

[11] P. Gaussier, C. Joulain, J.P. Banquet, S. Lepretre, andA. Revel. The visual homing problem : an exampleof robotics/biology cross fertilization. Robotics andautonomous system, 30 :155–180, 2000.

[12] P. Gaussier. Toward a cognitive systemalgebra : A perception/action perspective.In European Workshop on Learning Ro-bots (EWLR), pages 88–100, http ://www-etis.ensea.fr/˜neurocyber/EWRL2001_gaussier.pdf,2001.

[13] P. Gaussier, A. Revel, J.P. Banquet, and V. Babeau.From view cells and place cells to cognitive map lear-ning : processing stages of the hippocampal system.Biological Cybernetics, 86 :15–28, 2002.

[14] P. Gaussier, J.C. Baccon, K. Prepin, J. Nadel, andL. Hafemeister. Formalization of recognition, affor-dances and learning in isolated or interacting animats.In From Animals to Animats : SAB’04, pages 57–66,Cambridge, MA, 2004. MIT Press.

[15] J. Gibson. The Ecological Approach to Visual Per-ception. Houghton Mifflin, Boston, 1979.

[16] J.L. Gould. The biology of learning. Annual Reviewof Psychology, 37 :163–192, 1986.

[17] J.O’Keefe and N. Nadel. The hippocampus as a cog-nitive map. Clarendon Press, Oxford, 1978.

[18] J.A. S. Kelso. Dynamic patterns : the self-organization of brain and behavior. Bradford Book,MIT Press, 1995.

[19] B. Kolb, R.J. Sutherland, and I.Q. Wishaw. A com-parison of the contributions of the frontal and parietalcortex to spatial localization in rats. Behavioral Neu-roscience, 87 :13–27, 1983.

[20] B. Kolb and R.C. Tees. The Cerebral Cortex of theRat. MIT Press, 1990.

[21] S. Leprêtre, P.Gaussier, and J.P. Cocquerez. From na-vigation to active object recognition. In The SixthInternational Conference on Simulation for Adap-tive Behavior SAB’2000, pages 266–275, Paris, 2000.MIT Press.

[22] M. Maillard, O. Gapenne, L. Hafemeister, andP. Gaussier. Perception as a dynamical sensori-motorattraction basin. In ECAL, in Press. Springer-Verlag,2005.

[23] J.K. O’Regan and A. Noë. A sensorimotor accountof vision and visual consciousness. Behavioral andBrain Sciences, 24(5) :939–1011, 2001.

[24] A.D. Redish and D.S. Touretzky. Cognitive mapsbeyond the hippocampus. Hippocampus, 7(1) :15–35, 1997.

[25] A. Revel, P. Gaussier, S. Lepretre, and J.P. Ban-quet. Planification versus sensory-motor conditio-ning : what are the issues ? In SAB’98 : From animalsto animats 5, pages 129–138, 1998.

[26] E.T. Rolls and S.M.O’Mara. View-responsive neu-rons in the primate hippocampal complex. Hippo-campus, 5 :409–424, 1995.

[27] D.E. Rumelhart and D. Zipser. Feature discovery bycompetitive learning. Cognitive Science, 9 :75–112,1985.

[28] G. Schöner, M. Dose, and C. Engels. Dynamics ofbehavior : theory and applications for autonomous ro-bot architectures. Robotics and Autonomous System,16(2-4) :213–245, December 1995.

[29] L. Schwartz. Computational anatomy and functio-nal architecture of striate cortex : a spatial mappingapproach to perceptual coding. Vision Res., 20 :645–669, 1980.

[30] L.R. Squire. Memory and the hippocampus : A syn-thesis from findins with rats, monkeys, and humans.Psychological Review, 99 :143–145, 1992.


Fusion d’informations numériques : panorama méthodologique

Isabelle BlochEcole Nationale Supérieure des Télécommunications, Dép. TSI, CNRS UMR 5141 LTCI

Paris, France - [email protected]

RésuméDans cet article, nous proposons un panaroma des prin-cipales méthodes de fusion numérique. Il s’agit des clas-siques méthodes probabilistes (en particulier de l’inférencebayésienne), mais aussi de méthodes non probabilistes(théorie des ensembles flous et des possibilités, théorie desfonctions de croyance), apparues plus récemment, maisqui connaissent un essor de plus en plus important. Pourchaque théorie, nous présentons les deux composantes es-sentielles des systèmes de fusion : la représentation desconnaissances et le raisonnement. Pour la première, nousmontrons quelles sont les caractéristiques des données im-parfaites que chaque théorie permet de modéliser. Pour laseconde, nous décrivons les modes de combinaison et lesrègles de décision. Nous insistons sur les spécificités de lafusion d’informations spatiales (aussi bien au niveau localqu’à un niveau plus structurel) et sur leur prise en comptedans les modèles probabilistes et non probabilistes.

Mots ClefFusion d’informations, représentation des connaissances,décision, fusion numérique, information spatiale.

1 IntroductionLa fusion d’informations a beaucoup évolué ces dernièresannées : dans différents domaines, et en particulier en vi-sion et en robotique, les sources d’informations se sontmultipliées, qu’il s’agisse de capteurs, d’informations apriori, de connaissances génériques, etc. Chaque sourced’information étant en général imparfaite, il est impor-tant d’en combiner plusieurs afin d’avoir une meilleureconnaissance du « monde ». La fusion d’informationspeut alors se définir comme la combinaison d’informations(souvent imparfaites et hétérogènes) afin d’obtenir une in-formation globale plus complète, de meilleure qualité, etpermettant de mieux décider et agir. Parallèlement, les mé-thodes pour modéliser les connaissances et informationsimparfaites et pour les combiner ont connu des développe-ments théoriques importants et leurs champs d’applicationsse sont étendus. Ces méthodes, souvent issues des théoriesde la décision, de l’incertain et de l’intelligence artificielle,peuvent être soit numériques, soit symboliques. L’ampleurque prend la fusion d’informations suit celle que prennentles technologies et le traitement de l’information en géné-ral.Dans cet article, nous proposons un panaroma des prin-cipales méthodes de fusion numérique. Il s’agit des clas-

siques méthodes probabilistes (en particulier de l’inférencebayésienne), mais aussi de méthodes non probabilistes(théorie des ensembles flous et des possibilités, théorie desfonctions de croyance), apparues plus récemment, maisqui connaissent un essor de plus en plus important. Pourchaque théorie, nous présenterons les deux composantesessentielles des systèmes de fusion : la représentation desconnaissances et le raisonnement. Pour la première, nousmontrerons quelles sont les caractéristiques des donnéesimparfaites que chaque théorie permet de modéliser. Pourla seconde, nous décrirons les modes de combinaison etles règles de décision. Nous insisterons sur les spécificitésde la fusion d’informations spatiales (aussi bien au niveaulocal qu’à un niveau plus structurel) et sur leur prise encompte dans les modèles probabilistes et non probabilistes.La partie 2 présente une définition générale, les caractéris-tiques des données à prendre en compte dans un système defusion, ainsi que les principales étapes. Les principales ap-proches numériques sont ensuite exposées, dans les parties3 pour les approches probabilistes et bayésiennes, 4 pour lathéorie des fonctions de croyance, et 5 pour les méthodesfloues et possibilistes. Enfin dans la partie 6, nous discu-tons du traitement de l’information spatiale en fusion. Leséléments présentés dans cet article sont discutés de manièreplus détaillée dans [13, 16, 54].

2 Généralités et définitions2.1 DéfinitionsNous adoptons dans cet article un sens large du terme « in-formation ». En particulier, il couvre à la fois des données(par exemple des mesures, des images, des signaux, etc.)et des connaissances (sur les données, sur le domaine, surdes contraintes, etc.) qui peuvent être génériques ou spéci-fiques.La définition de la fusion d’informations que nous utilise-rons tout au long de cet article est la suivante :La fusion d’informations consiste à combiner des informa-tions hétérogènes issues de plusieurs sources afin d’amé-liorer la prise de décision.Cette définition est suffisamment générale pour engloberla diversité des problèmes de fusion que l’on rencontre enparticulier en traitement de l’information spatiale. Son in-térêt est qu’elle est focalisée sur les étapes de combinai-son et de décision, ces deux opérations pouvant prendredes formes différentes suivant les problèmes et les applica-tions.Pour chaque type de problème et d’application, cette défi-


nition pourra être plus spécifique, en répondant à un cer-tain nombre de questions : quel est le but de la fusion ?comment s’exprime la décision ? quelles sont les infor-mations à fusionner ? quelles sont leurs origines ? quellessont leurs caractéristiques (incertitude, relations entre lesinformations, génériques ou factuelles, statiques ou dyna-miques, etc.) ? quelle méthodologie choisir ? comment éva-luer et valider la méthode et les résultats ? quelles sont lesdifficultés principales, les limites ? etc.

2.2 Caractéristiques générales des données

Dans cette partie, nous décrivons succinctement les ca-ractéristiques générales des informations à fusionner, quidoivent souvent être prises en compte dans un processus defusion.Une première caractéristique concerne le type d’informa-tion à fusionner. Il peut s’agir d’observations directes, derésultats de traitements sur ces observations, de connais-sances plus génériques, exprimées sous forme de règlespar exemple, ou d’avis d’experts. Ces informations peuventêtre exprimées sous forme numérique ou sous formesymbolique. Une attention particulière doit être portée àl’échelle utilisée pour représenter les informations, afin degarantir une commensurabilité.Le niveau de l’information qui va être fusionnée est égale-ment un aspect très important. On distingue généralementle bas niveau (typiquement les mesures originales), d’unniveau plus élevé nécessitant des étapes préliminaires detraitement, d’extraction de primitives et de structuration del’information.D’autres distinctions sur les types de données sont égale-ment intéressantes à souligner, car elles donnent lieu à desmodélisations et à des types de traitements différents : don-nées fréquentes ou rares, informations factuelles ou géné-riques, génériques ou spécifiques, etc.Les informations manipulées dans un processus de fusionsont d’une part les informations à fusionner, et d’autre partdes informations supplémentaires qui servent à guider ouaider la combinaison. Il peut s’agir d’informations sur lesinformations à combiner telles que des informations sur lessources, sur leur dépendance, sur leur fiabilité, des préfé-rences sur les informations à combiner, etc. Il peut s’agirégalement d’informations contextuelles, sur le domaine.Ces informations supplémentaires ne sont pas forcémentexprimées dans le même formalisme que les informationsà combiner, mais elles peuvent intervenir dans le choix dela modélisation des informations à fusionner.Une des caractéristiques importantes de l’information enfusion est son imperfection. Celle-ci est toujours présente(sinon la fusion ne serait pas nécessaire). Elle peut prendrediverses formes, qui sont brièvement décrites ci-dessous,d’une manière qui convient bien au problème de la fusion,mais qui n’est sûrement pas universelle. L’incertitudeest relative à la vérité d’une information, et caractériseson degré de conformité à la réalité [28]. Elle fait réfé-rence à la nature de l’objet ou du fait concerné, à sa qua-lité, à son essence ou à son occurrence. L’imprécisionconcerne le contenu de l’information et mesure donc sur

défaut quantitatif de connaissance, sur une mesure [28].L’incomplétude caractérise l’absence d’information ap-portée par la source sur certains aspects du problème.L’ambiguïté exprime la capacité d’une information deconduire à deux interprétations. Elle peut provenir des im-perfections précédentes. Le conflit caractérise deux ou plu-sieurs informations conduisant à des interprétations contra-dictoires et donc incompatibles. Les situations conflic-tuelles sont fréquentes dans les problèmes de fusion, etposent toujours des problèmes difficiles à résoudre. Toutd’abord, la détection des conflits n’est pas forcément fa-cile. Ils peuvent facilement être confondus avec d’autrestypes d’imperfection, ou même avec la complémentaritédes sources. Ensuite, leur identification et leur typologieest une question qui se pose souvent, mais de manière dif-férente suivant leur domaine. Enfin, leur résolution peutprendre différentes formes. Elle peut reposer sur l’élimina-tion de sources non fiables, sur la prise en compte d’infor-mations supplémentaires, etc. Dans certains cas, il peut êtrepréférable de retarder la combinaison et d’attendre d’autresinformations susceptibles de lever les conflits, ou même dene pas fusionner du tout.D’autres caractéristiques de l’information sont plus posi-tives, et sont exploitées pour limiter les imperfections. Laredondance est la qualité de sources qui apportent plu-sieurs fois la même information. La redondance entre lessources est souvent observée, dans la mesure où les sourcesdonnent des informations sur le même phénomène. Idéale-ment, la redondance est exploitée pour réduire les incerti-tudes et les imprécisions. La complémentarité est la pro-priété des sources qui apportent des informations sur desgrandeurs différentes. Elle vient du fait qu’elles ne donnenten général pas d’informations sur les mêmes caractéris-tiques du phénomène observé. Elle est exploitée directe-ment dans le processus de fusion pour avoir une informa-tion globale plus complète et pour lever les ambiguïtés.Les outils probabilistes permettant de modéliser et mesurerl’information, la redondance et la complémentarité serontdécrits dans la partie 3.1.

2.3 Systèmes de fusion et types d’architec-ture

En général, la fusion n’est pas une tâche simple. Ellepeut se décomposer de manière schématique en plusieurstâches. Nous les décrivons succinctement ici, car elles ser-viront de guide à la description des outils théoriques dans lapartie 2. Considérons un problème général de fusion pourlequel on dispose de

sources , et pour lequel

le but est de prendre une décision dans un ensemble de décisions possibles . Les principales étapes àrésoudre pour construire le processus de fusion sont les sui-vantes :

1. Modélisation : cette étape comporte le choix d’un for-malisme, et des expressions des informations à fusion-ner dans ce formalisme. Cette modélisation peut êtreguidée par les informations supplémentaires (sur lesinformations et sur le contexte ou le domaine). Sup-posons pour fixer les idées que chaque source four-


nisse une information représentée par sur la déci-

sion . La forme de dépend bien sûr du forma-

lisme choisi.

2. Estimation : la plupart des modélisations nécessitentune phase d’estimation (par exemple toutes les mé-thodes utilisant des distributions). Là encore les infor-mations supplémentaires peuvent intervenir.

3. Combinaison : cette étape concerne le choix d’un opé-rateur, compatible avec le formalisme de modélisationretenu, et guidé par les informations supplémentaires.

4. Décision : c’est l’étape ultime de la fusion, qui permetde passer des informations fournies par les sources auchoix d’une décision .

La manière dont ces étapes sont agencées définit le systèmede fusion et son architecture. En particulier on distingue lessystèmes décentralisés dans lesquels des décisions localessont prises au niveau de chaque source séparément puissont fusionnées en une décision globale, et les systèmescentralisés dans lesquels on combine par une opération tous les

relatifs à la même décision , pour obtenirune forme fusionnée

, puis unedécision est prise sur le résultat de cette combinaison. Cesdeux types de systèmes ont des propriétés différentes surlesquelles nous ne revenons pas ici. Nous nous restreignonsau deuxième type dans ce qui suit.

3 Fusion probabiliste et bayésienne3.1 Mesures d’informationLorsqu’on dispose d’un ensemble de

sources , une pre-

mière tâche consiste souvent à le transformer en un sous-ensemble plus réduit, donc de traitement plus simple, sansperdre d’information. Pour exprimer l’apport d’informa-tion dû à l’ajout d’une nouvelle source à un ensembledéjà connu , les notions d’information et d’en-tropie [38, 41] (entropie jointe et entropie conditionnelle)sont bien adaptées. On définit ainsi la redondance entredeux sources par :

(1)

et la complémentarité de la source par rapport à lasource , c’est-à-dire la quantité moyenne d’informationqu’il faut ajouter à pour retrouver :

(2)

Des approches analogues peuvent être envisagées dans uncadre non probabiliste, en s’appuyant par exemple sur l’en-tropie floue [40]. Le formalisme est pour l’instant moinsdéveloppé dans cette direction.En traitement d’images, la notion d’entropie a été élar-gie pour caractériser non seulement la dispersion des me-sures sur l’espace de mesure, mais également la cohérencespatiale des mesures en prenant en compte des probabili-tés d’occurrence de configurations particulières de pixels,soit dans le cadre de classifications [42], soit dans celui de

champs markoviens [57, 56], ce qui peut s’étendre à la fu-sion d’informations spatiales dans un cadre plus général.Les notions d’entropie globale ne sont pas toujours bienadaptées aux problèmes de fusion, et des notions d’entropieconditionnelle aux classes à reconnaître par exemple sontsouvent préférables : elles permettent une analyse plus finede l’information qu’apporte chaque source pour chaqueclasse et sont dont mieux adaptées aux problèmes pourlesquels une source est meilleure pour certaines classes etmoins bonne pour d’autres. Bien que la définition formellede tels concepts ne pose pas de difficulté particulière, ils nesont pas encore beaucoup utilisés en fusion et c’est vrai-semblablement un point qui mériterait d’être approfondi.

3.2 Modélisation et estimationLa théorie la plus exploitée dans la littérature est de loinla théorie des probabilités, associée à la théorie bayésiennede la décision [31]. L’information y est modélisée par uneprobabilité conditionnelle. Ainsi, la mesure introduite dansla partie 2.3 s’écrit-elle sous la forme :

(3)

Cette probabilité est calculée à partir de caractéristiques del’information extraites des sources disponibles. L’appren-tissage des distributions s’appuie sur des outils statistiquesclassiques. C’est en général qui peut être es-timée, et on en déduit la probabilité de l’équation 3 parapplication de la règle de Bayes.L’avantage essentiel des méthodes probabiblites vient de cequ’elles reposent sur une base mathématique solide et ontété l’objet de nombreux travaux. Elles proposent donc unéventail d’outils très riche permettant aussi bien la modé-lisation que l’apprentissage des modèles. Elles proposentégalement des règles d’usage soit théoriques soit heuris-tiques. Enfin la modélisation probabiliste, soutenue parl’interprétation fréquenciste largement répandue dans lemonde de la physique et du traitement du signal, est actuel-lement un concept universellement partagé qui sert naturel-lement de base de comparaison aux autres modélisations.Mais les méthodes probabilistes sont également l’objet decritiques. Tout d’abord, si elles représentent bien l’incer-tain qui entache l’information, elles ne permettent pas ai-sément de représenter son imprécision, et elles conduisentsouvent à confondre ces deux notions. Ensuite, elles né-cessitent que, lors de l’apprentissage, des contraintes trèsstrictes soient vérifiées par les mesures (imposées par lesaxiomes de base des probabilités) et par l’ensemble declasses considéré (exhaustivité). Ces contraintes peuventrendre l’apprentissage très délicat, ou, si le problème à trai-ter est complexe, conduire pratiquement à des incohérencescar l’utilisateur ne peut alors prendre en compte tout le ré-seau des dépendances probabilistes. L’apprentissage de loisde probabilités nécessite, outre les hypothèses, un nombrede données important.

3.3 Combinaison dans un cadre bayésienDans le modèle bayésien, la fusion peut être effectuée demanière équivalente à deux niveaux :


– soit au niveau de la modélisation, et on calcule alors desprobabilités de la forme :

(4)

à l’aide de la règle de Bayes :

(5)

où les différents termes sont estimés par apprentissage ;– soit par la règle de Bayes elle-même, où l’information

issue d’une source vient mettre à jour l’information esti-mée d’après les sources précédentes :

(6)

Très souvent, étant données la complexité de l’apprentis-sage à partir de plusieurs capteurs et la difficulté d’obtenirdes statistiques suffisantes, ces équations sont simplifiéessous l’hypothèse d’indépendance. Là encore, des critèresont été proposés pour vérifier la validité de ces hypothèses.Les formules précédentes deviennent alors :

(7)

Cette équation fait apparaître clairement le type de combi-naison des informations, sous la forme d’un produit, doncune fusion conjonctive. Il est notable que la probabilité apriori joue exactement le même rôle dans la combinaisonque chacune des sources, auxquelles elle est combinée éga-lement par un produit.Malgré les avantages de cette combinaision, elle estcontrainte, comme pour la modélisation, par les axiomesdes probabilités, et son utilisation en pratique nécessitesouvent des hypothèses simplificatrices (comme l’indépen-dance) rarement vérifiées. Elle nécessite de plus l’estima-tion des probabilités a priori , qui est souvent délicateet est primordiale dans les cas où l’on a peu d’informa-tions. La forme conjonctive de la fusion bayésienne conduitsouvent en pratique à un effondrement des probabilités desévénements qui sont déduits d’une longue chaîne de dé-duction. Enfin, elle ne permet pas de modéliser l’ignorancepour la prendre en compte dans la combinaison.

3.4 Combinaison vue comme un problèmed’estimation

Une autre manière de voir la fusion probabiliste consiste àconsidérer que chaque source donne une probabilité (d’ap-partenance à une classe par exemple), et que la fusionconsiste à combiner ces probabilités pour trouver la pro-babilité globale d’appartenance à la classe. Cette visionrevient à considérer la fusion comme un problème d’es-timation, et permet d’utiliser des opérateurs de combinai-son différents du produit. En particulier les méthodes de

moyenne ou moyenne pondérée, de médiane, de consensussont souvent employées [21, 32]. Des estimateurs robustespeuvent également être employés, afin de limiter ou suppri-mer l’influence des valeurs aberrantes (« outliers »). Enfin,des méthodes issues de la théorie des variables régionali-sées [44], telles que le krigeage ou le krigeage universel,pourraient également être utilisées dans ce cadre.

3.5 DécisionLa dernière étape concerne la décision, par exemple lechoix de la classe à laquelle appartient un point. Cette dé-cision binaire peut être assortie d’une mesure de la qualitéde cette décision, pouvant éventuellement conduire à la re-jeter. La règle la plus utilisée pour la décision probabilisteet bayésienne est le maximum a posteriori :

si (8)

mais de très nombreux autres critères ont été déve-loppés par les probabilistes et les statisticiens, pourqu’ils s’adaptent au mieux aux besoins de l’utilisateuret au contexte de sa décision : maximum de vraisem-blance, maximum d’entropie, marginale maximale, espé-rance maximale, risque minimal, etc. Cependant, la grandevariété de ces critères laisse l’utilisateur à nouveau démunidevant la justification d’un choix et l’éloigne de l’objecti-vité recherchée initialement par ces méthodes.

4 Fusion dans la théorie des fonc-tions de croyance

La théorie des fonctions de croyance (ou théorie deDempster-Shafer) date des années 70. Nous montrons danscette partie quelles sont les caractéristiques de cette théo-rie qui justifient que l’on s’y intéresse, aussi bien du pointde vue de la représentation des connaissances et de leursimperfections (imprécision, incertitude, ambiguïté, igno-rance, conflit) que de leur combinaison.

4.1 ModélisationLa théorie des fonctions de croyance permet, de manièreanalogue à la théorie des possibilités comme nous le ver-rons dans la partie suivante, de représenter à la fois l’impré-cision et l’incertitude, à l’aide de fonctions de masse , deplausibilité

et de croyance [50, 35, 51]. Les fonc-tions de masse sont définies sur tous les sous-ensemblesde l’espace de discernement (contenant par exemple lesclasses auxquelles on s’intéresse) et pas simplement sur lessingletons comme les probabilités qui ne mesurent que laprobabilité d’appartenance à une classe donnée.Posons où chaque désigne une hy-pothèse en faveur de laquelle une décision peut être prise(typiquement une classe dans un problème de classificationmulti-sources). Une fonction de masse est définie commeune fonction de (ensemble des parties de ) dans .En général on impose , et une normalisation dela forme :

"! (9)


qui garantit une sorte de commensurabilité entre plusieursjeux de masse.La contrainte " correspond à une hypothèse demonde clos, dans lequel toutes les solutions possibles sonteffectivement représentées dans (ce qui suppose quel’on est capable de les énumérer). Si l’on relâche cettecontrainte et que l’on accepte d’avoir une masse stricte-ment positive sur , cela correspond alors à une hypothèsede monde ouvert, dans lequel des solutions hors de sontenvisageables.Une fonction de croyance est une fonction totalementcroissante définie de dans :

! ! !

!

(10)où désigne le cardinal de , et telle que , " . Etant donnée une fonction de masse , lafonction définie par :

! !

(11)

est une fonction de croyance. Inversement, à partir d’unefonction de croyance définie comme une fonction tota-lement croissante (inégalité 10) telle que " , " , on peut définir une fonction de masse par :

! !

(12)

Cette fonction de masse vérifie alors l’équation 11. Lafonction de croyance mesure la confiance totale que l’ona dans un sous-ensemble ! .Une fonction de plausibilité

est également une fonc-tion de dans définie par :

! "!

"!!

(13)La plausibilité mesure la confiance maximum que l’on peutavoir dans ! . Cette fonction a une interprétation natu-relle dans le modèle des croyances transférables [51] oùl’on considère que l’apport d’information peut permettrede transférer des croyances sur des sous-ensembles plusprécis. La plausibilité représente alors la croyance maxi-male que l’on pourrait potentiellement affecter à un sous-ensemble ! si l’on apprend par exemple que la solu-tion se trouve dans ! (toute la confiance mise dans unsous-ensemble intersectant ! est alors transférée sur! afin de mettre à 0 la confiance sur ! ). L’intervalle ! ! est appelée intervalle de confiance et salongueur est une mesure de l’ignorance que l’on a sur unévénement ! et son complémentaire.Si l’on affecte des masses uniquement aux hypothèsessimples ( "! pour ! #" ), alors les trois fonctions , et

sont égales et sont une probabilité. Dansles cas plus complexes, ce n’est pas le cas et il n’y a pasd’équivalence directe avec des probabilités. L’analogue des

fonctions de crédibilité et de plausibilité pourrait être ob-tenue par exemple à partir de probabilités conditionnellesà des comportements pessimistes et optimistes respective-ment, mais leur formalisation serait beaucoup plus délicateque ce que propose la théorie des fonctions de croyance.La possibilité d’affecter des masses aux hypothèses com-posées, et donc de travailler sur plutôt que sur consti-tue un des avantages de cette théorie. Elle permet en ef-fet une modélisation très souple et très riche, en particulierde l’ambiguïté, de l’incomplétude, de l’imprécision et del’incertitude, en analysant les capacités de chaque source àdonner une information sur chaque décision possible.

4.2 Estimation des fonctions de masseL’estimation des fonctions de masse est un problème dif-ficile, qui n’a pas de solution universelle. La difficulté estaugmentée ici si l’on veut affecter des masses aux hypo-thèses composées [33, 39]. La manière la plus simple quel’on puisse imaginer consiste à calculer les masses sur lessingletons dans une source par , où est estimée le plus souvent comme une probabilité.Les masses sur tous les autres sous-ensembles de sontalors nulles. Il est clair que ce modèle est très réducteur etn’exploite pas les caractéristiques intéressantes de la théo-rie des fonctions de croyance. Beaucoup d’approches s’ap-puient toutefois sur un tel modèle initial, puis répartissentles masses sur l’ensemble des hypothèses composées, oun’utilisent que certaines hypothèses composées, dans unedémarche simplificatrice et souvent très heuristique. Maisd’autres approches peuvent également être envisagées. Desmodifications des modèles probabilistes ont été proposées,introduisant une masse sur par affaiblissement [50], enprenant en compte l’information sur tout ce qui n’est pas [1], etc. Des approches fondée sur des distances à desprototypes ont également été proposées [23], s’inspirantde ce qui est fait en reconnaissance des formes. Dans denombreuses applications, il est possible de disposer d’in-formations a priori qui permettent de déterminer de ma-nière supervisée quels sont les éléments focaux à prendreen compte. Ces méthodes ont été utilisées par exemple dans[6, 55, 47]. Des méthodes d’apprentissage des éléments fo-caux ont également été proposées, à partir des intersectionsentre les classes détectées par les différentes sources indivi-duellement [43] ou de de mesures de dissonance et conso-nance [45], ou d’opérations de morphologie mathématique[7].

4.3 Combinaison conjonctiveSoit ($ ) la fonction de masse définie pourla source $ . La combinaison conjonctive des fonctions demasse est effectuée selon la règle orthogonale de Dempster[50] : !% & '& !

() *+

(14)

Des justifications axiomatiques de cette règle peuvent êtretrouvées dans [51]. Les différences entre ces axiomes etceux de Cox [22] (qui permettent de justifier les règles des


probabilités) expliquent les origines des différences entreles deux théories [4].Dans cette équation non normalisée, la masse affectéepar la combinaison à l’ensemble vide est en général nonnulle. Elle s’interprète souvent comme le conflit entreles sources. Notons que cette mesure de conflit n’est pasune mesure absolue mais dépend de la modélisation ef-fectuée (en particulier de la répartition des masses surles différents sous-ensembles de ). Le conflit peut avoirdeux sources essentielles : soit les sources ne sont pasfiables, soit elles donnent des informations sur des phé-nomènes différents. Dans le premier cas, il est acceptablede combiner les sources, et une solution pour prendreen compte le conflit est d’affaiblir les sources en fonc-tion de leur fiabilité. Dans le deuxième cas, la combinai-son n’a pas de sens. Des méthodes de regroupement dessources selon les phénomènes qu’elles observent ont étéproposées, visant à combiner les sources à l’intérieur dechaque groupe uniquement. Ces groupes sont calculés desorte à minimiser le conflit dans chaque groupe [48, 47].Dans une hypothèse de monde ouvert, une masse non nullesur l’ensemble vide peut également représenter une so-lution non prévue dans . Sous l’hypothèse du mondefermé, où tout ce qui est possible est représenté dans ,cette interprétation n’est pas acceptable, ce qui conduità normaliser le résultat de la combinaison en le divisantpar ( *+ (si cettequantité est non nulle) et en forçant la masse de l’ensemblevide à 0. Il est important de prendre en compte la valeur duconflit pour juger de la qualité de la combinaison : celle-ci peut ne pas avoir grand sens en cas de fort conflit etconduire à des décisions criticables. La forme non norma-lisée est donc le plus souvent préférable en cas de conflit.La règle de combinaison est commutative et associative.La fonction de masse définie par " et

! % ! "! est élément neutre pour la combi-naison. Cette masse représente une source complètementnon informative, qui ne distingue aucun élément de .La définition de cette fonction de masse remplace le prin-cipe d’indifférence utilisé en probabilités, et représentemieux l’absence d’information. Notons que la loi & n’estpas idempotente. La règle de Demspter a un comporte-ment conjonctif, puisqu’elle donne des éléments focaux quisont les intersections des éléments focaux des fonctions demasse initiales. Elle renforce donc la focalisation, et di-minue la longueur des intervalles de confiance .Dans le cas général, ainsi que le montre la formule 14,la combinaison est de complexité exponentielle. En pra-tique il est rare que tous les sous-ensembles de soient àprendre en compte, et la complexité reste souvent plus rai-sonnable. Une complexité linéaire est obtenue si les massessont modélisées selon la structure de Barnett [2], c’est-à-dire où les éléments focaux de chaque source sont unique-ment les singletons et les compléments des singletons.

D’autres modes de combinaison, tels que des modes dis-jonctifs ou de compromis, sont possibles, en remplaçantl’intersection dans la formule 14 par une autre opérationensembliste. Par exemple, une fusion disjonctive est obte-

nue en prenant la réunion [53]. Cette combinaison ne peutpas faire apparaître de conflit. Elle élargit les éléments fo-caux et fournit donc une information moins précise quechacune des sources. Ce mode de fusion peut être intéres-sant quand on ne sait pas modéliser a priori les fiabilitésdes sources, leurs ambiguïtés et imprécisions. Par exemple,si une source est focalisée sur ! et une autre sur avec! , une manière de ne pas lever le conflit est deconclure que la vérité est dans ! , ce que permet lafusion disjonctive.Toutefois, dans la plupart des applications en fusion, oncherche à obtenir une fonction de masse combinée plus fo-calisée que les fonctions de masse initiales. Ainsi, on pré-fère la fusion conjonctive, ce qui implique de prendre encompte les imprécisions, fiabilités, ambiguïtés de chaquesource à l’étape de modélisation. Elle constitue alorsl’étape la plus cruciale et qui requiert le plus d’attention.

4.4 DécisionUne fois calculées les fonctions de masse combinées, lesfonctions de croyance et de plausibilité sont déduites parles équations 11 et 13. La dernière étape est celle de la déci-sion, donc du choix d’un sous-ensemble de maximisantun certain critère.Dans la théorie des fonctions de croyances, plusieurs règlesde décision sont possibles, telle que le maximum de plau-sibilité, de croyance, de probabilité pignistique [52], aux-quelles on peut associer des critères de rejet, de coût [23],de préservation éventuelle des ambiguïtés, etc.

5 Fusion floue et possibiliste5.1 ModélisationLa théorie des ensembles flous fournit un très bon ou-til pour représenter explicitement des informations impré-cises, sous la forme de fonctions d’appartenance [60]. Lamesure

prend alors la forme , où dé-

signe par exemple le degré d’appartenance d’un élémentà la classe selon la source , ou la traduction d’uneinformation symbolique exprimée par une variable linguis-tique. Ces fonctions ne souffrent pas des contraintes axio-matiques imposées aux probabilités et offrent donc uneplus grande souplesse lors de la modélisation. Cette sou-plesse peut être considérée comme un inconvénient puis-qu’elle laisse facilement l’utilisateur démuni pour définirces fonctions. L’inconvénient des ensembles flous est qu’ilsreprésentent essentiellement le caractère imprécis des in-formations, l’incertitude étant représentée de manière im-plicite et n’étant accessible que par déduction à partir desdifférentes fonctions d’appartenance. La théorie des possi-bilités [61, 28], dérivée des ensembles flous, permet de re-présenter à la fois l’imprécision et l’incertitude, par l’inter-médiaire de distributions de possibilités et de deux fonc-tions caractérisant les événements : la possibilité et lanécessité . Dans le cadre de la fusion numérique, une ap-plication possible de cette théorie consiste à définir sur (l’ensemble des décisions possibles) et la mesure

par

, c’est-à-dire comme le degré de possibi-


lité de la décision , selon la source . Dans un problèmede classification, cette modélisation suppose que les classes(ou décisions) sont nettes, alors que le modèle flou supposeque les classes sont floues.

5.2 Définition des fonctions d’appartenanceou des distributions de possibilité

La construction des fonctions d’appartenance ou distribu-tions de possibilités peut être effectuée de plusieurs ma-nières. Dans la plupart des applications, cette constructionest faite soit en s’inspirant directement des méthodes d’ap-prentissage probabiliste, soit par des heuristiques, soit pardes méthodes neuromimétiques permettant d’apprendre lesparamètres de formes particulières de fonctions d’apparte-nance, soit enfin par la minimisation de critères de classi-fication [3]. Des informations spatiales peuvent être prisesen compte facilement grâce au développement des tech-niques floues dans ce domaine, en particulier en traitementd’images [9]. La construction de distributions de possibi-lités peut également être effectuée à partir d’un appren-tissage probabiliste, puis par une transformation de pro-babilité en possibilité. Plusieurs méthodes ont été propo-sées pour cela [26, 25, 37]. D’autres méthodes cherchentà estimer directement les fonctions d’appartenance à par-tir de l’histogramme, afin d’optimiser des critères d’entro-pie [19], ou de minimum de spécificité et de cohérence[20]. Dans tous les cas, ces méthodes cherchent une res-semblance entre l’histogramme et les fonctions d’appar-tenance ou les distributions de possibilité, et ne prennentpas en compte les interprétations spécifiques au flou quiinvalident certaines de ces ressemblances. Par exemple, lesqueues des histogrammes correspondent aux classes peureprésentées, donc avec des valeurs qui peuvent être trèsfaibles, même si les points concernés appartiennent bienaux classes correspondantes. La méthode proposée dans[11] permet d’éviter ce problème grâce à un critère com-binant la ressemblance des fonctions d’appartenance et del’histogramme là où elle a un sens, et une forme a priorides fonctions correspondant à l’interprétation recherchée.Les paramètres des fonctions d’appartenance sont alors es-timés pour optimiser ce critère, par une méthode de recuitsimulé.

5.3 Combinaison

Un des intérêts de la théorie des ensembles flous et despossibilités, outre qu’elle impose peu de contraintes au ni-veau de la modélisation, est qu’elle offre une grande variétéd’opérateurs de combinaison. Nous en présentons les prin-cipaux, puis nous donnons quelques indications permettantde choisir un opérateur de fusion en fonction de ses pro-priétés et de son comportement.Une caractéristique importante, commune à toutes les théo-ries, de ces opérateurs de combinaison est qu’ils four-nissent un résultat de même nature que les fonctions dedépart (propriété de fermeture) et qui a donc la même in-terprétation en termes d’imprécision et d’incertitude. Ainsi,ils permettent de ne prendre aucune décision binaire par-tielle avant la combinaison, ce qui pourrait conduire à des

contradictions difficiles à lever. La décision n’est prisequ’en dernier lieu, sur le résultat de la combinaison.Dans la théorie des ensembles flous et des possibilités, demultiples modes de combinaison sont possibles [27, 59].Parmi les principaux opérateurs on trouve en particulier lest-normes, les t-conormes [46, 49], les moyennes [58, 34],les sommes symétriques, et des opérateurs prenant encompte des mesures de conflit ou encore de fiabilité dessources [29, 24]. Nous n’en rappelons pas les définitionsici, faute de place.Le choix d’un opérateur peut se faire selon plusieurs cri-tères [5]. Un premier critère est le comportement de l’opé-rateur. Des comportements sévères, indulgents ou prudentsse traduisent sous forme mathématique de conjonction, dis-jonction ou compromis. Soit et deux réels (dans )représentant les degrés de confiance à combiner. La com-binaison de et par un opérateur est dite :– conjonctive si (correspondant à un

comportement sévère),– disjonctive si (comportement in-

dulgent),– de compromis si si , et sinon (comportement prudent).

Cette distinction ne suffit pas à classer les opérateurs dontle comportement n’est pas toujours le même. Ainsi, la clas-sification définie dans [5] ne décrit pas les opérateurs seule-ment comme conjonctifs ou disjonctifs, mais aussi en fonc-tion de leur comportement selon les valeurs des informa-tions à combiner. Ainsi, les trois classes proposées corres-pondent :

1. aux opérateurs autonomes à comportement constant(ACC) : le résultat ne dépend que des valeurs à com-biner (le calcul ne fait intervenir aucune autre infor-mation) et le comportement est le même quelles quesoient ces valeurs ;

2. aux opérateurs autonomes à comportement variable(ACV) : le comportement dépend des valeurs numé-riques des informations à fusionner ;

3. aux opérateurs dépendant du contexte (DC), parexemple d’une connaissance plus globale telle que lafiabilité des capteurs, ou encore le conflit entre lessources.

Les opérateurs de fusion floue se répartissent dans les troisclasses. Cette classification, qui regroupe tous les opéra-teurs classiquement utilisés, constitue un premier critère dechoix d’un opérateur pour une application spécifique.Un deuxième critère est donné par les propriétés des opéra-teurs et leur interprétation en termes de fusion de donnéesincertaines, imprécises, incomplètes ou encore ambiguës.Enfin, l’étude du comportement des opérateurs en termesde qualité de la décision à laquelle ils conduisent, et deréaction face aux situations conflictuelles conduit à un der-nier critère de choix. Un point important toutefois concernele pouvoir discriminant des opérateurs. Les opérateurs for-tement conjonctifs ou fortement disjonctifs (la t-norme etla t-conorme de Lukasiewicz par exemple) saturent trèsvite à 0 ou à 1 et donc sont souvent peu discriminants. Par


exemple, avec la t-conorme , on a , " , ou encore " , alors que ces trois situations ont des interprétations biendifférentes.La capacité des opérateurs à combiner des informationsquantitatives (numériques) ou qualitatives (pour lesquelsseul un ordre est connu) peut être également un critère dechoix. Par exemple, le min, le max et tout filtre de rangsont intéressants à ce titre puisqu’ils peuvent combiner lesdeux types d’informations. En effet, le calcul de par exemple ne nécessite que de connaître un ordre entre et , mais ne nécessite pas de connaître leur valeur nu-mérique. Les opérations ordinales sont de plus imposées sion veut qu’elles soient invariantes par une transformationcroissante des degrés d’appartenance [30].

5.4 Décision

La règle principalement utilisée en fusion floue est le maxi-mum des degrés d’appartenance :

si (15)

où désigne la fonction d’appartenance à la classe ré-sultant de la combinaison.La qualité de la décision est mesurée essentiellement selondeux critères :– le premier porte sur la « netteté » de la décision : le de-

gré d’appartenance maximum (ou plus généralement ce-lui correspondant à la décision) est comparé à un seuil,choisi selon les applications (et éventuellement selonl’opérateur de combinaison choisi) ;

– le deuxième porte sur le caractère « discriminant » dela décision, évalué par comparaison des deux valeurs lesplus fortes.

Dans le cas où ces critères ne sont pas vérifiés pour un élé-ment , celui-ci est placé dans une classe de rejet, ou re-classifié en fonction d’autres critères, spatiaux par exemple(voir partie 6).

6 Introduction d’informations spa-tiales dans la fusion

L’information spatiale est fondamentale en traitementd’images, en robotique, ou plus généralement en traitementet fusion d’informations spatiales. Son introduction dansles méthodes de fusion est cruciale, et nécessite souvent desdéveloppements spécifiques pour adapter les méthodes is-sues d’autres domaines. Un des objectifs les plus fréquentsest de garantir que la décision soit spatialement cohérente.Par exemple, en classification multi-sources, on va cher-cher à éviter les points isolés dans une classe différente.L’introduction de l’information spatiale au niveau de lamodélisation est plus ou moins implicite suivant le niveaude représentation auquel on se place. Si l’on raisonne au ni-veau des points, l’information spatiale doit être introduiteexplicitement. Le contexte spatial considéré est le plus sou-vent le voisinage local de chaque point. Si l’on raisonneau niveau de primitives (segments, contours, régions) ou

au niveau des objets ou structures de la scène, l’informa-tion spatiale locale est implicitement prise en compte dansla représentation. Si la détection de ces éléments n’est pasprécise ou si leur localisation ne l’est pas (par exemple àcause de l’imperfection du recalage entre les sources oudu positionnement d’un robot), il est souvent souhaitabled’introduire cette imprécision spatiale explicitement dansla représentation, avant la fusion. La dilatation floue estune opération bien adaptée à cela [15, 17, 18]. Cela permetde réduire le conflit au moment de la fusion, et donc dechoisir simplement et sans risque un mode de combinaisonconjonctif. De manière moins locale, les relations spatialesentre primitives constituent une information importante surla structure de la scène [10] et elles peuvent avantageuse-ment être prises en compte dans la fusion, comme sourced’informations supplémentaire [14, 12]. Dans ce cas, lecontexte spatial d’un élément est un ensemble deprimitives ou d’objets dont on connaît les relations spa-tiales par rapport à .

L’introduction de l’information spatiale au niveau de ladécision est la plus facile. La méthode la plus couranteconsiste à établir dans un premier temps une règle de re-jet (en fonction de la netteté et du caractère discriminant dela décision) puis à reclasser les éléments rejetés en fonctionde leur contexte spatial. Des règles de type vote majoritairesont très souvent utilisées pour cela.

L’introduction de l’information spatiale au niveau de lacombinaison est plus rare et plus délicate. En fusion pro-babiliste, les champs de Markov offrent un cadre naturelpour cela. Dans l’expression de la règle de Bayes, c’estdans la probabilité a priori qu’intervient l’hypothèse mar-kovienne. Cette probabilité est combinée aux probabili-tés conditionnelles aux classes par un produit. Cette re-marque nous conduit à considérer que l’information spa-tiale constitue dans ce modèle une source de données aumême titre que les autres. C’est l’approche la plus cou-rante, et elle a été appliquée à plusieurs niveaux de repré-sentation. Au niveau local, du point par exemple, de nom-breux exemples peuvent être trouvés dans la littérature. Aun niveau plus structurel, les champs de Markov sont défi-nis sur des graphes plus généraux que les graphes de pixels(les nœuds sont des primitives ou même des objets). Dansles autres théories, il serait également possible de dévelop-per des approches similaires, toujours en considérant l’in-formation spatiale comme une source de données supplé-mentaire. C’est par exemple le cas des relations spatialesmentionnées plus haut considérées comme source supplé-mentaire d’informations : la reconnaissance d’un objet peutrésulter de la fusion d’informations sur cet objet, et d’in-formations sur les relations qu’il doit avoir par rapport àd’autres objets. Le cadre des ensembles flous permet à lafois la représentation et la fusion de telles informations [8].Autre exemple, dans [36], une fonction de masse est défi-nie pour représenter le contexte spatial, et combinée à desfonctions de masse représentant les informations extraitesdes images par la règle de Dempster. Toutefois, encore peude travaux existent dans ce domaine, qui mérite certaine-ment d’être développé.


7 ConclusionEn fusion numérique, les efforts des dernières années ontpermis d’aboutir à une meilleure compréhension des diffé-rentes théories. On sait ainsi maintenant quels sont les bonscadres d’application de ces théories, leurs atouts et limites.De nombreuses applications ont vues le jour, entre autresen robotique. L’introduction d’informations spatiales dansla fusion est un point important, pour lequel l’ensemble desméthodes existantes pourrait être encore étoffé. Des tra-vaux sur la combinaison de méthodes sont également pro-metteurs puisqu’ils visent à exploiter les avantages des dif-férentes théories pour les faire coopérer. Cette combinaisonpeut s’appuyer sur les liens qui existent entre les différentesapproches.

RemerciementsPlusieurs éléments de discussion, en particulier dans lapartie 2, sont issus de réunions de deux groupes de tra-vail : European Working Group Fusion, et le GT fusion duGDR ISIS. L’auteur tient à remercier les participants à cesgroupes, ainsi que Henri Maître qui a initié nos rechercheset y a fortement contribué, et Patrick Rives pour son invita-tion.

Références[1] A. Appriou. Formulation et traitement de l’incertain en

analyse multi-senseurs. In Quatorzième Colloque GRETSI,pages 951–954, Juan les Pins, 1993.

[2] J. A. Barnett. Computational Methods for a MathematicalTheory of Evidence. In Proc. of 7th IJCAI, pages 868–875,Vancouver, 1981.

[3] J. C. Bezdek. Pattern Recognition with Fuzzy ObjectiveFunction Algorithms. Plenum, New-York, 1981.

[4] I. Bloch. Fondements des probabilités et des croyances : unediscussion des travaux de Cox et Smets. In 15ème ColloqueGRETSI, pages 909–912, Juan-les-Pins, France, September1995.

[5] I. Bloch. Information Combination Operators for Data Fu-sion : A Comparative Review with Classification. IEEETransactions on Systems, Man, and Cybernetics, 26(1) :52–67, 1996.

[6] I. Bloch. Some Aspects of Dempster-Shafer Evi-dence Theory for Classification of Multi-Modality MedicalImages Taking Partial Volume Effect into Account. PatternRecognition Letters, 17(8) :905–919, 1996.

[7] I. Bloch. Using Fuzzy Mathematical Morphology in theDempster-Shafer Framework for Image Fusion under Im-precision. In IFSA’97, pages 209–214, Prague, June 1997.

[8] I. Bloch. Spatial Representation of Spatial RelationshipsKnowledge. In A. G. Cohn, F. Giunchiglia, and B. Sel-man, editors, 7th International Conference on Principles ofKnowledge Representation and Reasoning KR 2000, pages247–258, Breckenridge, CO, 2000. Morgan Kaufmann, SanFrancisco, CA.

[9] I. Bloch. Traitement d’images. In B. Bouchon-Meunierand C. Marsala, editors, Traitement de données complexeset commande en logique floue, chapter 3, pages 95–152.Hermes, Paris, France, 2003.

[10] I. Bloch. Fuzzy Spatial Relationships for Image Processingand Interpretation : A Review. Image and Vision Computing,23(2) :89–110, 2005.

[11] I. Bloch, L. Aurdal, D. Bijno, and J. Müller. Estimation ofClass Membership Functions for Grey-Level Based ImageFusion. In ICIP’97, volume III, pages 268–271, Santa Bar-bara, CA, October 1997.

[12] I. Bloch, O. Colliot, O. Camara, and T. Géraud. Fusion ofSpatial Relationships for Guiding Recognition. Example ofBrain Structure Recognition in 3D MRI. Pattern Recogni-tion Letters, 26 :449–457, 2005.

[13] I. Bloch and A. Hunter (Eds). Fusion : General Conceptsand Characteristics. International Journal of Intelligent Sys-tems, 16(10) :1107–1134, oct 2001.

[14] I. Bloch, T. Géraud, and H. Maître. Representation and Fu-sion of Heterogeneous Fuzzy Information in the 3D Spacefor Model-Based Structural Recognition - Application to 3DBrain Imaging. Artificial Intelligence Journal, 148 :141–175, 2003.

[15] I. Bloch and H. Maître. Fuzzy Mathematical Morphologies :A Comparative Study. Pattern Recognition, 28(9) :1341–1387, 1995.

[16] I. Bloch and H. Maître. Fusion d’informations en traite-ment d’images : spécificités, modélisation et combinaisonpar des méthodes numériques. Techniques de l’Ingénieur,TE 5 230 :1–26, 2002.

[17] I. Bloch, C. Pellot, F. Sureda, and A. Herment. Fuzzy Mo-delling and Fuzzy Mathematical Morphology applied to 3DReconstruction of Blood Vessels by Multi-Modality DataFusion. In D. Dubois R. Yager and H. Prade, editors, FuzzySet Methods in Information Engineering : A Guided Tour ofApplications, chapter 5, pages 93–110. John Wiley & Sons,New-York, 1996.

[18] P. Buschka, A. Saffiotti, and Z. Wasik. Fuzzy Landmark-Based Localization for a Legged Robot. In IEEE/RSJ In-ternational Conference on Intelligent Robots and Systems(IROS), pages 1205–1210, Takamatsu, Japan, 2000.

[19] H. D. Cheng and J. R. Chen. Automatically Determinethe Membership Function based on the Maximum En-tropy Principle. In 2nd Annual Joint Conf. on InformationSciences, pages 127–130, Wrightsville Beach, NC, 1995.

[20] M. R. Civanlar and H. J. Trussel. Constructing MembershipFunctions using Statistical Data. Fuzzy Sets and Systems,18 :1–13, 1986.

[21] R. Cooke. Experts in Uncertainty. Oxford University Press,Oxford, UK, 1991.

[22] R. T. Cox. Probability, Frequency and Reasonable Expecta-tion. Journal of Physics, 14(1) :115–137, 1946.

[23] T. Denœux. A k-nearest Neighbor Classification Rule ba-sed on Dempster-Shafer Theory. IEEE Transactions on Sys-tems, Man and Cybernetics, 25(5) :804–813, 1995.

[24] S. Deveughele and B. Dubuisson. Using Possibility Theoryin Perception : An Application in Artificial Vision. InSecond IEEE International Conference on Fuzzy Systems,pages 821–826, San Francisco, California, 1993.

[25] B. Bharathi Devi and V. V. S. Sarma. Estimation of FuzzyMemberships from Histograms. Information Sciences,35 :43–59, 1985.


[26] D. Dubois and H. Prade. Unfair Coins and Necessity Mea-sures : Towards a Possibilistic Interpretation of Histograms.Fuzzy Sets and Systems, 10(1) :15–20, 1983.

[27] D. Dubois and H. Prade. A Review of Fuzzy Set Aggrega-tion Connectives. Information Sciences, 36 :85–121, 1985.

[28] D. Dubois and H. Prade. Possibility Theory. Plenum Press,New-York, 1988.

[29] D. Dubois and H. Prade. Combination of Information in theFramework of Possibility Theory. In M. Al Abidi, editor,Data Fusion in Robotics and Machine Intelligence. Acade-mic Press, 1992.

[30] D. Dubois, H. Prade, and R. Yager. Merging Fuzzy Infor-mation. In J.C. Bezdek, D. Dubois, and H. Prade, editors,Handbook of Fuzzy Sets Series, Approximate Reasoning andInformation Systems, chapter 6. Kluwer, 1999.

[31] R. Duda and P. Hart. Pattern Classification and Scene Ana-lysis. Wiley, New-York, 1973.

[32] S. French. Group Consensus Probability Distributions : ACritical Survey. In J. Bernardo et al., editor, Bayesian Sta-tistics, pages 183–201. Elsevier, The Netherlands, 1985.

[33] T. D. Garvey. Evidential Reasoning for Land-Use Classifi-cation. In Analytical Methods in Remote Sensing for Geo-graphic Information Systems, International Association ofPattern Recognition, Technical Committee 7 Workshop, Pa-ris, October 1986.

[34] M. Grabisch. Fuzzy Integral in Multicriteria Decision Ma-king. Fuzzy Sets and Systems, 69 :279–298, 1995.

[35] J. Guan and D. A. Bell. Evidence Theory and its Applica-tions. North-Holland, Amsterdam, 1991.

[36] S. Le Hégarat-Mascle, I. Bloch, and D. Vidal-Madjar. Intro-duction of Neighborhood Information in Evidenve Theoryand Application to Data Fusion of Radar and OpticalImages with Partial Cloud Cover. Pattern Recognition,31(11) :1811–1823, 1998.

[37] G. J. Klir and B. Parviz. Probability-Possibility Transforma-tions : A Comparison. Int. J. General Systems, 21 :291–310,1992.

[38] S. Kullback. Information Theory and Statistics. Wiley, NewYork, 1959.

[39] J. D. Lowrance, T. M. Strat, L. P. Wesley, T. D. Garvey, E. H.Ruspini, and D. E. Wilkins. The Theory, Implementationand Practice of Evidential Reasoning. SRI project 5701 finalreport, SRI, Palo Alto, June 1991.

[40] A. De Luca and S. Termini. A Definition of Non-Probabilistic Entropy in the Setting of Fuzzy Set Theory.Information and Control, 20 :301–312, 1972.

[41] H. Maître. Entropy, Information and Image. In H. Maîtreand J. Zinn-Justin, editors, Progress in Picture Processing,Les Houches Session LVIII, pages 881–1115. Springer Ver-lag, 1996.

[42] H. Maître, I. Bloch, and M. Sigelle. Spatial entropy : atool for contextual classification control. In IEEE Int. Confon Image Processing, volume II, pages 212–216, Austin,Texas, November 1994.

[43] S. Mascle, I. Bloch, and D. Vidal-Madjar. Application ofDempster-Shafer Evidence Theory to Unsupervised Clas-sification in Multisource Remote Sensing. IEEE Transac-tions on Geoscience and Remote Sensing, 35(4) :1018–1031, 1997.

[44] G. Matheron. La théorie des variables régionalisées et sesapplications. Technical Report 5, Ecole des Mines de Paris,Centre de Morphologie Mathématique de Fontainebleau,1970.

[45] M. Ménard, E. H. Zahzah, and A. Shahin. Mass Func-tion Assessment : Case of Multiple Hypotheses for the Evi-dential Approach. In Europto Conf. on Image and SignalProcessing for Remote Sensing, Taormina, Italy, September1996.

[46] K. Menger. Statistical Metrics. Proc. National Academy ofSiences USA, 28 :535–537, 1942.

[47] N. Milisavljevic and I. Bloch. Sensor Fusion in Anti-Personnel Mine Detection Using a Two-Level Belief Func-tion Model. IEEE Transactions on Systems, Man and Cy-bernetics, 33(2) :269–283, 2003.

[48] J. Schubert. On Nonspecific Evidence. International Jour-nal of Intelligent Systems, 8 :711–725, 1993.

[49] B. Schweizer and A. Sklar. Probabilistic Metric Spaces.North Holland, Amsterdam, 1983.

[50] G. Shafer. A Mathematical Theory of Evidence. PrincetonUniversity Press, 1976.

[51] P. Smets. The Combination of Evidence in the TransferableBelief Model. IEEE Transactions on Pattern Analysis andMachine Intelligence, 12(5) :447–458, 1990.

[52] P. Smets. Constructing the Pignistic Probability Function ina Context of Uncertainty. Uncertainty in Artificial Intelli-gence, 5 :29–39, 1990.

[53] P. Smets. Belief Functions : The Disjunctive Rule of Com-bination and the Generalized Bayesian Theorem. Interna-tional Journal of Approximate Reasoning, 9 :1–35, 1993.

[54] I. Bloch (sous la direction de). Fusion d’informations entraitement du signal et des images. Hermès, Paris, France,2003.

[55] F. Tupin, I. Bloch, and H. Maître. A First Step Towards Au-tomatic Interpretation of SAR Images using Evidential Fu-sion of Several Structure Detectors. IEEE Transactions onGeoscience and Remote Sensing, 37(3) :1327–1343, 1999.

[56] F. Tupin, M. Sigelle, and H. Maître. Definition of a SpatialEntropy and its Use for Texture Discrimination. In IEEEICIP’2000, volume I, pages 725–728, Vancouver, Canada,2000.

[57] E. Volden, G. Giraudon, and M. Berthod. Modeling ImageRedundancy. In IGARSS’95, volume 3, pages 2148–2150,Firenze, Italy, 1995.

[58] R. R. Yager. On Ordered Weighted Averaging AggregationOperators in Multi-Criteria Decision Making. IEEE Tran-sactions on Systems, Man, and Cybernetics, 18(1) :183–190, 1988.

[59] R. R. Yager. Connectives and Quantifiers in Fuzzy Sets.Fuzzy Sets and Systems, 40 :39–75, 1991.

[60] L. A. Zadeh. Fuzzy Sets. Information and Control, 8 :338–353, 1965.

[61] L. A. Zadeh. Fuzzy Sets as a Basis for a Theory of Possibi-lity. Fuzzy Sets and Systems, 1 :3–28, 1978.


Efficient and certified algorithms for solving polynomial system of equalities and inequalities

Jean-Charles Faugère

Fabrice Rouillier

CALFOR (LIP6) and SALSA (INRIA)

SALSA (INRIA) and CALFOR (LIP6)

[email protected] [email protected]

11th July 2005

AbstractThis paper is of mostly of expository nature and has tobe considered as a support for the author’s lecture atJNRR’05. We mainly describe some efficient strategies forstudying real roots of zero - dimensional systems (with afinite number of complex roots) as well as parametric sys-tems, with or without inequations or inequalities. As an ex-ample we give a new computational proof of the existenceof a parallel robot with

real roots in less than 1 sec

on a PC. An application of solving parametric systems isgiven in the paper: the classification of-revolute-jointedmanipulators based on the cuspidal behavior.

1 IntroductionWhen dealing with polynomial systems, the mathematicalspecification of the result of a computation, in particularwhen the number of solutions is infinite, is itself a difficultproblem [1], [2], [13], [15]. Sorting the most frequentlyasked questions appearing in the applications, one distin-guishes several classes of problems which are different ei-ther by their mathematical structure or by the significancethat one can give to the word“solving” .Some of the following questions have a different meaningsin the real case or in the complex case, others are posedonly in the real case:

zero-dimensional systems (with a finite number ofcomplex solutions - which includes the particular caseof univariate polynomials); The questions in generalare well defined (numerical approximation, number ofsolutions, etc) and the handled mathematical objectsare relatively simple and well-known;

parametric systems; They are generally zero-dimensional for almost all the parameters’ values.The objective consists in characterizing the solutionsof the system (number of real solutions, existence ofa parameterization, etc.) with respect to parameters’values.

positive dimensional systems; For a direct application,the first question is the existence of zeros of a partic-ular type (for example real, real positive, in a finitefield). The resolution of such systems can be con-sidered as a black box for the study of more general

problems (semi-algebraic sets for example) and infor-mation to be extracted is generally the computation ofa point per connected component in the real case.

constructible and semi-algebraic sets; As opposed towhat occurs numerically, the addition of constraintsor inequalities complicates the problem. Even if semi-algebraic sets represent the basic object of the real ge-ometry, their automatic“and effective study”remainsa major challenge. To date, the state of the art is poorsince only two classes of methods are existing :

– the Cylindrical Algebraic Decomposition whichbasically computes a partition of the ambientspace in cells where the signs of a given set ofpolynomials are constant;

– deformations based methods that turn the prob-lem into solving algebraic varieties.

The first solution is limited in terms of performances(maximum 3 or 4 variables) because of a recursivetreatment variable by variable, the second also be-cause of the use of a sophisticated arithmetic (formalinfinitesimals).

quantified formulas; deciding efficiently if a first orderformula is valid or not is certainly one of the great-est challenges in |em “effective” real algebraic geom-etry. However this problem is relatively well encircledsince it can always be rewritten as the conjunction of(supposed to be) simpler problems like the computa-tion of a point per connected component of a semi-algebraic set.

In the present document, we focus on zero-dimensional andparametric systems which currently represents the mainclass of non trivial practical problems which can be solvedusing recent algorithm from computer algebra.We denote by

the ring of polynomials withrational coefficients and unknowns

and

any subset of . A point

is a zero of if

. The ideal generated by

is the set of

polynomials in constituted by all the com-

binations!"#$ # %# with %# . Since


every element of

vanishes at each zero of , we denoteby

(resp.

) the set of complex(resp. real) zeroes of .

2 Gröbner basesA Gröbner basis of an ideal

is a computable generator

set of

with good algorithmical properties (as describedbelow) and defined with respect to a monomial ordering.For instance thelexicographic” order(Lex) is defined by

iff such that

and .Lets define some useful notations :

Definition 1 For any n-uple ,

let denote by

the monomial

. If

isan admissible (compatible with the multiplication) mono-mial ordering and

! $ any polynomial in

, we define :

!" # $% $ &&& ' (

(leading mono-

mial of

w.r.t.

)

! ) with

such that!*

(leading coefficient of

w.r.t.

)

!* ! ) + !" (leading term ofw.r.t.

)

Lets define the mathematical object “Gröbner”:

Definition 2 A set of polynomials, is a Gröbner basis ofan ideal

wrt to a monomial ordering

if for all -

there exists. , such that LM. divides LM

- .Given any admissible monomial ordering one can extendthe classical Euclidean division toreducea polynomial

by

another one or, more generally, by a set of polynomials/ .Lets denote by012341 / the result of this division.Unlike in the univariate case, the result of such a process isnot canonical and depends on the monomial ordering usedbut also on the order you perform the reductions. One ofthe main properties of Gröbner basis is to provide an algo-rithmic method for deciding if a polynomial belongs or notto an ideal :

Theorem 1 Let , be a Gröbner basis, of an ideal 5

for any monomial ordering

.

(i) a polynomial

belongs to

if and

only if Reduce ,

,

(ii) Reduce(,, ,

) does not depend on the order of the

polynomials in the list, , thus, this is a canonical re-duced expression modulus

.

Gröbner bases are computable objects. The historicalmethod for computing them is Buchberger’s algorithm([7, 6]). It has several variants and it is implemented in

most of general computer algebra systems like Maple orMathematica. Recently, more efficient algorithms havebeen proposed to compute Gröbner bases:

the/6 algorithm [10] is based on the intensive use oflinear algebra methods: in short, the arbitrary choicesare left to computational strategies related to classicallinear algebra problems (mainly the computation ofrow echelon form).

In [12] a new criterion (the/7 criterion) for detect-ing useless computations has been given; under someregularity conditions on the system, it is proved thatthe algorithm do never perform useless computations.A new algorithm named/7 has been built using thesetwo ideas: the/7 algorithm constructs incrementallythe following matrices in degree8:

9 : ; < ; = < ; > ?-?= -=?> ->

@AAB

CDDE

where the indices of the columns are mono-mials sorted for the admissible ordering

and the rows are product of some poly-nomials - FG HI# 1 # IJI# K$LH ?M

such that21N ?M - 8 For a regular system the matri-

ces9 :

are full rank. In a second step, row echelonforms of the matrices are computed:

9 O: ; ; = ; > ?- ?= -=?> ->

@AAB

CDDE

Even if /7 still computes the same mathematical object (aGröbner basis), the gap with existing other algorithms isconsequent. In particular, due to the range of examples thatbecome computable, Gröbner basis can be considered as areasonable computable object in large applications. Im-portant parameters to evaluate the complexity of Gröbnerbases with the/7 are theP the maximal degree8 occur-ring in the computation and the size of the matrix

9 : The

overall cost is thus dominated byQ 9 : >

.

We pay a particular attention to Gröbner bases computedfor elimination orderings since they provide a way of sim-plifying the system (an equivalent system with a structuredshape). For example, a lexicographic Gröbner basis of a


zero dimensional system has always the following shape :

- -= = ...-# = -# = > ...-# ...-#

(when the system is not zero dimensional some of the poly-nomials may be identically null). A well known property isthat the zeros of the smallest (w.r.t.

) non null polynomial

define the Zariski closure (classical closure in the case ofcomplex coefficients) of the projection on the coordinate’sspace associated with the smallest variables.More generally, an admissible ordering

on the mono-

mials depending on variables% % : : which eliminates

: is an ordering such

that % M 8 8 .

The lexicographic ordering is a particular eliminationordering. Given two monomial orderings

(w.r.t.

the variables% % :) and

(w.r.t. the variables : one can define an ordering which “elim-

inates“ :

by setting the so called block or-dering

' as follows : given two monomials; and; O, ; ' ; O

if and only if ; =; O or (; ; O and; ; O ).Two important applications of elimination theory are the“projections” and “localizations“. In the following, givenany subset of

:(8 is an arbitrary positive integer),

is its Zariski closure, say the smallest subset of :

con-taining which is the zero set of a system of polynomialequations.

Proposition 1 Let , be a Gröbner basis of an ideal 5

% w.r.t.

' , then, % is a Gröbner basis of %

w.r.t.

;Let be a new indeterminate, thenV

V- V

- % . If , O 5 %

is a Gröb-ner basis of

- with respect to ' ' then, O %

is a Gröbner basis of - -

% w.r.t.

' . The varietyV V

- andthe ideal

- are usually called the localization of V

and

by - .

3 Zero-dimensional systemsZero-dimensional systems are polynomial systems with afinite number of complex solutions. This specific case isfundamental for many engineering applications. The fol-lowing theorem shows that we can detect easily that a sys-tem is zero dimensional or not by computing a Gröbnerbase for any monomial ordering :

Theorem 2 Let , . . be a Gröbner basisfor any ordering

of any system

. The two following properties are equiv-

alent :

For all index,

, there exists a polynomial.M , and a positive integerM

such that

LM.M ;

The system

has a finite numberof solutions in

.

If is zero-dimensional, then, according to theo-rem 2, only a finite number of monomials;

are not reducible modulo, , meaning thatReduce(; ,, ,

) ; . Mathematically, a system is zero-

dimensional if and only if is a -vector

space of finite dimension. This vector space can fully becharacterized when knowing a Gröbner basis:

Theorem 3 Let be a set of polynomi-

als with

, and supposethat , is a Gröbner basis of

with respect to any mono-mial ordering

. Then :

012341 ,

is a

vector space of finite dimension;

? 012341 ? , ? ! !" is a

(vector space) basis of ;

P # is exactly the number of elements of complexzeroes of the system

counted with

multiplicities.

Thus, when a polynomial system is known to be zero-dimensional, one can switch to linear algebra methods toget informations about its roots. Once a Gröbner basis isknown, a basis of

can easily be com-puted (Theorem 3) so that linear algebra methods can beapplied for doing several computations.For any polynomial$

the decom-position $ Reduce($,, ,

)=!

"$ ! is unique

(theorem 1) and we denote by%$ " the representation of$ in the basis . For ex-ample, the matrix w.r.t. of the linear map; & '

% (' ')*can explicitly be computed (its columns are the vectors'$!

) and one can then apply the following well-knowntheorem:

Theorem 4 (Stickelberger) The eigenvalues of; & are ex-actly the$ where .According to Theorem 4, the i-th coordinate of all can be obtained from+ eigenvalues but the issueof finding all the coordinates of all the from


+ + eigenvalues is not explicit nor straight-forward (see [4] for example). Note also that some au-thors propose algorithms to compute numerically the ma-trices + + without computing Gröbner bases(see [16]). Up to our experiments, such computations arenot numerically stable for general manipulators and it maybe preferable to compute, for example, the characteristicpolynomial of the matrix+ and then isolate its realroots. Thus one would prefer to follow with exact com-putations a little bit more, providing exact formulas as ex-plained in the next section.

3.1 The Rational Univariate RepresentationThe Rational Univariate Representation [19] is, with theend-user point of view, the simplest way for representingsymbolically the roots of a zero-dimensional system with-out loosing information (multiplicities or real roots) sinceone can get all the information on the roots of the systemby solving univariate polynomials.Given a zero-dimensional system

<where the

, a Rational Univari-

ate Representation of V has the following shape :

- , where

- . ' . ' . '

( is a new variable). Itis uniquely defined w.r.t. a given polynomial

?which sep-

arates (injective on ), the polynomial- beingnecessarily the characteristic polynomial of; (see abovesection) in

[19]. The RUR defines a bi-jection between the roots of

and those of- preserving

the multiplicities and the real roots :

V V

- ' ? ? For computing a RUR one have to solve two problems :

finding a separating element?

given any polynomial?, compute a RUR-Candidate- . '

. ' . ' such that if?

is a separatingpolynomial, then the RUR-Candidate is a RUR.

According to [19], a RUR-Candidate can explicitly becomputed when knowing a suitable representation of

:

- !"$

is the characteristic polynomial of; . Lets denotes by- its square-free part.

for any , . ' . '

!

:$ * $41 ;

: , 8 21N - and M !

M$ MIn [19], a strategy is proposed for computing a RUR forany system (a RUR-Candidate and a separating element),but there are special cases where it can be computed differ-ently. When

is separating V

and when

is a radicalideal the system is said to be inshape position. In such

cases, the shape of the lexicographic Gröbner basis is al-ways the following :

- = -= ... -

(1)

As shown in [19], if the system is in shape position,. ' - O and we have- - and - . ' . '

; 8- . Thus the RUR associatedwith

and the lexicographic Gröbner basis are equiva-

lent up to the inversion of. ' - O modulo- . In the

rest of this paper we call this object a RR-Form of the cor-responding lexicographic Gröbner basis. The RUR is wellknown to be smaller than the lexicographic Gröbner ba-sis in general and thus will be our priviligied object. Notethat it is easy to check that a system is in shape positiononce knowing a RUR-Candidate (and so to check that

separates V

): it is necessary and sufficient that- issquare-free.These results have many practical drawbacks since, thesystems which are often in shape position. We thus canmultiply the strategies for computing a RUR : one cancompute a “modified“ lexicographic Gröbner directly us-ing [10] for example or by change of ordering like in [11]or a RUR using the algorithm from [19].

3.2 From formal to numerical solutions

Computing a RUR reduces the resolution of a zero-dimensional system to solving one polynomial in onevariable (-) and to evaluating

rational fractions

(

) at its roots (note that if one sim-

ply want to compute the number of real roots of the systemthere is no need to consider the rational coordinates). Ourgoal is to compute all the real roots of the system (and onlythe real roots), providing a numerical approximation withan arbitrary precision (set by the user) of the coordinates.In practice, the computation of the RUR is not the endpoint of the work : approximating the roots of- is notsufficient to provide accurate numerical approximations ofthe roots of the initial system and, moreover, not sufficientto guarantee the sign of the coordinates. Also a naive al-gorithm which would consist in “plugging” numerical ap-proximations of the roots into the- -

will not give,in most cases, any suitable information. If one is only in-terested in the signs of the-

one could imagine computing- and studying the values of these

polynomials at the roots of. Again, this would lead to

very hard computations since such a plug induces multi-plying large polynomials modulo-.The isolation of the real roots of- can be done using thealgorithm proposed in [20] : the output will be a list ofintervals with rational bounds such that for each real root of -, there exists a unique interval in which contains


. The second step consists in refining each interval in or-der to ensure that it does not contain any real root of. '

.

Since- and. '

are co-prime this computation is easy andwe then can ensure that the rational functions can be evalu-ated using interval arithmetics without any cancellation ofthe denominator. This last evaluation is performed usingmulti-precision arithmetics (MPFI package - [18]). As wewill see in the experiments, the precision needed for thecomputations is poor and, moreover, the rational functionsdefined by the RUR are stable under numerical evaluation,even if their coefficients are huge (rational numbers), andthus this part of the computation is still efficient. For in-creasing the precision of the result, it is only necessary todecrease the length of the intervals in which can easilybe done by bisection. Note that is is quite simple to certifythe sign of the coordinates : one simply have to computesome gcds and split, when necessary the RUR.

3.3 Signs of polynomials at the roots of a sys-tem

Computing the sign of given multivariate polynomials atthe real roots of a zero-dimensional system may be impor-tant for many applications and this problem is not solved bythe above method. Instead of“plugging” straightforwardlythe formal coordinates provided by the RUR into the-

,we better extend the RUR by computing rational functionswhich coincide with the-

at the roots of. This can

theoretically simply be done by using the general formulafrom [19] : '

M !" $ * -M ? " . One

can directly compute the* -M ? reusing the compu-tations already done if the (classical) RUR (without addi-tional constraints) has already been computed and showthat as soon as

is small, it is not more costly to compute

the extended RUR than the classical one.The right way for studying the signs of the-

at the ele-ments of V

consists in first computing theGcd of each '

and - to localize the roots where the-

vanish andthen to evaluate the '

at the other roots using interval

arithmetic.

4 Solving Parametric SystemsThe method described in this section is a particular case ofthe algorithm from [14] : we impose here that the systemhas as many equations as unknowns, the ideal generatedby its equations is radical. This class of example may beconsidered as being generic in practice since it contains allparametric systems which can be solved by simple versionsof Newtons’ method for almost all the specializations of theparameters. The following notations will be used:

Notation 1 Let us consider the basic semi-algebraic set

- < - <

and the basic constructible set

- -

where -M

are polynomials with rational coefficients.

% % % : : is the set of un-

knowns or variables, while% % %: is the

set of parameters and :

the set ofunknowns;

is the set of polynomials defining the

equations;

- - is the set of polynomials defining theinequations in the complex case or the inequalities inthe real case;

For any :

, is the specialization map% ';

' :denotes the canon-

ical projection on the parameter’s space : : ' : ; Given any ideal

we denote by V

5 the asso-

ciated (algebraic) variety.

for any set 5 , denotes its

-Zariski closure

(the smallest algebraic variety containing ).

Solving

or

amounts to compute sub-manifolds 5 :such that

is an analytic covering of(in that case, we say that has the

-covering prop-erty). This guarantees that the cardinal of

isconstant for all and that

is a finite col-

lection of sheets which are all homeomorphic to . Notethat the result remains true in restriction to the reals, re-placing

by

, so we focus on the complex case (study of

).Under our assumption “as many unknowns as equations“, is dense in

:and all the known algorithms for

solving

or

compute implicitly or explicitly a Zariskiclosed subset such that any sub-manifold of

: have the (

)-covering property.In [14], the authors introduce thediscriminant varieties of

w.r.t. which are algebraic sets with the above prop-

erty (even in the cases where is not dense in

:). As

one of the main results, they show that the complementin

:of the union of the open subsets which have the

( )-covering property is a Zariski closed set which is

thus theminimal discriminant variety of

w.r.t. .

Under the hypothesis 8 (as many equations as

unknowns), results from [14] shows that this minimal dis-criminant variety can be decomposed as"

$ , where:

is the Zariski closure of the set of critical valuesof

in restricted to the union of the components ofdimension8 of

;

is the set of points :such that

is not compact for any compact neighborhood of in ;


is the Zariski closure of the projection of the in-tersection of

with the hyper-surface defined by-

=0;

4.1 Computing the minima discriminant va-riety

For computing the minimal discriminant variety", on

need to compute first and then the components, and .Writing

V

$ V - , one can apply proposition1 to compute a polynomial system (in fact a Gröbner basis)whose zero set is

by localizing

iteratively w.r.t. the- , say compute

- - = - .Using again proposition 1, one can then compute

- < % such that V

- .The computation of can be done using the theoremfrom [14]:

Theorem 5 Let , be a reduced Gröbner basis of anyideal

such that V

for the product ordering

'where

is the Degree Reverse Lexicographic orderings.t.

: . We define ! ) ( .

. , ; !" ( .

, and , % . Then:

is a Gröbner basis of

% w.r.t.

and 5

for 8

;

is a Gröbner basis of some ideal 5 %

w.r.t.

;

$ : V

. if

% is prime, then if and only if

for some.

Note that under the hypothesis 8, .

If

is prime, then is the zero set of $4

%

where$4 is the ideal generated by the Ja-

cobian determinant with respect to the variables

of anysystems of generators of

. This characterization can be

extended to equi-dimensional and radical ideals but not tothe general case (consider for example the system

= where

is a non constant polynomial in %

). Un-der the hypothesis

8 together with the con-dition

is radical, one has always (according to [14])

V $4

% . In this case, one can

compute, using again proposition 1, a system of generators (in practice a Gröbner basis) such that V .

The condition 8 can be a priori tested (it is

sufficient to count the number of equalities in the sys-tem) and the condition “

is radical” can be replaced by

” $4

” has dimension less than8. If it is not thecase, one would need to compute the so called “radical of” and run the process again (not developed in this short

survey).At this step, one knows how to compute a set of ideals 8

,, such that"

$ :

V V

$ V

.

4.2 Using the discriminant varietyLet us denote by # the connected components of : "

. If # are sample points such that then #$ intersects each connected componentof V

in a finite number of points. More-

over, if is a small neighborhood of , then

consists in exactly one point in each connected componentof

. By removing the points of

which do not verify the inequations- < , one gets

exactly one point on each semi-algebraic connected com-ponent of

. Thus, by computing one point on

each , one can get the number of real points of

overany point of , which is constant on . Thus the numberof real or complex solutions of

for parameters’ values

which do not belong to"depends only on the connected

component and is a computable well defined function ofthe index

.

Obtaining the sample points # consists in comput-ing one point on each connected component of

: ",

which may be got with a good theoretical complexity bythe algorithms described in [5]. In practice, the end-useroften wants to compute the number of real roots of the sys-tem as a function of the parameters. Computing at leastone point on each

not enough for this: one needs also,at least, an algorithm to test if two points are in the sameconnected component, or hopefully a comprehensive de-scription of the connected components.Basically, the CAD algorithm computes a cylindrical de-composition of the ambient space in cells such that thepolynomials of a given set have a constant sign on eachcell. Precisely :

Definition 3 A cylindrical algebraic decomposition of :is a sequence :

, where, for 8, # isa finite partition of #

into semi-algebraic subsets (whichare called cells), satisfying the following properties:

Each cell is either a point, or an open inter-

val.

For every 8, and for every # , there

are finitely many continuous semi-algebraic functions(graphs of semi-algebraic sets) '

' ' such that the cylinder 5 # is

the disjoint union of cells of # which are:

– either the graph of one of the functions 'M

, for :

9 'M O # # '

M O – or a band of the cylinder bounded from below

and from above by the graphs of functions 'M

and 'M

, for , where we take

'

and '

:

'M O # '

M O # 'M


A CAD adapted to a set

of polynomialsof % %:

is a CAD such that each cell is -invariant, which means that the

have aconstant sign in each cell.

In our case, a CAD adapted to the set of the polynomialsdefining the discriminant variety will provide a partitionof :

into cells where the signs of these polynomials areconstant. In particular, all the cells such that none of thesepolynomials vanishes are embedded in a

defined abovewhile the others will be embedded in"

. If we are notinterested in decomposing"

(most practical situations),one can simplify a lot the original algorithm proposed byCollins and compute aPartial CAD. In the following, onesuppose that is the set of polynomials which appear inthe above representation of"PCAD - Projection stepAt level

, we have a set # of polynomial of %# %:

. We construct # # as be-ing the smallest set such that:

If

# , 21N 8 , # contains all

the (non constant) )discriminantP ; %# . If

# , $ # ,

# contains ?? $ (if non-constant).

If

# , 21N and non constant, # contains . If

# , 21N

and

non constant, # contains.

PCAD - lifting step / effective outputA human readable characterization of a cell in

that is not

a point (real algebraic number) could simply be an integer

such that if

denotes the product of all the polynomials of ,then if , the cell is the interval between the

-th and the -th root of

. By convention,

rep-resents the interval

where is the smallest real

root of

, and if 8 is the number of real roots of

, then

the integer 8 represents the interval

: .More generally, we can characterize recursively the cells of #

we need as a-uple # such that #

characterizes a cell of #

and# is an integer such

that if # denotes the product of all the polynomials of # ,then if

# , the cell is the interval betweenthe -th and the -th root of

# . Also the final outputmay consists in a list of8-uples of integers and a triangularset (

:

) which provides sufficiently manyinformations to compute at least one point on each cell andso compute the corresponding sequence of signs realizedby the initial set of polynomials

.

In practice, each step of the lifting phase induce the follow-ing computations:

(1) compute real roots of all polynomials of # andsort them;

(2) take one point on each interval between roots of(1);

(3) specialize%# to (2) in # .

One can notice that there are no more computations withreal algebraic numbers ...The proof of the correctness of this algorithm comes fromthe correctness of Collins’ algorithm and from the fact thatwe only removed cells that belong to

" .Remark 1 An important additional test is useful in prac-tice: before adding a polynomial in the projection step, weuse filters or algorithms to detect if it has no real roots.This may be done by applying CAD algorithm again butalso methods such as proposed in [3] or better in [21].

5 Applications5.1 Parallel robot with real rootsUsing a numerical global optimization program, Dietmaier[17] gives explicitly an example of a robot with 40 realroots; we show that using the tools presented in the paper itis very easy to check that the solutions are really real num-bers (and not complex number with a very small imaginarypart).Solving the Direct Kinematic Problem (DKP) consists incomputing the position of the robot (designated by

articulation position located on the end-effector movingplatform) knowing the configuration of the robot (points9

located on the base) and the lengths of the actuators 9

. Among the numerous existing algebraicformulations of the DKP problem which are commonlyused in computer algebra we used the Displacement basedequations: let

(resp. ) be the base Cartesian ref-

erence frame of center (resp. reference frame of center relative to the mobile platform). if there exists any mo-bile platform position

' which meets the constrains , then there exists a rotation such that :'

') ') (2)

The natural way to set an algebraic equation system from(2) is to straightforwardly use the rotation matrix parame-ters and the vector

') coordinates as un-

knowns. Any rotation can be expressed using the Cayleytransform: if is any anti-symmetric matrix:

@B

CE

then, provided that is not an eigenvalue of , then

is a rotation and is given by

2

4

! ! ! ! 3

5

where" = = =.


Conversely, if is a rotation then

is anti-symmetric (again

should not be an eigenvalue of ). Expressing relation (2) and removing the denom-inators, one obtain a system depending on

variables

. In fact, knowing and it is obvi-ous to recover

from a linear system. Thus itis enough to compute a Gröbner basis of the correspond-ing algebraic system for an ordering eliminating

.As explained before we compute a RR-Form of the lexico-graphical Gröbner basis (equivalent to a RUR in that case).Isolation and certification of the real coordinates is thencomputed: we found

real roots in approximatively 1.1

sec (PC Intel Xeon 2.8 Ghz).

5.2 Cuspidal robotsWe revisit here a ad-hoc computation done in [8]. An ex-tension of this problem (one variable more) can be foundedin [9]. The goal was to compute a classification of-revolute-jointed manipulators based on the cuspidal be-havior. This ability to change posture without meeting asingularity is equivalent to the existence of a point in theworkspace, such that a polynomial of degree four depend-ing on the parameters of the manipulator and on the Carte-sian coordinates of the effector has a triple root.The system that characterizes the cuspidal robots dependson 3 parameters86 8> and

= which are the design param-eters (supposed to be positive). It is given by: ? ?6 ?> ?= 8?

86 < 8> < = <

with:

; 7 ; = ; ; > ; ; 7 ; 6 ; 8 ; > ; ; 7 ; = ;

; = == "

6; = 86 86 =; = 86 8>; > = 8> 8=6; 6 8=6 == ; 7 8=6 8=> = = = = = 8=6 8=> ==

We take , 86 8> =

, % 86 8> = and

? . The system has dimension

but the only component of dimension

is embedded inV

86 5 .As in most situations, is easy to compute. Here, theresult is :

6 7 8 8 >8 Since

< $4: has dimension

8 and sincethe system has equations and depends on 3 parameters,then"

$6 &&&V V < $4

: % , and :

-d4^2+r2^2+d3^2,d4^2*r2^6-d4^4*r2^4+2*d4^2*r2^4+3*d4^2*d3^2*r2^4-2*d4^4*r2^2+d4^2*r2^2-2*d4^4*d3^2*r2^2+3*d4^2*d3^4*r2^2-d3^2*r2^2-d4^4*d3^4+d4^2*d3^2+d4^2*d3^6-2*d4^2*d3^4-d4^4+2*d4^4*d3^2,r2^8+2*d3^2*r2^6+2*r2^6-2*d4^2*r2^6+d4^4*r2^4-4*d4^2*r2^4-2*d3^2*r2^4-2*d4^2*d3^2*r2^4+r2^4+d3^4*r2^4-2*d4^2*r2^2+2*d4^4*r2^2+2*d4^2*d3^2*r2^2+d4^4,d3^2*r2^2-d4^2+2*d4^2*d3+d3^2-d4^2*d3^2-2*d3^3+d3^4,d3^2*r2^2-d4^2-2*d4^2*d3+d3^2-d4^2*d3^2+2*d3^3+d3^4

Removing the polynomials which have no real roots, , onecan easily terminate the computations by using a partialCAD and some tools for computing the real roots of a zero-dimensional system. The projection of the discriminant va-riety on the subspace

8> = (obtained after the first partialCAD projection step) appears in following figure.

Zone 2Zone 1 Zone 3 Zone 4 Zone 5

(1,1)

(1,2)

(1,3)

(1,4)(1,5)

(2,1)

(2,3)

(2,4)

(2,2)

(3,1)

(3,2)

(3,3)

(4,1)

(4,2)

(5,1)

Figure 1: Partition of the parameters’space8> =

Over each open cell, there are exactly six sheets on the dis-criminant variety, and the following table gives the numberof solutions found at a sample point in each of the cells de-limited by these sheets (by solving the corresponding zero-dimensional systems):

(8> =) 86 1 2 3 4 5 6 7(1,1) 0 0 4 4 2 0 0(1,2) 0 4 4 4 2 0 0(1,3) 0 4 4 4 2 0 0(1,4) 0 4 4 2 2 0 0(1,5) 0 4 4 2 0 0 0(2,1) 0 0 4 4 2 2 0(2,2) 0 4 4 4 2 2 0(2,3) 0 4 4 4 2 2 0(2,4) 0 4 4 2 2 2 0(3,1) 0 4 4 4 2 2 4(3,2) 0 4 4 4 2 2 4(3,3) 0 4 4 2 2 2 4(4,1) 0 4 4 4 2 2 4(4,2) 0 4 4 2 2 2 4(5,1) 0 4 4 2 2 2 4

Table I: Number of real solutions for each cell.


We may consider that the problem is completely solved,even if no precise information is known for parameter’svalues that belongs to the discriminant variety: it will any-way be impossible to construct, in practice, a robot whoseparameters belong to a strict closed subset of the parame-ter’s space.

References[1] P. Aubry. Ensembles triangulaires de polynômes et

résolution de systèmes algébriques. PhD thesis, Uni-versité Paris 6, France, 1999.

[2] P. Aubry, D. Lazard, and M. Moreno Maza. On thetheories of triangular sets.Journal of Symbilic Com-putation, 28:105–124, 1999.

[3] P. Aubry, F. Rouillier, and M. Safey. Real solving forpositive dimensional systems.Journal of SymbolicComputation, 34(6):543–560, 2002.

[4] Auzinger and Stetter. An elimination algorithm forthe computation of all zeros of a system of multivari-ate polynomial equations.Int. Series of NumericalMath., 86:11–30, 1998.

[5] S. Basu, R. Pollack, and M.-F. Roy.Algorithms inreal algebraic geometry, volume 10 ofAlgorithmsand Computations in Mathematics. Springer-Verlag,2003.

[6] B. Buchberger. Gröbner bases : an algorithmicmethod in polynomial ideal theory. Recent trendsin multidimensional systems theory. Reider ed. Bose,1985.

[7] B. Buchberger, G.-E. Collins, and R. Loos.Com-puter Algebra Symbolic and Algebraic Computation.Springer-Verlag, second edition edition, 1982.

[8] S. Corvez and F. Rouillier. Using computer algebratools to classify serial manipulators. In F. Winkler,editor, Automated Deduction in Geometry, volume2930 ofLecture Notes in Artificial Intelligence, pages31–43. Springer, 2003.

[9] Solen Corvez.Etude de systèmes polynomiaux : con-tributions à la classification d’une famille de manip-ulateurs et au calculs des intersections de courbes A-splines. PhD thesis, Université de Rennes 1, 2005.

[10] J.-C. Faugère. A new efficient algorithm for comput-ing gröbner bases (-6). Journal of Pure and AppliedAlgebra, 139(1-3):61–88, June 1999.

[11] J.C. Faugère, P. Gianni, D. Lazard, and T. Mora. Effi-cient computation of zero-dimensional gröbner basisby change of ordering.Journal of Symbolic Compu-tation, 16(4):329–344, Oct. 1993.

[12] Jean-Charles Faugère. A new efficient algorithm forcomputing gröbner bases without reduction to zero-7. In International Symposium on Symbolic and Al-gebraic Computation Symposium - ISSAC 2002, Vil-leneuve d’Ascq, France, Jul 2002.

[13] D. Lazard. On the specification for solvers of poly-nomial systems. In5th Asian Symposium on Comput-ers Mathematics -ASCM 2001, volume 9 ofLectureNotes Series in Computing, pages 66–75. World Sci-entific, 2001.

[14] D. Lazard and F. Rouillier. Solving parametric poly-nomial systems. Technical Report RR-5322, INRIA,Oct 2004.

[15] Daniel Lazard. Resolution of polynomial systems.In 4th Asian Symposium on Computer Mathematics -ASCM 2000, Chiang Mai, Thailand, volume 8 ofLec-ture Notes Series on Computing, pages 1 – 8. WorldScientific, Dec 2000.

[16] B. Mourrain. An introduction to linear algebra meth-ods for solving polynomial equations, 1998.

[17] Dietmaier P. The stewart-gough platform of generalgeometry can have 40 real postures.Advances inRobot Kinematics: Analysis and Control, pages 1–10,1998.

[18] N. Revol and F. Rouillier. Motivations for an arbitraryprecision interval arithmetic and the mpfi library.Re-liable Computing, 11:1–16, 2005.

[19] F. Rouillier. Solving zero-dimensional systemsthrough the rational univariate representation.Jour-nal of Applicable Algebra in Engineering, Communi-cation and Computing, 9(5):433–461, 1999.

[20] F. Rouillier and P. Zimmermann. Efficient isolationof polynomial real roots.Journal of Computationaland Applied Mathematics, 162(1):33–50, 2003.

[21] Mohab Safey El Din and Eric Schost. Properness de-fects of projection functions and computation of atleast one point in each connected component of a realalgebraic set.Journal of Discrete and ComputationalGeometry, sep 2004.


GEOMETRIE ET DYNAMIQUE EN ROBOTIQUE

Frédéric Boyer

Institut de Recherche en Cybernétique de NantesEcole des Mines de Nantes,1 Rue de la Noë, B.P 92101

44321 Nantes cedex 3, FRANCE

[email protected]

Résumé

Le but de cet exposé est de relater les liens entredynamique et géométrie. Les systèmes abordés relèventde la robotique et nous verrons qu’en ce domaine, laquête de mécanismes de plus en plus sophistiqués, et deleur modèles dynamiques associés, se traduit par lacomplexification des structures géométriques qu’ilsimpliquent. Le point de vue adopté est celui du calcul desvariations de type « principe d’Hamilton » sur l’espacedes configurations du robot.

Mots Clef

Dynamique, Géométrie différentielle, groupes de Lie,fibrés principaux, connexions…

1 Introduction

La mécanique dans son ensemble, est l’une des plusbelles applications de la géométrie. Aussi, parle t’onaujourd’hui de « Mécanique Géométrique », uneappellation qui confine au pléonasme tant depuis leursorigines ces deux disciplines sont intimement liées. Quel’on songe par exemple au concept de droite dans unespace euclidien. A sa définition géométrique s’ajoutecelle que nous donne la dynamique des corps inertes :« les droites sont les trajectoires inertielles des massesd’épreuve imaginées par Newton » [1], i.e. les courbesintégrales de l’équation différentielle d’ordre deux:

0m =γ (1)

Où m figure la masse d’épreuve et γ son accélérationrelativement à un référentiel fixe dont on postulel’existence. Ainsi la géométrie d’un espace est elleintimement liée à la dynamique de la matière qui s’y meutet réciproquement, sans qu’il soit toujours possible de lesséparer. Cet état de fait trouve son apogée dans larelativité générale et ses équations d’Einstein [2]. Danscet exposé nous tisserons les liens existants entre ces deux

disciplines, et ce, du point de vue des systèmesmécaniques tels que la robotique les conçoit. Notre pointde vue sera celui de Lagrange (qu’on oppose ici à celuid’Hamilton). Dans cette approche, toutes les informationsd’un système conservatif sont contenues dans une uniquefonction de ses positions et vitesses appelée « lagrangiendu système ». Selon la démarche mise au point par Euleret Lagrange, les équations de la dynamique du systèmesont directement accessibles à partir de ce lagrangien etdu point de vue géométrique, régissent le mouvementd’un unique point figurant le système dans un espaceabstrait dit « des configurations ». Aussi, progresseronsnous à partir de cette notion d’espace des configurationset nous verrons qu’à mesure que la Robotique invente dessystèmes de plus en plus complexes, ces derniers évoluentsur des espaces de complexité correspondante. La tramepoursuivie est celle de l’évolution des mécanismesrobotiques de ces dernières années. Le choix est ici faitde structurer cette évolution en deux grandes tâches : la« manipulation » et la « locomotion ». Aussi partironsnous des robots manipulateurs pour peu à peu migrer versles systèmes dédiés à la locomotion. La transition entreces deux domaines se fera par le biais du modèlegéométrique des déplacements euclidiens dans 3R , et dela dynamique du solide rigide. Du point de vuegéométrique, suivant pas à pas cette évolution, nousintroduirons tour à tour la notion de variété, puis degroupe, et enfin d’espace fibré. Sur chacun de cesespaces, nous considèrerons le problème de la générationdes équations de la dynamique en suivant l’approchelagrangienne, i.e. : construction d’un lagrangien, mise enœuvre du calcul des variations au travers du principed’Hamilton (ou « des travaux virtuels ») et enfin :génération des équations de la dynamique. Finalement,nous conclurons.

2 Dynamique sur une variété : les robotsmanipulateurs

Par robot manipulateur, on entend ici un système poly-articulé réalisé par l’assemblage de corps rigides


connectés par des liaisons à 1 degré de liberté chacune [3]que nous supposerons pour fixer les idées, toutes rotoïdes.Les corps sont au nombre de n et notés 1, ,...o nS S S de labase supposée fixe, à l’outil, supposé libre. Dans ce cas,chaque degré de liberté articulaire engendre un cerclenoté 1S paramétré par un angle [0, 2 [iq ∈ π et l’espacedes configurations du robot est : 1 1 1

copies

: ...n

= × ×S S SC , i.e.

un hyper-tore de dimension n.

2.1 Rappels de mécanique analytique

En accord avec les usages de la mécanique de Lagrange, àtoute posture du robot correspond une position du pointsystème (quelque fois appelé « affixe » par les « anciens ») sur l’hyper - tore de ses configurations. Lelagrangien du système se définit comme une fonction des( , )q q ∈ TC dans R 1, i.e. comme :

: ( , ) ( , ) ( , ) ( ) L q q T L q q T q q U q∈ = − ∈C R (2)

Où T est l’énergie cinétique du système, définie dans lecas d’un robot avec base fixe par la forme quadratiquehomogène des vitesses :

( , ) 1/ 2 ( )TT q q q M q q= (3)

Avec ( )M q , la matrice des inerties généralisées du robot.Enfin U est l’énergie potentielle du système dont lesforces conservatives, telles la gravité, dérivent. Une foisce résultat en main, les équations du mouvement sedéduisent du principe (indémontrable) dit d’Hamilton :qui s’énonce ainsi : « Entre deux instants fixés 1t et 2t ,parmi toutes les trajectoires que le système peutvirtuellement emprunter, la trajectoire qu’il emprunteréellement réalise un extremum de la fonctionnellesuivante (fonction des trajectoires possibles notées (.)q ) :

2

1

( (.)) ( , )

t

tA q L q q dt= ∫ (4)

qu’on appelle l’action du système. » Techniquement,cette condition équivaut à la condition de stationnarité deA qui s’écrit : ( (.)) 0 , (.)A q q= ∀δ δ (5)

Où le symbole δ dénote la variation et représente leterme linéaire du développement en perturbation d’unefonctionnelle (ici A) des trajectoires perturbées selon :

( ) ( ) ( )t q t q t q t∀ ∈ = +ε εδR (6)

Où ε est un paramètre réel indépendant du temps, qδ undéplacement virtuel, et :

1 Où TC est le fibré des configurations, i.e. l’espace despositions-vitesses du robot.

0

( (.))dA A qd =

= εε

δε

(7)

Notons ici que l’indépendance de ε vis à vis du tempsdéfinit une variation qui n’est pas la seule possible [4]. Enfait, dans ce cas particulier qui suffit à notre propos, lavariation est dite à temps fixe et cette condition impose larelation de commutation suivante entre opérateursvariation et dérivée temporelle:

. 0 , d d f fdt dt

− = ∀

δ δ (8)

Où f représente une fonction douce de C dans R , tellesque le sont les fonctions coordonnées iq . Aussi, enintroduisant les opérateurs (vecteurs du point de vuegéométrique) : . j

jq

qδ δ= ∂ et . / ii

qd dt q= ∂ , on réalise

ainsi que (8) est trivialement satisfaite en vertu desconditions d’intégrabilité :

[ , ] 0i j i j j iq q q q q q∂ ∂ = ∂ ∂ − ∂ ∂ = , ,i j∀

Où [.,.] est le crochet de Poisson sur C . Une fois ceciposé, l’application de (7) à (4)-(5) conduit après calculaux équations dues à Euler et Lagrange :

0d L Ldt q q ∂ ∂

− = ∂ ∂ (9)

Où notons qu’en partant de (5), l’obtention de (9) réclamed’invoquer les arguments suivants :

• La variation est effectuée à temps fixe ce qui permetde faire entrer le symbole δ sous l’intégraletemporelle, puis d’échanger δ et . /d dt avant deprocéder à l’habituelle intégration par partie.

• La variation est faite à extrémités fixes ce qui permetd’annuler les termes de bords.

Enfin notons qu’en chemin vers (9), l’équation suivante aété mise à jour :

2

1

0 , t T

t

d L Lq dt qdt q q

∂ ∂− = ∀ ∂ ∂

∫ δ δ (10)

Et que cette équation appelée forme faible du problèmevariationnel de départ est en fait le lieu de l’écriture d’unprincipe plus général que celui d’Hamilton, celui destravaux virtuels (ou principe de D’alembert [4]) quipermet de prendre en compte des chargementsquelconques et en particulier ne dérivant d’aucunpotentiel. Finalement, tenant compte de la forme (2) dans(9) on obtient l’habituel modèle dynamique d’un robotmanipulateur à base fixe :


( ) ( , ) ( )M q q C q q Q q+ + =τ (11)

Où l’on reconnaît de gauche à droite : les forcesgénéralisée inertielles, de Coriolis-centrifuges, de gravitéet enfin de commande, ces dernières dérivant dupotentiel : ( ) T

cU q q= − τ . Enfin, si la base du robot estmobile et soumise à un mouvement imposé, il suffitd’ajouter à (3) les composantes d’entraînementcorrespondantes dont les termes dépendant explicitementdu temps via des lois horaires ne sont pas affectés par lavariation (6)-(7), pour retrouver la dynamique du robotcouplée à son support.

2.2 Point de vue géométrique

Jusqu’ici, c’est le point de vue de la mécanique analytiquequi a prévalue dans les développements précédents.Voyons à présent quel est le contexte géométrique sous-jacent à cette construction. Tout d’abord, l’espace desconfigurations se figure comme un hyper-tore, et toutmouvement du robot « dessine » sur ce tore unetrajectoire paramétrée par le temps. Qui plus est, à toutetrajectoire liant deux points fixés de cet espace on associeune valeur de l’action. Enfin, et afin de situer les pointsde l’hyper-tore les uns relativement aux autres, nousavons introduit un paramétrage de ce dernier par ladonnée du vecteur q. Ceci fait de l’espace desconfigurations du robot une variété permettant desubstituer localement à l’espace intrinsèquement courbequ’est le tore, un espace vectoriel (plat) ou « carte »2 (cf.Fig.1).

FIG. 1– Variation sur une variété

Une fois ceci dit, et profitant de la structure d’espacevectoriel des cartes locales, la variation d’une trajectoiresur le tore se définit naturellement comme l’antécédentpar l’application des coordonnées, de sa variation dans lacarte naturellement définie par (6). Qui plus est, larelation de commutation (8) se traduit géométriquementpar la relation de clôture du quadrilatère a, b, d, cindiqués sur la Fig.1. Enfin, lorsque les forces extérieuressont nulles le lagrangien (2) se réduit à l’énergiecinétique, i.e. à une forme quadratique définie positivedes vitesses. Il s’en suit que l’action (4) devient une

2 Que l’on se figure ici l’analogie de la terre (espace courbe) représentéepar un systèmes de cartes locales et plates réalisant son atlas.

mesure de la longueur des courbes trajectoires pour lamétrique définie par l’énergie cinétique du système. Lessolutions des équations de Lagrange sont alorsnaturellement les géodésiques de cette métrique surl’hyper-tore de départ. On retrouve ainsi les trajectoiresinertielles évoquées dans l’introduction mais icigénéralisées à un espace qui n’est plus Euclidien (ou plat)mais Riemannien (ou courbe). Ainsi, réalise t-on que lesdeux premiers termes de (11) ne sont autres que l’écrituredu terme « m γ » de (1). Et ce, non plus dans l’espace

3R muni de la métrique Euclidienne, mais dans C munide la métrique « énergie cinétique ». Finalement, leséquations (11) s’interprètent comme un équilibre desforces inertielles et extérieures dans les espaces tangents

qT C , de plus étant des équations en forces elles sontnaturellement de nature covariante et s’écrivent donc dansla base duale des idq , elle même issue de la basenaturelle des iq

∂ associée aux coordonnées des cartes. Ce

contexte peut être figuré ci dessous, où l’on a représentéela carte locale par un système de lignes de coordonnéesdont les vecteurs vitesses coïncident avec les iq

∂ .

FIG. 2 – Dynamique sur une variété

Finalement écrire les équations de Lagrange revient àécrire « extf m= γ » dans le champ de bases naturellesdérivant de la carte des coordonnées généralisées.

3 Dynamique sur un groupe – Mécaniqued’Euler-Poincaré

Lorsque Lagrange rédigea son traité de MécaniqueAnalytique [5], il revint sur un jeu d’équations connudepuis Euler et dont la formulation était mal adaptée à laméthode pourtant générale qu’il venait d’exposer. Ceséquations sont celles de la toupie dite Eulerienne, elles’écrivent dans le cas sans gravité:

( ) 0J JΩ+Ω× Ω = (12)

Où J est le tenseur d’inertie de la toupie dans son repèremobile, Ω est le vecteur vitesse angulaire du repèremobile par rapport au fixe exprimé dans lui même. Ceséquations étant relatives aux vitesses seules, il nous fautles compléter du modèle cinématique suivant :

ˆR R= Ω (13)

C1q

∂

2q∂

QqT C

q

q

1q∂

2q∂

(0 0), (2 0),π

(0, 2 )π

(.)q

(.)qε

a

b

c

ddq

1( )q t

2( )q t

qδ

trajectoire dans la carte

trajectoire sur C

C


Où R est la matrice rotation des axes mobiles relativementaux fixes et Ω est l’unique matrice antisymétriqueassociée à Ω .

Tout d’abord notons la simplicité (et la beauté) de ceséquations par rapport aux équations que l’approchelagrangienne nous aurait données. En effet dans cedernier cas, l’usage aurait voulu que nous adoptâmes unjeu de coordonnées généralisées (par exemple 3 anglesd’Euler) brisant ainsi la « symétrie naturelle » etintroduisant des nonlinéarités artificielles et dessingularités associées.

En fait, de telles équations sont accessibles dans un cadregénéral révélé par Poincaré en 1901 [6]. La constructionde Poincaré est basée sur la notion de groupe de Lie. Eneffet, les configurations de la toupie peuvent être décritessans ambiguïté par l’action de transformations sur letrièdre fixe, transformations dont la composition satisfaitaux axiomes d’un groupe3. Un groupe de Lie G est engénéral non commutatif (ex. de la toupie) et dans ce cason le figure comme un espace courbe (cf. Fig. 3) avec unpoint arbitrairement distingué prenant le sens de sonélément neutre (on le notera 1). Dans la mécanique dePoincaré, on assimilera dès que possible l’espace desconfigurations du système au groupe de sestransformations, i.e. on posera : : G=C . Ainsi, à toutmouvement du système correspond une courbeparamétrée sur G , que l’on notera :

(.) : ( )g t g t G∈ ∈R (14)

Où g dénote génériquement une transformation de G, i.e.l’un de ses points. Dans la suite nous supposerons Greprésenté par un groupe de matrices (par exemple lesmatrices rotations pour (3)G SO= , les transformationshomogènes, quand (3)G SE= …). L’espace tangent àl’identité s’identifie aux perturbations linéaires d’uneconfiguration de référence, i.e. aux transformationsinfinitésimales dites « matérielles ». Cet espace vectorielest naturellement muni d’une opération que l’on appellecrochet de Lie, notée [.,.], qui « mesure » la non-commutativité des transformations infinitésimales. Ainsimuni, il réalise l’algèbre de Lie de G , notée g , par ex. :les vitesses angulaires pour la toupie ( (3)so=g ), lestorseurs cinématiques pour le solide rigide ( (3)se=g ),etc… Vecteurs que nous nommerons sous le termegénérique de « twists ». L’un des intérêts de ce conceptest de relier les vecteurs vitesse sur G à un unique vecteurdans l’algèbre de Lie ξ selon la formule suivante, dont(13) est un cas particulier [7]:

3 Ce groupe pouvant lui même être paramétré par un système decoordonnées (comme les angles d’Euler), il réalise aussi une variété, etles deux structures : « groupe + variété » réalisent un groupe de Lie.

0

ˆ ˆexp( )dg g gd =

= =ε

ξ εξε

(15)

Où l’opérateur « exp » est définit au sens des matrices etse figure géométriquement comme une « projectionnaturelle » de 1T G sur G (cf. Figure 3).Une fois ceci dit, le propos de la mécanique de Poincaréest d’établir l’évolution d’un système dont l’espace desconfigurations est un groupe de Lie directement en termede ses transformations et non pas (comme dansl’approche précédente due à Lagrange) en terme de sesparamètres. Notons ici que dans le cas de la toupie où

(3)G SO= , l’approche de Poincaré doit conduire auxéquations d’Euler (12). Nous allons à présent rapidementbrosser les grandes lignes de cette construction enreconduisant le cadre lagrangien tel que précédemmentinvoqué au cas d’un groupe G non forcément commutatif.

FIG. 3 – Variation sur un groupe

En accord avec l’objectif annoncé, nous partirons d’unlagrangien directement défini sur le groupe par :

( , ) ( , ) ( , ) ( ) g g TG L g g T g g U g∈ = − ∈R

A ce niveau, et c’est ici que réside l’intérêt de la structurede groupe, point n’est besoin de recourir à une carte pourdéfinir une variation de l’action qui s’écrit à présent grâceà (15):

2 2

1 1

( (.)) ( , ) ( , )t t

t tA g L g g dt l g dtξ= ∫ ∫

En effet la loi de composition du groupe permet deremplacer (6) par :

ˆ( ) ( ) exp( ( ))t g t g t t=ε εδη (16)

Où géométriquement ( )g tε représente la configurationperturbée du système à t fixé alors qu’on applique à laconfiguration de référence le vecteur variation ˆ( )tδη (cf.Fig. 3, où : 1ˆ ˆ ˆ( )gg g Ad−=µ η η , est une transformationinfinitésimale dite « spatiale »). Techniquement, le calculdes variations de Poincaré procède encore à partir de (7)avec (16) en lieu et place de (6) et nécessite de recourir au

1

2( )g t

G1( )g t

exp

( )g t ( )g tε

)ˆ t(εδµ


pendant de la relation de commutation (8) qui en vertu dela non commutativité (courbure) du groupe impose à unevariation à droite de vérifier la contrainte:

ˆ*ˆˆ ˆ/ ( )d dt ad

ξδη δξ δη= − (17)

Où ˆ*ˆ(.) [ ,.]ad =

ξξ est dite « action adjointe de ξ sur

g ». Finalement, sous toutes ces conditions, le calcul desvariations donne les équations dites de Poincaré [6] :

* ( ) 0gd l lad X ldt ∂ ∂

− − = ∂ ∂ ξξ ξ

(18)

Où *adξ (.) est l’action co-adjointe de ξ sur le dual del’algèbre de Lie de G noté *g (l’espace des couplespour la toupie, des torseurs d’efforts pour le solide rigide)et ( )gX l se détaille selon :

0

( ) ( , )gdX l l g

d =

= εε

ξε

(19)

A ce niveau, notons comme le souligne Poincaré, que ceséquations sont particulièrement pertinentes lorsque lelagrangien l ne dépend pas de la configuration. Parexemple dans le cas de la toupie sans gravité, on a :

( ) 1/ 2 Tl JΩ = Ω Ω

Et, comme * (.) (.)adΩ = −Ω× , il s’en suit que (18)redonne bien (12). Dans le cas général, cette propriétéd’indépendance de l vis à vis des transformations est liéeau théorème de Noether et à la théorie de la réduction (icilagrangienne). Dans ce cas de figure, le lagrangien dedépart L est invariant à gauche, i.e. vérifie :

( , ) ( , )L g g L hg hg= , h G∀ ∈ . Aussi, a t-on commeannoncé, en prenant 1h g −= : 1 1( , )L g g g g− − =

(1, )L ξ ( )l= ξ . Finalement les équations de Poincaré (18)voient dans ce cas le terme ( )gX l disparaître, nedépendant plus ainsi de la configuration courante g. Cettepropriété d’invariance a son pendant à droite tout commeles équations (18), puisque les perturbations réelles (15)et virtuelles (16) peuvent se faire à droite (perturbationsde la configuration courante et non de celle de référencecomme dans le contexte à gauche). Ces deux propriétésd’invariance (gauche et droite) traduisent respectivementla symétrie de la dynamique par rapport à l’espace et lamatière. Enfin, notons que les équations (18) s’écriventnaturellement dans une base de *g . Or, g peut aussiêtre défini comme l’espace des champs invariantsgauches ˆ( ( ) , gg X g ge T Gα α= ∈ , 1,...dim( ))Gα = oùles eα engendrent une base de 1T G . De ce point de vue,les équations (18) sont en coordonnées, les équations dela dynamique dans un champ de bases locales duales non

intégrables puisque : [ , ] 0X X c Xγα β αβ γ= ≠ , i.e. dans un

co-repère mobile de G ne dérivant d’aucune carte sousjacente (cf. Fig.4) [8]. Ce point de vue est à mettre enrapport avec celui de Lagrange et la Figure 4 avec laFigure 3. Enfin, notons que l’invariance droite estdominante en mécanique du fluide, la gauche, enmécanique du solide. Dans ce dernier cas, elle a étéactivement exploitée en robotique notamment dansl’algorithmique de Newton – Euler telle que nous allons àprésent la rappeler.

FIG. 4 – Dynamique sur le groupe

4 Approche de Newton-Euler des Robotsmanipulateurs

Dans ce cas, l’espace des configurations du manipulateurs’identifie à l’espace des applications de l’ensemble desindices discrets des corps du robot sur le groupe desconfigurations des corps isolés, i.e, dans le cas d’un robottridimensionnel :

: / : 1,2,... (3)ig g i n g SE• •

= ∈ ∈C (20)

Où les ig sont des transformations homogènes assujettiesà vérifier les équations de contrainte holonomes imposéespar le modèle géométrique de la chaîne :

11,... : .j j jj n g g h−= = (21)

Et jh est la transformation relative de 1/j jS S − imposéepar la liaison connectant ces deux corps. Dérivant (21)par rapport au temps et en faisant apparaître les twists

1( )j j jg g− ∨=ξ et 1( )j j jh h− ∨=υ , (21) impose:

1 1 1,... : jj j j jj n − −= = +ξ ξ υT (22)

Où 1j

j−T est la matrice 6 6× associée à l’action (.)jhAd

sur les twists de 6(3)se ≅ R . Notons ici que (22) n’étantpas intégrable, il n’existe pas de principe intégrale de typeHamilton menant aux équations de la dynamique.Néanmoins, le principe (local) des travaux virtuels esttoujours valable et s’écrit ici pour j∀δη indépendantsentre eux:

1G

gT Gg

( )gX lXα

Xβ


* 11

1

( ( ) ) 0j j

nj jT j T

j g j j j ji j j

l ld ad X ldt ξδη λ λ

ξ ξ+

+=

∂ ∂− − − + = ∂ ∂

∑ T

(23)Où les jl sont les lagrangiens des corps libres :

( , ) ( ) ( )j j j j j j jl g T U gξ ξ= − (24)

Et les jλ sont les torseurs de liaisons assurant lesmouvements imposés par la commande et les contraintesde conception représentées par (22). Dans ces conditions,avec :

ˆ

( ) 1/ 2 ( , )ˆ

Tjj jT T

j j j jjj j

J msT V

Vms mξ

Ω = Ω

(25)

L’équation (23) donne les équations de Newton-Euler descorps isolés, i.e. pour 1j ,..n= (où gγ est l’accélérationde la gravité) :

( )( )

Tj j jj j j

j j jj j j g

ˆ JJ msˆ msms m

Ω × Ω Ω + Ω × Ω ×γ − γ

1

1j T

j j j+

+= λ − λT (26)

Où l’on a utilisé l’action co-adjointe de (3)se sur (3)*se :

Ω××+Ω×

=

Ω fVfc

fc

adV

* (27)

Enfin, et pour les besoins de l’algorithmique (21), (22) et(24) sont complétées des contraintes sur les accélérationsdéduites par dérivation de (22). In finé, ces équations sontvues comme des récurrences sur les efforts, positions,vitesses et accélérations des segments, initialisées par lemouvement imposé à la base et les efforts imposés àl’outil [3]. Notons que ces modèles connus sous le nomde « modèle de Newton-Euler » ont été étendus au cas desrobots flexibles dans le cadre de l’approche dite du repèreflottant [9]. Rappelons que dans ce cas le mouvement descorps déformables résulte des perturbations modales desmouvements d’ensemble rigides affectant des repères dit« flottants ». Aussi la démarche précédente se reconduit t-elle à l’identique, en prenant comme groupe deconfiguration (3) mG SE= ×R où m est le nombre demodes choisis pour décrire la déformation de chaquecorps.

5 Approche « macro-continue » des robotshyper redondants

Cette approche a été récemment développée dans le cadredu projet Robea « Robot Anguille ». Elle est adaptée à lamodélisation des robots manipulateurs (« robotstrompes »), ou locomoteurs (« robots serpents »), réaliséspar la connexion sérielle de nombreux segments. Dans cecas, il devient pertinent de substituer aux modèles discretstels qu’introduits précédemment, un modèle continu.Cette idée fut initialement proposée par Burdick etChirikan : [10,11], mais ces auteurs n’ont pas dépassé lecadre cinématique. Pour franchir cette limite, l’idée est derecourir à un modèle de poutre connu sous le terme de« poutre Cosserat » du nom des deux frères : Eugène etFrancois, qui au début du 20ième siècle et à la suite destravaux de Poincaré mirent en place un cadre similaireétendu aux milieux continus [12]. L’idée est icid’assimiler une poutre à un empilement continu desections rigides. En donnant 6 ddls à chaque section oninduit les 6 champs de déformation que sont : les 2courbures, la torsion, l’extension ainsi que deux champsde cisaillement transverse. Pour ce qui concerne lesrobots hyper-redondants, les segments seront assimilésaux sections rigides de la poutre Cosserat et selon lacinématique inter-segment, certaines des déformations dela poutre seront actionnées ou non. Mathématiquement, lecadre général de ces modèles peut se déduire directementdu précédent en remplaçant l’indice discret j par un indicecontinu X représentant l’abscisse matérielle de la poutre lelong de sa plus grande dimension et étiquetant lessections (selon le point de vue lagrangien de la mécaniquedes milieux continus). Ainsi, l’espace des configurationsde la poutre Cosserat modélisant le manipulateur hyper-redondant est-il défini par un espace fonctionnel decourbes sur le groupe de Lie de ses sections :

: (.) / (.) : [0,1] ( ) (3)g g X g X SE= ∈ ∈C (28)

Avec en représentation matricielle:

( ) ( )( )

0 1R X r X

g X =

Où r dénote le champ de position le long de l’axematériel de la poutre et R représente le champd’orientation des trièdres 1 2 3( , , )( )t t t X attachésmatériellement à ses sections (avec 1t normale unitaire àla section). Notons ici, que si la transformation g dépendexplicitement de X, elle dépend aussi implicitement de tau travers des équations de la dynamique recherchées.Aussi noterons nous par un « prime » l’opérateur « .X∂ »et par un « point » : « .t∂ ». Qui plus est, on aura deuxtypes de twists : les vitesses que nous noterons

1( )o g g− ∨ξ = , et ceux associés aux transformationsinfinitésimales des repères sections lorsque l’on se


déplace à temps fixé le long de l’axe matériel du « robotpoutre ». Ces derniers seront notés 1

1 ( )g g− ∨′ξ = etinterviennent dans les mesures des déformations de lapoutre. Une fois ce cadre posé, et contrairement au casprécédent, la dynamique peut ici se déduire du principeintégrale d’Hamilton appliqué au lagrangien augmenté:

1

1 0( , , ) ( ) ( ) T

o ol g g F dXξ ξ ξ λ= − −∫ T U (29)

Où T et U sont à présent des densités d’énergiecinétique et potentielle et λ est un champ de torseurinterne forçant les contraintes holonomes imposées par laconception et la commande qui prennent la formegénérale: 1( , , ( )) 0F t X Xξ = (30)

Alternativement, les équations de la dynamique desrobots redondants se déduisent d’un jeu d’équations quenous appellerons « équations de Poincaré – Cosserat »puisqu’il réalise une généralisation des équations dePoincaré au cas d’un milieu Cosserat de dimensionquelconque (i.e. un aggloméra de micro-solides rigides).Les voici à présent telles qu’elles figurent dans [13], i.e.dans le cas général où le lagrangien ne présente pas desymétrie :

*

0( )

i

p

gii i i

ad Xx ξ λ

ξ ξ=

∂ ∂ ∂− − = ∂ ∂ ∂

∑ L LL (31)

Avec dans le cas d’une poutre (milieu Cosserat mono-dimensionnel) : 1p = et 1( , ) ( , )ox x t X= , tandis que

T F= − −λL T U , ( )gX L est encore défini par (19), et

λ représente une éventuelle densité de torseursextérieurs appliquée le long du robot. Notons que (31)réalise un jeu d’équations aux dérivées partielles surl’intérieur du domaine et qu’il se doit en tant que teld’être complété de conditions aux limites dont la formegénérale est donnée dans [13]. Afin de fixer les idées,considérons par exemple le cas d’un manipulateur hyper -redondant réalisé par l’empilement sériel de plates-formesparallèles de type rotule. Remplaçons ce robot par unepoutre homogène et plaçons les trièdres mobiles dessections sur l’axe matériel supposé passer par les centresde masse des dites sections. Dans ce cas le lagrangien vas’écrire :

1

0

1 ( , )2

T T Tg

Jl V A r dX

AVρ

ρ γρ

Ω = Ω −

∫

1

01

( , )( )

dT TT

K KM N dX

R r t−

+ ′ − ∫ (32)

Où le premier terme sous l’intégrale représente la densitéd’énergie cinétique du robot avec : A, l’aire de la section,

J, son tenseur d’inertie géométrique dans le repèresection, et ρ la masse volumique du robot. Le secondterme n’est autre que la densité d’énergie potentielle degravité. Quant au troisième, il représente la contributionimposée par les contraintes qui sont dans ce cas :

1( ) ( )r X t X′ = , ( ) ( , )dK X K X t= (33)

La première traduit la cinématique des poutres deKirchoff, pendant infinitésimal de la liaison rotule. Elleest donc imposée par la conception. La seconde quant àelle, impose au champ de courbure-torsion ˆ TK R R′= uneévolution dans le temps spécifiée par la commande.Finalement, N et M sont les champs de réaction interne etde couple de commande imposés au robot et évalués dansles repères des sections. Appliquons à présent (31) à (32),il vient :

10( ) T

g

M K M R t NJ JA N K NA

′ + × + ×Ω+Ω× Ω= − ′ + ×

ρ ρρ γρ γ

(34)

Par comparaison avec (26), notons que ce modèle n’estautre que le modèle des efforts de Newton-Euler icigénéralisé au cas d’un robot manipulateur continu. Resteà compléter ce modèle du modèle géométrique imposépar les contraintes (33) qui se réécrivent (en posant :

1 (1,0,0)Te = ):

1.r R e′ = , ˆ. dR R K′ = (35)

ainsi que de ses dérivées première et seconde par rapportau temps, pour obtenir le modèle de Newton-Euler de cerobot hyper-redondant. Enfin, il nous faut ajouter lesconditions aux bords en force : (1) (1) 0N M= = , et enmouvement : (0) or r= , (0) oR R= .

6 Dynamique sur un fibré principal : lesrobots locomoteurs

6.1 Introduction

A l’origine, la problématique de la locomotion enrobotique est apparue avec les robots mobiles dits non-holonomes. Par la suite, d’autres solutions que lestraditionnelles roues actionnées ont été proposées pourrépondre à l’objectif de locomotion. Ces solutions sontaujourd’hui essentiellement inspirées des principeslocomoteurs des animaux. Aussi, tout un bestiaire de« robots locomoteurs », tels que robots poissons, robotsinsectes, marcheurs ou volants… est apparu dans lechamp d’une robotique dite « bio-mimétique ». L’étudede ces systèmes a aujourd’hui trouvé son cadregéométrique dans la théorie des fibrés et des connexions[14], que nous allons à présent introduire. Par « robot


locomoteur », nous entendons ici un système multi-corpsdont certains degrés de liberté articulaires sont contrôlésde manière à ce que l’un de ses corps, que nousappellerons « corps de référence », se déplace dansl’espace ambiant de manière attendue. La propulsion sefait ici via des forces de réaction sur lesquelles le systèmes’appuie pour se déplacer. Ces efforts peuvent parexemple être les contacts non persistants d’un robot àpattes, ou ceux exercés par un fluide sur les corpsélémentaires du robot dans le cas d’un robot nageur ouvolant… Notons que les traditionnels robots mobiles àroues entrent dans cette classe de système, les rouesreprésentant alors les corps s’appuyant surl’environnement pour mouvoir le corps de référencequ’est la caisse du robot.

Comme dans le cas de la manipulation, tout part encorede la définition de l’espace des configurations d’un robotlocomoteur. Notons en premier lieu, que contrairement aucas d’un robot manipulateur, un robot locomoteurpossède des degrés de liberté (ddls) de deux naturesdistinctes. Les premiers sont les ddls internes (que noussupposerons au nombre de n) relatant la configurationrelative des corps constitutifs du robots (i.e. sa « forme »),les seconds sont les ddls externes traduisant leschangements de situation (position-orientation) de soncorps de référence dans l’espace ambiant. Sur la base decette remarque, l’approche lagrangienne telle queprésentée dans la section 2 peut être naturellementétendue aux robots locomoteurs en substituant à la variétédes configurations internes, l’espace suivant qui réalise laforme la plus générale de l’espace des configurationsd’un robot locomoteur :

: G S= ×C (36)

Où G est un sous groupe de SE(3) ou SE(3) lui même et1 1 1

copies

: ...n

S = × ×S S S est l’espace des formes internes du

robot (appelé «Shape space » dans la littérature anglo-saxone).

FIG. 4 – Robot locomoteur

Un tel espace (C ) définit du point de vue géométrique ceque l’on nomme un fibré principal trivial. « Principal »

car la fibre est ici un groupe, « trivial » car le produit (36)est défini globalement et non localement comme dans lecas le plus général de la théorie des fibrés. Enfin, audessus de chaque point de la variété des formes (uneconfiguration interne donnée), on définit une infinité depostures possibles du corps de référence engendrant ainsila fibre, ici le groupe G (cf. Fig. 5). Avant d’appréhenderle problème de dynamique sur un tel espace, nous allonsintroduire un concept fondamental de la théorie desfibrés, celui de « connexion ». Dans ce qui suit l’espacedes formes sera muni d’un système de coordonnéesarticulaires : 1 2( , ,... )n Tr r r r= .

FIG. 5 – Espace fibré

6.2 Connexion sur un fibré principal

Le concept de connexion est probablement l’un des plusféconds de la physique mathématique. C’est notammentcelui qui préside à l’unification des 4 interactions de laphysique des particules [14]. Dans le domaine de larobotique et plus largement de la mécanique classique, lathéorie des connexions apparaît essentiellement en 2circonstances : 1°) lorsque le système présente dessymétries et des lois de conservation associées (théorèmede Noether), 2°) lorsque le système est contraint par desliaisons non-holonomes. Du point de vue mathématiquece concept fut historiquement introduit pour la géométrieriemannienne (on parle alors de connexion riemannienne)et systématisé dans une cadre plus abstrait par H.Weyle[15], dans le cadre de la théorie des fibrés principaux.

FIG. 6 – Connexion sur un fibré principal

Intuitivement, et comme son nom l’indique, uneconnexion sur un fibré principal définit un moyen derelier les déplacements sur la variété de base auxdéplacements dans la fibre. Qui plus est, pour définir une

g

ddls internes

ddls externes:

corps de référence

contacts

G

GG

1( )r t

2( )r t( )r t

1( , )( )g r t

2( , )( )g r t

( , )( )g r t S

G

S

1( ,r )H C

( g ,r )H C

r r

g

ξ

( )hgX r

( )heX r

g

1 eλ

gλ


connexion, une telle relation, que nous supposeronslinéaire, se doit de vérifier la propriété élémentairesuivante : les déplacements relatifs dans la fibre sonindépendants de la position courante occupée par lesystème dans cette dernière. Cette propriété d’invariance,ajoutée aux précédentes, conduit à définir analytiquementune connexion comme :

( ) 0A r rξ + = (37)

Où A est appelée « 1-forme de connexion locale ».puisqu’elle associe localement à tout vecteur de la base run vecteur ξ de l’algèbre de Lie de la fibre. Qui plus est(37) définit sur le fibré une distribution, c’est à dire qu’entout point ( , )g r du fibré, les vecteurs ( , )g r vérifiant(37) engendre un sous espace vectoriel de ( , )g rT C appeléespace horizontal et noté ( , )g rH C . Cet espace peut luimême être pris comme définition de la connexion et sonusage permet de figurer géométriquement le« fonctionnement » de cette dernière comme sur la Fig .6., où . .( ) ( )hX r rλ= dénote le relèvement horizontal d’unvecteur de la base sur le fibré (c’est le transport parallèlepour une connexion riemannienne). Nous allons à présentillustrer cette définition dans les deux cas de figuredirectement concernés par la robotique.

1°) Symétries et conservations

Considérons le cas d’un système poly-articulé en orbite(par exemple un bras manipulateur fixé à une navettespatiale, ou plus simplement un satellite commandé enattitude par des roues d’inertie). Dans ce cas, si l’on nes’intéresse qu’à l’attitude R du corps de référence, le fibrédes configurations est : (3)SO S= ×C et du fait del’absence de forces extérieures, le moment cinétique dusystème est conservé forçant donc la relationsuivante, dans le cas où le système est initialementimmobile: / 0lσ µ= ∂ ∂ = (38)

Où σ et µ sont respectivement le moment cinétiquetotal et la vitesse angulaire du corps de référence dusystème (la navette spatiale, la caisse du satellite…) dansle repère fixe et ( , , , )l R r rµ est le lagrangien du systèmedans le repère fixe (avec R la matrice d’orientation ducorps de référence). En terme des vitesses angulaires dansle repère mobile, (38) se réécrit :

0p J rξ α= + = (39)

Où l’on a introduit le moment cinétique dans le repèremobile : Tp R σ= . Ainsi, (39) est bien de la forme (37)avec: 1( ) ( ) ( )A r J r rα−= , que l’on nomme « connexionmécanique » et qui permet par exemple d’expliquer

comment un chat qui tombe dans la gravité peut seredresser sans s’appuyer sur son environnement [16].

2°) Robots mobiles non-holonomes

Lorsqu’un robot mobile à roues « possède » autant decontraintes de non dérapage et de roulement sansglissement indépendantes que le groupe G (de C ) a dedimensions alors le robot est contrôlable cinématiquementvia un modèle de la forme (37), où A est la matrice decommande d’un système sans dérive sur le groupe G [17],et du point de vue de la géométrie des fibrés se nomme« connexion cinématique principale » [18].

6.3 Dynamique des robots locomoteurs (casnon contraint)

Pour établir les équations de la dynamique d’un telsystème, on définit généralement une connexion sur sonfibré principal. Ici nous adopterons une démarchedifférente en n’invoquant que la structure de groupe [13].Pour cela il nous suffit de substituer à la définitionintrinsèque de l’espace des configurations (36), celleissue du paramétrage de S, i.e. : : nG= ×C R , et deremarquer que C réalise alors un groupe de Lie dont lestransformations sont génériquement notées h et dont la loide composition interne est définie par:

1 2 1 21 2 1 2

1 2 1 2

, , g g g g

h h h hr r r r

∈ = = + C

Où les g figurent encore des matrices représentant lesdéplacements du corps de référence. Ainsi, l’espace desconfigurations du robot étant à présent un groupe, il suffitd’appliquer les équations de Poincaré au lagrangien :

( , ) ( , ) ( , ) ( ) h h T l h T r U hξ ξ∈ = − ∈C R (40)

Où ξ représente un twist de n×Rg (l’algèbre de Lie denG×R ) défini par:

( , , ) ( , )T T T T T T TV r r= Ω =ξ ξ

Dans ces conditions :( )

0

*__ *

r

adad

Q

=

ξ

ξ

λ λ

est l’action co–adjointe de l’algèbre de Lie de nG×R surson dual (Q est ici un vecteur force généralisée appliquésur les ddls internes), et (.)*

.ad est toujours l’action co-adjointe de g sur *g . Enfin, le terme (19) prenant encharge le défaut de symétrie du lagrangien s’écrit ici:

0( )g

r

X ll

= ∂


Et (18) donne :

( )*/ 0// /

l ad ldl rdt l r

ξξ ξτ

∂ ∂ ∂ ∂ − = ∂ ∂ ∂ ∂

(41)

Que l’on rencontre quelques fois sous le nom d’équationsd’Hamel [19] et qui se doivent d’être complétées del’équation dite de connexion :

1 1( ) ( )g g p A r rξ− ∨ −= = −J (42)

déduite de /p l rξ ξ α= ∂ ∂ = +J , où ( )rJ ( J= dans(39)) est le tenseur d’inertie à articulations bloquées dusystème, ou « locked inertia tensor » dans la littératureanglo-saxonne, et 1A α−= J s’interprète comme la 1-forme locale de sa connexion mécanique. Enfin, (41) et(42) doivent être complétées de la dynamique des ddlsinternes, déduite de la seconde ligne de (41) en ysubstituant p à ξ grâce à (42).

6.4 Le cas contraint : Systèmes non-holonomes dynamiques

Reconsidérons le cas d’un robot mobile à roues. Nousavons vu que lorsque la fibre était complètementcontrainte par les conditions de non dérapage et deroulement sans glissement, la dynamique dans cettedernière dégénérait en un simple modèle cinématiques’interprétant du point de vue de la géométrie du fibré,comme une équation de connexion dite « principale ». Onconçoit aisément qu’entre ces deux extrêmes (cas libre ettotalement contraint), il existe des systèmes, tels le« snake-board » [20], dont la fibre est partiellementcontrainte. Dans ce cas, le mouvement du système non-holonome dans la fibre ne peut être décrit sans sonmodèle dynamique. Qui plus est, en raison de la non-holonomie des contraintes, ce modèle ne peut être dérivéd’un principe intégrale de type Hamilton, mais de laforme faible (locale) des travaux virtuels qui s’écritalors dans l’algèbre de Lie de la fibre:

* 0 , T ii

d l laddt ξδψ λω δψ

ξ ξ ∂ ∂

− − = ∀ ∈ ∂ ∂ g (43)

Où , 1,...ii i mλω = est le vecteur des forces généralisées

associées aux contraintes modélisées par les m 1-formesinvariantes à gauche sous l’action de G:

( , , ) 0i r rω ξ = , ˆ( , , , )g g r r TG TSξ∀ ∈ × (44)

A ce niveau, il est naturel d’introduire l’espace (dit« admissible ») des twists compatibles avec lescontraintes: : / ( , ,0) 0, 1,..iD r i mξ ω ξ= ∈ = =g , (45)

Et de construire une base de cet espace en tout point de S:

1,...: span( ( )) / ( , ,0) 0, 1,..ikD f r f r i mα α αω== = = (46)

Où dim( )k G m= − , est la dimension de l’espaceadmissible. Ainsi, en prenant une variation compatibleavec les contraintes, (43) nous donne les équationsdynamiques réduites sur la fibre:

* 0 , 1,...T d l lf ad kdtα ξ α

ξ ξ ∂ ∂

− = = ∂ ∂ (47)

De plus, en introduisant le co-vecteur moment cinétiquegénéralisé admissible (ou « réduit ») :

1( ,... )T Ta k

l lp f fξ ξ∂ ∂

=∂ ∂

(48)

(47) permet d’écrire la dynamique du moment réduit :

*, ( / ) ( / )T T

ap f ad l f lα α ξ αξ ξ= ∂ ∂ + ∂ ∂ (49)

Reste à relier le mouvement dans la fibre à l’évolution dece moment réduit et des ddls internes. Là encore c’est uneéquation de connexion du type (37) qui joue ce rôle. Ellese déduit des m contraintes (44) complétées de ladéfinition (48) des k composantes du moment réduit.Finalement, la dynamique des ddls internes se déduitencore de la seconde ligne de (41) en y substituant ap àξ grâce à l’équation de connexion.

7 Le point de vue de Newton-Euler appliquéaux robots locomoteurs

Si le cadre lagrangien de la dynamique des robotslocomoteurs est aujourd’hui bien maîtrisé, le formalismede Newton-Euler n’a pas encore été étendu dans cedomaine. Néanmoins, il est en passe de l’être dans lecontexte du projet Robea « Robot Anguille ». Sans pourautant entrer dans les détails des résultats théoriques de ceprojet (en cours), notons qu’il suffit, pour capturer lesmodèles attendus, d’ajouter aux modèles récursifs de lagéométrie et des efforts (tels qu’on les rencontre déjà surles manipulateurs), le modèle dynamique du corps deréférence. Ce modèle dynamique fournira les situations,vitesses et accélérations réclamées par l’initialisation desrécurrences susnommées. Ainsi, que le robot locomoteursoit discret (poly-articulé), ou continu (hyper-redondant),il nous faudra établir les équations sur la fibre de l’espacedes configurations (36). Dans le premier cas, le contexteest celui de la sous-section 6.3. Dans le second, l’espacedes formes se définit comme un espace fonctionnel decourbes dans se(3), paramétrées par l’indice continu durobot. Notons que ce contexte a également été étendu auxlocomoteurs contraints dans le cadre du même projet.Finalement, en accord avec la « philosophie » de Newton-


Euler, le modèle dynamique sur la fibre est calculérécursivement grâce à la notion de corps augmenté [21].

8 Conclusion

Dans cet exposé, nous avons relaté les liens entregéométrie et dynamique des robots. Le point de vueadopté est celui du calcul des variations lagrangien. Lessystèmes étudiés vont des traditionnels robotsmanipulateurs aux robots locomoteurs bio-inspirés enpassant par les robots hyper-redondants pour lesquels unnouveau paradigme a été proposé. Reste à dégager lesbénéfices pragmatiques que l’on peut tirer de cesenseignements. Tout d’abord, comme cela a été évoquéprécédemment, les formulations les « plus proches » de laréalité géométrique de l’espace des configurations durobots conduisent à des équations compactes, sans non-linéarités extrinsèques artificielles, sans singularités nichangements de cartes, et exhibant les symétriesnaturelles du système… Sur le plan numérique, larecherche d’algorithmes (interpolation, optimisation,intégration, etc…) sur de tels espaces est un enjeu crucialde la « mécanique – géométrique » aujourd’hui en pleineexpansion et qui devrait à terme, permettre d’améliorerles performances (précisions, convergence, robustesse,rapidité, simplicité…) des futurs simulateurs dynamiquesde robot. Du point de vue de la commande, l’efficacité del’approche géométrique n’est plus à prouver tant elle est àl’origine de nombre des grands succès de la commandenon-linéaire.

Références

[1] I. Newton, Philosophiae Naturalis PrincipiaMathematica, ed. et trad. : F. Cajori, University ofCalifornia Press, 1934.

[2] S. Weinberg, General relativity, Masson, 1992.[3] W. Khalil, E. Dombres, Modélisation et commande

des robots, Hermess, 2002.[4] H. Goldstein, Classical Mechanics , Addison-Wesley,

Reading, MA, 1980.[5] J.L. Lagrange, Œuvres complètes, Jacques Gabay,

1998.[6] H. Poincaré, Sur une forme nouvelle des équations de

la mécanique, Compte rendu de l’académie dessciences de Paris, Vol. 132, pp. 369-371, 1901.

[7] V.I. Arnold, Sur la géométrie différentielle desgroupes de Lie de dimension infinie et sesapplications à l'hydrodynamique des fluides parfaits,Annales de l'institut J. Fourier, Vol. 16(1), pp. 319-361, 1966.

[8] E. Cartan, La théorie des groupes finis et continus etla géométrie différentielle traitée par la méthode durepère mobile, Gautier-Villar, 1937.

[9] F. Boyer, P. Coiffet, Generalisation of Newton-Eulermodel for flexible manipulators , Journal of roboticsystems, Vol. 13(1), pp. 11-24, 1996.

[10] G.S. Chirikjan, J.W. Burdick, An obstacleavoidance for hyper-redundant manipulators , IEEEInternational Conference on Robotics andAutomation, May, pp. 14-17, 1990.

[11] G.S., Chirikjian, J.W. Burdick, The kinematics ofHyper-redundant Robot locomotion, IEEETransactions on Robotics and Automation, Vol. 11(6),pp. 781-793, 1995.

[12] E. et F. Cosserat E, Théorie des corps déformables ,Hermann, Paris, 1909.

[13] F. Boyer, D. Primault, Poincaré-Chetayev equationsfor flexible manipulators , à paraître dans le Journal ofApplied Mathematics and Mechanics (JAMM), 2005

[14] R. Coquereaux, Espaces Fibrés et Connexions,Cours de Physique Mathématique de Luminy,Marseilles, 2002.

[15] D.V. Alekseevskij, A.M. Vinogradov, V.V.Lychagin,, Basic Ideas and concepts of differentialgeometry, Encyclopedia of Mathematical Sciences,Vol. 28, R.V. Gamkrelidze (Ed.), Tome 1 : Geometry,Springer-Verlag, 1991.

[16] R. Montgomery, Gauge theory and the falling cat, inMichael J. Enos, editor, Dynamics and control ofmechanical systems: the falling cat and relatedproblems. American Mathematical Society,Providence, R.I., 1992.

[17] P. Morin, C. Samson, Practical stabilization of drift-less systems on Lie groups: the transverse functionapproach, IEEE Trans. on Automatic Control, Vol.9(48), pp. 1496-1508, 2003.

[18] S. Kelly, R. Murray, Geometric phases and roboticlocomotion , Journal of Robotic systems, Vo.12(6),pp. 417-431, 1995.

[19] J.E. Marsden, T.S. Ratiu , Introduction to mechanicsand symmetry , Springer, 1999.

[20] J.P. Ostrowski, Computing reduced equations forrobotic systems with constraints and symmetries,IEEE Transations on robotics and automation, Vol.15, no. 1, pp. 111-123, 1999.

[21] M. Renaud, Calcul quasi minimal du modèledynamique inverse d’un robot manipulateur ,Techniques de la robotique, Tome 1 : « Architectureset commande », Hermes, 1988.


Optimisation de forme de micro-mécanismes compliants par la méthode descourbes de niveau

Grégoire Allaire1 Frédéric De Gournay1 François Jouve1

1 CMAP (UMR 7641)Ecole Polytechnique

91128 Palaiseau cedexwww.cmap.polytechnique.fr/˜optopo

[email protected]@yahoo.fr

[email protected]

RésuméLes techniques d’optimisation de formes ont connu dans ladécénie écoulée un très fort développement. Dans le cadrede l’optimisation de structures élastiques, la représenta-tion des formes par une fonction courbe de niveau (ou le-vel set) sur une grille fixe a permis de développer des al-gorithmes très efficaces. Nous présentons ces méthodes eninsistant sur les applications possibles dans le domaine dela conception de micro-mécanismes compliants.

Mots ClefOptimisation de forme, mécanismes compliants, level set.

1 IntroductionLes méthodes classiques de variation de frontière ont étébeaucoup étudiées (cf. [11][13]). Elles présentent l’avan-tage de pouvoir traiter une grande variété de modèles mé-caniques ainsi que de fonctions-coût. Mais elles ont deuxinconvénients majeurs : leur coût, dû à la nécessité de re-mailler et leur tendance à trouver des minima locaux et dessolutions fortement dépendantes de la forme de départ. Laméthode d’homogénéisation [1][5][6][14] est une bonnefaçon d’éviter ces inconvénients, mais elle est limitée àl’élasticité linéarisée et à des fonctions-coût particulières.Récemment [3][4], les techniques d’optimisation deformes classiques ont été revisitées en éliminant un de leursinconvénient : les formes sont capturées sur un maillagefixe et représentées par une courbe de niveau d’un champscalaire, comme dans la méthode introduite par Osher etSethian [12] pour le suivi de frontières libres. On conserveainsi tous les avantages des méthodes de variation de do-maine, tout en évitant de nombreux problèmes d’implé-mentation et d’instabilités numériques dus au remaillage.La vitesse du front de propagation est calculée en utilisantla dérivée de forme de l’optimisation de frontière classique.Cette méthode est très souple. Elle s’étend facilement au

3d. L’implémentation d’une nouvelle fonction-coût est re-lativement facile et elle permet d’utiliser des modèles phy-siques et des conditions aux limites complexes.Nous nous concentrons sur l’optimisation de formes(i.e. matériau/vide) plutôt que sur l’optimisation de deuxphases. Nous employons l’approche qui consiste à remplirles trous avec un matériau mou. Nous calculons une dé-rivée de forme en utilisant un problème adjoint. Elle estensuite utilisée comme une vitesse normale sur la frontièrelibre que l’on fait évoluer au cours du processus d’opti-misation. Le transport s’effectue en résolvant une équa-tion d’Hamilton-Jacobi pour la fonction level set. La miseen oeuvre d’une nouvelle fonction objectif est donc trèssimple. En effet, il suffit d’écrire le problème adjoint et ladérivée de forme.Par rapport à la méthode d’optimisation de structures parlevel set décrite dans [3][4], nous proposons deux amélio-rations importantes permettant d’accroître la robustesse etl’efficacité des algorithmes :• afin d’atténuer le fait que la méthode n’est pas « topo-logique » au sens strict – même si elle autorise très natu-rellement des variations de topologie – nous la couplons àla méthode du gradient topologique (cf. [10], [16]). L’idéeest d’enrichir périodiquement l’espace de recherche desformes optimales au cours de l’algorithme en autorisantla création de trous à l’intérieur du domaine. Le gradienttopologique est utilisé comme critère de nucléation pourl’initiation d’éventuels nouveaux trous (cf. [2]) ;• la vitesse de transport de la forme est calculée en utilisantla dérivée de forme. Cette dérivée n’est a priori définie quesur le seul bord de la forme. Une extension « naturelle »est disponible. Nous proposons une extension de la vitesseau domaine de calcul tout entier qui utilise une régularisa-tion par la résolution d’un problème elliptique. Cette ex-tension régularisée se montre en pratique beaucoup plusperformante que l’extension naturelle (cf. [8]).


2 Dérivée de formeSoit Ω un domaine borné de IRd, supposé régulier, inclusdans un domaine de travail D borné qui contient toutesles formes admissibles. Il est soumis à des forces surfa-ciques g sur une partie ΓN de son bord et à des conditionsde Dirichlet sur une autre partie ΓD. Le solide est consti-tué d’un matériau linéairement élastique de loi de HookeA. Le champ de déplacement u est solution du problèmed’élasticité linéarisée

−div (Ae(u)) = 0 dans Ωu = 0 sur ΓD(

Ae(u))n = g sur ΓN .

(1)

Nous cherchons à faire varier la forme Ω dans le domaineD afin d’optimiser une fonction-coût J(Ω).Dans le cadre de l’optimisation de mécanismes, lafonction-coût que nous utilisons est la suivante :

J(Ω) =

(∫

Ω

k(x)|u(x) − u0(x)|2dx

)1/2

, (2)

où u0 désigne un déplacement-cible donné et k est unefonction bornée sur Ω servant typiquement à localiser lazone sur laquelle on désire contrôler le déplacement de lastructure. Ainsi cette même fonction peut servir à mini-miser le déplacement (u0 = 0) ou bien l’écart à un dé-placement donné, ou encore à maximiser le déplacementdans une direction (si u0 est très grand dans cette direc-tion). La méthode s’applique bien entendu à toutes sortesde fonctions-coût différentes.Suivant l’approche de Murat-Simon [11], il est possible decalculer la dérivée de forme de J qui mesure les variationsde J pour une variation infinitésimale du bord de Ω suivantun champ vectoriel θ (il est remarquable que cette dérivéedirectionnelle ne dépende que de la trace normale θ · n deθ sur le bord ∂Ω) :

J ′(Ω)(θ) =

∫

ΓN

(C0

2k|u− u0|

2 +Ae(p) · e(u)

−∂(g · p)

∂n−Hg · p

)θ · nds

+

∫

ΓD

(C0

2k|u− u0|

2 −Ae(u) · e(p)

)θ · nds.

(3)Dans l’expression ci-dessus, p est l’état adjoint définicomme la solution du problème adjoint

−div (Ae(p)) = −C0k(x)(u− u0) Ωp = 0 ΓD(

Ae(p))n = 0 ΓN

. (4)

H(x) désigne la courbure moyenne en un point x du bord∂Ω et C0 est une constante définie par :

C0 =

(∫

Ω

k(x)|u(x) − u0(x)|2dx

)−1/2

.

Nous pouvons maintenant décrire une méthode de gradientpour la minimisation de la fonction-objectif J(Ω). Si l’ex-pression de la dérivée de forme s’écrit

J ′(Ω)(θ) =

∫

∂Ω

v θ · nds, (5)

en négligeant les problèmes de régularité, une direction dedescente sera définie en introduisant un champ de vecteurs

θ = −v n, (6)

et en actualisant la forme Ω par

Ωt = ( Id + tθ)Ω,

où t > 0 est un (petit) pas de descente. Formellement onobtient

J(Ωt) = J(Ω) − t

∫

∂Ω

v2 ds+ O(t2)

ce qui garantit la décroissance de la fonction-objectif.

3 Paramétrisation des formes parune courbe de niveaux

Comme décrite ci-dessus, la méthode de sensibilité peuts’implémenter dans un cadre Lagrangien. Il suffit demailler Ω et de déformer la frontière du maillage grâce à ladirection de descente θ. Ce type d’implémentation souffreau moins de deux inconvénients. Tout d’abord, si la défor-mation est trop importante, il est nécessaire de remailler, cequi peut s’avérer très coûteux (surtout en 3d) et introduiredes instabilités. De plus, des parties initialement disjointesde la frontière peuvent avoir tendance à se rapprocher (jus-qu’au contact) et il est alors très difficile de prendre encompte ces changements de topologie avec de telles mé-thodes de suivi de frontière. La méthode, Eulérienne, descourbes de niveaux permet de capturer la forme sur unmaillage fixe, évitant ainsi ces inconvénients.Nous paramétrons la frontière de Ω par la fonction courbede niveaux définie sur D par

ψ(x) = 0 ⇔ x ∈ ∂Ω ∩D,ψ(x) < 0 ⇔ x ∈ Ω,ψ(x) > 0 ⇔ x ∈

(D \ Ω

).

Les équations de l’élasticité pour le champ de déplacementu ainsi que pour l’adjoint p sont prolongées au domaine Dtout entier par la méthode du matériau fictif qui consiste àremplir les trousD\Ω d’un matériau mou, simulant le videtout en évitant la singularité de l’opérateur d’élasticité.Au cours de la procédure d’optimisation, la forme évo-lue suivant un pseudo-temps qui correspond à un pas dedescente. Si la forme évolue en temps, alors la courbe deniveau suit une équation d’Hamilton-Jacobi. Plus précisé-ment, si Ω(t) varie en temps t ∈ IR+ avec la vitesse nor-male V (t, x), alors

ψ(t, x(t)

)= 0 ∀x(t) ∈ ∂Ω(t).


On différencie par rapport à t et on remarque que la nor-male n à la forme Ω est donnée par n = ∇ψ/|∇ψ| , d’où

∂ψ

∂t+ V |∇ψ| = 0.

Cette équation d’Hamilton-Jacobi est posée dans tout ledomaine D et pas seulement sur la frontière ∂Ω dès lorsque la vitesse V est connue partout. Remarquons que la re-présentation par level set permet de calculer facilement lacourbure moyenne H = div(n) qui joue un grand rôle sil’on veut introduire une pénalisation du périmètre.

4 Algorithme d’optimisationSi la dérivée de forme est du type (5), dès lors que l’expres-sion de v peut s’étendre à tout le domaine de calcul D, onpeut définir une direction de descente

θ = −v n,

et la composante normale θ · n = −v sera la vitesse d’ad-vection dans l’équation d’Hamilton-Jacobi

∂ψ

∂t− v|∇ψ| = 0. (7)

Transporter ψ par (7) est équivalent à bouger la frontièrede Ω (la courbe de niveau 0 de ψ) suivant la direction dedescente −J ′(Ω).L’expression (3) de la dérivée de forme pour la fonction-coût (2) fait apparaître une extension naturelle de la vitesseà tout le domaine D car tous les termes intervenant dansl’intégrande sont définis dans tout le domaine de calcul.Nous verrons dans la partie 6 que d’autres extensions de lavitesse peuvent s’avérer plus efficaces.Nous proposons un algorithme itératif structuré de la façonsuivante :

1. Initialisation de la fonction level set ψ0 correspondantà une forme initiale Ω0.

2. Itération jusqu’à convergence, pour k ≥ 0 :(a) calcul de l’état uk et de l’état adjoint pk pour

le domaine Ωk. Le calcul s’effectue sur D avecle maillage fixe grâce à la méthode du matériaufictif ;

(b) déformation de Ωk par résolution de l’équationd’Hamilton-Jacobi (7). La nouvelle forme Ωk+1

est caractérisée par la fonction courbe de ni-veaux ψk+1 solution de (7) après un pas detemps ∆tk en partant de la condition initialeψk(x) avec la vitesse −vk calculée en fontionde uk et de pk. Le pas de temps ∆tk est choisitel que J(Ωk+1) ≤ J(Ωk).

3. De temps en temps, comme il est habituel de le fairedans les algorithmes de level set pour des raisons destabilité, la fonction ψ est réinitialisée en résolvantune autre équation d’Hamilton-Jacobi dont la solutionstationnaire est la fonction distance signée à la courbede niveau 0.

L’équation (7) est résolue par un schéma explicite décentrésur une grille cartésienne, ou bien par un schéma spécifiquelorsque le maillage est non structuré.Des extensions à la méthodes ci-dessus ainsi que de nom-breux détails d’implémentation sont décrits dans [3]. Nousdonnons les dérivées de forme et des exemples de cal-culs numériques pour différentes fonctions-coût : la com-pliance ou une somme de compliances (multi-chargement),un écart aux moindres carrés par rapport à un déplacementcible, ou encore la plus petite des fréquences propres. Nousdécrivons aussi comment il est possible très facilement deprendre en compte des conditions aux limites de forces sui-veuses (pression normale au bord ou bien force de directionconstante appliquée sur le bord variable), des termes de pé-rimètre (qui servent à régulariser les solutions) ou des mo-dèles physiques plus complexes que l’élasticité linéarisée(un exemple est donné en élasticité non-linéaire pour unmatériau hyperélastique en grandes déformations).

5 Gradient topologique et méthodede level set

L’algorithme ci-dessus ne crée pas de nouveaux trous ni denouvelles frontières si l’équation d’Hamilton-Jacobi (7) estrésolue sous une stricte condition CFL car elle satisfait unprincipe du maximum. Toutefois, la méthode des courbesde niveaux est connue pour permettre le traitement aisédes changements de topologie, c’est-à-dire la création ou lasuppression de trous. Ainsi notre algorithme est-il capablede supprimer des trous facilement si la structure initiale encomporte trop. Mais si l’initialisation n’est pas assez riche,ou si des structures fines ont été détruites par une étape in-termédiaire de calcul, il lui sera impossible de recréer untrou au milieu du domaine. L’algorithme converge alors engénéral vers un minimum local. La solution pourrait êtresubstantiellement amélioré par l’ajout d’un ou plusieurstrous judicieusement placés. Notons que cet inconvénientest surtout sensible en 2d. En effet, s’il est par exempleimpossible par l’algorithme de level set de trouver une so-lution du même genre topologique qu’une coque sphériqueen partant d’une boule (il faudrait creuser un trou à l’inté-rieur), on peut parfaitement obtenir, entre autres, une struc-ture de même genre qu’un tore en faisant se rapprocher puisse toucher deux parois parallèles. On observe courammentce phénomène lors de simulations numériques.Nous proposons d’utiliser la méthode du gradient topo-logique de Masmoudi, Schumacher, Sokołowski et leurscollaborateurs [9], [10], [16], [15] pour définir un critèrede nucléation permettant, à certaines étapes du calcul, dedéterminer où il serait avantageux, du point de vue de ladécroissance de la fonction-objectif, de percer un trou detaille infinitésimale.Si Ω ⊂ IRd est un ouvert et x0 ∈ Ω, on note Ωρ le domaineΩ privé d’un trou sphérique centré en x0 et de diamètre ρ(que l’on suppose interne, i.e. ayant une intersection videavec ∂Ω). Dans le cadre de l’optimisation de structures, onimpose une condition aux limites de Neumann sur le bord


des trous.Si la fonction-coût J(Ω) admet un développement du typesuivant, appelé asymptotique topologique,

J(Ωρ) = J(Ω) + ρdDTJ(x0) + o(ρd),

alors DTJ(x0) est appelée dérivée topologique au pointx0.On peut calculer explicitement (cf. [10], [15]) la dérivéetopologique pour pour la fonction-coût (2) en 2d

DTJ(x) = −π

2C0k(x)|u(x) − u0(x)|

2

−π(λ+ 2µ)

2µ(λ+ µ)

4µAe(u) · e(p)

+(λ− µ)tr(Ae(u))tr(e(p)),

(8)

et en 3d

DTJ(x) = −2π

3C0k(x)|u(x) − u0(x)|

2

−π(λ+ 2µ)

µ(9λ+ 14µ)

20µAe(u) · e(p)

+(3λ− 2µ)tr(Ae(u))tr(e(p)).

(9)

Nous utilisons ces quantités pour insérer une étape supplé-mentaire dans l’algorithme précédent :

1. Initialisation de la fonction level set ψ0 correspondantà une forme initiale Ω0.

2. Itération jusqu’à convergence, pour k ≥ 0 :(a) calcul de l’état uk et de l’état adjoint pk pour le

domaine Ωk ;(b) déformation de Ωk par résolution de l’équation

d’Hamilton-Jacobi (7). La nouvelle forme Ωk+1

est caractérisée par la fonction courbe de ni-veaux ψk+1 ;

(c) de temps en temps, suivant un paramètre donnépar l’utilisateur, calcul du gradient topologiqueDTJ et initiation de trous là où il est minimal etnégatif.

En 2d, les résultats numériques sont conformes aux at-tentes : les solutions obtenues avec cette méthode, en par-tant d’un état initial trivial (domaine rempli de matériau),correspondent aux meilleures des solutions atteintes parl’algorithme précédent lorsque l’on fait varier le nombrede trous initiaux. Elle permet donc d’avoir une plus grandeconfiance dans la qualité de la solution, quelle que soitl’initialisation choisie. Les Figures 3 et 4 montrent unexemple d’utilisation du gradient topologique pour le de-sign d’une structure à topologie complexe. En 3d, dufait de la plus grande facilité de changement de topolo-gie déjà discutée plus haut, nous n’avons pas mis en évi-dence d’exemple pour lequel l’introduction du gradient to-pologique permettrait d’améliorer sensiblement la solution.Tout au plus permet-il de dégrossir plus rapidement la to-pologie de la structure et ainsi d’accélérer un peu la conver-gence, ce qui n’est pas totalement négligeable en 3d.

6 Extension et régularisation de lavitesse

La vitesse v définie par l’équation (5) n’a un sens que surle bord du domaine Ω. On a vu qu’on pouvait facilement endonner une extension naturelle, valable sur tout le domainede calcul D. Toutefois cette extension, qui a l’avantage dela simplicité de mise en oeuvre, n’est pas nécessairementla meilleure. On remarque par exemple qu’à cause du ma-tériau fictif (très mou) qui est utilisé à la place du vide afinde toujours travailler sur un domaine fixe, la vitesse est laplupart du temps très petite à l’extérieur de la forme, com-parée à celle calculée à l’intérieur. Cela a pour conséquencede favoriser artificiellement la suppression de matière parrapport à son ajout pour une structure donnée.Afin d’étendre la vitesse à tout le domaine en la régulari-sant, nous fixons un paramètre réel a et nous calculons Vcomme l’unique solution du problème scalaire

−a∆V + V = 0 dans D

V = v sur ∂Ω. (10)

Le paramètre a mesure l’amplitude de la diffusion de lavitesse autour de la frontière ∂Ω. Il doit être choisi conve-nablement pour que la vitesse soit diffusée suffisammentloin de la frontière (a assez grand) sans que deux partiesdisjointes de la frontière interfèrent (a pas trop grand).Cette nouvelle vitesse, utilisée dans l’algorithme précé-dent, montre une amélioration de la qualité des résultatsobtenus. On observe en particulier une vitesse de conver-gence de l’algorithme qui ne dépend plus de la finesse dumaillage.

7 Exemples de calculs de méca-nismes optimaux

A titre d’illustration, nous présentons d’abord deuxexemples de calculs de micro-pinces compliantes, fonc-tionnant sans rotules ni jonctions. Dans les deux cas, l’en-combrement maximal de la pièce, ainsi que les conditionsaux limites (points d’appui, forces extérieures) sont desdonnées du problème. Les caractéristiques mécaniques dumatériau utilisé sont également données. Il s’agit d’optimi-ser la fonction-objectif (2) en répartissant de manière opti-male la matière dans le domaine de calcul. Ici, nous maxi-misons le déplacement des mâchoires de la pince, k(x)vaut donc 1 sur les mâchoires et (presque) 0 ailleurs, tandisque u0 est choisi très grand dans la direction de fonction-nement de la pince. En outre on impose un léger contrôledu déplacement au niveau du point d’application des ef-forts (u0 nul et k(x) petit) pour éviter d’obtenir de tropgrands déplacements. Enfin, une force de réaction est im-posée au niveau des mâchoires, dans la direction opposée àson fonctionnement. Un choix judicieux de cette force per-met d’ajuster le ratio (déplacement des mâchoires)/(forcede serrage) de la structure optimale finale.Pour la pince bidimensionnelle (Fig. 1), on applique une


FIG. 1 – Micro-pince optimisée par la méthode des courbesde niveau

FIG. 2 – Pince 3d optimisée par la méthode des courbes deniveau

force verticale au milieu de la face inférieure. Les pointsd’appui sont figurés par les cercles blancs.La pince tridimensionnelle (Fig. 2) est encastrée au niveaudes faces supérieures et inférieures du domaine et une pres-sion est appliquée sur la face arrière.Pour illustrer le couplage de la méthode du gradient topo-logique avec la méthode des level set, nous présentons unestructure que l’on peut assimiler à une microstructure dontle comportement macroscopique apparent est celui d’unmatériau à coefficient de Poisson négatif. Le domaine decalcul est un carré dont les bords sont exclus de l’optimi-sation. Il est soumis à des forces de traction sur ses paroisverticales. On cherche à maximiser le déplacement verti-cal sur les parois horizontales. L’algorithme est initialiséavec une structure remplissant tout le domaine de calcul.La Figure 3 montre la forme obtenue à différentes étapes

du calcul. On remarque la complexification croissante de latopologie, obtenue grâce à plusieurs interventions du gra-dient topologique comme critère de nucléation au cours ducalcul. La Figure 4 montre la structure finale et sa défor-mation sous l’action des forces appliquées.

FIG. 3 – Différentes étapes du calcul pour le design du dis-positif se comportant comme un matériau à coefficient dePoisson négatif


FIG. 4 – Microstructure à coefficient de Poisson négatif etsa déformée sous l’action de forces latérales

Références[1] ALLAIRE G., Shape optimization by the homogeniza-

tion method, Springer Verlag, New York, 2001.[2] ALLAIRE G., DE GOURNAY F., JOUVE F., TOADER

A.M., Structural optimization using topological andshape sensitivity via a level set method, à paraître dansControl and cybernetics, 2005.

[3] ALLAIRE G., JOUVE F., TOADER A.M., Structuraloptimization using sensitivity analysis and a level setmethod, J. Comp. Phys., 194/1, pp. 363-393, 2004.

[4] ALLAIRE G., JOUVE F., TOADER A.M., A level setmethod for shape optimization, C. R. Acad. Sci. Paris,Série I, 334 no.12, pp. 1125-1130, 2002.

[5] ALLAIRE G., JOUVE F., Optimal design of micro-mechanisms by the homogenization method, Europ. J.of Finite Elements, 11, pp. 405-416, 2002.

[6] BENDSOE M., SIGMUND O., Topology Optimization.Theory, Methods, and Applications, Springer Verlag,New York, 2003.

[7] CÉA J., Conception optimale ou identification deformes, calcul rapide de la dérivée directionnelle dela fonction coût, Math. Model. Num. Anal., 20, 3, pp.371-402, 1986.

[8] DE GOURNAY F., Thèse de l’Ecole Polytechnique,Juillet 2005.

[9] ESCHENAUER H., SCHUMACHER A., Bubble me-thod for topology and shape optimization of structures,Structural Optimization, 8, 42-51 (1994).

[10] GARREAU S., GUILLAUME P., MASMOUDI M., Thetopological asymptotic for PDE systems : the elasti-city case, SIAM J. Control Optim., 39, no. 6, pp. 1756-1778, 2001.

[11] MURAT F., SIMON S., Études de problèmes d’opti-mal design, Lecture Notes in Computer Science 41, pp.54-62, Springer Verlag, Berlin, 1976.

[12] OSHER S., SETHIAN J.A., Front propagating withcurvature dependent speed : algorithms based onHamilton-Jacobi formulations, J. Comp. Phys., 78, pp.12-49, 1988.

[13] PIRONNEAU O., Optimal shape design for ellipticsystems, Springer-Verlag, New York, 1984.

[14] SIGMUND O., On the design of compliant me-chanisms using topology optimization, Mech. Struct.Mach., 25, pp. 493-524, 1997.

[15] SOKOŁOWSKI J., ZOCHOWSKI A., Topological de-rivatives of shape functionals for elasticity systems,Mech. Structures Mach., 29, no. 3, 331-349 (2001).

[16] SOKOŁOWSKI J., ZOCHOWSKI A., On the topologi-cal derivative in shape optimization, SIAM J. ControlOptim., 37, pp. 1251-1272, 1999.


Session robotique médicale

La conception de robots pour l'assistance aux gestesmédicaux et chirurgicaux

Philippe Poignet1, Gérard Poisson2

1 Laboratoire d’Informatique, de Robotique et de Microélectronique de Montpellier161 rue Ada, 34392 Montpellier Cédex 5

2 Laboratoire de Vision et Robotique de Bourges63 av. de Lattre de Tassigny, 18020 Bourges Cedex

[email protected], [email protected]

Remerciements - les auteurs remercient tout particulièrement les chercheurs des différents laboratoires, qui ontcontribué, par la fourniture d’articles et de photos, à la rédaction de cette synthèse ; INRIA Sophia-Antipolisprojet COPRIN, LAI, LIRMM, LRP, LSIIT, LVR, ONERA, TIMC.

RésuméCette synthèse présente quelques aspects de la conceptionde robots dédiés pour des applications médicales etchirurgicales illustrés par des exemples de réalisations quiont vu le jour principalement dans des projets nationaux eteuropéens récents ou en cours, impliquant des laboratoiresfrançais, tant dans les secteurs de la robotiqued’intervention, que de la chirurgie mini-invasive ou encorede la robotique de diagnostic. Après avoir brièvementdécrit les objectifs fondamentaux de la robotique médicaleet les caractéristiques attendues du robot à développerpour cet usage, nous insistons notamment sur lescontraintes liées à l’intégration de ce robot dans unenvironnement clinique et humain. A travers une séried’exemples issus de différentes spécialités (chirurgiereconstructrice, chirurgie endoscopique, télé-échographie),nous montrons quels peuvent être les besoins particuliersen terme de mobilité, vitesses ou efforts et quelles sont lessolutions cinématiques qui ont été proposées jusqu’àprésent (structures anthropomorphes ou SCARA,architectures parallèles, centre de rotation déporté). Aprèsune discussion sur quelques problèmes ouverts du point devue technologique, nous abordons les aspects sécurité quisont partie intégrante de cette phase de conception.

Mots clefGeste médico-chirurgical, robot médical, architecturecinématique, conception mécanique et mécatronique,sécurité.

1. IntroductionL’objectif principal des robots « médico-chirurgicaux »(selon l’expression de J Troccaz [1] ) est de développer"une coopération entre un homme (le chirurgien) et unemachine (le robot) qui cherche à exploiter les capacités desdeux pour réaliser une tâche mieux que ce que pourrait faire

l’un des deux tout seul" [2]. La technologie doit doncpermettre au chirurgien d’améliorer son pouvoir deperception, de décision et d’action [3] grâce par exemple àl’utilisation de systèmes de vision, de capteurs et/oud’actionneurs spécifiques.

Il en résulte qu’une des caractéristiques majeures d’unsystème médical est d’interagir intimement avec unenvironnement humain c’est-à-dire avec des personnes,entraînées ou non, dont le comportement peut êtreextrêmement imprévisible. Ainsi, un robot médical est danstous les cas, un système complexe incluant une structuremécanique articulée et motorisée, une Interface Homme-Machine (IHM) et des instruments, des composantsélectroniques et un contrôleur logiciel. Ces éléments sontintégrés de manière à réaliser quotidiennement une ouplusieurs tâches médicales de façon sécurisée. Cesinterventions sont effectuées dans un environnementcontraint et non structuré, dans un volume de travail limité,à l’intérieur et/ou à l’extérieur de l’enveloppe corporelle dupatient. On comprend alors aisément que toute défaillancedu système peut être extrêmement critique ; la sécurité estdonc une question essentielle lors de la conception d’unrobot médical, en raison des interactions que ce dernierexerce avec les êtres humains.

Pour satisfaire ces exigences sécuritaires, le fonctionnementet l’utilisation de tels systèmes sont donc nécessairementdifférents de ceux des robots industriels ; ces derniers sonten principe isolés des personnes avec lesquelles ilsinteragissent. Les principales différences entre les robotsindustriels et les robots médicaux peuvent être ainsisynthétisées en fonction des deux critères suivants [4] :1) le facteur humain. Puisque la tâche est effectuée sur un

être humain, les conditions de travail évoluent enfonction du patient (position sur la table d’opération,caractéristiques des organes, des tissus, accessibilité auxorganes…). La tâche et son exécution sont doncspécifiques à un patient donné et en conséquence, desmouvements d’essais ou répétitifs peuvent difficilement


mailto:[email protected]


marchand

Rectangle

être envisagés. En plus d’être au contact du patient, leprincipal intérêt de ces systèmes est de pouvoir coopéreravec le personnel médical ; chirurgiens, mais aussiinfirmiers ou anesthésistes. Ces utilisateurs ne sont pasnécessairement des « spécialistes » des technologies dusystème. Ces raisons font qu’une planification en phasepréopératoire et/ou une méthodologie d’action lors del’intervention (phases de perception et décision tellesque les définissent [3] ) sont nécessaires ; ce pland’action peut également être modifié durant l’opération,selon le diagnostic du chirurgien, les possiblescomplications ou le comportement de l’organisme dupatient.

2) les contraintes cliniques. Les fonctionnalités requisessont définies selon chaque type d’opération ; un robotmédical est donc souvent conçu pour une opérationspécifique (neurochirurgie [5], arthroplastie [6]...). Deplus, les composants au contact du champ stériledoivent être aseptisés par autoclave ou recouverts d’undrap stérile. La salle d’opération est généralement unlieu encombré où la présence d’autres appareilsmédicaux (de radiologie, d’anesthésie, de chirurgie...)contraint le mouvement ou le positionnement du robotau cours de l’intervention ; ce positionnement peut aussiêtre différent entre deux interventions distinctes mais demême nature. Pour ces raisons, il doit être aisémenttransportable et rapidement dégagé en cas decomplications per-opératoires.

A la lumière de ces constatations, la question qui se posenaturellement est : Comment peut-on concevoir et réaliserdes systèmes à la fois performants, fiables et sûrs capablesde coopérer avec un médecin ou un chirurgien ?

Les termes de conception et réalisation incluentévidemment un grand nombre d’aspects allant de ladéfinition d’une cinématique à une commande performanteet sûre du système, en passant par le développement d’unenvironnement logiciel (commande, IHM...) sûr lui aussi etle choix d’actionnements capables de garantir l’intégrité despersonnes quels que soient le mode de fonctionnement et lasituation médicale ou chirurgicale.

Au cours des quinze dernières années, à l’instar dessystèmes ROBODOC (architecture SCARA IBM 7576) etCASPAR (architecture Stäubli RX), les robots utilisés dansdes procédures chirurgicales étaient soit de « simples »robots industriels modifiés pour accroître leur sécuritéd’utilisation [7], [8], soit des robots plus spécifiques maisavec des structures largement inspirées par la robotique« classique » avec, parmi les systèmes les plus connus, lesrobots Zeus et AESOP (Computer Motion), Da Vinci(Intuitive Surgical), Hippocrate (SINTERS-LIRMM),Surgiscope (ISIS), Neuromate (ISS, TIMC,www.surgetics.org), Acrobot (société Acrobot Ltd, startupde l’Imperial College), EndoAssist (ArmstrongHealthcare)... Par contre, le nombre de produitscommerciaux disponibles sur le marché [9] estextrêmement réduit (à cause du coût à l’achat et del’exploitation, de l’encombrement, de la formation, du

temps de mise en œuvre...) et leur réelle valeur ajoutéeclinique n’est pas vraiment prouvée, excepté peut-être pourles systèmes de neurochirurgie (Surgiscope) ou deradiochirurgie (CyberKnife). Actuellement, les concepts derobots médicaux évoluent considérablement pour faireémerger des systèmes que l’on pourrait diviser en troisclasses. La première catégorie est celle des robots

d’intervention ou de diagnostic légers. Ils sont d’uncoût relativement limité, assez faciles à sécuriser etpotentiellement d’une grande valeur ajoutée. Ontrouvera dans cette classe ; i) les systèmes “porte-aiguille” comme CASPER de TIMC [10] pour desponctions péricardiques ou le CT-BOT développé dansle projet ROBEA IRASIS pour la thérapie percutanéepar radiofréquence pour la destruction de tumeur [11] ;ii) des instruments de microchirurgie filtrant de manièreactive les tremblements du chirurgien [12], iii) dessystèmes compatibles avec un IRM, par exemple pourdes biopsies sur la prostate [13], iv) des robots de télé-échographie [14], [15].

La deuxième classe correspond à celle des systèmesminiatures endocavitaires tels que les capsulesendoscopiques M2A (société Given Imaging,http://www.givenimaging.com) [16], NORIKA(http://www.rfnorika.com) ou EMIL (http://www-crim.sssup.it/research/projects/emil).

La troisième classe est celle des robots spécialiséslégers et compacts pour réaliser une ou deux fonctionscomplexes comme par exemple un ancillaire robotisépour la chirurgie osseuse [17], [18] (voir également lesystème Praxiteles de la société PRAXIM, FIG. 1 ou lerobot BRIGIT de la société MEDTECH, FIG. 2) ou unstabilisateur robotisé pour la chirurgie cardiaque à cœurbattant [19].

FIG. 1 - Outil robotisé miniature pour la coupe ou lefraisage en chirurgie osseuse du genou sans imagerie pré-

opératoire (PRAXIM – TIMC)

Ces trois classes sont représentatives des contraintesimposées par les utilisateurs. Pour que les robots jouent unrôle important et efficace dans les salles d’opération dufutur, il faudra qu’ils soient moins chers, moinsencombrants et simples d’utilisation. La démarche


http://www.rfnorika.com/

http://www-crim.sssup.it/research/projects/emil

http://www-crim.sssup.it/research/projects/emil

générique, qui sous-tend la réalisation de ces systèmes,s’articule en 3 étapes :– tout d’abord, la modélisation ou la caractérisation des

gestes chirurgicaux et des interactions(chirurgien/robot, robot/patient, robot/environnement),

– ensuite, le choix ou la conception d’une cinématique etde l’actionnement adaptés aux spécifications issues dela caractérisation des gestes,

– puis, la synthèse d’un contrôleur et la définition del’IHM.

Ces différentes étapes, principalement les deux dernières,sont extrêmement contraintes par les aspects de sécuritédans la démarche de conception d’un système fiable et sûr.

FIG. 2 - Le porte ancillaire BRIGIT (société MEDTECH)

2. De la caractérisation de gestes médicaux etchirurgicaux à la conception de robots

2.1. Motivations et besoins particuliersAux différentes questions que l’on est en droit de se poserlorsque l’on veut concevoir un robot médical - à savoir :combien de degrés de liberté faut-il ? quelles vitesses etquelles accélérations sont nécessaires ? quelles forces sontmises en jeu ? quelle cinématique choisir ? – les réponsessont extrêmement variées et dépendent fortement de laspécialité ou encore de l’acte chirurgical que le praticiendoit réaliser.

Ainsi si l’on s’intéresse au nombre de degrés de liberté(ddl) ;- en neurochirurgie, il faut au moins 5 ddl (1 point et une

direction),- en orthopédie, on a besoin de 5 ddl (perçage) ou 6 ddl

(coupe),- en chirurgie mini-invasive (minimally invasive surgery

ou MIS), 5 ddl extra-corporels plus 3 ddl (rotationsintra-cavitaires) sont nécessaires ou 6 ddl extra-corporels (si la rotation autour de l’axe principal estcomptée) et 2 ddl (intra-cavité),

- pour un prélèvement de peau, les 6 ddl seront utilisés.

En ce qui concerne les vitesses et accélérations, on peutconsidérer que ;- pour la chirurgie reconstructrice et le prélèvement de

peau , quelques mm/s suffisent,- en MIS, plusieurs 100 mm/s sont nécessaires (grandes

rotations de la longueur outil x outil),- en orthopédie, quelques mm/s suffisent également, en

chirurgie cardiaque à cœur battant, les accélérations sontsupérieures à 1 g,

- pour le cerveau, on travaille en statique (même si lecerveau peut bouger dans la boîte crânienne).

Pour les efforts ;- pour le prélèvement de peau : entre 40 N et 80 N,- en MIS ; quelques N (sans compter les perturbations au

niveau du trocart),- en orthopédie, jusqu’à 100 N (extrêmement dépendant

des paramètres de coupe).

Ces quelques chiffres illustrent bien la variété desspécifications que le concepteur d’un robot médical peutrencontrer. Cette variété est à mettre en regard d’un dessouhaits forts des instances hospitalières de mettre àdisposition des praticiens un robot pour plusieursspécialités.

2.2. Spécifications cinématiques etdynamiques (vitesse, effort, précision,espace de travail)

Une des principales étapes si ce n’est la première consisteen la caractérisation du geste du praticien afin dedéterminer les spécifications du système en termes d’espacede travail, de vitesse, d’effort ou encore de précision. Decette étape dépendent fortement les choix de conception etde technologies du robot. Les quelques exemples quisuivent, illustrent cette démarche, pour des systèmes desclasses 1 et 3 précédemment mentionnées.

Chirurgie reconstructrice – La FIG. 3 et la FIG. 4illustrent l’étude de faisabilité réalisée dans le cadre duprojet SCALPP au LIRMM pour la conception d’un robotd’assistance au prélèvement de peau en chirurgiereconstructrice [20]. L’acte chirurgical s’effectue avec undermatome - une sorte de rasoir – qui est équipé d’unmoteur électrique pour faire vibrer les lames et inciser lapeau. Pour l’étude de faisabilité, l’instrument a été équipéd’un capteur d’effort (ATI Force Sensor Gamma130 N/10 Nm, 6 composantes) et d’un capteur de vitesse àfil (ASM Sensor) [21], [22].


FIG. 3 - Chirurgien réalisant un prélèvement sur cochonavec un dermatome instrumenté de capteurs

Effort selon x Effort selon y

Effort selon z Vitesse selon x

Temps [s] Temps [s]

Temps [s] Temps [s]

Forc

e [N

]

Forc

e [N

]

Forc

e [N

]

Vite

sse

[mm

.s-1]

FIG. 4 - Évolutions des efforts et de la vitessed’avancement au cours d’un prélèvement

Chirurgie endoscopique - La FIG. 5 montre desinstruments de chirurgie conventionnelle équipés d’uncapteur de position « Minibird » et d’un capteur d’effort. Cetravail, réalisé dans le cadre du projet ROBEA MARGE[23], avait pour objectif de mesurer et caractériser le gesteendochirurgical en termes de position et d’effort. Lestrajectoires enregistrées de la pointe de l’aiguille lors d’ungeste de suture ainsi que les mesures des forcesd’interaction ont permis de concevoir de façon optimisée unoutil modulaire à haute dextérité [24].

FIG. 5 - Instrument chirurgical modifié et instrumenté

Télé-échographie – En équipant une sonde échographiqued’un localisateur « Flock Of bird » (Fob) (FIG. 6), lestrajectoires 6D de la sonde, les amplitudes des mouvements

(rotations et translations), l’espace balayé et les zones lesplus fréquentées ont été caractérisés (FIG. 7 ). Il a ainsi étémontré la nécessité de disposer d’un robot capabled’effectuer un mouvement sphérique avec un centre derotation distant situé sur le point de contact sonde/patient.

FIG. 6 - Sonde échographique instrumentée du « Fob » etses composantes de mouvement

En s’appuyant sur cette analyse, [25] a proposé les conceptsd’espace de travail accessible et d’espace de travailobligatoire. Les contraintes robotiques imposées (précision,performance cinématique, absence de singularité…) sontdifférentes sur ces 2 espaces. Cette approche a ainsi permisde proposer des solutions cinématiques optimisées pour unetâche médicale donnée.

FIG. 7 - Rotation propre de la sonde pendant un examenéchographique du foie (à gauche) ou du pancréas (à droite)

La difficulté majeure, qui apparaît dans ces trois exemplesréside essentiellement dans la nécessité de devoir équiperde capteurs les instruments du chirurgien sans perturber nimodifier son geste. Une seconde difficulté vient du constatque le geste est influencé par de nombreux facteurs, telsl’expert lui même (son niveau d’expertise, son état defatigue), la taille et la morphologie du patient…

2.3. Choix cinématiquesLa caractérisation et la spécification des besoins médicauxpermettent alors au roboticien de les décliner enspécifications fonctionnelles et technologiques. La premièreétape consiste à choisir l’architecture cinématique. Cettedémarche s’est jusqu’à présent souvent articulée autour desolutions avec des robots de types industriels, adaptés etmodifiés pour une tâche médicale, mais elle évolue de plusen plus vers des solutions dédiées. Des différentesarchitectures de « porteur », les structures « série »conventionnelles ont, de loin, été les plus utilisées jusqu’àprésent. Cependant la question du choix entre unearchitecture de type SCARA (ROBODOC, PADYC,


DERMAROB, robot LSIIT…) et un bras anthropomorphe(CASPAR, Hippocrate…) s’est posée naturellement. Leproblème reste ouvert si l’on en juge par les innombrablesexemples de chacune des architectures (voir l’exposé deF. Pierrot à l’Université Européenne d’Eté de Robotiquechirurgicale organisée à Montpellier en septembre 2003,www.lirmm.fr/manifs/UEE/accueil.htm).

Architecture anthropomorphe – Issue des applications del’industrie automobile (peinture, soudage, manipulation),elle est constituée d’un porteur à 3 ddl et d’un poignet à 2ou 3 ddl. C’est la configuration qui pour un encombrementdonné du robot offre le plus grand espace de travail (espacesphérique). Elle est également une solution bien adaptée àun déplacement de charges imposantes. Cette structure est àl’origine de robots tels que CASPAR et ACROBOT (tousles deux dédiés à la chirurgie orthopédique), Neuromate(neurochirurgie) ou encore Hippocrate (échographie)illustré à la FIG. 8.

FIG. 8 - Le robot anthropomorphe Hippocrate pour lediagnostic par échographie de pathologie vasculaire

Architecture de type SCARA - Egalement issue du mondeindustriel, plus particulièrement pour les applications de« pick and place », la solution SCARA (4 ddl pour desdéplacements de l’effecteur conservant constantel’orientation « Z ») est largement exploitée pour constituerle porteur de robots médicaux. Un poignet dédié,classiquement à 3 articulations rotoïdes, vient compléter lesmobilités du SCARA. L’espace de travail estapproximativement un « cylindre plat » qui convient bienaux interventions sur un corps humain, allongé sur unetable d’opération. Les effets de la gravité sont plus faciles àprendre en compte qu’avec la solution anthropomorphe ; lacommande en position, du fait de la simplicité cinématique,ne constitue pas, en général, un problème délicat àsurmonter. On peut citer pour ce type d’architecture lerobot DERMAROB du LIRMM (FIG. 9 et FIG. 10) ainsique les robots de TIMC et du LSIIT. Le robotDERMAROB présente 6 ddl avec un poignet non-sphérique(dont les singularités sont rejetées aux frontières de l’espacede travail). Il reste cependant, pour le porteur, la singularité

classique du coude. Le modèle cinématique inverse estrésolu analytiquement.

z0z1z2 z3 z4x5x6

z6

z5

x0x1x2x3

D3D4

D6x4

R4

z

y x

D3 = 400 mmD4 = 400 mmR4 = 200 mmD6 = 200 mm

FIG. 9 - Cinématique du robot DERMAROB exploitant unporteur de type SCARA

FIG. 10 - Le robot DERMAROB

Architecture à cinématique parallèle - Malgré lesavantages en termes de raideur, précision, vitesse,accélération (jusqu’à 40 g !), un bon rapport« poids/charge », beaucoup de parties semblables, de trèsbonnes capacités dynamiques et la possibilité à être utiliséspour le contrôle d’effort, ils présentent des inconvénientsimportants. Ils possèdent beaucoup d’articulations passivesce qui peut être préjudiciable à la précision ; le calcul desmodèles (notamment le MGD qui nécessite souvent unerésolution numérique polynomiale d’ordre 4, 8…) et ladétermination des singularités ne sont pas en généralsimples. Leur commande n’est pas encore supportée par lesCN conventionnelles et la calibration n’est pas classique.De plus, le mauvais rapport « empreinte au sol/espace detravail » est fortement pénalisant dans une salle d’opérationmême si la solution telle que celle mise en œuvre sur leSurgiscope (www.isis-robotics.com), avec une basesuspendue au plafond, constitue une alternative trèsintéressante (FIG. 11).


http://www.isis-robotics.com/

SurgiscopeSurgiscope

FIG. 11 - Le Surgiscope suspendu au plafond

A noter également dans ce paragraphe, le nouveau robotCT-BOT développé par le LSIIT sur la base d’unecinématique parallèle pour réaliser des biopsies sous CTscanner (FIG. 12) [26]. Ce mécanisme parallèle à 3 jambesavec 2 jambes opposées symétriques est utilisé pour sagrande rigidité et pour réduire l’erreur de positionnement.

FIG. 12 - Le Robot CT-BOT

Architectures cinématiques avec centre de rotationdéporté. Parmi les tâches chirurgicales, beaucoup d’entreelles sont caractérisées par des mobilités angulairesrelativement larges autour d’un point unique ou à l’intérieurd’un volume de travail réduit tel que schématisé FIG. 13.

FIG. 13 - Contraintes de mobilité avec centre derotation déporté

En chirurgie mini-invasive, les instruments pivotent autourdu point par lequel ils pénètrent à l’intérieur du corps dupatient. Dans les procédures d’accès percutané, une aiguille

est initialement placée avec sa pointe en contact avec lepoint d’entrée sur la peau puis orientée autour du point depivot pour viser la cible. En échographie également, lasonde est positionnée en regard de l’organe à explorer puisorientée autour du point de contact avec la peau. Cetteanalyse a ainsi conduit au développement de mécanismesqui découplent les mouvements de rotation et de translationdes outils en un point virtuel situé à une distance définie dela structure mécanique du robot. De cette façon, plusieursrobots incluent comme une caractéristique centrale de leurconception un centre de rotation déporté (remote center-of-motion ou RCM). Ces mécanismes présentent ainsi deuxddl en rotation (voire trois) avec des axes concourants en unpoint localisé de façon distale par rapport au mécanisme.Dans ces mécanismes, le RCM peut être :- actif, c’est-à-dire défini et mécaniquement imposé par la

structure cinématique du mécanisme comme leparallélogramme (FIG. 17) du robot Da Vinci ou durobot EndoXirob pour la chirurgie endoscopique [27](FIG. 14), ou un module sphérique à centre de rotationdistant composé de 3 articulations rotoïdes concourantessur les robots Otelo du LVR ou TER du TIMC [25],[28], [14] et [15] (FIG. 15) utilisé pour la télé-échographie ou suivant le même principe une partie dumanipulateur compact de chirurgie endoscopique MC2Edu LRP) [29].

FIG. 14 - Le prototype EndoXirob

FIG. 15 - Cinématique d’Otelo 2 pour la télé-échographie


FIG. 16 - Le robot MC2E (Manipulateur Compact deChirurgie Endoscopique)

- passif comme la structure du robot Zeus ou AESOP(utilisé en laparoscopie, FIG. 18) avec deuxarticulations rotoïdes passives (montées en cardan).Dans ce cas, le RCM est lié au trocart, l’orientation duporte instrument étant commandée par les efforts decontact avec le trocart, ce qui nécessite de minimiser lesfrottements des articulations passives ; certainsconsidèrent cette approche comme plus sûre.Cependant, cette sécurité est faite au détriment de laprécision des mouvements et de la rigidité.

FIG. 17 - Cinématique « RCM » à parallélogramme

FIG. 18 - Cinématique « RCM » à articulations passives

– les RCM peuvent être programmables, le pivot étantassuré par un contrôle coordonné de plusieursarticulations. Cette approche présente des avantagesimportants notamment pour la flexibilité du point depivot, une manœuvrabilité augmentée et surtout unegrande versatilité [30].

Robots à architecture redondante - Offrant plus de ddlque nécessaire, ils peuvent être utiles pour éviter lescollisions mais ils sont numériquement plus délicats àcontrôler puisque le modèle cinématique inverse n’est pasanalytique. Par contre, une synthèse de commande pardécouplage [30] permet d’utiliser une telle architecture poursatisfaire un ensemble de contraintes, par exemple pourréaliser le RCM programmable précédent.

2.4. Contraintes environnementales

2.4.1. Chirurgie mini-invasiveUne opération chirurgicale est dite mini-invasive lorsquel’abord chirurgical se fait par de petites incisions et non « àciel ouvert ». Pour le chirurgien, la vision directe du siteopératoire est remplacée par une image 2D (ouéventuellement 3D) sur un écran via un endoscope(stéréoscopique), avec les limitations que cela induit ;éclairement imparfait, zones d’ombre, perception du reliefdifficile, champ de vision limité avec des risquesd’occlusion, perte de la perception fine des interactionstissu/instrument. Les instruments chirurgicaux utilisésoffrent les mêmes fonctionnalités que les instrumentsconventionnels. Par contre, ils sont fixés à l’extrémité d’untube (typiquement de 300 mm de longueur et de 10 mm dediamètre) et sont introduits à l’intérieur du corps du patientpar un trocart dont la mise en place nécessite une incisionde la peau ne dépassant pas 1 cm. Il est aisé d’imaginerqu’avec de tels instruments, les mobilités intra-cavitairessont réduites et la perception par le chirurgien desinteractions de l’instrument avec les tissus est affectée parles frottements au niveau du trocart. Si les techniques mini-invasives sont dorénavant utilisées dans un grand nombred’interventions en chirurgie laparoscopique (abdominale),ce n’est pas encore le cas en chirurgie cardiaque. Pourtant,leurs bénéfices sont directs pour le patient ; duréed’hospitalisation réduite, meilleur confort post-opératoire etminimisation des risques encourus avec une réduction de ladouleur et du temps de récupération. Cette combinaison debénéfices cliniques permet un retour plus rapide à desactivités quotidiennes normales et génère naturellement descoûts d’hospitalisation plus faibles. Durant les 5 annéespassées, les systèmes télé-opérés Zeus et Da Vinci ont étéutilisés dans les blocs opératoires [31] pour des opérationsrobotisées de chirurgie mini-invasive. Les diversesexpériences et les analyses des opérations pratiquées dansles centres pilotes [32] ont montré l’intérêt des systèmesrobotisés mais aussi leurs limites. Aussi, pour parvenir àune utilisation plus systématique de cette approche mini-invasive assistée par robot, il faut par exemple i) concevoirdes instruments avec des mobilités intracavitaires [24](FIG. 19), [33] (FIG. 20), et [34] (FIG. 21) ; desmécanismes pour la compensation de frottements aupassage du trocart [29] (FIG. 22) ; une « troisième main »pour porter l’endoscope [35] (FIG. 23) ii) fournir desretours sensoriels, de bonne qualité, visuelle et surtouthaptique [23], [26] ; un retour haptique performantimplique de mesurer les efforts au plus près desinteractions, ce qui nécessite le développement de micro-


capteurs [36] qui doivent être stérilisables et/ou jetables ; ouencore iii) implémenter des fonctions d’assistance commela récupération automatique des outils sortis du champvisuel [37], le rejet de perturbations liées à la respiration, aumouvement du cœur pour les opérations cardiaques [38].

FIG. 19 - Instrument dextre optimal à 5 ddl pour lachirurgie des coronaires

FIG. 20 - Le micro-robot chirurgical pour l’endoscopie(INRIA projet COPRIN) ; 3 ddl, 7 mm de , 25 mm de long

FIG. 21 - Poignet articulé de C. Reboulet pour le domainemédical, 1994

c : manipulation directe du trocart

b : manipulation de l’instrument

a : dispositif de base

FIG. 22 - Dispositif métrologique pour l'estimation desefforts intra-corporels

FIG. 23 - Le robot LER (Light Endoscopic Robot, TIMC)

2.4.2. IRM, scanner...La thérapie percutanée dont le principe repose par exemplesur l’utilisation d’une aiguille pour délivrer une thérapieextrêmement localisée, est un domaine qui sera amené à undéveloppement important, notamment si le geste est assisté.A terme, assister le geste par un système robotique devrapermettre i) de diminuer fortement la taille minimale destumeurs traitées (de quelques cm à quelques mm) – ce quiveut dire un traitement plus précoce - et ii) de réduireconsidérablement voire de supprimer l’exposition duchirurgien ou du radiologue aux rayons en télé-opérant lesystème. L’objectif est alors de concevoir un systèmeutilisable avec des modalités d’images telles que le scannerou l’IRM. Cependant, l’utilisation de ces appareils induitdes contraintes très fortes en termes de technologiesutilisables, notamment en ce qui concerne la nature desmatériaux ou le choix de la motorisation. Un premierexemple est celui du robot LPR développé par TIMC (FIG.24) [39]. Ce robot est muni d’actionneurs pneumatiques. Ilest fabriqué en matériaux plastiques compatibles avec laRM, complètement transparents sous IRM et sans artefactsous CT scanner. La masse de ce robot est de 1 kg. Lesystème de servovalves qui contrôle les actionneurs est reliépar des tuyaux d’alimentation de 7 m de long afin d’êtreplacé à l’extérieur de la salle.


FIG. 24 - Le robot LPR (Light Puncture Robot)

Le deuxième exemple présenté est celui du système CT-BOT développé au LSIIT dans le cadre du projet ROBEAIRASIS [40] (FIG. 25).

FIG. 25 - Le robot développé dans le cadre du projetIRASIS

Fabriqué en poudre de polyamide, il est équipé de moteursultrasons et sa masse n’est que de 1,9 kg. Le système estfixé sur le corps du patient, ce qui permet une compensationautomatique et naturelle des mouvements de celui-ci, enparticulier des mouvements externes de la respiration. Unfilm plastique protège les parties en contact avec le corps.

2.5. Choix technologiques : actionneurs,capteurs, matériaux…

Actionneurs - Les opinions différent pour savoir sil’actionnement d’un robot chirurgical doit avoir une granderaideur et peu de réversibilité ou bien alors être aisémentréversible en utilisant des entraînements directs ou desactionneurs à faible rapport de réduction. Des systèmesréversibles avec peu de frottements et des inertiesminimisées garantissent une plus grande transparenced’utilisation, une restitution plus fidèle des forcesd’interaction outil-tissu et ainsi un retour haptique demeilleure qualité. Par contre, ils présentent l’inconvénientd’être moins sécurisés sans limitation intrinsèque de lavitesse. A l’inverse, les systèmes non réversibles permettent

d’obtenir une grande précision et de bonnes capacités pourle transport de charge avec des actionneurs de relativementfaible puissance. L’utilisation de grands rapports deréduction permet d’obtenir des vitesses réduites ce quicontribue au fonctionnement sûr.

Au delà de ces considérations générales, le choix du type etde la taille d’actionneurs est un point très important dans laréalisation des systèmes médicaux. Bien que les actionneursélectriques soient très utilisés sur les gros porteurs, denouveaux robots apparaissent utilisant par exemple desactionneurs pneumatiques :- Vérins linéaires pour le robot LPR [39] ou le robot

simulateur d’accouchement « BirthSim » développé auLAI [41]. Dans ce cas, le vérin pneumatique linéairedouble effet est commandé en force ou en position poursimuler les poussées du bébé pendant les contractions.

- Muscles artificiels de Mc Kibben dont lefonctionnement mécanique présente un comportementsimilaire à celui des muscles physiologiques (d’où leurappellation). Du fait de leur légèreté (grande puissancemassique), ils sont tout indiqués pour une intégration ausein de robots où la minimisation du poids est àprivilégier (robot de télé-échographie TER [14] ). Deplus, ils présentent une très grande élasticité dans lesdirections orthogonales à leur direction de traction, trèsintéressante pour une utilisation dans des mécanismeshyperstatiques. Par contre, ils ne peuvent qu’exercer desforces de traction et doivent donc être couplés enantagonisme pour exercer des efforts bidirectionnels.Un second inconvénient de leur utilisation provient de ladifficulté d’en maîtriser la commande du fait des non-linéarités et de leur forte hystérésis [42].

- Actionneurs à soufflet pour mouvoir un prototype decoloscope [43]. Ces actionneurs, tout comme lesmuscles artificiels présentent une élasticité naturelle quileur permet des mouvements dans des directions axiales,angulaires et latérales.

Dans le contexte de la chirurgie mini-invasive oul’exploration endo-cavitaire, une difficulté majeure se posepour le choix d’actionneurs des mécanismes miniaturisés etpolyarticulés, surtout lorsque l’intégration est réalisée auniveau des parties distales. Différentes approches ont étéproposées. J.P. Merlet [44] ou D. Sallé [24] utilisent desmicromoteurs Brushless, mais ces composants sontextrêmement fragiles. Dans [45], ils mettent en œuvre desactionneurs à base d’alliages à mémoire de forme quiprésentent un bon rapport poids / puissance. Malgré untemps de réponse assez défavorable et des températures defonctionnement très élevées pour le corps humain, ilsprésentent l’avantage d’être totalement biocompatibles[46].

Par ailleurs des moteurs ultrasons sont également employés,notamment en radiologie interventionnelle, car ils sontcompatibles avec l’environnement d’un CT-scanner [40] etsont capables de fournir des couples élevés à l’arrêt.Cependant la durée de vie est limitée à cause desfrottements entre les pièces mécaniques.


Capteurs - Du point de vue du positionnement, il faudraprivilégier, pour les actionneurs, des codeurs absolus quisuppriment les procédures d’initialisation coûteuses entemps et potentiellement dangereuses. De façon générale,deux grandes classes de problème dans ce domaine descapteurs font l’objet de nombreux travaux :1) la mesure des interactions au plus près de l’organe ou

des tissus avec la conception de capteurs d’effortminiature [47], [36], [45],

2) l’intégration de nouveaux systèmes de vision du champopératoire (caméra rapide pour le suivi de mouvementsphysiologiques [36], échographie intra-cavitaire [48],IRM, scanner [26]…).

Matériaux – Comme nous l’avons vu au paragrapheprécédent, les matériaux utilisés peuvent être fortementcontraints par l’environnement d’exploitation. Ainsi, lespremiers robots médicaux en matières plastiques ont étédéveloppés pour des applications dédiées notamment pourêtre compatibles avec la RM, complètement transparentssous IRM et sans artefact sous CT scanner (LPR de TIMCou CT-BOT du LSIIT). Dans le projet ROBEA GABIE[48], des travaux sont en cours pour trouver des matériauxutilisables pour la fabrication d’outils qui soient le pluséchogènes possible.

Stérilisabilité - Naturellement, tous ces composantsdoivent être intégrés de manière à respecter la stérilité duchamp opératoire ou mieux encore en étant stérilisables.

2.6. La sécuritéRègles de sécurité ; directives européennes. Les robotsmédicaux n’ont pas de règles claires de sécurité dans lamesure où il n’existe pas de normes légales édictées(excepté au niveau électrique). Dans la communautéeuropéenne, la norme ISO 9000 a été modifiée pourrépondre aux exigences spécifiques des appareils médicauxdans le cadre de la directive européenne 93/42/CEE [49],[50]. Cependant dans ces directives, la dénomination« système médical » inclut plusieurs sortes de produits telsque les médicaments, les compresses, l’appareillageélectrique, les systèmes mécaniques, les outils de chirurgieet de radiologie... Pour obtenir le marquage CE, lacertification EN 46000 certification énonce les différentscritères nécessaires à la classification de tous les appareilsmédicaux selon 4 classes :

Classe I : faible degré de risque ; Classe IIa : degré moyen de risque ; Classe IIb : haut degré de risque ; Classe III : très important degré de risque.

Evidemment, par comparaison, les robots industrielsappartiennent aux deux dernières catégories (classes IIb etIII), mais les risques sont généralement évités en empêchantles intrusions humaines dans l’espace de travail de lamachine. Cependant, il est possible pour un opérateurd’entrer dans l’espace de travail sous des conditionsspécifiques sans arrêter la machine et après avoir

déconnecté les équipements de protection, par exemplepour la maintenance ou dans des modes manuels avec desvitesses limitées. En robotique médicale, la grandedifférence est que l’homme coopère en permanence(chirurgien) ou interagit (patient) avec le robot. Parconséquent, des contraintes et des spécifications sévèresdoivent être prises en compte dans la conception elle-même, tout spécialement pour les systèmes médicaux actifs.La classification de l’appareil dépend donc de :

- sa durée d’utilisation ; de quelques minutes(temporaire) à plusieurs années (dans le cas desystèmes implantables tels l’implant de stimulationélectrique fonctionnelle du projet SUAW [51]),

- son “invasivité” ou non,- son utilisation chirurgicale ou non,- son caractère actif ou inactif,- parties du corps vitales ou non concernées par

l’appareil.

Facteur Humain - L’intervention est réalisée sur un êtrehumain ce qui implique de prendre en compte :

- le changement dans les conditions de travail avecchaque patient (caractéristiques de tissus mous,position du patient sur la table d’opération, tailledu corps et accessibilité des organes…)

- la tâche et l’exécution spécifiques au patient : pas« d’essai / erreur » ni mouvements « fait encore »,

Le robot médical est directement en contact avec le patientet le personnel, ceci impose le respect de précautionsparticulières dont :

- la nécessité d’études préopératives pour planifierl’intervention,

- la modification du planning pendant l’opération,selon le diagnostic du chirurgien, lescomplications possibles ou le comportement del’organisme du patient.

La conception du système doit aussi prendre enconsidération le fait que le chirurgien n’est pas unspécialiste de robotique et assurer pour cela :

- une IHM orientée métier, orientée tâche,permettant une manipulation facile du système,

- la transparence du robot, en évitant lessingularités, les limites articulaires mécaniques, lesprocédures de reconfiguration…

Contraintes cliniques - Chaque composant du système encontact avec le champ stérile doit être stérilisé(généralement, le robot est couvert par une « chaussettestérile » tandis que l’outil est stérilisé séparément par uneprocédure à l’autoclave).L’environnement n’est en généralpas structuré ; les salles d’opérations sont occupées par denombreux autres appareils médicaux (radiologie,anesthésie, chirurgie...). La position du robot par rapport aupatient varie entre deux opérations et même lors d’une seuleopération. Ainsi, ses dimensions doivent être réduites. Lerobot doit être facilement et rapidement transportable danset hors de la salle d’opération. Les fonctionnalités requisessont définies selon chaque type d’opérations cliniques et lesnouveaux robots médicaux ont été souvent conçus pour desopérations spécifiques.


La sécurité dans les systèmes actuels de robotique médicaleest abordée de trois façons différentes suivant leur degréd’autonomie [52] et/ou d’invasivité :- les bras passifs qui sont non actionnés et n’ont pas

d’autonomie ;- les bras semi-actifs pour lesquels l’effort de contact est

produit par le chirurgien et non par le robot ; ainsi, soitla puissance est coupée durant les phases critiques de latâche (Neuromate), soit les actionneurs sont utiliséspour contraindre certaines directions de déplacement.Cette fonction est réalisée en donnant au chirurgien lasensation d’un effort variable, par exemple pour lePADyC [52] (FIG. 26) ou Acrobot [53] ;

FIG. 26 - Le robot à sécurité passive PADYC (TIMC)

- les bras actifs pour lesquels la plupart desarticulations sont motorisées, réalisant ainsi destâches planifiées, et bien déterminées, de façonautonome (ROBODOC ou CASPAR par exemple)ou dans un mode téléopéré (Zeus ou Da Vinci).

Quelques règles élémentaires évidentes seront respectéespour concevoir un robot chirurgical « sûr » comme parexemple i) ne pas générer de mouvements du robot noncontrôlés, ii) ne pas générer de force excessive sur lepatient, iii) garder l’outil chirurgical dans un espace detravail prédéfini ou bien encore iv) permettre unesupervision de tous les mouvements par un chirurgien.Dans le cas de systèmes actifs, comme illustré dans [22](également suggéré par Davies [54]) à la lumière de deuxprototypes i) Hippocrate, un robot utilisé pour de l’imagerieéchographique 3D et la prévention des risquescardiovasculaires, et ii) SCALPP, un système deprélèvement de peau [20], le système médical actif doit êtreconçu en considérant au moins les trois principes suivants(et selon les trois axes électromécanique, électronique etlogiciel) :

- La sécurité intrinsèque obtenue avec descomposants standards tels que des actionneursavec des limiteurs de puissance et/ou de vitesse,des réducteurs à fort rapport de réduction...

- La redondance dans la mesure. Cependant, cetteredondance augmente le nombre de composants etaccroît ainsi la complexité du système, ce quifinalement peut diminuer sa faisabilité. Une

approche multi-critères croisant à la fois desinformations logicielles et matérielles offrent alorsun bon compromis (par exemple la combinaisond’un seuil sur la carte d’acquisition d’un capteurd’effort et d’un seuil logiciel au niveau ducontrôleur).

- Le compromis entre fiabilité et sécurité.

3. ConclusionDans ce papier, nous avons présenté une synthèse sur laconception de robots pour l’assistance aux gestes médicauxet chirurgicaux en mettant en évidence la démarche quipermet de passer de la caractérisation du geste à laréalisation du robot. Après avoir été très influencée par larobotique industrielle, la conception en robotique médicaleévolue considérablement actuellement en intégrant lesspécificités des applications médicales et en proposant desrobots dédiés avec des cinématiques, des actionneurs oubien encore des matériaux plus adaptés aux contraintesclinique (poids, encombrement, versatilité…, coût).

A l’heure actuelle, les perspectives en terme de conceptionen robotique médicale sont très orientées i) vers laminiaturisation des structures (cathéters actifs pour letraitement d’anévrisme aortique [55] ou des capsulesautonomes intra-cavitaires), ii) des instruments dédiés àhaute dextérité par exemple pour la chirurgie cardiaque àcœur battant en particulier la chirurgie valvulaire robotiséeenvisagée dans le projet ROBEA GABIE avec un guidagetemps-réel sous échographie [48] ou bien encore iii) desrobots tout à fait originaux tels que le robot osmotique àcontrôle biochimique proposé dans [56].

Par contre, il est clair que tous ces développements doiventet devront être pensés en considérant la réelle valeur ajoutéequ’ils peuvent apporter en premier lieu pour le patient etdans un second temps pour l’ensemble du personnelmédical et de santé. On peut citer en ce sens le rapport duDr E. Corbillon en matière de robotique médicale : “ Tantque le bénéfice apporté au patient n’aura pas étéclairement établi, nous en resterons au stade del’expérimentation ” [57]. De plus, même si d’un point devue technique de nombreuses applications sont sur le pointd’être réalisables, il reste à gérer l’aspect psychologique ; ilfaut préparer le monde médical, les personnels de santé etbien sûr le public. Le robot deviendra alors un maillonaccepté et efficace au service d’une meilleure gestion de lasanté pour tous.

Remarque : ce tour d’horizon est un portrait du paysagefrançais de la robotique médicale. Cette synthèse, loind’être exhaustive, n’inclut pas en effet tous les travauxinternationaux dans ce domaine et qui sont extrêmementriches et ambitieux.


4. Bibliographie[1] J. Troccaz. Quels robots pour les applications

medicochirurgicales. CiMax ; Édition RobAut, volume26, pp. 26–29, septembre-octobre-novembre 1998.

[2] R. Taylor, H. Paul, P. Kazanzides, B. Mittelstadt,W. Hanson, J. Zuhars, B. Williamson, B. Musits, E.Glassman, et W. Bargar. Taming the bull ; safety in aprecise surgical robot. 5th Int. Conf. On AdvancedRobotics (ICAR’91), pp. 865–870, Pise, Italie, june1991.

[3] S. Lavallée et P. Cinquin. Igor ; Image guidedoperating robot. 5th Int. Conf. on Advanced Robotics(ICAR’91), pp. 876–881, Pise, Italie, june 1991.

[4] T. Dohi. Medical robotics. World AutomationCongress ; Robotic and Manufacturing Systems,Recent Results in Research, Development, andApplications, pp. 235–240, Montpellier, France, mai1996.

[5] D. Glauser, P. Flury, N. Villotte, et C. Burckhardt.Conception of a robot dedicated to neurosurgicaloperations. 5th Int. Conf. on Advanced Robotics(ICAR’91), pp. 899–904, Pise, Italie, june 1991.

[6] P. Kazanzides, J. Zuhars, B. Mittelstadt, et R. Taylor.Force sensing and control for a surgical robot. IEEEInt. Conf. on Robotics and Automation (ICRA’92), pp.612–617, Nice, France, mai 1992.

[7] T. Kienzle III, S. Stulberg, M. Peshkin, A. Quaid,J. Lea, A. Goswani, et C. Wu. Total knee replacement.IEEE Engineering in Medecine and Biology Mag.,Special Issue Robots in Surgery, volume 14(3), pp.254–263, 1995.

[8] J. Drake, M. Joy, A. Goldenberg, et D. Kreindler.Computer and robotic assisted resection of braintumours. Int. Conf. On Advanced Robotics (ICAR’91),pp. 888–892, Pise, Italie, june 1991.

[9] R. Taylor et D. Stoianovici. Medical robotics incomputer-integrated surgery. IEEE Trans. on Roboticsand Automation, Special Issue on Medical Robotics,volume 19(5), pp. 765–781, october 2003.

[10] O. Chavanon et al., Computer Assisted PERicardialpuncture : work in progress. Computer Aided Surgery,Vol. 2, 1997.

[11] L. Barbé, B. Bayle, M. de Mathelin, C. Doignon, J.Gangloff, P. Zanne, O. Piccin, P. Renaud, A. Gangi, L.Soler, J. Cortès, T. Siméon, IRASIS : InsertionRobotisée d’Aiguille Sous Imagerie Scanner, 3e

Journées du Programme Interdisciplinaire deRecherche ROBEA, LSIIT, LICIA, IRCAD, LAAS,Dépt. Radiologie de l’hôpital de Strasbourg,Montpellier, 29-31 Mars 2005, pp. 131-138.

[12] C. Riviere, W. Ang, et P. Khosla. Toward activetremor canceling in handheld microsurgicalinstruments. IEEE Trans. On Robotics andAutomation, Special Issue on Medical Robotics,volume 19 (5), pp. 793–800, october 2003.

[13] A. Krieger, R. Susil, G. Fichtinger, E. Atalar and L.Whitcomb, Design of a novel MRI compatiblemanipulator for image guided prostate intervention.InternationalConference on Robotics and Automation(ICRA’04), pp. 377-382, New Orleans, LA, april 2004.

[14] A. Vichis & al. Experiments with the TER tele-echography robot. Proceedings of Medical ImageComputing and Computer-Assisted Intervention,MICCAI 2002, LNCS n° 2488, Springer Verlag, pp.138-146,Tokyo, Japon, 25-28 septembre 2002.

[15] C. Delgorge, F. Courrèges, L. Al Bassit, C. Novales, C.Rosenberger, N. Smith-Guerin, C. Brù, R.Gilabert, M.Vannoni, G. Poisson et P. Vieyres. A tele-operatedmobile ultrasound scanner using a light weight robot.IEEE Transactions on Innovation Technology inBiomedicine, ISSN 1089-7771, Vol. 9, n°1, pp. 50-58,mars 2005.

[16] G. Iddan, G. Meron, A. Glukhhovsky and P.Swain.Wireless capsule endoscopy. Nature n° 405, pp. 4-7,2000.

[17] M. Shoham, M. Burman, E. Zehavi, L. Joskowicz,E. Batkilin, et Y. Kunicher. Bone-mounted miniaturerobot for surgical procedures ; concept and clinicalapplications. IEEE Trans. on Robotics and Automation,Special Issue on Medical Robotics, volume 19(5), pp.893–901, october 2003.

[18] D. Kwon, Y. Yoon, J. Lee, S. Ko, K. Huh, J. Chung, Y.Park, et C. Won. Arthrobot. A new surgical robotsystem for total hip arthroplasty. IEEE/RSJ Int. Conf.Intelligent Robots and Systems (IROS’01), pp. 1123–1128, 2001.

[19] Y. Nakamura, K. Kishi, et H. Kawakami. Heartbeatsynchronization for robotic cardiac surgery. IEEEInternational Conference on Robotics and Automation(ICRA’01), pp. 2014–2019, 2001.

[20] E. Dombre, G. Duchemin, P. Poignet, et F. Pierrot.Dermarob. A safe robot for reconstructive surgery.IEEE Transactions on Robotics and Automation,Special Issue on Medical Robotics, volume 19(5), pp.876–884, 2003.

[21] G. Duchemin, Commande et programmation d’unrobot d’assistance au geste médical pour des tâches desuivi au contact de la peau, LIRMM, Université deMontpellier II, décembre 2002.

[22] G. Duchemin, P. Poignet, E. Dombre, et F. Pierrot. Thechallenge of designing and manufacturing of actuatedmedical robots for safe human interaction. IEEERobotics and Automation Magazine, Special Issue onRobot Dependability, volume 11 (2), pp. 46–55, june2004.

[23] E. Dombre, M. Michelin, F. Pierrot, P. Poignet, P.Bidaud, G. Morel, T. Ortmaier, D. Sallé, N. Zemiti, P.Gravez, M. Karouia, and N. Bonnet. MARGE Project:Design, Modeling, and Control of Assistive Devicesfor Minimally Invasive Surgery, MICCAI’04, LNCS3217, pp. 1–8, Springer-Verlag Berlin Heidelberg,2004.

[24] D. Sallé, P. Bidaud, G. Morel. Optimal design of highdexterity modular MIS instrument for coronary arterybypass grafting. IEEE Int. Conf. on Robotics andAutomation, New Orleans, pp. 1276-1281, 2004.

[25] L. Al Bassit. Structures mécaniques à modulessphèriques optimisées pour un robot médical de télé-échographie mobile. Thèse de l’université d’Orléans,juillet 2005.


[26] L. Barbé, B. Bayle, M. de Mathelin, C. Doignon, J.Gangloff, P. Zanne, O. Piccin, P. Renaud, A. Gangi, L.Soler, J. Cortès, T. Siméon, IRASIS : InsertionRobotisée d’Aiguille Sous Imagerie Scanner, 3e

Journées du Programme Interdisciplinaire deRecherche ROBEA, , pp. 131-138, Montpellier, 29-31Mars 2005.

[27] Sinters. Endoxirob. Projet du Réseau National desTechnologies pour la Santé (RNTS). CEA, IET,INRIA, LAAS, LIRMM, ONERA, SINTERS(Coordinateur), SIQUALIS, 2000-2004.

[28] P. Vieyres, G. Poisson, F. Courrèges, O. Mérigeaux etPh. Arbeille. The TERESA project ; from spaceresearch to ground tele-echography. Industrial robot ;an international journal, ISSN ; 0143 991X, vol. 30,n° 1, pp. 77-82, 2003.

[29] N. Zemiti, T. Ortmaier, G. Morel, A new robot forforce control in minimally invasive surgery.Proceedings of 2004 IEEE/RSJ InternationalConference on Intelligent Robots and Systems, Sendai,Japan, pp. 3643-3648, 2004.

[30] M. Michelin, P. Poignet, et E. Dombre. Dynamic task /posture decoupling for minimally invasive surgerymotions. International Symposium on ExperimentalRobotics (ISER’04), june 2004.

[31] J. Marescaux et A. Sezeur. Nouvelles technologies etchirurgie du futur. Rapport présenté au 102e Congrèsfrançais de chirurgie, Paris, 5-7 octobre 2000.

[32] F. Mohr, V. Falk and A. Diegeler, Computer-enhanced“robotic” cardiac surgery : experience in 148 patients,J. Thorac. Cardiovasc. Surg., volume 121, pp. 842-853, 2001.

[33] Projet COPRIN, J.P. Merlet, INRIA Sophia-Antipolis,http://www-sop.inria.fr/coprin/, 2003.

[34] D. Gossot, C. Reboulet, and F. Thoulouse.Development of a wrist mechanism in endoscopicsurgery. In medical Worshop ESTEC-ESA, Noordwijk,may 25-27 1994.

[35] P. Berkelman, P. Cinquin, E. Boidard, J. Troccaz,C. Létoublon and J. Ayoubi. Design, Control andtesting of a novel compact laparoscopic endoscopemanipulator. Journal of Systems and ControlEngineering, 217 (14), pp. 329-341, 2003.

[36] F. VanMeer, D. Estève, A. Giraud, et A. Gue.Micromachined silicon 2-axis force sensor forteleoperated surgery. Medical Robotics, Navigationand Visualization (MRNV’04), march 2004.

[37] A. Krupa, J. Gangloff, C. Doignon, M. de Mathelin, G.Morel, J. Leroy, L. Soler, J. Marescaux. Autonomous3-D positioning of surgical instruments in robotizedlaparoscopic surgery using visual servoing. IEEETransactions on Robotics and Automation, vol. 19,n° 5, pp. 842 -853, octobre 2003.

[38] R. Ginhoux. Compensation des mouvementsphysiologiques en chirurgie robotisée par commandeprédictive. Thèse de Doctorat de l’Université LouisPasteur, Strasbourg 2003.

[39] E. Taillant, J.C. Avila-Vilchis, C. Allegrini, I. Bricaultand P. Cinquin, CT and MR Compatible LightPuncture Robot ; Architectural design and first

experiments. MICCAI 2004, LNCS 3217, pp. 145-152,2004.

[40] B. Maurin, J. Gangloff, B. Bayle, M. de Mathelin,O.Piccin, P. Zanne, C. Doignon, L. Soler and A. Gangi,A parallel robotic system with force sensors forpercutaneous procedures under CT-guidance. MICCAI2004, LNCS 3217, pp. 176_183, 2004.

[41] R. Siveira, M. T. Pham, T. Redarce et M. Bétemps, Anew mechanical birth simulator: BirthSIM. IROS 2004,Sendaï, Japan, september 28-october 2, 2004.

[42] F. Courrèges, G Poisson, P Vieyres, A. Vichis-Gonzales, J. Troccaz et B. Tondu. Low Level Controlof Antagonist Artificial Pneumatic Muscles for a Tele-Operated Ultrasound Robot. Proceedings of 12th

International Symposium on Measurement and Controlin Robotics, ISMCR’02, Bourges, 20-21 juin 2002.

[43] G. Thomann. Contribution à la chirurgie minimalementinvasive ; conception d'un coloscope intelligent. Thèsede l’Institut National des Sciences Appliquées de Lyon,2003.

[44] J.P. Merlet, Miniature in-parallel positionning systemMIPS for minimally invasive surgery. World Congresson Medical Physics and Biomedical Engineering, Nice,Septembre 1997.

[45] T. Gagarina-Sasia, V. De Sars, J. Szewczyk, RobotModulaire pour l'Inspection Endo-Chirurgicale. 17e

Congrès Français de Mécanique, Troyes, Septembre2005.

[46] F. Van Meer, Conception et réalisation d’uneinstrumentation terminale intégrée en chirurgie mini-invasive robotisée, Thèse de doctorat, Institut Nationaldes Sciences Appliqués de Toulouse, janvier 2005.

[47] F. Parain. Capteur intégré tactile d'empreintes digitalesà microstructure, Thèse de doctorat à l'INPG, 2002.

[48] E. Dombre, P. Poignet, M. Sauvée, J. Triboulet, P.Bidaud, G. Morel, T. Ortmaier, J. Troccaz, O.Chavanon, P. Gravez, N. Bonnet, et M. Karouia.Guidage actif basé sur l’imagerie échographique. Actesdes Journées du Programme Interdisciplinaire deRecherche CNRS ROBEA. LIRMM, LRP, CEA,Hôpital La Pitié Salpêtrière, TIMC, CHU Grenoble,janvier 2004.

[49] A. Rovetta. Telerobotic surgery control and safety, inProc. IEEE Int. Conf. Robotics and Automation(ICRA), San Francisco, CA, May 2000, pp. 2895–2900.

[50] R. Genser, Requirements for safety related systems inmedical area, in Proc. Int. Advanced Robotics Program(IARP):Workshop on Medical Robots, Vienna, Austria,October 1996, pp. 245–252.

[51] D. Guiraud, A. Pacetti, E. Meola, J. Divoux, et P.Rabishong. One year implanted patients follow up :Suaw project first results. International FunctionalElectrical Stimulation Society Conference (IFESS’01),2001.

[52] Y. Delnondedieu and J. Troccaz, J. PADyC: A PassiveArm with Dynamic Constraints. A two degrees offreedom prototype. 2nd Int. Symp. on Medical Roboticsand Computer Assited Surgery, MRCAS'95, 73-180,1995.


[53] S. Harris et al., Experiences with robotics systems forknee surgery. CVRMed-MRCAS’97, pp. 757-766,Grenoble, France, 1997.

[54] B. Davies, Safety of medical robots. 6th Int. Conf. OnAdvanced Robotics (ICAR’93), pp. 311-317, Tokyo,Japan, november 1993.

[55] Y. Bailly and Y. Amirat, Modeling and control of ahybrid continuum active catheter for aortic aneurysmtreatment. Proceedings of the 2005 IEEE InternationalConference on Robotics and Automation (ICRA’05),Barcelona, Spain, pp. 936-941, 2005

[56] P. Cinquin. (coordination) et al., ROMS : RobotOsmotique Médical au Sucre, TIMC, PRAXIM, 3S,LESIA, CERMAV, Service de Chirurgie Urologique,EFPG-LGP2, NMVC, Service de Chirurgie Vasculaire.3e journées du Programme Interdisciplinaire deROBEA, Montpellier, pp. 115-121, 2005.

[57] E. Corbillon. Rapport sur la chirurgie assistée parordinateur pour l’Agence Nationale d’Accréditation etd’Evaluation en Santé (Anaes), 2002.


Commande référencée capteurs en robotique médicale et chirurgicale

G. Morel1 J. Gangloff2

1 LRP, Univ. Paris VI- FRE 2507 CNRS, 18, route du PanoramaBP 61, 92265 Fontenay aux Roses Cedex.

[email protected] LSIIT, UMR 7005 CNRS-ULP, Pôle API, Bd Sébastien Brant,

BP 10413, 67412 ILLKIRCH CEDEX FRANCE,[email protected]

RésuméLa commande référencée capteurs est une modalité per-mettant à un système robotique de prendre en compte uneinteraction avec son environnement pour adapter son com-portement en temps réel. Cette technique trouve de nom-breuses applications dans les domaines de la médecine etde la chirurgie, où l’environnement, qui est un patient rece-vant des soins, présente des caractéristiques géométriqueset mécaniques très fortement variables dans l’espace etdans le temps.Dans ce papier, on propose un panorama des recherchesen cours dans le domaine, en considérant plus particulière-ment les applications du retour d’efforts et de l’asservisse-ment visuel. On cherche en particulier à préciser l’apportfonctionnel que l’on peut en attendre au plan médical, etles difficultés spécifiques inhérentes aux applications.

Mots ClefRobotique médicale, Commande en efforts, Asservisse-ments visuels.

1 IntroductionDepuis plus d’une décennie, le corps médical, tradition-nellement à l’écoute des évolutions technologiques, a en-trepris d’utiliser des systèmes robotiques à des fins inter-ventionnelles. Initialement, c’est la précision et la dextéritédes robots qui a suscité cet intérêt. Il en a résulté le déve-loppement d’un certain nombre de dispositifs robotiques,qui, après avoir franchi les nombreux obstacles de la cer-tification médicale, sont aujourd’hui utilisés en routine cli-nique. Dans l’ensemble, les principes technologiques qu’ilsexploitent et les fonctions qu’ils réalisent sont assez rudi-mentaires. Ainsi, au plan de la commande, les systèmescliniques, lorsqu’ils sont actifs, réalisent un simple asser-vissement sur une position de consigne. Cette position estissue soit d’une planification établie à partir d’une analysepré-opératoire du geste à effectuer (par exemple en chirur-gie ouverte pour l’orthopédie), soit d’une interface pilotéeen temps réel par le chirurgien (par exemple pour les sys-tèmes de téléopération en chirurgie laparoscopique diges-

tive ou cardiaque).Les systèmes de planification pré-opératoire, s’appuyantsur des performances toujours accrues des dispositifsd’imagerie médicale, ont connu un essor particulier. Cetype d’intervention [28, 21] repose sur l’hypothèse que lesdonnées pré-opératoires ne varient pas entre le moment oùle patient est modélisé et le moment où il est opéré. Dansce cas, après un recalage optique fondé sur un modèle ri-gide du patient, les mouvements du robot sont effectués enaveugle et ne peuvent pas intégrer une éventuelle modifi-cation de forme ou de position de la zone opératoire.Pour pallier à ces limitations fonctionnelles, une activité derecherche a foisonné dans les laboratoires depuis quelquesannées, en vue du développement d’une seconde généra-tion de robots médico-chirurgicaux, capables de réaliserdes fonctions plus avancées et/ou de coopérer de façonplus interactive avec le praticien. Dans ce but, une desvoies explorées est l’utilisation de retours sensoriels exté-roceptifs dans la commande des robots. C’est en effet unmoyen de doter un système robotique de la capacité à maî-triser une interaction avec un environnement peu structuré,ce qui confère au système une forme minimale d’intelli-gence. Le système n’utilise plus seulement des donnéespré-opératoire pour guider ses mouvements «en aveugle».Au contraire, il exploite un flux continu de mesures per-opératoires qui l’informe en temps réel sur le bon déroule-ment de la tâche à effectuer grâce à une boucle d’asservis-sement. Cette approche présente donc un intérêt indéniableau plan de la sécurité, problème qui se pose avec une acuitéparticulière en robotique médicale. Elle permet aussi d’en-visager l’automatisation de gestes simples réalisés sur desstructures mobiles et déformables (donc difficilement mo-délisables de manière pré-opératoire).Dans ce cas, lorsque mesure et consigne sont expriméesdans l’espace du capteur, on parle d’asservissement réfé-rencé capteur. Dans le cadre d’applications médicales, l’in-térêt de la commande référencée capteur réside dans sa ro-bustesse par rapport aux erreurs de modélisation géomé-trique de l’environnement. Elle se prête donc particuliè-rement bien au contexte médical où l’environnement, sur-


tout lorsqu’il est déformable, est difficilement modélisable.L’asservissement peut être fondé sur différents types demesures comme des mesures d’efforts ou des mesures vi-suelles. Les mesures d’effort peuvent être prélevées à l’ex-trémité de l’instrument ou à sa base et les informations vi-suelles peuvent provenir de caméras classiques couplées àun endoscope ou de dispositifs d’imagerie médicale (écho-graphe, scanner, IRM), utilisés dans un mode «temps-réel».Dans ce qui suit, on considère séparément les deux moda-lités de retour sensoriel.

2 Le retour d’efforts2.1 Commande en efforts d’un robot «auto-

nome»La commande en efforts, dont les principes de base ontété développés dans les années 1980, [44], a pour objetde maîtriser les contacts mécaniques entre le robot et unenvironnement dont on connaît mal la géométrie, ou pou-vant présenter des mouvements. Dans sa formulation diteexplicite, la commande en efforts consiste à asservir à unevaleur désirée les efforts de contact appliqués par un robotsur son environnement ; dans sa formulation implicite, elles’attache à programmer l’impédance du robot, c’est-à-direla dynamique de réponse de l’effecteur aux sollicitationsmécaniques externes.Bien que l’intérêt de la technique pour les applications mé-dicales semble assez évident, tant le sens du toucher estessentiel à la pratique des gestes médico-chirurgicaux, ontrouve assez peu d’exemples dans la littérature montrantune application directe de la commande en efforts à un pro-blème de robotique médicale. Ces exemples se réduisenten fait à des applications pour lesquelles le maintien d’uneforce de contact à une valeur constante est essentiel pourla qualité du résultat médical. Ainsi, le système Hypocrate[29] est un robot qui manipule une sonde échographiquepour construire un modèle 3D des artères d’un patient. Lacommande hybride force-position permet de suivre une tra-jectoire le long du bras ou de la jambe du patient touten maintenant un effort constant, ce qui est essentiel pourl’obtention d’images échographiques exploitables (les dé-formations induites par la sonde sont uniformes dans leplan échographique le long de la trajectoire). Le systèmeDermaRob ([9], Figure 1) exploite la même idée pour leprélèvement de peau en chirurgie des grands brûlés. Là en-core, maintenir un effort constant est essentiel pour la qua-lité du geste, et, in fine, pour la qualité du prélèvement.Un autre application de la commande hybride force-position est proposée dans [19]. Une commande adaptativeest utilisée pour la résolution de la contrainte cinématiqueplane imposée par le trocart au travers duquel on introduitun instrument. La commande en efforts permet d’utiliser unrobot conventionnel à six degrés de liberté pour une mani-pulation contrainte à quatre degrés de liberté. Un estima-teur robuste utilisant les mesures de forces et de momentspermet de connaître en ligne la position du trocart et de

Commande du Commande du dermatomedermatome

Interface Interface utilisateurutilisateur

FIG. 1 – Le système Dermarob

minimiser les forces appliquées à la paroi abdominale.On peut noter que, pour les applications précédentes, lesefforts qui doivent être contrôlés sont ceux de l’interactionavec la surface externe du patient. Le contrôle en efforts sefait selon un ou deux degrés de liberté, sans qu’il soit né-cessaire d’obtenir une dynamique de réponse très rapide :le geste est relativement lent, le patient est immobilisé. Ladynamique de l’interaction ne présente donc pas de diffi-cultés particulières en termes de commande. En revanche,en chirurgie interne, la dynamique des interactions, quiconditionne fortement les performances du système com-mandé en efforts, est également très complexe, et assez malconnue. Non seulement les organes ont un comportementmécanique non trivial, présentant des mouvements pseudo-cycliques parfois amples ou encore des phénomènes de re-laxation, mais l’interaction avec les instruments prend desformes très variables. Il suffit de considérer par exemplel’insertion d’une aiguille pour une opération de suture. Untel geste fait apparaître de grandes variations de comporte-ment entre la phase pseudo élastique précédant le perçageet la phase quasi plastique suivant le perçage. La modélisa-tion et la caractérisation des interactions entre instrumentset organes est donc l’objet d’une activité de recherche assezintense au cours des dernières années. Ce problème de mo-délisation est naturellement fondamental pour la mise enoeuvre de lois de commande en efforts adaptées à la réali-sation de gestes chirurgicaux, dans la mesure où, en matièrede commande en efforts, l’environnement est un élémentintégrant du système à commander, conditionnant forte-ment les performances en boucle fermée. Disposer de mo-dèles réalistes est également très important dans le cadre dudéveloppement de systèmes virtuels à retour haptique des-tinés à la formation des chirurgiens. Dans ce domaine, lalittérature est riche. Le lecteur intéressé pourra commencerpar consulter le remarquable travail présenté dans [8], qui


propose également une bibliographie intéressante. Nous nepouvons pas clore cet aparté sur les problèmes de modé-lisation des interactions sans noter que, en dépit de nosrecherches bibliographiques, nous n’avons pas trouvé detravaux portant sur la commande de ces interactions com-plexes, ce qui paraît un peu dommage.Une autre difficulté pour l’utilisation d’une commande enefforts pour des gestes complexes de chirurgie réside dansla programmation de la tâche. En effet, les méthodes clas-siques de décomposition en deux sous-espaces complé-mentaires, permettant de spécifier les efforts et les dépla-cements que l’on souhaite asservir, semblent inexploitablescompte tenu des incertitudes géométriques. Pour toutes cesraisons, la commande en efforts d’un robot fonctionnantselon un mode autonome ne semble pas appropriée pourla réalisation de gestes complexes de chirurgie. C’est sansdoute pourquoi la communauté travaille principalement surd’autres modalités de retour d’efforts : la télémanipulationet la comanipulation.

2.2 TélémanipulationDans le domaine médical, les systèmes de télémanipulationsont utilisés avec deux objectifs principaux :

1. permettre des soins et examens à longue distance. Undes seuls exemples cliniques en chirurgie est «l’opé-ration Lindberg», au cours de laquelle une patiente àStrasbourg a été opérée par un chirurgien installé àNew-York [22]. Cette expérience vise à prouver qu’ilest possible d’amener des compétences chirurgicalestrès spécialisées à n’importe quel point du globe ac-cessible au réseau. Néanmoins, la présence d’un chi-rurgien généraliste auprès du patient reste indispen-sable pour des raisons évidentes de sécurité. En re-vanche, pour les systèmes de télé-échographie [40, 6],un opérateur avec une formation assez succincte estsuffisant pour positionner les équipements de place-ment de la sonde sur le patient, ce qui permet de jus-tifier pleinement la distance entre le médecin et le pa-tient, pour des applications de médecine militaire no-tamment.

2. permettre l’immersion du chirurgien dans le champopératoire. C’est dans ce but qu’ont été développésdeux dispositifs interventionnels de chirurgie endo-scopique : Zeus, de feue Computer Motion et da Vinci,d’Intuitive Surgical. Ces systèmes à trois bras esclavespermettent à un chirurgien de télémanipuler deux ins-truments par des bras maîtres depuis une console as-surant un retour vidéo temps réel des images acquisespar un endoscope. La sensation «d’immersion à l’in-térieur du patient» est accentuée, pour le systèmeda Vinci, par une interface de stéréovision avec rendu3D et par la mise à disposition de degrés de liberté in-ternes commandés à travers les bras maîtres de façontrès intuitive. On comprend bien, dans ce contexte,l’intérêt de développer un retour d’effort à travers desbras maîtres actionnés : la sensation d’immersion sera

accentuée si le chirurgien ressent les efforts de contactentre les instruments et les structures anatomiques. Ils’agit par ailleurs d’une demande récurrente des chi-rurgiens, qui voient là la possibilité de maîtriser cer-tains efforts qu’il est difficile d’évaluer visuellement,comme la tension d’un fil de suture lors de la réali-sation de noeuds. Des études sur maquette [42] ontd’ailleurs montré que la qualité du geste semble amé-liorée lorsque l’on utilise un retour d’effort pour destâches élémentaires (type incision) : le temps d’exécu-tion est globalement diminué et/ou les efforts produitssont moindres.

Pour autant, les systèmes existants en routine clinique nedisposent pas de cette modalité. Une des raisons princi-pales est la difficulté posée par la mesure, ou l’estimationdes interactions entre instruments et organes. En effet, pourprocéder à une mesure directe, c’est-à-dire placer un cap-teur à l’extrémité distale de l’instrument, on doit intégrerdes contraintes sévères en termes de miniaturisation, destérilisabilité, et de minimisation des coûts. Les réponsesà ce triple problème prennent la forme de développementstechnologiques de capteurs miniaturisés. Ainsi, le capteurdécrit dans [2] est constitué de nombreuses pièces assem-blées et sa plage de mesure est très limitée (il est destinéà un usage en microchirurgie). Les options technologiqueschoisies dans [33] semblent plus judicieuses : le capteur estmicro-usiné dans un seul bloc et la colle choisie pour pla-cer les jauges supporte un passage en autoclave. On peutcependant s’interroger sur la viabilité de ce composant vis-à-vis des contraintes médico-économiques, et sur la robus-tesse du capteur. D’une manière générale, l’option d’unemesure directe des efforts est assez contestée dans la com-munauté, en raison d’un compromis prix/performance qu’ilsemble impossible d’optimiser.De nombreuses équipes cherchent donc à développer desdispositifs à retour d’effort en évitant une mesure directe.On peut par exemple utiliser un système bilatéral de té-léopération position-position, sans mesure d’efforts. Dansce cas, le réglage des raideurs des asservissements de posi-tion du maître et de l’esclave permet un ressenti des efforts.Une application de ce principe est proposée dans [14], oùune pince chirurgicale active, actionnée via des câbles parun moteur placé sur l’extrémité proximale, est couplée àun dispositif maître prenant la forme d’une poignée d’ins-trument chirurgical. Le dispositif est suffisamment perfor-mant pour permettre de reconnaître, en aveugle, différentséléments saisis par la pince. Cependant, on peut douter quele principe puisse être étendu à un retour d’effort plus com-plet. En effet, la condition sine qua non pour permettreun ressenti de qualité est la transparence et la réversibilitédu système mécanique. Ce qu’il est possible de faire pourune pince semble difficile à réaliser pour un instrument mi-niaturisé à six degrés de liberté. Par ailleurs, dans la plu-part des systèmes de manipulation proposés, une partie aumoins des mobilités de l’instrument est réalisée à l’exté-rieur du patient (par un système dit porte-instrument). Dès


lors, même si le système était suffisamment transparent, lesefforts parasites au niveau du trocart (frottements, effortsengendrés par les déformations de l’abdomen) seraient res-sentis. Or on sait que pour de nombreux gestes, ces effortssont prépondérants par rapport aux forces utiles au niveaude l’interaction instrument-organe [10].Puisque la mesure directe des efforts est difficilement en-visageable, puisqu’il semble par ailleurs impossible de sepasser de mesure d’efforts, on trouve dans la littérature dif-férentes tentatives destinées à mesurer de façon indirecteles interactions instrument-organes. On peut citer des ten-tatives d’estimation des efforts à partir de mesures visuellesde déformation [16]. Elles sont fondées sur un modèle élé-ments finis de déformation des organes, et sur la mesurede déplacements de marqueurs dans l’image. On imaginebien la difficulté de mise en oeuvre d’un tel principe, enparticulier dans des conditions réalistes d’une interventionchirurgicale, et, à notre connaissance, ces travaux sont res-tés à un stade assez précoce.Une autre approche consiste à utiliser un capteur d’effortsplacé non pas sur la partie distale de l’instrument, mais àl’extérieur du patient, où les contraintes de stérilisation etd’encombrement sont moindres. Ici encore, la difficulté estalors posée par les perturbations d’efforts induites par letrocart. Dans [30], des jauges de contraintes placées prèsde l’actionneur, à l’extérieur du patient, sont utilisées pourmesurer les efforts de serrage entre les mors d’une pincechirurgicale active. Dans la mesure où la transmission de cemouvement se fait à l’intérieur de l’instrument, les pertur-bations au niveau du trocart sont externes et n’influencentpas la mesure.Dans [45], une solution mécatronique est proposée, quiconsiste à exploiter un capteur d’efforts monté sur le tro-cart. Le dispositif est tel que ni les frottements engendréspar les joints dans le trocart, ni les interactions avec la pa-roi abdominale ne sont mesurés. L’estimation des effortsd’interaction est alors réduite à une simple compensationde poids.Une particularité des applications de télémanipulation pourla chirurgie mini-invasive est caractérisée par la pré-sence de mouvements physiologiques. Du point de vuede la commande, ces mouvements peuvent être considé-rés comme une perturbation pseudo-périodique [11]. Pourles mouvements respiratoires, qui sont relativement lents,la dynamique de réponse des boucles d’efforts doit per-mettre le rejet de la perturbation. Cependant, en chirur-gie cardiaque, les mouvements présentent de grandes ac-célérations. Il semble donc souhaitable de mettre en placedes estimations robustes des perturbations, en exploitantleur nature pseudo-périodique, pour intégrer dans la loide commande une compensation active. On verra au pa-ragraphe 3.4 que ce type de technique est employé avecsuccès dans le cadre des asservissements visuels. Pour cequi concerne la commande en efforts, nous n’avons trouvéaucune contribution dans ce sens dans la littérature. Le pro-blème de la compensation des mouvements physiologiques

pour la télémanipulation au contact semble pourtant cru-cial. En particulier, il paraît souhaitable de superposer augeste utile, réalisé par le chirurgien, une compensation ac-tive des mouvements physiologiques, réalisé en mode au-tonome par l’esclave. Dans ce but, les travaux récents surle filtrage entre mouvements commandés et mouvementsinduits par le retour d’efforts sur le maître, [20], semblentconstituer une voie à explorer.

2.3 ComanipulationLe principe de la comanipulation, qui met en œuvre dessystèmes dans lesquels un robot et le praticien mani-pulent simultanément un instrument, peut être égalementvu comme une forme de retour d’efforts.

FIG. 2 – Systèmes passifs pour la comanipulation (photoprincipale : guidage à contrainte fixe en neurochirurgie,icône : PADyC : système de guidage à contraintes dyna-miques pour la chirurgie cardiaque)

Les premières applications médicales de la cobotique ontété des guides passifs pour la neurochirurgie stéréotaxique(Figure 2). Le robot est ici utilisé comme simple pré-positionneur d’un instrument à un degré de liberté, ma-nipulé par le chirurgien. Le système PADyc, [38], permetquant à lui d’imposer des contraintes passives dynamiques.Il utilise des embrayages commandables : lorsque l’em-brayage est activé, le mouvement est contraint (à la raideurdes asservissements de position près). On peut ainsi définirdes régions dans lesquelles les déplacements sont libres etdes «zones interdites». Dans [32], une nouvelle version dece principe est proposé pour la chirurgie cardiaque.D’autres travaux mettent en œuvre un retour explicite d’ef-forts pour réaliser un guidage actif, tel le système Acrobot[15]. L’application considérée concerne l’orthopédie du ge-nou, elle consiste à fraiser une forme prédéfinie dans l’osavant la pose d’un implant. Dans ce cas, le planning pré-opératoire permet de définir différentes régions en fonctionde la géométrie à réaliser. Selon les régions, le gain d’uneboucle externe en admittance est adapté et des forces ac-tives sont appliquées, permettant de ramener le chirurgienvers la forme prédéfinie lorsqu’il s’en éloigne. Ceci per-met au chirurgien de choisir de se laisser guider par le plan


préopératoire (en travaillant à effort nul) ou, moyennant uneffort réglable, de sortir de cette zone pour tenir comptedu déroulement de l’opération. Des travaux similaires sontprésentés dans [3], avec un système qui n’utilise pas decapteurs d’effort : ici, un robot transparent et un asservis-sement de position à raideur variable sont utilisés pour pro-duire les forces de guidage.Mais le guidage actif ou semi actif n’est pas la seule ap-plication de la comanipulation à retour d’efforts pour lachirurgie. Ainsi, les systèmes Dermarob et Hippocrate évo-qués au paragraphe 2.1 permettent un prépostionnement del’instrument pour la programmation de la tâche : le robotest programmé en mode transparent (commande à effortnul selon tous les axes) et «suit» les efforts imposés par lechirurgien.Dans [36], un système cobotique est proposé pour la mi-crochirurgie de l’oeil. Un capteur d’efforts est placé entrele robot et l’instrument. Le robot est alors exploité pourfiltrer les fréquences correspondant aux tremblements ré-siduels du chirurgien, inévitables à cette échelle (une pré-cision de 10 µm est requise), ce qui revient à programmerune impédance sélective en fonction de la fréquence.Enfin, dans [45], le principe de la comanipulation est pro-posé pour la chirurgie endoscopique afin de rendre le tro-cart transparent : le robot, qui comanipule l’instrument en-doscopique, compense les frottements et les autres per-turbations d’effort au niveau du trocart, de sorte que lesseuls efforts ressentis par le chirurgien sont les interactionsentre l’instrument et l’organe (Figure 3). Une des difficul-tés abordées dans ce travail est celle posée par les instabili-tés cinématiques induites par la sélection des composantesd’efforts à asservir. En effet, le robot est cinématiquementcontraint, c’est-à-dire qu’il possède moins de degrés de li-berté que la dimension dans lequel son effecteur évolue. Cetravail analyse les problèmes de stabilité par la théorie dela passivité, et propose des solutions passives pour la com-mande, ce qui n’est pas sans intérêt puisque la stabilité estainsi démontrée sans faire appel à un modèle de l’environ-nement.

3 Asservissements visuels3.1 Notions de base en asservissement visuelBien que la définition d’asservissement visuel sous-entende d’habitude l’utilisation d’une caméra standard,nous étendons ici cette définition à l’utilisation des disposi-tifs d’imagerie médicale : échographe, fluoroscope, caméraRX, scanner, IRM. Aussi, afin de rester général, nous uti-liserons dans la suite le terme d’imageur pour désigner lecapteur visuel.Les asservissements visuels peuvent être classés en plu-sieurs catégories en fonction de différents critères :– Position de l’imageur par rapport au robot. Si l’imageur

est solidaire d’un corps du robot autre que sa base onparle d’habitude de «caméra embarquée» qu’on étendici à «imageur embarqué». Lorsque l’imageur est fixe et

Robot sphérique 4ddl


Capteur d´efforts 6 composantes

FIG. 3 – MC2E : Système de comanipulation pour la chi-rurgie endoscopique, permettant un ressenti fin des effortsappliqués par l’instrument sur les organes.

permet de visualiser l’effecteur du robot ainsi que l’objetd’intérêt on parle d’«imageur déporté».

– Architecture de commande. Lorsque l’imageur est trèslent (période supérieure à la seconde), l’asservissementfonctionne en mode séquentiel. La séquence comprend3 étapes : l’acquisition de l’image, le calcul de la com-mande et le déplacement du robot à la position vou-lue. Cette séquence peut éventuellement être répétée jus-qu’à convergence d’un certain critère. Dans la littératureanglo-saxonne, ce type d’asservissement est d’habitudedésigné sous l’appellation «look then move». Lorsquel’imageur est moyennement rapide (de 1Hz à 50Hz),et afin de garantir une boucle d’asservissement stableet précise avec une correction proportionnelle, on uti-lise l’asservissement de position du robot pour émulerun robot parfait dépourvu de modes dynamiques d’ordreélevé. Ce type d’asservissement est appelé «asservis-sement visuel indirect». Lorsque l’imageur est rapide(plus de 50 Hz), il est possible, pour augmenter la bandepassante de la boucle de vision, de tenir compte desmodes dynamiques d’ordre élevés. Il n’est plus néces-saire d’avoir recours à l’asservissement des positions ar-ticulaires pour «forcer» un modèle plus simple. La com-mande de l’asservissement visuel peut être directementappliquée aux variateurs du robot, soit sous forme deconsigne de vitesse (dans la plupart des cas) soit éven-tuellement sous forme de consigne de couple (lorsquela fréquence de rafraîchissement est au moins égale à500Hz. Cette d’architecture est dénommée «asservisse-ment visuel direct».

– Type de mesure. Lorsque le retour de la boucle de vi-sion est constitué d’informations de positions opération-nelles on parle d’«asservissement 3D». Un modèle de lascène est nécessaire pour estimer la mesure : c’est là leprincipal inconvénient. Lorsque le retour est un vecteurcontenant des coordonnées de primitives dans l’image


on parle d’«asservissement 2D» ou asservissement vi-suel référencé capteur. Dans ce type d’asservissement laconversion 2D/3D nécessaire pour commander le robotest obtenue par une matrice appelée «matrice d’interac-tion» ou encore «Jacobien image». Cette matrice d’inter-action peut être estimée sans connaissance a priori de lagéométrie de la scène. Lorsque l’information de contre-réaction contient à la fois des données 3D et des don-nées 2D, on parle d’«asservissement visuel hybride». Unexemple très connu est l’asservissement 2.5D qui réaliseséparément l’asservissement des orientations en 3D etl’asservissement des translations en 2D.

3.2 Les dispositifs d’imagerie médicale

Les principaux dispositifs imageurs médicaux sont les sui-vants :– La caméra. Elle peut être utilisée seule, couplée à un

endoscope ou un fibroscope. Un endoscope est un tubedroit rigide de 30 à 40 cm de long contenant au centreune optique et à sa périphérie un réseau de fibres op-tiques amenant la lumière à l’extrémité. Connecté à unesource de lumière froide, l’endoscope est souvent uti-lisé en chirurgie laparoscopique et chaque fois qu’il estpossible d’accéder à la zone d’intérêt par une trajectoirerectiligne. Il existe des modèles stéréo qui, couplés à unepaire de caméras, permettent de donner un rendu 3D desstructures visualisées. Lorsque la zone d’intérêt est in-accessible avec un endoscope, on utilise un fibroscope(examen de l’estomac, du colon, ...). Contrairement àl’endoscope, le fibroscope est souple. Son extrémité estorientable à l’aide d’une molette. L’image est transmisepar des fibres optiques. De ce fait, sa qualité est moindrequ’avec l’endoscope car le nombre de pixels, directe-ment lié au nombre de fibres optique, est limité pour desraisons pratiques d’encombrement.

– Le fluoroscope. Aussi appelé «C-arm» en anglais. Ils’agit d’une paire source-capteur de rayons X diamétra-lement opposés sur un demi-cercle qui a la forme d’ungrand «C» d’environ un mètre de diamètre. Le patient estplacé au centre du demi-cercle. L’angle du fluoroscopeainsi que sa position peuvent être changés manuellementpermettant ainsi de changer la zone visualisée. Le cap-teur est une caméra à rayons X. Elle donne en temps-réelvidéo (25 images/seconde) une image en niveaux de grisde l’atténuation des rayons X. Ce dispositif est la versiontemps-réel des radiographies classiques.

– Le scanner. Une source de rayons X et un capteur sontplacés en opposition sur un anneau rotatif. Les acqui-sitions correspondant aux différents pas angulaires sur360 degrés de la paire source-capteur permettent de re-construire après traitement la coupe d’un patient placéau centre de l’anneau. Un lit motorisé en translation per-met de changer la position de la coupe le long du patientet ainsi de reconstruire le volume en juxtaposant toutesles coupes. Sur les premiers scanner, la reconstructiond’une coupe pouvait prendre plusieurs minutes. Les nou-

veaux scanners permettent de calculer les coupes prati-quement à la cadence vidéo (une quinzaine d’images parseconde).

– L’IRM ou Imagerie à Résonance Magnétique nucléaire.L’IRM est fondée sur la résonance magnétique desatomes d’hydrogène. Ces derniers sont excités au moyend’une impulsion magnétique intense. L’enregistrement,par un réseau d’antennes, de leurs oscillations transi-toires permet de reconstruire le volume du patient. Lepatient doit évidemment être débarrassé de tout objetmétallique avant l’examen. C’est pourquoi les patientséquipés de pacemaker ne peuvent pas subir d’IRM. Ac-tuellement, la période minimum de rafraîchissement desimages IRM est de l’ordre de 0.2 secondes. Il existe dif-férents types d’IRM : on peut distinguer les IRM fer-mées, sorte de tunnel de 1 à 2 mètre de long dans le-quel le patient est complètement enfermé, des IRM ou-verts, plus récents, qui sont constitués de 2 bobines d’axeconcourant entre lesquelles le chirurgien a un accès aupatient.

– L’échographe. C’est le principe du sonar qui est uti-lisé dans ce cas. Des ondes ultra-sonores sont émisespuis leurs échos réceptionnés par une sonde. Celle-ciest le plus souvent placée sur la peau du patient et po-sitionnée par la main du chirurgien. Des sondes intra-corporelles sont également disponibles pour certainsexamens (sondes gynécologiques, trans-œsophagiennes,endoscopiques, etc.). Le traitement des échos permetde reconstruire la coupe plane définie par l’axe de lasonde. Celle-ci prend souvent la forme d’un triangle dontle sommet est au niveau de la sonde. Le rafraîchisse-ment de l’image se fait en temps-réel vidéo. Il existe deséchographes dits «3D» qui utilise l’information combi-née de plusieurs sondes ou une sonde active réalisant unbalayage pour reconstruire un volume. Dans ce cas levolume reconstruit a la forme d’une pyramide dont lesommet est au niveau de la sonde. Cependant, les écho-graphes 3D ne fournissent pas une information en tempsréel.

3.3 Particularités de l’environnement médi-cal

Les asservissements visuels référencés capteur ou «2D» seprêtent particulièrement bien à l’environnement médical.En effet, lorsque la tâche à réaliser peut s’exprimer direc-tement à l’aide d’une fonction de paramètres dans l’image,la modélisation géométrique de la scène n’est pas requise.Par exemple, pour toutes les opérations de guidage d’un ou-til au centre d’une structure anatomique, on peut très bienimaginer le chirurgien cliquant directement dans l’image àl’endroit où il veut amener l’outil robotisé. Celui-ci, grâceà un asservissement visuel 2D, rejoint automatiquement lepoint spécifié en consigne. Seule une estimation de la ma-trice d’interaction est nécessaire. Cette estimation peut to-lérer une certaine approximation sans altérer la précision depositionnement. Après convergence, l’asservissement peut


fonctionner en régulation en compensant par exemple lesmouvements du patient ou encore les mouvements physio-logiques des organes (respiration, battements cardiaques).En fait, la difficulté principale des asservissements visuelsen robotique médicale réside dans le traitement d’images,c’est-à-dire l’extraction robuste robuste d’une informationpertinente. L’imagerie médicale (endoscopique, échogra-phique, scanner, IRM) est particulièrement difficile à trai-ter. Or pour réaliser un asservissement, il est nécessaire depouvoir extraire les primitives de manière fiable avec unefréquence de rafraîchissement constante (compatible avecla vitesse du robot, 1Hz est un minimum). Les contraintesde sécurité et de robustesse dans le domaine médical sontprimordiales : le système doit pouvoir fonctionner quelquessoient les conditions et doit pouvoir palier à d’éventuellesdéfaillances. Ainsi, une redondance des dispositifs de me-sure doit être envisagée afin de garantir la continuité duflux d’information. Cette redondance n’est pas cantonnée àun type de capteur. On peut très bien imaginer par exemplel’acquisition puis la fusion de données aussi variées que lavision, les efforts, le débit respiratoire et les signaux ECG(Électrocardiogramme).Jusqu’à présent, les asservissements visuels en robotiquemédicale se basaient surtout sur une image endoscopiquecar plus facile à acquérir en temps réel. Dans ces premièresapplications, la tâche consiste principalement à réaliser unsuivi automatique d’instruments par l’endoscope. Plus tard,ce sont les instruments eux-mêmes qui ont été asservispour réaliser des tâches simples comme un centrage dansl’image ou un suivi de marqueurs optiques solidaires destructures anatomiques.Des travaux récents portent sur les asservissements visuelsavec retour échographique. Il s’agit essentiellement pour lemoment de preuves de concept prometteuses qui tendent àvalider des lois de commande et des algorithmes de traite-ment d’image robustes.Pour le moment, il n’existe pas d’asservissement visuelavec retour scanner ou IRM. En effet, pour ces imageurs,il est encore pratiquement impossible d’obtenir un fluxd’image temps-réel. Seule une approche «look then move»est envisageable ce qui constitue une version dégradée d’unasservissement visuel. L’arrivée sur le marché de nouveauximageurs rapides permet d’envisager à l’avenir un asservis-sement visuel avec retour scanner ou IRM temps-réel.

3.4 Travaux réalisés et projets en coursDans cette partie, nous dressons un panorama des asservis-sements visuels développés ou en cours de développementen robotique médicale et chirurgicale. Nous classons cesapplications en fonction du type d’imageur.

Caméra standard. La plupart des asservissements vi-suels sur robot médical ont été développés pour la chirurgielaparoscopique avec retour visuel par l’endoscope. La chi-rurgie laparoscopique robotisée est un domaine d’applica-tion idéal pour les asservissements visuels. En effet, l’en-doscope ayant en permanence dans son champ de vision les

instruments et l’objet d’intérêt, on est dans la configurationtypique eye to hand ou «caméra déportée». Par ailleurs, sion se place du point de vue du robot porteur d’endoscope,la commande de ce dernier par retour visuel correspond àune configuration eye in hand ou «caméra embarquée».Parmi tous les gestes pratiqués en chirurgie laparosco-pique, il y en a certains qui se prêtent plus volontiers à unetentative d’automatisation. Les chercheurs se sont bien sûrintéressés en premier aux gestes les plus simples. Les pre-mières expériences ont donc porté sur le positionnementautomatique du robot porte-endoscope :– Dans [37], Taylor et al. proposent un système capable

de centrer automatiquement une structure anatomiquedans l’image de l’endoscope. Après que le chirurgienait pointé dans l’image la structure à centrer, le systèmeévalue par triangulation sa position puis déplace le robotporte-endoscope. Ce n’est pas à proprement parlé un as-servissement visuel mais plutôt une commande séquen-tielle de type look then move.

– Dans [4], Casals et al. optent pour une stratégie de cen-trage automatique des instruments. Avec ce système,l’endoscope suit en permanence les outils grâce à unasservissement visuel 3D. Des marqueurs sont rajoutésà l’extrémité des instruments. La connaissance de leurgéométrie permet d’estimer leur position relative parrapport à l’endoscope et ainsi réaliser la tâche de cen-trage.

– Le système présenté dans [39] par Ueker et al. réalise lamême tâche que celui de Casals et al. mais en utilisantun asservissement visuel 2D. Dans ce cas, des marqueurscolorés ont été rajoutés au bout des outils. Les primitivesutilisées sont les coordonnées dans l’image de ces mar-queurs ainsi que leur taille.

– Wei et al. [43] proposent également un système de cen-trage des outils fondé sur un asservissement visuel 3Dutilisant des marqueurs colorés attachés au bout des ou-tils. Il démontrent que la couleur verte est la moins re-présentée dans les images endoscopiques et donc la plusrobuste pour un marqueur artificiel.

Les systèmes de commande des outils par asservissementvisuel sont apparus plus tard :– Dans [12], les auteurs présentent un système de position-

nement automatique des outils de chirurgie laparosco-pique. Là encore, c’est une stratégie look then move quiest employée. Un système original de reconstruction 3Dde la géométrie de la surface des organes est proposé, ex-ploitant un scanner laser couplé à une caméra rapide. Cesystème est monté en extrémité de l’endoscope. Le réfé-rencement de la position de l’endoscope par rapport aurobot porteur d’instrument est réalisé par l’extérieur aumoyen d’un système de repérage optique Polaris. Aprèsque le chirurgien a pointé sur un écran tactile le pointà atteindre pour l’instrument, le système calcule le dé-placement grâce aux informations du scanner laser et duPolaris, puis déplace le robot porte-outil vers la positionspécifiée.


– Le système présenté dans [25] par Nakamura et al. ne seplace pas directement dans le contexte de la chirurgie la-paroscopique. Il s’agit en fait d’une expérience réaliséeen chirurgie ouverte mais qui illustre un concept ayantpour champ d’application la chirurgie mini-invasive ro-botisée du coeur. Ce système introduit la notion de com-pensation de mouvement cardiaque dans le but de réali-ser des interventions à coeur battant. La tâche à réaliserest donc le suivi d’un organe en mouvement par retourvisuel.

– Le système proposé par Krupa et al. [18] permet de réa-liser par asservissement visuel une tâche automatiquede récupération des outils dans le cas où ils sortent duchamp opératoire. En effet, il peut arriver, lors d’unchangement de zone de travail par exemple, que les ou-tils sortent du champ de vision de l’endoscope. Dans cecas, en chirurgie laparoscopique télémanipulée, il peutêtre difficile pour le chirurgien de les ramener de ma-nière sûre dans le champ opératoire. Le système proposépermet de réaliser ce geste de manière sécurisée et auto-matique.

– Les travaux de Ginhoux et al. [11] portent également surla compensation de mouvements physiologiques par re-tour visuel (Figure 4). Le problème est analysé du pointde vue de la commande pour les 2 principaux mouve-ments physiologiques : la respiration et le battement car-diaque.

– Nageotte et al. [24] ont étudié la suture automatique gui-dée par vision. A partir de la définition dans l’image d’unpoint d’entrée et d’un point de sortie de l’aiguille, le sys-tème définit une trajectoire optimale pour l’outil porte-aiguille. Cette trajectoire est ensuite réalisée par guidagevisuel.

FIG. 4 – Compensation des mouvements cardiaques

Le fluoroscope. Dans [26], les auteurs présentent un sys-tème d’alignement automatique d’une aiguille de chirurgiepercutanée en utilisant l’image d’un fluoroscope. La confi-guration est du type imageur déporté : l’aiguille est ma-

nipulée par un robot dans le champ du fluoroscope. L’as-servissement visuel est du type séquentiel : des prises devue successives sont acquises pour différents angles d’in-clinaison de l’aiguille. En utilisant l’invariance projectivedu bi-rapport, la position angulaire désirée de l’aiguille estcalculée puis envoyée au robot. Cette opération est répé-tée plusieurs fois pour différentes configurations du fluoro-scope afin d’aligner l’aiguille avec la cible dans toutes lesdirections.Bien qu’il ne s’agisse pas à proprement parler d’un asser-vissement au sens de l’automatique, cette application estune première car aucun recalage avec un modèle 3D connun’est nécessaire : seules les données per-opératoires dansl’image sont exploitées.On peut imaginer à l’avenir, une version temps-réel de cetasservissement où les commandes du robot seraient rafraî-chies à la cadence vidéo.Un système de positionnement robotisé utilisant desimages rayons X a été développé par le Centre de Proton-thérapie d’Orsay [7]. Le patient est porté par un robot 6axes et déplacé automatiquement de manière à ce que lefaisceau de protons converge exactement au centre de latumeur à traiter, avec une orientation donnée. Le systèmefonctionne suivant le principe du «look-then-move» : deuximages RX perpendiculaires du crâne du patient (dans le-quel on a implanté des marqueurs) sont acquises et compa-rées à deux images virtuelles, synthétisées par le systèmede planification, correspondant à l’image du patient tellequ’elle devrait être pour un positionnement correct. L’er-reur 2D est ensuite convertie en un déplacement 3D. Deuxou trois itérations suffisent pour un positionnement précis(1mm, 1 degré). Ce système prototype fonctionne en rou-tine clinique depuis plusieurs années.

Le scanner et l’IRM. La plupart des applications ro-botiques utilisant le scanner ou l’IRM fonctionnementpar recalage per-opératoire de données pré-opératoire. Parexemple, le système Neuromate [21] permet de position-ner un guide cylindrique par rapport à la tête d’un patientavec une précision inférieure au millimètre. Le guide estsolidaire de l’organe terminal d’un robot. La localisationde la zone à traiter se fait de manière pré-opératoire par ac-quisition d’images IRM. Ensuite, le patient est amené versla zone opératoire. Celle-ci est équipée de deux camérasà rayons X dont les axes optiques sont perpendiculaires etpassent par la tête du patient. Le recalage des images IRMavec les images RX utilise des structures visibles dans les2 modalités. Le recalage du robot par rapport aux camérasà rayon X se fait en attachant à l’organe terminal du robotune cible constituée de marqueurs radio-opaques visiblesdans l’imagerie RX. Une fois ce recalage effectué, la cibleest remplacée par le guide qui est positionné de manière àviser la zone du cerveau à traiter tout en évitant de toucherdes structures sensibles.Il n’y a que très peu de travaux publiés sur les asservisse-ments visuels avec retour scanner ou IRM. La fréquenced’acquisition et l’interfaçage de ces imageurs n’est pas le


seul frein au développement de tels systèmes. Le robot estégalement un élément-clé qui doit être conçu sur mesurepour être compatible avec ces imageurs.En radiologie interventionnelle robotisée sous scanner au-cune pièce métallique ne doit se trouver dans le faisceaude rayons X, à savoir un disque de 1 à 2 cm d’épaisseuret de diamètre égal à l’anneau du scanner, afin de ne pascréer d’artefact dans l’image. Le robot utilisé dans [34] estfixé à la table du scanner et son organe terminal est un pré-henseur d’aiguille de radiologie interventionnelle réalisé enmatériau plastique. Pour le moment ce robot n’est pas uti-lisé pour un guidage scanner temps-réel : le positionnementde l’aiguille est effectué en utilisant les pointeurs laser desscanner.Le robot présenté dans [23] est attaché au patient. Il a étéconçu pour minimiser la quantité de métal présente dans leplan de coupe. D’encombrement et de poids réduits (Figure5), il est sanglé au patient et permet de ce fait d’accompa-gner d’éventuels mouvements (respiration, convulsion, ...).Un système de marqueurs radio-opaques permet de reca-ler le robot par rapport au scanner. Le chirurgien définitdans l’image le point d’entrée et la cible à atteindre puis lerobot positionne automatiquement l’aiguille dans la bonnedirection. La descente de l’aiguille se fait pour le momentde façon manuelle. A moyen terme la descente se fera partélé-opération avec retour d’effort et il est prévu à plus longterme d’automatiser cette tâche grâce à un asservissementvisuel.

FIG. 5 – Le robot CT-bot

L’IRM impose à la structure robotique des contraintes en-core plus fortes. Il est clair qu’un robot compatible avecl’IRM doit être exclusivement constitué de matériaux ama-gnétiques. De plus, à cause des champs magnétiques in-tenses qui sont générés, les capteurs ne peuvent utiliserun principe de mesure électrique sous peine d’importantesperturbations voire de destruction par les courants induits.Dans [5], les auteurs dressent un inventaire exhaustif detoutes les contraintes propres à l’IRM. Un prototype de ro-bot IRM-compatible entièrement en matière plastique et

actionné par des moteurs pneumatiques est présenté dans[35].

L’échographe. Les asservissements visuels par échogra-phie sont actuellement en plein essor. D’un point de vuerobotique, l’échographie est beaucoup moins contraignanteque l’imagerie scanner ou IRM. L’interfaçage est trèssimple car la plupart des échographes possède une sortievidéo composite.Parmi les travaux effectués dans ce domaine, certainss’intéressent au positionnement automatique de la sonded’échographie (configuration imageur embarqué) :– Dans [1], les auteurs présentent un robot porteur de

sonde qui est asservi par vision pour centrer dansl’image la section de la carotide. C’est un asservissementvisuel collaboratif : 3 degrés de liberté sont asservis parvision tandis que les 3 autres sont commandés par l’opé-rateur.

– Le système présenté dans [17] permet la calibrationd’une imagerie échographique 3D. La sonde est por-tée par un robot et un asservissement visuel 2D permetd’amener deux primitives ponctuelles à des positionsspécifiques dans l’image. Ces primitives ponctuelles cor-respondent à l’image échographique d’un dispositif decalibration constitué de 2 marqueurs rectilignes qui secoupent.

D’autres équipes ont étudié le positionnement d’instru-ments par retour échographique avec une sonde fixe (confi-guration imageur déporté) :– Dans [13] les auteurs ont développé un système de chi-

rurgie percutanée guidé par échographie. La sonde mon-tée sur un robot est positionnée en regard de la zone àtraiter. L’aiguille est montée sur un support actionné quilui confère des degrés de mobilité supplémentaires parrapport à la sonde : ceux-ci sont utilisés pour orienterl’aiguille vers la zone à traiter. Cette tâche d’orientationest réalisée par asservissement visuel. Les auteurs ontaussi étudié la capacité du système à compenser les ef-fets des mouvements respiratoires.

– Vitrani et al. [41] ont conçu un système de guidagepar asservissement visuel 2D échographique d’un ins-trument de chirurgie intra-cardiaque (Figure 6). L’ins-trument est une pince chirurgicale, qui forme deux échosponctuels dans le plan échographique. L’asservissementest fondé sur la formulation de la matrice d’interac-tion entre les mouvements du robot et les vitesses deglissement des points dans le plan. L’aspect traitementd’image représente aussi une part importante du travail[27] étant donnée la difficulté à extraire de manière ro-buste et continue des primitives d’images dont le rapportsignal à bruit est très bas. Dans le cadre du même projet,les auteurs de [31] s’intéressent au suivi de la valve mi-trale par échographie. Cet article présente des méthodesde traitement d’image pour suivre en temps réel les mou-vements rapides de la valve. A moyen terme ce projet de-vrait déboucher sur un système de robotique de chirurgiede la valve mitrale à coeur battant.


Coeur

Sonde échographique

en contact épicardique



Pince chirurgicale insérée dans le

ventricule gauche

Image échographique

FIG. 6 – Guidage intra-cardiaque d’un instrument par as-servissement visuel échographique

4 ConclusionQu’il s’agisse d’asservissement visuel ou de commandeà retour d’efforts, l’exploitation d’information extéroscep-tives, en temps réel, pour la commande des robots médico-chirurgicaux, est un moyen d’évoluer vers des systèmesplus sûrs et plus autonomes. Nombre des travaux évoquésdans cet article ont fait l’objet de validations in vivo, prou-vant la robustesse des concepts dans des conditions opé-ratoires, et ce en dépit des difficultés particulières du pro-blème : utilisation de différents appareils non recalés lesuns par rapport aux autres, présence de mouvements phy-siologiques, interactions non linéaires, difficulté de traite-ment des images, etc.Il reste au cours des prochaines années à faire migrer cesavancées technologiques vers une utilisation clinique. Pourcela, une industrialisation est nécessaire. Ce travail parti-culièrement coûteux dans le domaine médical ne sera pos-sible qu’à deux conditions :

1. le bénéfice médical de la technique doit être prouvé.Ceci ne peut se faire que par une évaluation pré-clinique des technologies. Une appropriation du corpsmédical est nécessaire car seuls les praticiens sontaptes à déterminer quelle assistance est d’une réelleutilité pour la pratique des soins. De notre pointde vue, les techniques permettant d’effectuer destraitements impossibles avec les méthodes actuelles(comme par exemple le traitement de tumeurs troppetites avec une approche manuelle, qui sera rendupossible grâce à la précision d’un robot asservi sur latumeur) sont celles qui sont promises à un meilleuravenir, par opposition aux méthodes permettant unesimple transposition robotique de soins aujourd’huipratiqués à la main.

2. l’interfaçage avec le chirurgien doit être l’objet d’uneattention particulière. S’agissant de commande réfé-rencée capteur, la spécification de la tâche s’effectue

dans l’espace de mesure. Elle n’est pas toujours in-tuitive. Un travail doit donc être entrepris pour savoircomment interfacer les systèmes asservis avec un uti-lisateur non spécialiste, utilisant un langage naturel,tout en garantissant la sécurité du patient.

Références[1] Abolmaesumi, P., Salcudean, S. E., Zhu, W. H., Si-

rouspour, M., et DiMaio, S. Image-guided control ofa robot for medical ultrasound. IEEE Transactions onRobotics and Automation, 18 :11–23, février 2002.

[2] Berkelman, P. J., Whitcomb, L. L., Taylor, R. H.,et Jensen, P. A miniature microsurgical instrumenttip force sensor for enhanced force feedback duringrobot-assisted manipulation. IEEE Transactions onRobotics and Automation, 19(5) :917–922, octobre2003.

[3] Bonneau, E., Taha, F., Gravez, P., et Lamy, S. Surgi-cobot : Surgical gesture assistance cobot for maxillo-facial interventions. Dans Proc. of MRNV 2004 : Me-dical Robotics, Navigation and Visualization. Rema-gen, Allemagne, mars 2004.

[4] Casals, A., Amat, J., et Laporte, E. Automatic gui-dance of an assistant robot in laparoscopic surgery.Dans Proc. of the IEEE International Conference onRobotics and Automation, pages 895 –900. Mineapo-lis, avril 1996.

[5] Chinzei, K. et Miller, K. Towards MRI guided surgi-cal manipulator. Med Sci Monit, 7(1) :153–163, 2001.

[6] Courrèges, F., Poisson, G., Vieyres, P., Gourdon, A.,Szpieg, M., et Mérigeaux, O. Real time exhibitionof a simulated space tele-echography using an ultra-light robot. Dans Proc. of ISAIRAS - 6th Internatio-nal Symposium on Artifical Intelligence, Robotics andAutomation in Space. Montréal, Canada, juin 2001.

[7] Desblancs, C., Mazal, A., R.Ferrand, et Habrand, J.Use of robots for patient positioning at the orsay pro-tontherapy center. A paraître dans Medical ImageAnalysis, 2005.

[8] DiMaio, S. P. et Salcudean, S. Needle insterion mode-ling and simulation. IEEE Transactions on Roboticsand Automation, 19(5) :864–875, octobre 2003.

[9] Dombre, E., Duchemin, G., Poignet, P., et Pierrot,F. Dermarob : a safe robot for reconstructive sur-gery. IEEE Transactions on Robotics and Automa-tion, 19(5) :876–884, 2003.

[10] Dubois, P., Thommen, Q., et Jambon, A. In vivo mea-surement of surgical gestures. IEEE Trans. on Biome-dical Engineering, 49(1) :49–54, 2002.

[11] Ginhoux, R., Gangloff, J., de Mathelin, M., Soler, L.,Sanchez, M. A., et Marescaux, J. Active filteringof physiological motion in robotized surgery usingpredictive control. IEEE Transactions on Robotics,21(1) :67–79, février 2005.


[12] Hayashibe, M. et Nakamura, Y. Laser-pointing endo-scope system for intra-operative 3D geometric regis-tration. Dans Proc. of the IEEE International Confe-rence on Robotics and Automation, pages 1543–1548.Seoul, mai 2001.

[13] Hong, J., Dohi, T., Hashizume, M., Konishi, K., etHata, N. An ultrasound-driven needle insertion robotfor percutaneous cholecystostomy. Physics in Medi-cine and Biology, 49(3) :441–455, février 2004.

[14] Hu, T., Tholey, G., Desai, J. P., et Castellanos, A. E.Evaluation of a laparoscopic grasper with force feed-back. Surgical Endoscopy, 18(5) :863, 2004.

[15] Jakopec, M., y Baena, F. R., Harris, S., Gomes, P.,J. Cobb, J., et Davies, B. The hands-on orthopaedicrobot "acrobot" : Early clinical trials of total knee re-placement surgery. IEEE Transactions on Roboticsand Automation, 19(5) :902–911, 2003.

[16] Kennedy, C. et Desai, J. P. Force feedback using vi-sion. Dans International Conference on AdvancedRobotics, pages 179–184. Coimbra, Portugal, 2003.

[17] Krupa, A. et Chaumette, F. Control of an ultrasoundprobe by adaptive visual servoing. Dans Proc. ofthe IEEE/RSJ International Conference on IntelligentRobots and Systems. Edmonton, Canada, 2005.

[18] Krupa, A., Gangloff, J., Doignon, C., de Mathelin,M., Morel, G., Leroy, J., Soler, L., et Marescaux, J.Autonomous 3-D positioning of surgical instrumentsin robotized laparoscopic surgery using visual ser-voing. IEEE Transactions on Robotics and Automa-tion, 19(5) :842–853, 2003.

[19] Krupa, A., Morel, G., et de Mathelin, M. Achievinghigh precision laparoscopic manipulation throughadaptive force control. Advanced Robotics,18(9) :905–926, 2004.

[20] Kuchenbecker, K. J. et Niemeyer, G. Cancellinginduced master motion in force-reflecting teleopera-tion. Dans Proc. ASME Int. Mechanical EngineeringCongress and Exposition. novembre 2004.

[21] Lavallee, S., Troccaz, J., Gaborit, L., Cinquin, P., Be-nabid, A., et Hoffmann, D. Image guided operatingrobot : a clinical application in stereotactic neurosur-gery. Dans Proc. of the IEEE International Confe-rence on Robotics and Automation, tome 1, pages618–624. Nice, France, 1992.

[22] Marescaux, J., Leroy, J., Gagner, M., Rubino, F., Mut-ter, D., Vix, M., Butner, S., et Smith., M. Transatlan-tic robot-assisted telesurgery. Nature, 413 :379–380,2001.

[23] Maurin, B., Doignon, C., Gangloff, J., Bayle, B.,de Mathelin, M., Piccin, O., et Gangi, A. Ct-bot : Astereotactic-guided robotic assistant for percutaneousprocedures of the abdomen. Dans SPIE Medical Ima-ging. San-Diego, février 2005.

[24] Nageotte, F., Zanne, P., de Mathelin, M., et Doignon.,C. A circular needle path planning method for sutu-ring in laparoscopic surgery. Dans Proc. of the IEEEInternational Conference on Robotics and Automa-tion. Barcelona, Spain, avril 2005.

[25] Nakamura, Y., Kishi, K., et Kawakami, H. Heartbeatsynchronization for robotic cardiac surgery. DansProc. of the IEEE International Conference on Ro-botics and Automation. Seoul, Korea, mai 2001.

[26] Navab, N., Bascle, B., Loser, M., Geiger, B., et Tay-lor, R. Visual servoing for automatic and uncalibratedneedle placement for percutaneous procedures. DansIEEE Conference on Computer Vision and PatternRecognition, tome 2, pages 327–334. Hilton Head Is-land, SC, juin 2000.

[27] Ortmaier, T., Vitrani, M. A., et Morel, G. Robust real-time instrument tracking in ultrasound images for vi-sual servoing. Dans Proc. of the IEEE Internatio-nal Conference on Robotics and Automation, pages2179–2184. Barcelona, Spain, avril 2005.

[28] Paul, H., Bargar, W., Mittelstadt, B., Musits, B., Tay-lor, R., Kazanzides, P., Williamson, B., et Hanson, W.Development of a surgical robot for cementless totalhip arthroplasty. Clinical Orthopaedics And RelatedResearch, 285 :57–66, décembre 1992.

[29] Pierrot, F., Dombre, E., Dégoulange, E., Urbain, L.,Caron, P., Boudet, S., Gariépy, J., et Mégnien, J.-L. Hippocrate : A safe robot arm for medical appli-cations with force-feedback. Medical Image Anal.,3(3) :285–300, 1999.

[30] Rosen, J., Hannaford, B., Farlane, M. M., et Sina-nan, M. Force controlled and teleoperated endoscopicgrasper for minimally invasive surgery. IEEE Tran-sactions on Biomedical Engineering, 46(10) :1212–1221, octobre 1999.

[31] Sauvee, M., Renaud, P., Poignet, P., Triboulet, J.,Dombre, E., Karouia, M., Bonnet, N., et Noce, A.Mitral valve leaflet motion tracking in ultrasoundimages. Dans Surgetica. 2005.

[32] Schneider, O. et Troccaz, J. A six-degree-of-freedompassive arm with dynamic constraints (padyc) for car-diac surgery application : preliminary experiments.Computer Aided Surgery, 6(6) :340–351, 2001.

[33] Seibold, U., Kuebler, B., Weiss, H., et Hirtzinger, T.O. G. Sensorized and actuated instruments for mi-nimally invasive surgery. Dans Proc. of 4th Interna-tional Conference EuroHaptics. Munich, Allemagne,juin 2004.

[34] Stoianovici, D., Cleary, K., Patriciu, A., Mazilu, D.,Stanimir, A., Craciunoiu, N., Watson, V., et Ka-voussi, L. Acubot : a robot for radiological interven-tions. IEEE Transactions on Robotics and Automa-tion, 19(5) :927–930, octobre 2003.


[35] Taillant, E., Avila-Vilchis, J.-C., Allegrini, C., Bri-cault, I., et Cinquin, P. CT and MR compatible lightpuncture robot : Architectural design and first ex-periments. Dans Proc. of the int. conf. on Medi-cal Image Computing and Computer Assisted Inter-vention, pages 145–152. Saint-Malo, France, octobre2004.

[36] Taylor, R., Jensen, P., Whitcomb, L., Barnes, A., Ku-mar, R., Stoianovici, D., Gupta, P., Wang, Z., de Juan,E., et Kavoussi, L. A steady-hand robotic system formicrosurgical augmentation. International Journal ofRobotics Research, 18 :1201–1210, 1999.

[37] Taylor, R. H., Funda, J., Eldridge, B., Gomory, S.,Gruben, K., Larose, D., Talamini, M., Kavoussi, L.,et Anderson., J. A telerobotic assistant for laparosco-pic surgery. IEEE Engineering in Medicine and Bio-logy Magazine Special Issue on Robotics in Surgery,14(3) :279–291, 1995.

[38] Troccaz, J., Lavallée, S., et Hellion, E. A passivearm with dynamic constraints : a solution to safetyproblems in medical robotics ? Dans Proc. of IEEESMC : Systems, Man and Cybernetics, pages 166–171. 1992.

[39] Uecker, D. R., Cheolwhan, L., Wang, Y. F., et Wang,Y. Automated instrument tracking in robotically as-sisted laparoscopic surgery. Journal of Image GuidedSurgery, 1 :308–325, 1995.

[40] Vilchis, A., Troccaz, J., Cinquin, P., Masuda, K.,et Pelissier, F. A new robot architecture for tele-echography. IEEE Transactions on Robotics and Au-tomation, 19(5) :922–926, 2003.

[41] Vitrani, M. A., Morel, G., et Ortmaier, T. Automa-tic guidance of a surgical instrument with ultrasoundbased visual servoing. Dans Proc. of the IEEE In-ternational Conference on Robotics and Automation,pages 510–515. Barcelona, Spain, avril 2005.

[42] Wagner, C. R., Stylopoulos, N., et Howe, R. D. Therole of force feedback in surgery : Analysis of bluntdissection. Dans Symposium on Haptic Interfaces forVirtual Environment and Teleoperator Systems, pages73–79. mars 2002.

[43] Wei, G.-Q., Arbter, K., et Hirzinger, G. Real-timevisual servoing for laparoscopic surgery. IEEE Engi-neering in Medicine and Biology, 16(1) :40–45, 1997.

[44] Whitney, D. Historical perspective and state of theart in robot force control. International Journal ofRobotics Research, 6 :3–14, 1987.

[45] Zemiti, N., Ortmaier, T., Vitrani, M., et Morel, G.A force controlled laparoscopic surgical robot wi-thout distal force sensing. Dans Proc. of ISER’04 :The international symposium on experimental robo-tics. 2004.


Outils théoriques de l'automatique au service de la modélisation et de la commande du système sensori-moteur humain

Guiraud David P

1P

P

1PINRIA, UR Sophia Antipolis

Université Montpellier II CNRS

LIRMM, 161 Rue Ada 34392 Montpellier Cedex 5 [email protected]

Résumé Les déficiences sensorielles ou motrices sont souvent liées à une déficience du système nerveux les contrôlant lorsqu’il ne s’agit pas de myopathie. Par exemple, la rupture de la moelle épinière génère une paraplégie. Les solutions biologiques tardent à voir le jour car le système nerveux est incapable de se régénérer naturellement ; il faut des thérapies spécifiques pour y parvenir et les résultats sur l'homme sont encore insuffisants. L'autre voie consiste à activer les structures neurales motrices (pour générer du mouvement ou le contrôler) ou sensorielles (pour restaurer une sensation ou supprimer une douleur), mais cela demande une technologie très pointue que peu de laboratoires et d'industriels sont capables de développer. D’un point de vue théorique, les outils de l’automatique sont au centre des besoins de ces recherches mais ils sont la plupart du temps utilisés dans un contexte où les hypothèses classiques d’application ne sont pas respectées de sorte que leur maniement devient parfois extrêmement délicat. Cet article propose un panorama sur les solutions existantes ou à venir et une discussion sur les perspectives. Mots Clef Mouvement humain, muscle, stimulation électrique fonctionnelle, déficience motrice, sensorielle, biomécanique. 1 Introduction De manière très synthétique, le système sensori moteur est composé des mêmes éléments qu’un robot : i) des actionneurs que sont les muscles dans le cas du mouvement, ii) des capteurs très variés et nombreux comme par exemple les fuseaux neuromusculaires ou les organes de Golgi qui renseignent sur l’état du muscle (capteurs sensibles à l’effort et à l’étirement), la vision, iii) une unité de traitement et de transport de l’information, essentiellement le système nerveux. On rencontre quasiment tous les modes de fonctionnement connus en robotique, de la commande en boucle ouverte,

à la commande en boucle fermée réflexe ou la « téléopération » plus connue sous le nom d’action volontaire. Si la hiérarchie et la structure de cet ensemble commencent à être bien décrites et comprises, l’algorithmique sous jacente, aussi bien au niveau du traitement du signal provenant des capteurs, que des stratégies de contrôle au sens schéma de commande est peu ou pas connu. Par exemple, dans le cas du mouvement, si les mécanismes de maintien de la posture et de l’équilibre sont relativement bien décrits, les détails du schéma de commande et sa mise en équation sont encore inconnus. Comme souvent dans le domaine du vivant, ce sont les déficiences de parties du système qui mettent en évidence certains mécanismes. Mais même dans ce cas, il est parfois difficile d’extraire des observations objectives et définitives. Par exemple, chez les blessés médullaires, les muscles sous lésionnels restent actifs, et la commande est ainsi physiquement séparée en deux. On met en évidence une répartition des fonctions motrices entre ce qui est intégré au niveau du cerveau, et ce qui reste local au niveau de la moelle épinière. Malgré tout, nombre de questions restent ouvertes comme l’existence et la localisation des centres générateurs de rythme – pour la marche par exemple - qui pourtant ont été identifiés chez plusieurs espèces animales. Cela montre aussi que l’extrapolation de l’animal, même très proche, vers l’homme n’est pas toujours possible. On comprend alors que la première tâche dévolue à tout projet qui tente de comprendre le système sensori moteur, à savoir la modélisation de celui-ci, est délicate et constitue un axe de recherche spécifique. La tendance pousse les équipes à baser les modèles sur des réalités physiologiques afin d’éviter le plus possible l’approche « boite noire ». Cette stratégie bien plus difficile présente l’avantage de conduire à une critique fondée des modèles, et à une démarche à la fois quantitative et qualitative sur la description des fonctions. Enfin, elle facilite l’interprétation des résultats des protocoles d’identification, autre point très difficile à résoudre. De même, la restauration artificielle de fonctions via l’activation contrôlée de structures neurales et l’observation de leur activité au travers de schémas de commande, est un sujet en pleine effervescence qui a


pour double objectif non seulement de rétablir des fonctions dans un but thérapeutique, mais aussi d’essayer de comprendre les mécanismes naturels mis en jeu. La maturité dans ce domaine est nettement moins grande que dans celui de la modélisation et le « bio mimétisme » fait son entrée timidement surtout en ce qui concerne l’architecture de la commande. Les algorithmes quant à eux sont souvent issus de l’automatique, englobant néanmoins de nombreuses approches comme les commandes basées modèles, ou les approches optimales. Bien que donnant des résultats satisfaisants, elles ne répondent pas aux questions sur ce que fait vraiment le système naturel. Enfin, la dernière tendance à souligner concerne les neuroprothèses. En effet, les groupes de recherche tendent à s’affranchir, comme dans la modélisation et la commande, du maximum d’éléments artificiels à commencer par les activateurs, exosquelettes par exemple, mais aussi les capteurs, goniomètres, accéléromètres, pour finalement ne conserver que les capteurs et activateurs naturels. L’interface entre vivant artificiel se résume ainsi aux interfaces de mesure et d’activation des structures neurales, et ce à tous les niveaux (système nerveux central et périphérique). Certains envisagent même des interfaces directes avec le cerveau (Direct Brain Interface ou DBI) pour le lien avec la commande volontaire où finalement les neuroprothèses ne serviraient que de relais. Mais c’est pour le moment une pure vue de l’esprit. La restauration de fonctions sensitives seules comme l’ouïe ou la vision, sont des domaines très actifs dont la démarche soulève les mêmes remarques, mais ces axes ne seront pas abordés dans cet article. Toutes ces recherchent font nécessairement appel à de nombreux outils et méthodes de l’automatique et demandent le plus souvent de nouveaux développements théoriques. L’enrichissement réciproque des corpus de connaissances, autrefois totalement disjoints, est aujourd’hui admis et encouragé. Il passe dans un premier temps, par la création d‘équipes multidisciplinaires, mais devrait conduire à termes à des filières d’enseignement multidisciplinaires. 2 Principe de la restauration artificielle du mouvement Comme pour les robots, la partie sous lésionnelle chez les blessés médullaires est gérée de manière artificielle par un contrôleur comportant des entrées capteur et des sorties commande. Atteindre un certain niveau de performance - par exemple gérer l'équilibre ou la fatigue - demande des études théoriques difficiles et reposent sur une validation expérimentale conséquente qui représente le critère ultime de jugement. Tout ceci n’est possible que si l’on peut observer et commander. Si la partie capteur reste pour l’instant traditionnelle et tournée vers des capteurs externes classiques, la partie activation a abandonné depuis quelques décennies les orthèses motorisées au

profit de la stimulation électrique fonctionnelle connue sous l’acronyme FES. Dans le cas de la paraplégie par exemple, la section de la moelle épinière entraîne la perte du contrôle du système nerveux central. Néanmoins, le dernier relais entre le système nerveux central et le muscle se situe dans la moelle épinière au travers des neurones moteurs ou alpha motoneurones. Leurs axones sortent à différents niveaux médullaires correspondant aux groupes musculaires d’autant plus bas que le niveau l’est aussi. Ces axones sont regroupés au sein des nerfs périphériques sans autre intermédiaire jusqu’au muscle. Si ces motoneurones ne sont pas détruits, bien que non commandés par les niveaux supérieurs, il suffit de les activer pour qu’ils provoquent une contraction musculaire. En revanche, les muscles desinnervés, suite à la mort des motoneurones les commandant, sont peu ou pas stimulables mais des recherches actives sont en cours sur ce sujet. Le motoneurone étant dans la moelle épinière il est non seulement difficile d’accès mais en plus mélangé à d’autres populations de neurones aux fonctions motrices et sensitives très diverses. Il est beaucoup plus simple de stimuler le muscle directement en plaçant les électrodes sur l’epimysium ou en intramusculaire. En effet, un courant électrique peut déclencher le mécanisme de contraction du muscle. Ce phénomène est connu depuis plusieurs siècles puisqu’il est possible de le faire de manière externe en positionnant les électrodes en surface, sur la peau, proches de la plaque motrice, c'est-à-dire à l’endroit ou les terminaisons nerveuses se connectent au muscle. Bien évidemment la stimulation implantée epimysiale est plus sélective et plus efficace, mais surtout, conditions essentielles pour le contrôle, reproductible et progressive. Un seul projet pour la restauration de mouvements a été mené jusqu’à la commercialisation d’un dispositif implanté : le contôle de la main chez le tétraplégique, le « Free Hand System ». La chirurgie relativement lourde, les risques infectieux élevés, et l’efficacité aléatoire dans le temps ont cependant conduit à l’échec mais la faisabilité de l’approche a été démontrée. Une solution plus élégante, encore plus efficace en terme énergétique, et offrant de nombreuses options, constitue à stimuler le nerf moteur en amont du muscle et de laisser les potentiels d’action moteur déclencher la contraction. Les axones qui constituent les nerfs sont en effet plus facilement stimulables. Il est aussi possible de placer les électrodes de manière plus proximale et d’ainsi limiter le câblage interne qui va de l’implant vers les électrodes, en utilisant le « câblage » naturel. Les solutions futures proposent des architectures distribuées d’implant communiquant sans fils mais des problèmes technologiques sérieux restent à résoudre en particulier dans la transmission intracorporelle de données et d’énergie.


NFES EFES

Moto neuron

Figure 1 : stimulation implantée neural (NFES) et epimysiale (EFES). Le muscle est composé de fibres musculaires qui sont soit actives soit passives. A la réception d’un potentiel d’action une fibre se contracte puis se relâche, on parle de « twitch response », réponse impulsionnelle en automatique. La succession de potentiels d’action provoque des réponses musculaires saccadées jusqu’à obtenir la fusion de la fibre appelée tétanos. Cette fréquence de fusion est équivalente à la fréquence de coupure haute du muscle, mais la force continue à augmenter avec la fréquence jusqu’à atteindre une saturation. Un axone issu d’un neurone moteur innerve ainsi plusieurs fibres musculaires qui se contractent ensemble au déclenchement du neurone. Cet ensemble s’appelle unité motrice, c’est le quantum de force du muscle. Selon la fonction du muscle cet incrément élémentaire est plus ou moins important, élevé pour les muscles extenseurs du genou, et faible pour des muscles nécessitant de la précision. Dans tous les cas, la force est alors principalement modulée par le nombre d’unité motrice activée, on parle de recrutement. La FES consiste à déclencher des potentiels d’actions moteur en plus ou moins grand nombre en jouant sur les paramètres d’intensité et de largeur d’impulsion car en effet, plus la quantité de charge injectée est élevée, plus les axones profonds sont atteints et donc le recrutement important jusqu’à obtenir l’activation de toutes les fibres nerveuses. Des recherches amont continuent de faire évoluer les neuroprothèses au fur et à mesure que l’électrophysiologie des cellules excitables est mieux connue. Les évolutions actuelles vont vers des formes complexes de stimulus, des électrodes multipolaires, et des sites de stimulation très diversifiés sur pratiquement toutes les parties des systèmes nerveux central et périphérique. Cette vue simplifiée montre comment la FES implantée, en particulier neurale, permet d’envisager de générer et contrôler des mouvements fonctionnels car le muscle devient commandable de manière reproductible.

Figure 2 : interaction entre système naturel et système artificiel. 3 Vers une approche automaticienne Pendant longtemps, les systèmes de restauration utilisant la FES ont fonctionné en boucle ouverte avec une génération empirique des séquences de stimulation. Méconnaissance des modèles, difficulté d’identification, mise en place lourde et incertaine des capteurs, ont largement contribué à l’absence de toute démarche similaire à ce que l’on fait en robotique. Les systèmes d’activation sont en constante évolution mais les résultats fonctionnels restent limités et une approche plus fine de la commande du mouvement devient nécessaire. L’approche automaticienne a d’abord tenté de résoudre des problèmes simples et partiels de contrôle utilisant des modèles biomécaniques grossiers et un réglage empirique des paramètres du PID qui gère la position de l’articulation du genou par exemple. Très vite les limites de cette approche ont été atteintes et aucun système ne fonctionne sur ce principe. La base de toute étude sérieuse en automatique repose sur des modèles dont la fidélité à la réalité va conditionner la qualité des résultats théoriques et expérimentaux obtenus. Dans le même temps, le développement de modèles de plus en plus complexes réalise un double objectif : i) décrire et donc comprendre le système étudié, ii) l’analyser d’un point de vue automatique et le simuler numériquement. Nous illustrerons les idées au travers des choix proposés dans notre équipe DEMAR (DEambulation et Mouvement ARtificiel). Les chapitres suivants ne sont pas exhaustifs de tout ce qui peut se faire dans le domaine, mais exposent quelques exemples démonstratifs.

Controleur

FES

Capteurs naturels


3.1 Modélisation Un modèle, quelle que soit sa précision, reste un fac simile de la réalité. Le compromis se situe entre la précision attendue aux échelles d’espace et de temps de l’étude, et les capacités à identifier, valider, et simuler les modèles. Par ailleurs, il faut veiller à ce que les approximations effectuées sur chaque sous système soient du même ordre de grandeur pour que les compromis fait sur chaque partie soient justifiés les uns par rapport aux autres. Dans le cas de la restauration du mouvement chez les blessés médullaires complets, plusieurs sous systèmes nécessitent une étude particulière dont au moins : i) le squelette, ii) le muscle, iii) les capteurs musculaires, iv) les réseaux neuraux impliqués dans les réflexes. Mais nous nous attarderons sur les deux premiers seulement. 3.1.1 Le squelette Une articulation comme celle de l’épaule est très difficile à modéliser et ne se limite pas à une description Denavit Hartenberg composée de rotations et translations pures et parfaites. La géométrie même des contacts est non seulement complexe mais variable et difficile à identifier d’une personne à l’autre. La précision de la modélisation est donc liée à l’objet de l’étude. Lorsqu’une articulation est le centre des préoccupations des chercheurs en biomécanique, elle peut être décomposée en de nombreux sous systèmes mécaniques se ramenant à des liaisons simples, où la liaison est décrite au travers d’équations cinématiques ad hoc. A l’inverse, lorsqu’il s’agit d’étudier un membre et a fortiori le corps entier, seuls les degrés de liberté principaux sont retenus et modélisés grâce à des liaisons simples. La précision des modèles géométriques, puis des modèles dynamiques qui reposent sur eux est suffisante. Les approximations les plus grossières dans ce cas sont celles liées à la colonne vertébrale dont on ne conserve que quelques degrés de liberté permettant de rendre compte des postures principales qu’elle peut prendre. Afin d’appliquer les résultats connus en modélisation géométrique et dynamique des robots, il faut encore supposer que les corps sont rigides et indéformables ce qui n’est pas vrai surtout concernant la deuxième propriété. Malgré tout, dans le cadre des mouvements nécessairement lents générés par la FES, le problème n’est pas sensible. Mais de tels modèles sont probablement totalement impropres à décrire de manière fine le comportement du squelette et de la dynamique du corps entier dans des conditions extrêmes comme peuvent le faire certains sportifs. Nous avons fait le choix de limiter notre modèle géométrique corps entier aux degrés de liberté nécessaires à la description des postures liées au mouvement que nous étudions. Ces degrés de liberté n’ont pas toujours une réalité biomécanique mais autorisent des cinématiques proches de la réalité. Le problème se pose lorsque des muscles sont attachés à ces degrés de liberté mais dans notre cas, les approximations portent sur les

parties du corps qui sont sous contrôle volontaire du patient et dont l’activation est globalement simulée au travers des évolution de couples articulaires virtuels. En effet, le détail des activations musculaires de cette partie ne nous intéresse pas qui sont de toute manière difficiles à établir. L’autre simplification porte sur l’utilisation exclusive de rotations. Encore une fois, on peut se permettre ce genre d’approximation sur la partie haute puisque le détail de la cinématique ne nous intéresse pas. Sur les membres inférieurs il est nécessaire de garder une bonne fidélité à la réalité biomécanique puisque nous allons ajouter des muscles qui vont actionner ces degrés de liberté. Finalement notre modèle comporte 27 degrés de liberté et les outils de modélisation couramment utilisés en robotique sont directement exploitables puisque l’on respecte les conditions d’application. 3.1.2 Le muscle Le muscle est l’un des éléments qui diffèrent totalement des activateurs rencontrés en robotique. Bien que certaines approches tentent une approximation au travers d’une réalisation physique de muscles artificiels, muscle de Mac Kibben, on en reste très éloigné et depuis longtemps des études approfondies menées sur le muscle réel sont privilégiées. Il existe trois types de muscles : i) muscle lisse, ii) muscle strié cardiaque, iii) muscle strié squelettique. Nous ne présentons ici que le muscle strié squelettique principal responsable du mouvement. Le besoin de l’automaticien est d’avoir un modèle ayant au moins une entrée de commande et au moins une sortie, la force générée dans ce cas. Le physiologiste souhaite comprendre au travers du modèle l’importance relative des mécanismes de la contraction, leur séquencement, leurs interactions, pour finalement comprendre le muscle et ses déficiences. La seule issue est alors de partir de la description microscopique des phénomènes, essentiellement utile pour le physiologiste, et d’intégrer les équations pour en déduire un comportement macroscopique, essentiellement utile à l’automaticien. Fondé sur la description microscopique d’Huxley et de la théorie des filaments glissants, on parvient à un modèle intégré par la méthode des moments proposée par Zahalac. Ce modèle macroscopique se comporte comme le modèle de Hill-Maxwell et vérifie la plupart les propriétés comportementales connues depuis longtemps. Ce dernier n’avait à l’origine aucun lien avec le modèle microscopique. Mais ces modèles ne possèdent pas d’entrée de commande. Les quelques automaticiens qui ont voulu produire un modèle de muscle ont souvent adopté la méthode boite noire, où une fonction générique de comportement a été identifiée par des méthodes classiques d’optimisation. Dans ce cas, le modèle n’a aucun sens physiologique et ne décrit souvent qu’un domaine restreint de fonctionnement du muscle.


Impulse generator

Stimulation intensity & pulse width

Stimulation frequency

Activation model

Γ

q

Muscle fatigue

Ca2+ Dynamics

Fiber Recruitment

Force-length relation

Mechanical model

Muscle Model

Momentarms

Figure 3 : modèle de muscle squelettique comportant deux blocs : l’activation et le modèle mécanique. Comme pour la mise en équation d’un phénomène physique on part du phénomène lui-même, il était bien plus facile de partir des modèles ayant un sens physiologique et d’introduire une commande en affinant la description. Le modèle proposé par Bestel et Sorine pour le myocarde a suivi cette règle et nous nous sommes inspiré de leur démarche pour faire de même avec le muscle squelettique. Pour introduire cette commande, ici chimique, Bestel et Sorine l’ont fait au niveau microcopique. A ce niveau il reste possible de lui donner un sens physiologique puisqu’elle se base sur les réactions biochimiques qui régissent la dynamique du Calcium. En intégrant le modèle, l’entrée de commande est conservée, ce qui permet à l’automaticien d’utiliser le modèle macroscopique. Dans le cas du muscle strié squelettique nous avons introduit deux entrées de commande issues d’un modèle d’activation qui reprend la dynamique du Calcium d’une part, bien que différente de celle du myocarde, mais ajoute le recrutement des unités motrices d’autre part. Ces deux commandes u et α se retrouvent naturellement à l’échelle macroscopique.

00

0

00

0

1 1

1 1

uu v v

v v

c cc c c

c c c c

c c cc

u

v c vc c

v

c

F F kk k k kk F k F

F F k FF

s ss s s ss s

s

u aqp q p q

sk F k

b ap q p q

sF

us s

αα

α

ε

ε

⎧ ⎛ ⎞−= − + −⎪ ⎜ ⎟+ − + −⎪ ⎝ ⎠⎨

− −⎪ = +⎪ + − + −⎩

& &

& &

Equation 1 : dynamique de la raideur et de la force du muscle strié squelettique. La mise en équation du muscle est un bon exemple de l’apport réciproque des disciplines. En effet, le modèle fournit la force Fc mais aussi la raideur kc, variable d’état que l’on ne cherchait pas à contrôler mais qui finalement permet d’essayer de comprendre, au moins en simulation, l’évolution de celle-ci dans des modes de fonctionnement encore mal compris comme par exemple la co-contraction agoniste antagoniste. Stratégie inintéressante d’un point de vue énergétique, la réponse est peut être dans le contrôle de la raideur, hypothèse avancée par certains biomécaniciens, que les automaticiens peuvent maintenant étudier. L’analyse des performances en

particulier la stabilité, peut aider à formuler une réponse. Mais pour le moment, la conclusion n’est toujours pas acquise. L’équation montre des termes de discontinuités S et un bouclage avec la cinématique puisque la vitesse de raccourcissement ε& intervient. Les études théoriques deviennent du coup très délicates car peu de théorèmes s’appliquent. 3.2 Identification L’identification a deux facettes : i) sur des muscles d’animaux elle permet de valider la structure des modèles et les algorithmes d’identification car il est possible de vérifier la valeur de certains paramètres identifiés et parce les trajectoires excitantes et les modes de fonctionnement peuvent être largement explorés, ii) sur l’homme, les mesures sont indirectes et les modes de fonctionnement plus limités. L’identification est un sujet aussi difficile que la modélisation en particulier à cause de l’observation des variables d’état qui n’est souvent pas directe et parfois même impossible. Il faut le plus souvent imposer des modes de fonctionnement qui éliminent des paramètres pour ainsi identifier le modèle par morceau. Dans le cas des modèles géométriques et dynamiques, l’imagerie médicale peut donner la plupart des informations, mais certaines restent tout de même délicates à extraire ; par exemple les points d’insertion des tendons, les bras de leviers, les positions relatives entre segments des muscles… Dans le cas du muscle, remonter jusqu’à la longueur de celui-ci ou à la force qu’il génère in vivo à partir de mesures externes peut s’avérer très compliqué. L’estimation des paramètres (a, b, p, q) n’est alors pas toujours possible sans hypothèse supplémentaire. Par exemple, des modes de fonctionnement particuliers du muscle, isométrique, isotonique, isocinétique, réduisent le nombre de paramètres et l’on peut ainsi plus aisément les identifier.

Figure 4 : chaise de mesure pour l’articulation du genou. La seconde difficulté à laquelle on se heurte, c’est la réalisation des plates-formes de mesure. Dans notre groupe, nous avons développé une chaise de mesure qui permet de mesurer le moment généré par l’articulation du genou et de faire fonctionner cette articulation en mode isométrique, isotonique et isocinétique, tout en contrôlant de manière synchrone le stimulateur, donc l’entrée. Sans ce matériel, il est impossible d’obtenir des modèles identifiés. L’imagerie médicale affine les résultats puisqu’elle renseigne sur des paramètres comme la longueur et la masse d’un muscle, paramètres qui


apparaissent dans les modèles. On voit ici tout l’intérêt des modèles basés sur la réalité physiologique où une connaissance des ordres de grandeurs simplifie l’initialisation parfois sensible des algorithmes, et l’analyse des résultats. Sur le muscle décrit au chapitre précédent nous avons les résultats d’identification sur des muscles gastrocnemius de lapin stimulé en isométrique. Les valeurs trouvées en utilisant le filtre de Kalman étendu, sont proches des valeurs mesurées ou données dans la littérature. Nous les présenterons lors des journées JNRR. 3.3 Synthèse et commande Avant même de commander, il est intéressant de se poser le problème de la synthèse. Très souvent la synthèse revient à optimiser globalement une fonction coût qui cherche à minimiser un ou plusieurs critères comme le temps ou l’énergie. Cette optimisation se fait sous des contraintes qui garantissent la faisabilité de la trajectoire trouvée. Dans le cas du système sensori moteur et de la génération de mouvement, au-delà de la difficulté d’avoir des modèles précis, il est un point particulièrement délicat : la définition de la fonction coût. En robotique on est capable de définir ce critère, mais qu’est-ce qui est optimal pour le mouvement humain, qui plus est déficient ? C’est ainsi que l’essentiel des recherches en synthèse de mouvement porte sur la définition de cette fonction. L’apport réciproque entre sciences du vivant et automatique est étonnant. Selon les choix faits sur la définition de la fonction coût, des stratégies complètement différentes émergent : i) contraction simple du muscle le plus directement impliqué dans le degré de liberté à mobiliser, ii) synergie musculaire entre muscles biarticulaires, iii) co contraction agoniste antagoniste. Ces simulations peuvent donner des indications sur ce que semble faire le système naturel mais la mise en évidence expérimentale reste difficile car il faut être capable d’induire les comportements simulés sur des sujets. Grâce à la FES on peut induire ces comportements et vérifier les hypothèses mais il reste impossible d’extrapoler à ce que fait une personne valide d’autant plus que pour les gestes appris. Ils résultent d’un processus d’optimisation très global sur un long terme et donc probablement lié à des critères non locaux et très macroscopiques, mais lesquels ? Nous sommes donc en mesure de synthétiser des mouvements optimaux selon un critère donné, mais nous ne sommes pas surs qu’ils soient optimaux pour le système. Ce problème reste ouvert. Si tout était parfaitement connu on pourrait se satisfaire d’une synthèse de commande en boucle ouverte. Dans le domaine de la FES, pour peu que l’on ne soit pas exigeant sur les performances, ça marche ! Il est par exemple peu probable que le mouvement de la jambe pendant la phase balistique de la marche soit meilleur asservi au suivi d’une trajectoire, que simplement généré en boucle ouverte. Il est en revanche évident que le maintien de l’équilibre en station debout ne peut se faire qu’en boucle

fermée. Sans lien direct avec la description faite par les neurosciences cognitives du contrôle postural, de l’équilibre et plus globalement du mouvement, la commande prédictive à horizon fuyant sans suivi de trajectoire, approche utilisée en robotique, est une voie qui présente l’avantage pour des mouvements être complexes, de définir ces derniers par des contraintes intuitives. Cela reste néanmoins un problème d’optimisation avec les problèmes soulevés au paragraphe précédent mais la définition de la tâche à accomplir s’exprime en termes d’égalités ou inégalités directement interprétables. On retrouve la motivation première des recherches multidisciplinaires, avoir une approche automaticienne qui conserve un sens physique ou physiologique. Pour la marche par exemple, deux inégalités peuvent exprimer le fait d’avancer – vitesse axiale strictement positive – et le fait de rester debout – hauteur du centre de gravité strictement supérieure à une hauteur donnée -. Hors ligne en simulation, cela revient à faire de la synthèse. Des résultats ont été obtenus en robotique bipède mais leur transposition à la FES n’est pas achevée. Pour d’autres situations, comme la gestion de l’équilibre et du verrouillage du genou en station debout, des méthodes très classiques de robotique ont été utilisées : PID, tout ou rien, et plus récemment en particulier dans notre équipe, commande en modes glissants d’ordre supérieur. Les résultats peuvent être assez bons mais leur mise en œuvre est souvent délicate. Par rapport à la synthèse en boucle ouverte la commande en boucle fermée présente l’inconvénient de nécessiter des capteurs. Un homme n’est pas un robot et non seulement il n’est pas aisé de placer des capteurs mais en plus ils ne donnent pas directement la mesure escomptée. En fait, outre les difficultés théoriques, l’un des principaux obstacles à la commande en FES reste l’observation fiable du système. 4 Problèmes ouverts Bien que l’introduction de l’automatique dans les sciences du vivant en général, et dans l’étude du système sensori moteur en particulier soit devenu une réalité qui montre déjà la richesse de l’apport mutuel, il faut se souvenir que cette démarche reste jeune et que de nombreuses questions restent ouvertes. L’intérêt d’une formulation nouvelle des problèmes des sciences du vivant dans un formalisme quantitatif, pousse la plupart du temps les chercheurs à approfondir, voire à remettre en question des connaissances qui semblaient pourtant bien établies. Cet article ne montre qu’une toute petite partie de ce qu’un échange réciproque peut apporter. Si nous reprenons les points abordés, nous voyons un chemin parcouru important mais un champ de recherche bien plus vaste encore. Dans le cas de la modélisation du muscle, plusieurs problèmes sont ouverts. Si l’approche que nous avons choisie tente de conserver une sorte de continuum entre les modèles microscopiques et macroscopiques, elle reste


encore largement incomplète. Par exemple, la dynamique du Calcium, qui gouverne la contraction musculaire, est assez largement décrite au niveau microscopique mais le problème du passage à une dynamique macroscopique reste entier. Ainsi, modèles microscopiques et macroscopiques ne sont pas reliés, a fortiori les paramètres qui dans le cas macroscopique perdent alors toute signification physiologique. Un autre sujet reste délicat, c’est celui de la fatigue. Non seulement il n’existe aucun lien entre microscopique et macroscopique mais, à l’échelle microscopique le phénomène n’est toujours pas clairement décrit, et à l’échelle macroscopique les modèles sont très incomplets. De plus, des couplages sont mis en évidence à des échelles d’espace et de temps très différentes. Le problème semble inextricable mais une approche rigoureuse et systématique des modèles mathématiques apportée par les automaticiens ainsi que des protocoles expérimentaux apportés par les physiologistes sont les clefs du succès. Au niveau de la commande, la situation est encore plus ouverte. En effet, les premières commandes envisagées pour le contrôle du mouvement ne sont que peu ou pas inspirées du vivant. Au mieux, elles s’inspirent des sciences cognitives pour le haut niveau de décision. Contrairement aux modèles qui non seulement donnent accès à la simulation numérique, mais aussi à une interprétation de la physiologie du muscle étudié, les schémas de commande issus de la robotique, ne donnent aucune indication sur la façon dont le système naturel se comporte. Nous sommes encore loin des commandes bioinspirées. Certains niveaux hiérarchiques sont néanmoins en bonne voie de modélisation et en particulier le plus bas niveau : les boucles réflexes spinales. Cet élément est par ailleurs essentiel car il n’est pas intégré dans les modèles actuels alors que ces boucles réflexes existent et sont actives chez les blessés médullaires. Les capteurs, fuseaux neuromusculaires et organes tendineux de Golgi, sont connus, et certains des chemins neuronaux sont identifiés de sorte qu’une modélisation sérieuse peut s’envisager. Au niveau intégration corticale, les recherches sont encore très amont et ne permettent pas d’envisager d’en déduire des schémas de commande précis, mais il existe des tentatives de modèles par exemple pour les fonctions motrices attribuées au cervelet. Dans tous les cas, la définition de modèles s’accompagne nécessairement des techniques d’observation du phénomène ; flux calciques dans le dynamique du Calcium, électroneurogramme et électromyogramme dans le cas des boucles spinales. Cela pose de nouveaux problèmes en technologie pure et en traitement du signal. Les performances de la commande dépendent non seulement de l’algorithmique choisie et correctement paramétrée, mais aussi et surtout de la qualité de l’observation. Les recherches sur les capteurs sont donc essentielles et cela explique en particulier l’effervescence actuelle autour du recueil et de l’étude des signaux issus des capteurs naturels qui présentent l’avantage d’exister,

d’être en place et de donner une information a priori pertinente pour l’automaticien, et encore une fois d’avoir un sens pour le physiologiste ou le neuroscientiste. 5 Conclusion Le rapprochement des sciences du vivant et de l’automatique provoque un enrichissement mutuel incontestable. Bien plus, des problèmes nouveaux et spécifiques émergent et donnent naissance à une spécialité en soi. Dans le sillage de le biologie quantitative, les sciences du vivant encore très expérimentales et fondées sur un corpus conséquent de connaissances, proposent des modèles qui non seulement permettent de quantifier mais aussi de contrôler, détecter des lois invariantes qui peuvent cacher des principes plus fondamentaux, et donnent accès à de nouvelles facettes de l’objet d’étude. C’est l’occasion pour l’automatique d’étudier de nouveaux problèmes et de proposer des nouvelles approches et solutions. Finalement le point de rencontre ultime se trouve autour de l’expérimentation, démonstration pratique de l’outil théorique et validation clinique de l’approche médicale. Dans le cas du système sensori moteur, la mise au point du modèle du muscle en est l’illustration la plus évidente puisque ce modèle s’analyse, se simule numériquement, et se contrôle comme un système, certes complexe, mais explicitement formulé, et dans le même temps donne des valeurs quantitatives à des grandeurs qui ont un sens physiologique interprétable par le médecin ou le physiologiste. Quand chaque discipline constate une avancée dans son domaine de connaissance aussi bien pratique que théorique, alors la multidisciplinarité a fonctionné. Le travail en commun des équipes porte ses fruits mais il faut savoir être patient, et l’une des causes de l’échec peut être le manque de persévérance. La formulation commune d’un même problème est en effet difficile car bien que nous appliquions tous la méthode scientifique, son expression diffère selon les disciplines concernées. Rermerciements A toute l’équipe DEMAR, David Andreu, Christine Azevedo, Michel Bénichou, Serge Bernard, Guy Cathébras, Philippe Fraisse, Jérôme Galy, Bernard Gilbert, Philippe Poignet, Nacim Ramdani. Remarque Ce document doit être considéré comme un support et comporte de nombreuses références. L’exposé oral rentrera dans le détail d’une des façons d’aborder un problème complet et sera l’occasion de présenter le formalisme mathématique sur un point précis. Les références comportent les documents scientifiques utiles pour approfondir les différents sujets.


Références Modèles 1. Riener R., "Model-based development of

neuroprostheses for paraplegic patients", The Royal Society, (1999) 354, pp. 877-894

2. "An overview of muscle modelling", Zahalak G.I.,

1992, Neural prostheses - replacing motor function after disease or disability (ed. R. Stein, H. Peckham & D. Popovic), pp. 17-57, New York and Oxford, Oxford University Press

3. Hunt K.J., Munih M., Donaldson N. & Barr F.M.D.,

"Investigation of the Hammerstein hypothesis in the modeling of electrically stimulated muscle", 1998, IEEE Trans. Biomed. Eng., 45, pp. 998-1009

4. Bestel, modèle différentiel de la contraction

musculaire controlée. Application au système cardiovasculaire. Mémoire de thèse, décembre 2000 Université Paris IX Dauphine.

5. Hill A. V., “The heat of shortening and the dynamic

constants in muscle”. Proceeding of the royal society, London, Sre. B, vol. 126, 1938, pp. 136-195.

6. Huxley A. F., “Muscle structure and theories of

contraction”. Progress in Biophysics and Biophysical Chemistry, vol. 7, 1957, pp. 255-318.

7. Keener J. Sneyd J. “Systems physiology”, Muscle,

chapter 18, Part II. Mathematical Physiology. (ed. J.E. Marsden, L. Sirovich & S. Wiggns). Spring 2001.

8. Zahalak G. I., “A distribution-moment approximation

for kinetic theories of muscular contraction”. Mathematical Biosciences vol. 55, 1981, pp. 89-114

Synthèse et contrôle 9. Riener R. & Fuhr T., "Patient-driven control of FES

supported standing up: a simulation study", IEEE Transactions on Rehabilitation Engineering, Vol. 6, n°2, June 1998, pp. 113-124

10. Durfee W.K., "Control of standing and gait using

electrical stimulation: influence of muscle model complexity on control strategy", 1993, Progr. Brain Res., 97, 369-381

11. Hunt K.J., Munih M., Donaldson N. & Barr F.M.D.,

"Optimal control of ankle joint moment : toward unsupported standing in paraplegia", 1998, IEEE

Trans. on Automatic Control, vol. 43, n°6, June 1998, pp. 819-832

12. R. Kobetic, R. J. Triolo, E. B. Marsolais, "Muscle

selection and walking performance of multichannel FES systems for ambulation in paraplegia", 1997, IEEE Trans. on rehabilitation engineering, vol 5, N1, pp23-29.

13. N. Donaldson and C.H. Yu, "FES standing: Control

by Handle Reactions of Leg Muscle Stimulation (CHRELMS)", IEEE Trans. Rehab. Eng., vol. 4, pp. 280-284, 1996.

14. C.H. Yu and N. Donaldson, "Disability and

Controllability after Paralysis: a Kinematic Analysis", In Proceedings of International FES Society Conference, Vancouver, pp. 195-196, 1997.

15. D. Popović, R.B. Stein, M. N. Oğuztöreli, M.

Lebiedowska and S. Jonić, "Optimal Control of Walking with Functional Electrical Stimulation: A computer simulation study", IEEE Trans. Rehab. Eng., vol. 7, pp. 69-79, 1999.

16. Z. Matjačić, "Control of Ankle and Hip Joint

Stiffness for Arm-Free Standing in Paraplegia", International Neuromodulation Society, Num. 1, n°6, pp. 37-46, 2001.

Neuroprothèses 17. Sweeney JD, Crawford NR, Brandon TA,

Neuromuscular stimulation selectivity of multiple-contact nerve cuff electrode arrays, Medical & Biological En. & Computing., may 1995, Vol 33, pp 418-425.

18. Veraart C, Grill WM, Mortimer T., Selective Control

of Muscle Activation with a Multipolar Nerve Cuff Electrode, IEEE Trans on Biomedical Eng., Vol 40, N°7, july 1993, pp 640-653.

19. Brindley GS, Craggs MD, A technique for anodally

blocking large nerve fibers through chronically implanted electrodes, J. of Neuro. Neurosurg. And Psychiatry, Vol 43, pp1083-1090.

20. Warren M. Grill, Michael D. Craggs, Robert D.

Foreman, Christy L. Ludlow, Jerome L. Buller, Emerging clinical applications of electrical stimulation: Opportunities for restoration of function, Journal of Rehabilitation Research and Development Vol. 38 No. 6, November/December 2001, Pages 641–653

21. Rijkhoff J.M. Nico, Neurprostheses to treat

neurogenic bladder dysfunction: current status and


future perspective, Childs Nervous System, 2004, 20, pp 76-86.

22. Vuckovic A., Rijkhoff J.M.N., Struijk J., Different

Pulse Shape to obtain Small Fiber Selective Activation by Anodal Blocking – A Simulation Study, IEEE Trans On Biomedical Engineering, Vol 51, N°5, pp 698-705.

23. R. Kobetic, R.J. Triolo, J. P. Uhlir, C. Bieri, M.

Wibowo, G. Polando, E. B. Marsolais, J. A. Davis, “Implanted Functional Electrical Stimulation System for Mobility in Paraplegia:A Follow-Up Case Report”, IEEE Trans. on Rehabilitation Engineering, vol. 7, no 4, pp 390-398, December 1999.

24. B. Smith, Z. Tang, M. W. Johnson, S. Pourmedhi, M.

M. Gazdik, J. R. Buckett, P. H. Peckham, “An Externally Powered, Multichannel, Implantable Stimulator-Telemeter for Control of Paralyzed Muscle”, IEEE Trans. On Biomedical Engineering, vol. 45, no 4, pp 463-475, April 1998.

25. G. E. Loeb, R. A. Peck, W. H. Moore, K. Hood,

“BIONtm system for distributed neural prosthetic interfaces”, Medical Engineering & Physics, vol. 23, pp 9-18, 2001.

26. K. Arabi, M. A. Sawan, “Electronic Design of a

Multichannel Programmable Implant for Neuromuscular Electrical Stimulation”, IEEE Trans. On Rehabilitation Engineering, vol. 7, no 2, pp 204-214, June 1999.

27. R. Davis, T. Houdayer, B. Andrews, S. Emmons, J.

Patrick, “Paraplegia:Prolonged Closed-Loop Standing with Implanted Nucleus FES-22 Stimulator and Andrews’ Foot-Ankle Orthosis”, in Proc. of XIIth World Society of Stereotactic Functional Neurosurgery, vol. 69, pp 281-287, 1997.

28. N. N. Donaldson, T. A. Perkins, A. C. M. Worley,

“Lumbar Root Stimulation for Restoring Leg Function: Stimulator and Measurement of Muscle Actions”, Artificial Organs, vol. 21, pp 247-249, 1997.

DEMAR 29. D. Guiraud, P. Poignet, P. B. Wieber, H. El

Makksoud, F. Pierrot, B. Brogliato, P. Fraisse, D. E., J. L. Divoux, R. P., Modelling of the human paralyzed lower limb under FES, in: Proceedings of the International Conference on Robotics and Automation (ICRA), Special session on medical robotics, 2003.

30. F. Lydoire, C. Azevedo, P. Poignet, B. Espiau, Three-dimensional paramaterized gaits for biped walking, in: Proceedings of the 5th International Conference on Climbing and Walking Robots (CLAWAR), p. 749-757, 2002.

31. F. Lydoire, P. Poignet, Experimental Dynamic

Parameters Identifcation of a 7 dof Walking Robot, in: 6th International Conference on Climbing and Walking Robots (CLAWAR'03), p. 477-484, september 2003.

32. F. Lydoire, P. Poignet, Non Linear Model Predictive

Control using Constraints Satisfaction, in: 2nd International Workshop on Global Constrained Optimization and Constraint Satisfaction (COCOS'03), Lausanne, Swiss, november 2003.

33. J. Techer, G. Cathébras, S. Bernard, D. Guiraud, Y.

Bertrand, High Voltage Circuit Design for Medical Application, in: South European Test Seminar, Austria, February 2003.

34. C. Azevedo, N. Andreff, S. Arias, BIPedal Walking:

from gait design to experimental analysis, Mechatronics Elsevier 14/6, 2004, p. 639-665.

35. C. Azevedo, P. Poignet, B. Espiau, Articial

Locomotion Control: from Human to Robots, Robotics and Autonomous Systems (RAS) Elsevier 47/4, 2004, p. 203-223.

36. C. Azevedo, J. Ushiba, J. Van Doornik, T. Sinkjær,

Contribution of group Ia afferents to Soleus EMG after an imposed vertical acceleration during quiet standing, in: Neuroscience Meeting, San Diego, USA, 2004.

37. H. El Makssoud, P. Fraisse, S. Mohamed, D.

Guiraud, P. Poignet, Control of the Knee Joint Under Functional Electrical Stimulation: Simulation Results Based on a New Physiological Muscle Model, in: IFESS'04: International Functional Electrical Stimulation Society, Bournemouth, England, September 2004.

38. H. El Makssoud, D. Guiraud, P. Poignet,

Mathematical Muscle Model for Functional Electrical Stimulation Control Strategies, in: Proceedings of the International Conference on Robotics and Automation (ICRA), p. 1282-1287, New Orleans, USA, April 2004.

39. S. Mohamed, D. Guiraud, P. Fraisse, P. Poignet, H.

El Makssoud, Using a Complex, Physiological Based Modelling of the Muscle to Perform Realistic Simulation and Test Control Strategies: Closed Loop Controlled, in: IFESS'04: International Functional


Electrical Stimulation Society, Bournemouth, England, September 2004.

40. J. Techer, S. Bernard, Y. Bertrand, G. Cathébras, D.

Guiraud, New Implantable Stimulator for the FES of Paralyzed Muscles, in : Proceedings of the International Conference 31st IEEE European Solid-State Circuits Conference, Leuven, Belgium, 2004.

Thèses et HDR 41. P. Fraisse, Commande de robots à architecture

complexe, Habilitation à diriger des recherches, Université Montpellier II, December 2004.

42. P. Poignet, Automatique pour le vivant : du modèle à

la commande, Habilitation à diriger des recherches, Université Montpellier II, December 2004.

43. C. Azevedo, "Contrôle de la locomotion artificielle:

de l'homme aux robots", In: Thesis in automatic control from Institut National Polytechnique de Grenoble (INPG), Montbonnot, France, 16th September 2002.

44. F. Lydoire, Génération de trajectoires pour la

locomotion artificielle et commande à horizon fuyant avec l'arithmétique d'intervalles, Thèse de doctorat, Université Montpellier II, December 2004.


Architecture symbiotique du VAHM.

Une adaptation de la commande à l’utilisateur de fauteuil automatisé

A. Pruski Lasc

Université de Metz Ile du Saulcy

[email protected] Résumé Cet article a pour objet de donner quelques voies de réflexion concernant la conception d’un fauteuil automatisé pour personne handicapée. Une approche particulière vers une architecture de commande dont le but est de réaliser une interaction forte entre la personne et le fauteuil est proposée. Dans cette architecture, chaque entité, l'homme ou la machine, apporte à l'autre sa contribution permettant au couple d'atteindre un but avec un effort minimum pour la personne tout en lui préservant la maîtrise des actions.

1. Introduction

Les travaux sur les fauteuils intelligents ont commencé il y a plus d'une décennie. Les formes d'architectures de commande qui ont été développées sont basées sur les aspects de manoeuvrabilité, utilisabilité ou d'intégration dans l'environnement. Les développements sur les interfaces, les liens physiques entre l'utilisateur et son fauteuil ont été importants et ont donné lieu à de nombreuses réalisations très originales. Des capteurs existent qu'ils soient par contact, par souffle, par licorne, par "scanning". L'ergonomie est importante mais il semble que la gestion de la commande soit aussi importante sinon plus que sa génération. Dans ce texte nous détaillerons les liens avec l'utilisateur et nous expliquerons quelques résultats d'expérimentations.

2. Etat de l'art

Le premier objectif du fauteuil consistent à se mouvoir vers un point donné. L'utilisateur est à l'initiative de la décision mais le mouvement reste la fonction du fauteuil. Il est nécessaire qu'il y ait adéquation entre la commande et les capacités de mobilité du fauteuil ce qui n'est pas toujours réalisable. La personne doit rester maîtresse du déplacement par opposition au mouvement tout autonome qui, non maîtrisé par l'utilisateur, devient une opération de transport. Globalement on s'aperçoit que deux grandes classes d'architecture

ont été implantées : l'architecture hiérarchique et l'architecture basée sur les comportements. L'architecture hiérarchique est la plus répandue. Plusieurs types de commandes sont disponibles selon une hiérarchie : mouvement sans perception, mouvement avec perception et tâches planifiées. Dans sa version la plus simple, l'utilisateur commande son fauteuil par le joystick et dans sa version la plus évoluée le fauteuil s'impose dans les décisions. Le projet OMNI est de cette nature [6]. Sa principale caractéristique est l'omnidirectionalité par une conception mécanique particulière reposant sur des roues de types Mecanum. L'architecture repose sur une structure hiérarchique composée d'ensembles de modules que l'utilisateur peut activer (planification de trajectoires, évitement d'obstacles, retour sur ses pas). Navchair [1] [2] [11] est un prototype ayant permis de développer des composantes fonctionnelles. Ses facultés de mouvement sont issues des fonctions d'évitement d'obstacles de base et de déplacement basé sur des "landmarks". Un niveau d'abstraction basé sur la connaissance de l'environnement et de la localisation du fauteuil permet un dialogue de haut niveau avec l'utilisateur. Tetranauda [8] et Sirius [7] ont des architectures similaires. L'architecture basée sur les comportements se distingue de la précédente par la structure parallèle des fonctions tant de perception que d'actions. L'utilisateur devient partie intégrante du système soit en tant que source de perception soit en tant que source de décision. Peu de fauteuils ont été conçus sur une architecture par comportements. Le projet TAO notamment [9] est basé sur l'architecture "subsumption" [5]. Les comportements sont définis en termes de relations directes entre les perceptions et les actions à engendrer. La prise de décision repose sur un ensemble hiérarchique d'inhibiteurs qui a pour objet d'activer une commande dès la présence d'une information particulière. Cet état de l'art n'est pas exhaustif mais reflète les projets en cour actuellement ou présentant des caractères particuliers.


3. Motivations

Tout être vivant doit se déplacer afin de pouvoir subvenir à ses besoins vitaux. Chez l'homme l'organisation sociale lui permet de survivre même si ce dernier est handicapé moteur. Cependant, une participation active à la vie sociale nécessite une autonomie dans le déplacement. Nous avons tenté une réflexion sur les problématiques rencontrées chez l'homme sain, dans le couple homme-machine et dans le cas de la machine seule.

3.1. La personne sans handicap

De nombreux travaux sont effectués actuellement dans le domaine des neurosciences afin de mieux comprendre le processus lié aux mouvements. Dans nos réflexions nous ne considérons pas la motivation du déplacement même si elle peut influencer la manière de créer les mouvements. Lorsque nous désirons nous rendre vers un but nous établissons un schéma mental d'un ensemble de mouvements associé à des repères visuels ou acoustiques [3]. Le plan du déplacement est influencé par différents aspects physiques (difficultés, dangers…) mais aussi émotionnels (peur, anxiété, plaisir…) ainsi que par des éléments de perspectives passés, présents et à venir. Lorsque le plan global est établi nous agissons par des mouvements élémentaires instantanés de manière à progresser dans le sens du plan si cela est possible c'est à dire lorsque la représentation mentale de l'espace global correspond au monde réel. Dans le cas contraire, en l'absence de danger nous replanifions le mouvement et en présence d'un danger ou d'urgence c'est un mouvement réflexe extérieur au plan qui se produit.

3.2. Le robot autonome

Les travaux engagés dans la robotique autonome datent d'une trentaine d'années. Les résultats des travaux liés aux mouvements ont été essentiellement dominés par une approche "top-down". Dans un premier temps, le robot calcule un plan global des déplacements à effectuer, dans un deuxième temps l'ordinateur adapte le plan aux potentialités mécaniques du robot (holonomie, robots à pattes…) puis exécute la trajectoire établie. Lors de l'exécution des mouvements, un superviseur vérifie par prédiction-vérification si le plan proposé peut se dérouler normalement dans le monde réel. Si le système de perception génère des informations différentes de celles attendues alors le robot exécute des mouvements réactifs ou réflexes de manière prioritaire. L'établissement d'un plan nécessite une bonne connaissance a priori, de

l'environnement. De nombreux modèles de connaissances ont été développés. Chacun ayant ses propriétés, ses avantages et inconvénients. Par contre quel que soit le modèle utilisé, la connaissance de l'environnement est primordiale et nécessite une description avant toute utilisation du robot. Ces connaissances doivent être maintenues à jour en permanence en fonction de l'évolution de l'environnement. Des travaux sur la construction automatique de l'environnement ont été réalisés mais dans ce cas il faut attendre que les connaissances soient crées avant de pouvoir utiliser le robot. Dans un environnement humain familier, un appartement par exemple, les connaissances, qu'elles soient introduites par la main de l'homme ou générées automatiquement sont toujours entachées d'erreurs par le fait de la complexité de l'environnement et de son caractère dynamique. L'exécution des mouvements est également complexe. Une forte majorité des robots mobiles est commandée avec un "feedback" sur la localisation en position et orientation. De très nombreux travaux dans le domaine de la localisation des robots montrent une grande difficulté à estimer avec exactitude et rapidité sa position. Soit les capteurs ne sont pas suffisamment fiables, pas assez précis ou alors d'un coût très élevé soit la méthode reposant sur une mise en correspondance de l'environnement réel et de l'environnement connu ne donne pas de résultats pour des raisons de non-statisticité des obstacles.

3.3. Le couple homme-machine

Dans ce paragraphe nous nous intéressons à la génération des mouvements effectués par le couple homme-fauteuil électrique avec ou sans intelligence.

3.3.1. Le couple homme-fauteuil

Dans la réalisation des mouvements par le couple homme-fauteuil, l'homme reste l'élément essentiel ayant la responsabilité de la définition du mouvement et de ses caractéristiques et cela du départ jusqu'au but. Le schéma du processus mental est le même que pour l'homme seul mais en tenant compte des potentialités et contraintes du fauteuil. Cela permet de favoriser les pentes ou ascenseurs par rapport aux escaliers par exemple, où les zones libres de tout obstacle par rapport aux zones encombrées. Jusqu'à ce point l'utilisateur de fauteuil procède de la même manière que l'homme sain en ne considérant pas les problèmes éventuels liés aux troubles cognitifs ou mentaux. Le premier problème concerne la traduction du mouvement en une commande acceptable et comprise par le fauteuil. Ici l'interface entre l'homme et la machine est très


importante et dépendante à la fois des capacités physiques et cognitives de l'utilisateur et des potentialités de la machine. Si l'utilisateur a la possibilité de manipuler un joystick alors ce dernier lui permet de décrire un vecteur vitesse angulaire et linéaire à appliquer aux moteurs du fauteuil. La perception du mouvement réel réalisé permet à la personne d'agir instantanément sur le joystick afin de transformer le vecteur vitesse en direction suivie. Dans le cas d'une mobilité résiduelle trop faible en amplitude ou en effort, une interface par "scanning" vient remplacer le joystick. La personne définit toujours une vitesse mais l'utilisation est plus complexe parce que les mouvements sont décrits par une succession de vitesses instantanées et d'arrêts qui rendent la mobilité inconfortable mais possible. Dans les zones contraintes par des obstacles, ce qui est souvent le cas en environnement intérieur, il est nécessaire de réaliser des contrôles fins du fauteuil. La réalisation de cette action est délicate avec un joystick, en général par une insuffisance de retour visuel de la personne due au handicap ainsi que par les caractéristiques cinématiques du fauteuil. Des mouvements en environnement contraint nécessitent la plupart du temps de réaliser des manœuvres. Certaines mécaniques adaptées ont été développées afin de rendre les fauteuils omnidirectionnels mais ceux-ci restent encore rares.

3.3.2. Le couple homme-robot

Ces dernières années ont vu se développer de nombreux projets de robotique d'assistance à la mobilité de personnes handicapées. Tous ces projets ont pour objet d'effectuer un transfert de prises de décision de l'homme vers la machine permettant ainsi de pallier les diverses incapacités de l'utilisateur. Une synthèse des travaux permet de vérifier que l'assistance se situe à trois niveaux : la description du mouvement, le déplacement global dans un environnement connu et les mouvements locaux. La définition du mouvement est décrite à l'aide d'une interface intelligente homme-machine. Elle permet à l'utilisateur de décrire le mouvement en d'autres termes qu'en vitesse instantanée. Si le robot est capable de se localiser dans l'espace d'évolution alors la définition du but peut prendre des formes plus évoluées, soit "user-centered" soit "environment-centered" ou défini de manière sémantique. Un déplacement global d'un point origine vers un point but s'effectue de la même manière et avec les mêmes contraintes que pour un robot autonome. Les mouvements du robot sont calculés et parfois difficilement compréhensibles ou non naturels pour l'utilisateur. Tous les projets de fauteuil intelligent proposent une panoplie de commandes à base de primitives : suivi de mur, passage de porte, suivi de direction, retour en

arrière… Le choix de la meilleure primitive à appliquer dans une situation donnée relève de la responsabilité de l'utilisateur handicapé qui en général n'est pas familier des technologies robotiques.

4. Vers un modèle similaire homme-robot

Il s’agit de considérer le couple homme-robot comme une seule entité. Dans le cas d'une prothèse, il est facile de faire cette considération puisque la machine remplace un membre absent et la commande est unique. Dans le cas d'un robot d'assistance que ce soit un bras robotisé, une plate-forme ou un fauteuil intelligent, l'approche de la commande doit être totalement différente. Il est indispensable de considérer l'aide technique comme un système qui a pour objet de palier une déficience. Il s'agit de bien maîtriser l'objet même de la fonction de l'aide. Dans le cas du fauteuil, nous nous restreignons à la réduction de la déficience et nous ne désirons pas transformer le fauteuil en un système de transport comme dans le cas des divers travaux engagés sur le sujet. Notre approche consiste à palier la déficience par une symbiose entre l'homme et la machine. Nous considérons que la personne doit garder le sentiment qu'elle maîtrise totalement le déplacement. Toute réaction et action de la machine doit être prévue ou prévisible dans la mesure du possible. La plus grande difficulté consiste à faire coopérer deux entités ayant chacune des facultés de perception, de raisonnement et d'action. Comme ces facultés sont différentes il en résulte obligatoirement des divergences entre la manière de concevoir les mouvements d'ou la grande difficulté de coopération et le maintien de la maîtrise du déplacement par la personne. Dans la méthodologie d'approche du problème, nous avons réalisé une décomposition fonctionnelle selon le schéma classique. Tout être vivant autonome peut se décomposer selon trois fonctions : la perception, le raisonnement et l'action.

4.1. Les fonctions mises en œuvre dans le déplacement humain

4.1.1. La fonction perception

Cette fonction est essentielle. Elle permet d'alimenter le raisonnement par des informations issues de l'environnement et de l'état du corps. Ces informations sont essentielles afin de préparer et exécuter le mouvement. La qualité des informations issues des organes de perception influence très fortement la prise de décision par la personne. Dans le cas d'une personne handicapée soit de perception


mais aussi moteur, la qualité de ces informations est souvent dégradée voire absente. Le mouvement désiré, s'il est possible, peut donner lieu à des collisions.

4.1.2. La fonction de raisonnement, centre décisionnel

Le centre décisionnel a pour fonction de raisonner sur les diverses informations issues de la perception, relevant d'un raisonnement préalable ou relatif à des actions passées. Tout être vivant a la faculté d'être autonome. Cet état de fait n'est pas inné, il est nécessaire d'acquérir, par apprentissage, des compétences fondamentales pour l'accès à l'autonomie. Dans notre cas nous raisonnons par rapport à des personnes ayant fait ces acquisitions et ayant la capacité de raisonner permettant l'autonomie. Nous considérons que cela concerne la faculté de juger des nécessités permettant l'autodétermination sans être forcément apte à y répondre.

4.1.3. La fonction action

Cette fonction est directement liée aux capacités physiques que possèdent un être vivant pour se mouvoir. Tout mouvement va être effectué en accord avec les membres disponibles. A la naissance, un être humain est capable d'actionner ses muscles. Un apprentissage est nécessaire afin que ces actions soient coordonnées pour les transformer en gestes ou mouvements cohérents. Lorsque ceux-ci sont assimilés, ils sont mémorisés afin d'être restitués en cas de besoin. Ils font partie d'une "bibliothèque" de gestes qui formeront un ensemble d'automatismes. Deux types de gestes sont définis : les actions réflexes et les mouvements cohérents. Les actions réflexes correspondent à des réactions à une perception. L'aspect raisonnement est réduit à sa plus simple expression. Le stimulus de la perception va directement activer un geste afin de répondre dans la majeure partie des cas à une situation exceptionnelle. Il n'est pas recherché de précision ni d'élégance dans le mouvement seule la rapidité compte. Fréquemment ce geste à pour effet de s'éloigner d'une situation de danger mais cette situation peut éventuellement être provoquée ou attendue. Les réactions réflexes sont différentes d'un individu à l'autre, la manière de réagir ainsi que l'ampleur du mouvement effectué peut varier de manière importante. Les mouvements cohérents correspondent à des combinaisons d'actions sur des muscles isolés afin de créer un geste par un segment mobile du corps. Il existe une relative homogénéité dans les mouvements humains. Chacun de nous lève un bras, ouvre la main ou marche de manière relativement similaire. Ces mouvements sont enregistrés et reproduits de manière paramétrée selon le besoin permettant, avec le même geste,

d'atteindre des points de l'espace avec le même mouvement global ou éventuellement de s'adapter à des cibles mobiles. Sur ces deux groupes de gestes se superposent des fonctions qui regroupent un ensemble de gestes coordonnées (saisir, marcher, parler…). Nous citons ces fonctions pour mémoire.

4.2. Stratégie humaine de déplacement.

De nombreux travaux sont effectués actuellement dans le domaine des neurosciences afin de mieux comprendre le processus lié aux déplacements. Dans nos réflexions nous ne considérons pas la motivation du déplacement même si elle peut influencer la manière de créer les mouvements. Lorsque nous désirons nous rendre vers un but nous établissons un schéma mental constitué d'un ensemble de mouvements associé à des repères visuels ou acoustiques [3]. Le plan du déplacement est influencé par différents aspects physiques (difficultés, dangers…) mais aussi émotionnels (peur, anxiété, plaisir…) ainsi que par des éléments de perspectives passés, présents et à venir. Lorsque le plan global est établi nous agissons par des mouvements cohérents de manière à progresser dans le sens du plan si cela est possible c'est à dire lorsque la représentation mentale de l'espace global correspond au monde réel. Dans le cas contraire, en l'absence de danger nous replanifions le mouvement et en présence d'un danger ou d'urgence c'est une action réflexe extérieure au plan qui se produit.

4.3. Architecture proposée.

A partir des réflexions menées ci-dessus nous tirons les éléments sur lesquels nous nous reposons pour définir notre architecture ou structure globale de commande. Nous essayons de la constituer selon une similitude structurelle afin de bien définir le rôle de chaque module mais aussi pour une meilleure interpénétration des fonctions pour garantir l'approche symbiotique.

4.3.1. Description de l'action.

De la stratégie de commande nous retirons le fait que l'homme garde la totale maîtrise de l'autonomie et du plan d'action de réalisation d'un déplacement. Nous maintenons la spécificité de haut niveau présenté par l'être humain qui consiste à définir selon sa volonté, ses besoins, ses sentiments et ses émotions, le plan d'action. Ce dernier étant complexe et modifiable à tout moment il est nécessaire qu'il exprime, à tout moment, une information de caractérisation instantanée du mouvement. Nous proposons que l'utilisateur définisse en permanence la direction instantanée de la trajectoire qu'il désire suivre. Dans l'objectif de simplification et d'allégement de la charge de


travail, nous prenons en compte une direction approximative dont l'orientation sera maintenue tant que le fauteuil réagit en accord avec le désir de l'utilisateur. Une trajectoire est ainsi définie en une succession d'orientations discrètes.

4.3.2. Décomposition structurelle

Selon le modèle humain, notre architecture repose sur deux actions de base ou innées : l'action réflexe et le mouvement linéaire. 4.3.2.1. L'action réflexe Le fonctionnement de cette action est similaire aux réactions des êtres vivants décrites ci-dessus. Une relation directe entre perception et action est créée. L'objectif de cette action consiste à s'éloigner des obstacles pour éviter les collisions. Chaque capteur télémétrique, des capteurs à ultrasons dans notre cas, génère une commande directe à appliquer au fauteuil. Selon la position du capteur et le centre de rotation du fauteuil, les réactions demandées seront différentes. A chaque capteur est associé un angle dans le référentiel du robot lui permettant de se dégager de l'obstacle. L'influence de cet angle est fonction de la proximité de l'obstacle. Le tableau des angles est introduit dans le système et les valeurs sont choisies telles que la réaction du robot soit adaptée aux besoins et envies de l'utilisateur. La somme de l'ensemble de ces angles pondérée par l'inverse de la distance mesurée définit l'angle global à adopter pour s'extraire de l'obstacle. Cette information est émise vers les moteurs du fauteuil selon une boucle de commande créant ainsi une vitesse angulaire. La vitesse linéaire est fonction de la proximité des obstacles. Cette manière de travailler présente l'avantage de ne pas demander de précision ni sur la mesure ni sur la connaissance de la localisation des capteurs. Par contre nous avons amélioré l'algorithme afin de prendre en compte les erreurs dues aux capteurs ultrasons notamment les spécularités lorsque le faisceau est dévié par l'obstacle. Ceci survient fréquemment lorsque l'obstacle est proche et risque de provoquer une collision. Pour éviter cela nous utilisons la mémoire des mesures. Instantanément le système calcule une vitesse angulaire qui contient une information sur la position des obstacles. La prise en compte de l'historique des vitesses angulaires calculées permet d'éviter que les erreurs importantes de mesures n'affectent pas l'action réflexe. Des précisons sur le fonctionnement exact de l'algorithme sont données dans [10]. 4.3.2.2. Le mouvement linéaire Le mouvement linéaire tel que nous le proposons n'a pas d'équivalent avec le fonctionnement humain. Il est constitué d'un algorithme qui est générique pour la conception de comportements permettant de constituer un ensemble de mouvements similaires à la bibliothèque de gestes évoquée précédemment.

L'algorithme proposé repose sur un suivi de vecteur utilisant la logique floue. De nombreux comportements peuvent se ramener à un suivi de vecteur. Ce dernier est une grandeur d'entrée de l'algorithme et peu caractériser soit une parallèle à un mur à suivre, une direction à suivre ou un quelconque vecteur. La définition du vecteur donne une signification sémantique à cette action. Selon le choix des valeurs dans une table des règles, le robot va créer le mouvement avec plus ou moins de rapidité. La manière de suivre le vecteur peut ainsi être adaptée à l'envie de l'utilisateur.

4.3.3. Centre décisionnel

La complexité du fauteuil nécessite un centre décisionnel afin de gérer les algorithmes et d'en définir les paramètres. Le centre de décision possède un ensemble de comportements discrets qu'il doit mettre en œuvre en fonction des situations : de la demande de l'utilisateur (direction à suivre) et des contraintes de l'environnement (présence d'obstacles). Le choix du comportement à tenir est directement dépendant de l'utilisateur qui selon la personne possède sa manière de concevoir la réaction face à une situation. C'est ici que se situe le point le plus important de la symbiose entre l'utilisateur et son fauteuil. Ce dernier est "programmé" par l'utilisateur qui dans une situation donnée va imposer un comportement à adopter. L'application de ce concept au fauteuil est réalisée par une structure globale conçue autour d'agents indépendants dont l'activation est réalisée par une méthode de raisonnement à partir de cas. L'action de "programmation" du robot correspond au remplissage de la base de cas.

4.3.4. Suivi de l'action

Le centre décisionnel du fauteuil permet d'apporter à l'utilisateur une aide au niveau des capacités de mouvements mais aussi de perception de l'environnement. Les informations perçues par le fauteuil peuvent être en désaccord avec ce qui est perçu par l'utilisateur. Cette différence de d'information peut créer chez l'utilisateur une incompréhension de l'action réalisée par le fauteuil même si celle-ci est demandée et voulue. Nous n'avons pas travaillé sur ces éventualités. Il faudrait, par anticipation, expliquer à l'utilisateur les raisons du choix du comportement. Ceci peut éventuellement être réalisé en soumettant à l'utilisateur les informations disponibles par le fauteuil. Cela dit, c'est une situation qui peut survenir même pour une personne sans handicap. Si un obstacle non visible ou inattendu (ex : présence ou hauteur inhabituelle d'une marche) survient alors il est possible que cela conduise à une chute.


5. Mise en œuvre de l’architecture

5.1. Implantation sur le VAHM

L'architecture décrite ci-dessus a été implantée sur le fauteuil VAHM-3 en C++ et selon sept processus indépendants qui selon le cas peuvent être activés ou désactivés. Une mémoire commune est partagée entre ces différents processus. Chacun peut contenir plusieurs "threads" travaillant en parallèle selon le schéma suivant de la figure 2. La structure de l'architecture est de la forme multi-agent. Chaque agent ayant une tâche spécifique et agissant en parallèle. L'avantage de l'architecture proposée est la modularité. L'ajout ou le retrait d'un agent n'empêche pas le fonctionnement du système global. Le manque d'un agent réduit l'efficacité du système mais ne rendra pas son fonctionnement impossible. D'où un aspect robustesse très important. Le choix de l’agent a activer est réalisé par un raisonnement à base de cas [12].

Sept comportements différents sont implantés : - Suivi de mur droit (FWR) - Suivi de Mur Gauche (FWL) - Suivi de Direction (DIR) - Evitement d'obstacle (OA) - Backtracking (BAK) - Retour Arrière Gauche (RBL) - Retour Arrière Droite (RBR)

Figure 2. Architecture globale du système

5.2. Evitement d'obstacles

L'originalité de l'agent "Evitement d'obstacle" consiste à paramétrer la manière avec laquelle le système évite les obstacles. Selon la pathologie (ex : hémiplégie) ou les émotions de la personne (ex : anxiété) le système sera paramètré telles que les réactions correspondent au mieux à l'attente de l'utilisateur. Sur la figure 3 nous apercevons trois types de réaction du fauteuil face à la présence d'un obstacle.

Figure 3. Evitement obstacles adapté

5.3. Adaptation à l'environnement.

La figure 4 représente la capacité du système à s'adapter "sur demande" à l'environnement. Seule la direction est définie par l'utilisateur et le système se charge de s'adapter aux murs présents. Si ce mur disparaît, le système va rechercher un autre mur ou changer de stratégie. Sur la figure 4 le système suit le mur de gauche, lorsque le fauteuil est entre les deux murs correspondant à une détection instable, il choisira de suivre la direction demandée et lorsqu'une autre information de présence de mur apparaît, cette fois mur droit, alors il choisit de suivre ce dernier.

Figure 4. Adaptation à l'environnement

La figure 5 constitue un autre comportement adaptatif. Afin de pouvoir suivre la direction demandée et pénétrer dans la pièce définie par la direction demandée par l'utilisateur, le système va effectuer un mouvement en arrière afin de se dégager de l'obstacle avant d'effectuer la commande de direction demandée.

Figure 5. Comportement émergent

-1

0

1

2

3

0 1 2 3 4 5

OADIRFRWFLW

0

-1

-0,5

0

0,5

-1,5 -0,5 0,5

OARBLDIR

0,

- 0,7

- 0,6

- 0,5

- 0,4

- 0,3

- 0,2

- 0,1

0,1

0,5 1,5 2,5

0 0.5 1.0 1.5 2.0 2.5 3.0

0

0.5

Mémoire partagée

• Moteur

• Odometre

• Interfaceutilisateur • Calcul Murs

• Suivi mur droit

• Suivi mur gauche

• Suivi de direction• Evitement d'obstacle

• Retour arrière gauche

• Retour arrière droite

• Backtracking

• CapteursUS

Agents environnement Agent Cognitif

Agents Comportements


6. Conclusion

Le système est actuellement opérationnel en laboratoire et va être testé dans les mois à venir en environnement clinique. D'autres comportements devraient émerger de ces essais afin d'enrichir l'ensemble des possibilités et être le plus symbiotique possible. Remerciements Les travaux qui ont été présentés ici font l'objet d'un financement de la part du Ministère de l'Education Nationale et de la Recherche dans le cadre d'une Action Concertée Incitative Santé. Références [1] BELL D.A. et al, «An Identification technique for

adaptive shared control in human-machine systems», Conf. IEEE Engineering in Medicine and Biology Society, San Diego, CA,1993, p. 1299-1300.

[2] BELL D.A. and al, «Design criteria for obstacle avoidance in a shared-control system», RESNA'94 Annual Conference, Nashville, Juin 94.

[3] BERTOZ A., "Parietal and hippocampal contribution to topokinetic and topographic memory", Phi. Trans. R. Soc. London B, 352 : pp 1437-1448, 1997

[4] BORENSTEIN J. ET KOREN Y., «The vector field histogram - Fast obstacle avoidance for mobile robots», IEEE Transactions on Robotics and Automation, 1991, vol.7, n°3, p. 278-288.

[5] BROOKS R.A., «A Robust Layered Control System For a Mobile Robot», IEEE Journal of Robotics and Automation, RA-2, n°1, p. 14-23, 1986.

[6] BUHLER C., HOELPER R., HOYER H., HUMANN W., «Autonomous robot technology for advanced wheelchair and robotic aids for people with disabilities», Robotics and Autonomous Systems, n°14, 1995, p. 213-222.

[7] CIVIT-BALLCELLS A., DIAZ DEL RIO F., SEVILLANO J.L., AMAYA C., VINCENTE S. , Sirius : improving the manoeuvrability of powered wheelchairs, IEEE CCA Sep 2002, Glasgow, Scotland, UK

[8] DIAZ V., AMAYA RODRIHUEZ C., DIAZ DEL RIO F., CIVIT BALLCALLES A., CAGIGAS MUNIZ D., Tetranauda : a intelligent wheelchair for users with very severe mobility restrictions, IEEE CCA Sep 2002, Glasgow, Scotland UK

[9] GOMI T., GRIFFITH A., Developping Intelligent Wheelchairs for the Handicapped», Lecture Notes in AI : Assistive Technology and Artificial Intelligence, Springer-Verlag Publisher, Vol 1458, 1998.

[10] PRUSKI A., HABERT O., « Obstacle Avoidance Module for the VAHM-2 Wheelchair», 5th Conf. for the Advancement of Assistive Technology, AAATE 1999, Düsseldorf, Allemagne novembre 1999.

[11] BORENSTEIN J. ET KOREN Y., «The vector field histogram - Fast obstacle avoidance for mobile robots», IEEE Transactions on Robotics and Automation, 1991, vol.7, n°3, p. 278-288.

[12] KOLODNER J.L., Case-Based Reasoning, Morgan Kaufmann Publishers, 1993.

Figure 1. Vue globale de notre approche de la symbiose homme-machine

Perception

CentreDécisionnel

HOMME MACHINE

Perception résiduelle• Vision• Ouïe• Toucher• Système vestibulaire• …

• Perception d'environnement• Perception de l'état interne

Retour d'information

Centre del'autonomie

émotions

Bibliothèque de gestes

Actions musculaires

Mouvementscontrôlés

Réflexes

Choix du comportement

Ensemble de comportements

Base de cas

Table desréflexes

Table dedéfuzzification

Action

Réflexe Suivi de vecteur

Choix de laDirection

Eléments innés ou appris Eléments influençant le comportement.

Table des règles


Conception bio-mimétique d'un système de téléopération dans l'optique d'une Coopération Homme-Machine P. Hoppenot1 Y. Rybarczyk2 1LSC, CNRS FRE 2494, Université d'Evry 2LMP, CNRS UMR 6152, Université de Marseille [email protected] Résumé La commande à distance d'une machine par un opérateur humain pose le problème de l'interprétation du comportement de la machine par l'opérateur. Piaget explique l'assimilation par deux processus complémentaires : l'adaptation et l'accommodation. Nous montrons ici comment une conception bio-mimétique d'un système de téléopération permet à l'opérateur de s'adapter à la machine en développant principalement des mécanismes de type assimilateur. Mots Clef Appropriation sensori-motrice, téléopération, Coopération Homme-Machine, anthropomorphisme, schéma corporel, assimilation, accommodation. 1. Introduction Le principal problème de l'humain en situation de téléopération provient de l'appauvrissement sensoriel résultant de la séparation entre l'entité qui commande l'action (l'humain) et celle qui l'exécute (la machine). Les mécanismes de contrôle sensori-moteurs qui, d’ordinaire, sont naturellement automatisés chez l’individu nécessitent alors un enclenchement simultané de boutons, avec un nombre de combinaisons possibles très important ([14]). Il se rajoute à ce phénomène des délais parfois conséquents entre l’exécution du geste de l’utilisateur et le déplacement du robot, engendrant des trajectoires selon ses propres règles de fonctionnement, qui peuvent entraîner de fortes perturbations ([45]). La première idée a été de rendre les machines les plus autonomes possibles afin de limiter l'intervention de l'homme. Elle visait à plus de fiabilité et de sécurité. Vers la fin des années 1980, on a cessé de traiter l’homme comme la partie faillible du système, pour voir en lui une composante non seulement complémentaire mais également indispensable au bon fonctionnement de la machine. Sa capacité à résoudre des problèmes issus de situations nouvelles est, en effet, une de ses caractéristiques essentielles. La machine est conçue comme un robot non plus autonome, mais fonctionnant en interaction avec l’opérateur. Dans ce type d’organisation la répartition des tâches ([10]) ou l’allocation des fonctions ([17]) entre l’homme et la machine reste le problème central. La solution la plus communément utilisée est de comparer les

performances respectives de l’homme et de la machine pour chacune des fonctions qui ont été identifiées. Puis, l’exécution de chaque fonction est attribuée à l’agent disposant potentiellement des meilleures performances ([7]). Pourtant cette stratégie souffre de critiques répétées ([30]). Parmi les plus pertinentes d’entre-elles on en note une principale. Si l’on applique ce type de répartition, certaines fonctions échoueront à l’opérateur et les autres à la machine. Ce type de stratégie a pour conséquences subversives de projeter l’homme hors de la boucle de contrôle entraînant, de ce fait, un rejet des modes automatiques de contrôle du système ([44]). L'introduction de la notion de systèmes cognitifs conjoints appliquée aux systèmes homme-machine a été une étape décisive ([18]). D'après Karsenty et Brézillon ([22]), "le système doit faciliter l’appropriation des réponses du système par l’utilisateur". Ainsi, le problème dans la coopération ne serait pas seulement celui de la répartition des tâches entre l’homme et la machine mais aussi celui de l’interprétation du comportement de la machine par l’opérateur humain. La téléopération, quant à elle, se caractérise par une action à distance sur un environnement. L'opérateur se situe dans un poste de commande fixe et pilote un système. Ce dernier renvoie à l'opérateur des informations sur son état et celui de l'environnement grâce à différents types de capteurs. Certains auteurs restreignent la notion de téléopération au simple mode manuel de contrôle. Il semble judicieux de l'élargir à tout le spectre de commande à distance d'un robot, du mode purement manuel jusqu'à la simple supervision en passant par toute une gamme de modes partagés entre l'opérateur et le système. Pour développer un système de téléopération, il faut tenir compte des deux entités en présence qui induisent chacune des contraintes. Les contraintes techniques liées à la machine et à sa communication avec l'opérateur humain ne sont pas traitées ici. La présence de l'homme induit aussi des contraintes. En situation normale, l'être humain possède une grande richesse et une grande diversité d'informations sensorielles (visuelles, auditives, tactiles, vestibulaires et somesthésiques). En situation de téléopération, certaines sont dégradées ou absentes. Deux modalités sensorielles sont généralement surexploitées par l'opérateur : la vision et la proprioception. La 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 161

modalité proprioceptive est moins exploitée que la vision (42]). Nous avons choisi de nous orienter vers la modalité visuelle pour le retour d'information à l'opérateur. Le passage d'une machine autonome à une situation de téléopération par l'intermédiaire de modes de commande partagée pose la question de l'appropriation par l'homme de l'outil qu'est le robot. Dans ces travaux en robotique, Rabardel présente l'instrument comme une entité mixte qui ne peut se réduire à l’artefact, c'est-à-dire sa composante physique ([39]). Au contraire, il tient à la fois de l’objet et du sujet. D’une part, il est constitué d’un artefact, matériel ou symbolique, produit par le sujet ou par d’autres. Et d’autre part, il se compose d’un ou de plusieurs schèmes d’utilisation associés, résultant d’une construction propre du sujet, autonome ou résultant d’une acquisition de schèmes sociaux d’utilisation. Cela signifie que l’instrument n’est pas seulement une partie du monde externe au sujet mais qu’il est aussi le produit de l’activité de son utilisateur. Les schèmes sont le plus souvent issus du répertoire du sujet et généralisés ou accommodés au nouvel artefact ; parfois des schèmes entièrement nouveaux doivent être construits. Aussi, pour comprendre comment s’effectue la genèse de la construction de l’entité instrumentale, il est nécessaire de faire appel à la conception piagétienne d’adaptation à l’environnement. Selon Piaget, l’intelligence est avant tout adaptation qui peut se décomposer en deux processus complémentaires ([37]). Le premier est l'assimilation qui consiste en la généralisation de schèmes préexistants. Par leur proximité d’apparence ou de situation, des objets nouveaux peuvent être assimilés dans des schèmes préexistants et se voir attribuer des significations qui contribuent, de plus, à un élargissement du réseau de connaissances. Le second, l'accommodation, consiste en la différentiation des schèmes préexistants et aboutit à l'élaboration de nouveaux schèmes. La relation homme-machine est du même ordre. Lorsque la machine présente des modes de fonctionnement assez proches de ceux de l’homme, ceux-ci peuvent être directement assimilés aux schèmes préexistants de l’opérateur. Au contraire, dans le cas où le dispositif s’avère complètement différent, le sujet a la nécessité d’accommoder (Fig. 1). Deux directions sont alors possibles. La première consiste à réduire l'écart entre les schèmes spontanés de l'opérateur et ceux appropriés à la commande de la machine, vue comme un prolongement des fonctions motrices du sujet. L'opérateur tendra alors à attribuer ces propres caractéristiques à la machine ([9]). La seconde direction vise à prendre acte de cet écart. La conception ergonomique cherchera à le mettre en évidence afin d’en faciliter la conceptualisation par le sujet. Notre dispositif présentant potentiellement des caractéristiques (bras anthropomorphe, contrôle en coordonnées cartésiennes, vision mobile…) ne semblant pas, a priori, préjudiciables à une projection de l’opérateur dans le système, c’est vers le choix

anthropomorphique que cette étude s’est naturellement tournée. Le système ARPH présente des caractéristiques anthropomorphes de deux natures. La première concerne l'aspect morphologique du bras manipulateur. Le paragraphe 2 traite du positionnement du référentiel visuel par rapport à l'organe préhenseur. La seconde a trait à un aspect plutôt morpho-fonctionnel de la base mobile : le déplacement et les mécanismes d'anticipation visuo-motrice mis en jeu (paragraphe 3). 2. Aspect morphologique - Positionnement du référentiel visuel par rapport à l'organe préhenseur 2.1. Cadre de l'étude L'organisation de l'espace a été abordée selon différents points de vue. D'un point de vue psychophysique, les caractéristiques des capteurs sensoriels ainsi que la position qu’ils occupent par rapport aux organes effecteurs contraignent le système nerveux à traiter l’environnement d’une manière non homogène. C’est au niveau de la modalité visuelle que cette constatation est la plus flagrante. Cela amène à distinguer trois espaces concentriques autour de l'opérateur. L'espace personnel correspond à l'espace qui peut être atteint par simple extension du bras. L'espace d'action atteint environ trente mètres. C’est un espace relationnel au niveau duquel on se déplace assez rapidement, où l’on communique verbalement avec autrui et l’on peut s’échanger des objets ou des projectiles. Au-delà, dans l'espace de vue, les mouvements sont moins détectables ([4]). D'un point de vue neuropsychologique, on distingue un espace proche et un espace lointain. Des travaux ont été menés sur des sujets présentant un désordre neuropsychologique connu sous le nom de négligence. Un des types de négligence les plus manifestes concerne la dichotomie entre espace proximal et distal. De nombreux sujets démontrent une incapacité à se représenter consciemment le secteur d’espace situé à proximité, alors que d’autres ont des difficultés à se représenter l’espace lointain ([15]). Enfin, d'un point de vue neurophysiologique, des études ont montré que différentes aires cérébrales s'activent suivant que l'attention se porte dans l'espace péricorporel ou extracorporel ([21]). Cette dichotomie en deux ou trois espaces autour du sujet n'a bien sûr pas de limites très précises. Le schéma corporel résultant a des propriétés dynamiques. [19] montre que lorsqu'un singe utilise un outil, son espace péricorporel s'étend jusqu'au domaine atteignable par cet outil. Dans le cas de négligence pour l'espace péripersonnel, celle-ci s'étend à la dimension de la baguette ([1]). Ces récentes découvertes en neurophysiologie et neuropsychologie prouvent que la représentation de l’espace périmanuel peut s’étendre le 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 162

long de l’axe d’un outil afin d’inclure toute sa surface. De plus, de telles observations montrent que le remodelage de l’espace distal en espace proximal s’opère à travers un redimensionnement de l’aire périmanuelle, au niveau de laquelle s’effectue une intégration visuo-tactile. Par définition, dans une situation de téléopération, l’individu voit augmenter son champ d’intervention sur le monde grâce à un outil mécanique. Aussi, on pourrait faire l’hypothèse qu’un même type d’extension de l’espace péricorporel de l’opérateur puisse s’engendrer afin d’englober le télérobot. Cependant, une autre caractéristique même de la téléopération est qu’elle soustrait à l’opérateur tout contact physique direct avec l’engin contrôlé. Ainsi, ce manque de sensation tactile directe pourrait fort bien perturber le phénomène d’intégration visuo-tactile, pierre angulaire des propriétés dynamiques du schéma corporel. En effet, des travaux ont déjà souligné une absence d’extension de l’espace périmanuel lors de la présence d’une discontinuité physique entre un individu et un bâton dans une situation de relation passive avec l’outil ([28]). Dans le cas que nous explorons, le téléopérateur est un sujet actif, mais il est soumis à cette déficience tactile, en plus de laquelle se rajoutent des discordances visuo-kinesthésiques ([31]). C’est donc dans ce contexte tout particulier que s’inscrit l’originalité de la situation de téléopération pour l’étude de la modulation de la représentation spatiale et motrice de l’homme. Pour notre application dans l’optique d’une CHM efficace, cette restructuration spatiale est utilisée comme un indice servant à évaluer le niveau d’appropriation de l’espace de travail du robot en tant qu’extension de l’espace péricorporel de l’opérateur. 2.2. Objectifs expérimentaux L'objectif expérimental principal vise à savoir si la reproduction sur le robot d’une relation œil-bras anthropomorphique est une situation facilitatrice pour que l’opérateur parvienne à l’appropriation (2.4). Il faut pour cela disposer d'un outil de mesure de l'appropriation. Nous émettons l’hypothèse qu’un critère de bonne adaptation homme-machine passe par un élargissement de la représentation du champ d’action de l’opérateur de son espace proche à l’espace de travail de l’instrument (2.3). Enfin, nous terminerons par une expérience servant à montrer si les différences obtenues selon les conditions sur le plan perceptif se retrouvent corroborées au niveau de la dimension motrice de la télémanipulation (2.5). 2.3. Evaluation de l'appropriation par rapport à la référence humaine Warren et Whang ont proposé une méthode de mesure pour évaluer l’impact des variables environnementales sur les variables de l’organisme ([49]). Ils ont défini un nombre Π pour caractériser le rapport entre une dimension de l’organisme et une variable environnementale qui lui est associée. Grâce à cet indice

il est possible d’identifier les contextes optimaux pour lesquels les actions sont plus aisées ou efficaces et, à l’inverse, des contextes critiques où une phase de transition vers une action qualitativement différente est nécessaire. Ainsi, dans les situations expérimentales qui vont suivre, l’objet à saisir est à une distance (D) variable relativement à la longueur du bras robotique (R). Aussi, lorsqu’on augmente l’écart entre l’objet et le bras, il apparaît une distance critique pour laquelle la saisie par simple extension n’est plus possible mais nécessite le passage à une action où le mouvement du bras est couplé au déplacement de la plate-forme porteuse. La valeur de ce rapport critique nous est fournie par l’indice Π tel que : Π = D/R. Le grand intérêt de cet indice est qu’il ne révèle pas seulement une simple dimension géométrique de l’appréciation de l’espace, mais bien aussi les capacités représentationnelles de l’opérateur. En effet, pour que l’individu puisse estimer la distance pour laquelle la simple extension du bras n’est plus suffisante pour atteindre l’objet, il y a nécessité d’opérer une transformation à partir des coordonnées absolues de l’environnement en coordonnées référencées au système robotique ([6]). Ici, Π représente l’estimation que le sujet a de la distance maximale de saisie du bras rapportée à la longueur effective de ce bras. Ainsi, plus ce rapport tend vers 1, plus l’individu possède une bonne représentation de son champ d’intervention sur le monde et donc de son schéma corporel. Par la suite, le nombre Π obtenu en condition robotique (avec le bras MANUS) est comparé à celui obtenu en condition naturelle (avec le propre bras du sujet). Notre hypothèse est que malgré l’absence de contact physique direct entre l’outil et l’opérateur, ce dernier devrait parvenir à inclure le champ d’activité du robot dans son propre schéma corporel, preuve ainsi d’une appropriation par assimilation. Si les divers Π calculés ne différent pas significativement entre les deux conditions, on pourra alors conclure que ce résultat constitue un argument expérimental en faveur d’une extension possible de l’espace pericorporel de l’opérateur assimilant l’espace compris jusqu’à l’extrémité du bras manipulateur. Deux conditions expérimentales ont été comparées. La condition de téléopération est une situation pour laquelle le sujet n’a aucune relation directe avec l’environnement où s’accomplit la tâche. En effet, cette dernière s’effectue par l’intermédiaire du bras robotique, annulant ainsi les contacts tactiles, et est supervisée, via une caméra vidéo, sur un terminal de visualisation. La caméra est située à gauche du bras robotique (Fig. 2). On a une configuration anthropomorphique droite. Dans la condition naturelle, les sujets sont placés exactement dans la même disposition, relativement à l’environnement expérimental, que l’était le robot. Concrètement, cela signifie que l’axe de leur épaule droite est centré sur une position entièrement identique à celle précédemment occupée par le bras robotique. Bien évidemment, les 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 163

différences essentielles vis-à-vis de la condition téléopérée sont que les sujets peuvent ici agir et percevoir directement à travers leurs propres organes moteurs et perceptifs. Pour le calcul de l'indice, R est la mesure réelle de l'extension du bras de l'opérateur ou du bras artificiel. L'estimation de D est plus complexe. Pour cela huit positions d’objet ont été choisies en fonction de la valeur de la longueur référence (R) obtenue en calibrage. Ainsi, la répartition de ces huit positions est choisie de telle sorte qu’elles soient centrées autour de cette valeur référence, afin qu’il y ait autant de positions supraliminaires que d’infraliminaires, soit quatre et quatre. Concrètement, les positions ont une valeur de ±1 cm, ±4 cm, ±8 cm et ±13 cm par rapport à la référence, de manière à ce qu’il y ait une augmentation d’1 cm entre chaque écart successif. La tâche conférée au sujet est alors de répondre par "oui" ou "non" à la question : "Pouvez-vous saisir l’objet présenté par simple extension du bras ?". Pour obtenir une valeur seuil précise, chacune des huit positions est présentée dix fois dans cinq directions (Fig. 2). Une fois les 80 réponses par direction enregistrées celles-ci sont comptabilisées, la distance seuil (S) étant la valeur correspondant au pourcentage de réponse oui et non identique, égale à 50%. Le premier résultat majeur de cette expérience est de révéler l’absence de différence statistiquement significative entre la valeur Π de la condition de téléopération et celle de la condition de référence humaine. De plus, il apparaît que cette identité dans la précision représentationnelle s’acquiert de manière relativement rapide, suggérant ainsi que la réorganisation de la représentation de l’espace peut s’initier sans une utilisation extensive de l’outil. De telles observations confirment donc bien notre hypothèse de départ, à savoir que cette proximité de performance témoigne d’un phénomène d’appropriation de l’engin téléopéré par l’opérateur humain. Cependant, il a été également constaté une certaine différence de valeur de Π en fonction des directions entre les deux conditions expérimentales. Contrairement à la situation naturelle, la condition robotique donne un Π largement inférieur à 1 au niveau des directions centrales (0° et 20°), les directions latérales (-40°, -20° et 40°) étant quant à elles comparables d’une condition à l’autre. Deux interprétations sont possibles : soit le Π inférieur à 1 provient d’une surestimation des distances par le sujet soit, au contraire, ce résultat est dû à une sous-estimation de la longueur du bras robotique. De nombreux travaux scientifiques réalisés dans le domaine de l’estimation des distances en vision monoculaire ou avec une perception limitée (50° à l'écran pour 160° en condition naturelle) ont montré une tendance à la sous-estimation des distances par les sujets ([3]). En revanche, [8] montre que l'espace péripersonnel d'un individu est assimilable à des secteurs arrondis, sphériques ou cylindriques, centrés sur chaque partie singulière du corps. Or, contrairement

au bras humain, le bras Manus présente un rayon d'extension plus important devant (direction 0° de notre dispositif) que sur les côtés. Ce biais d'allonge explique la variation de Π. En ne prenant en compte que le numérateur de Π, soit la distance évaluée par l'opérateur, on constate que la représentation de l’espace d’extension du bras robotique se rapproche d’un cercle, comme la représentation du bras humain lui-même, constitue un fondement majeur. On peut en déduire que l’opérateur doit transposer la représentation de son propre bras au bras robotique. Cela démontre bien que le sujet placé dans cette condition anthropomorphique de télémanipulation semble davantage situé dans une logique assimilatrice qu’accommodatrice. 2.4. Modulation de l'excentricité de la caméra par rapport au bras De l’expérience précédente, il ressort qu’il existe des signes évidents d’appropriation du système de téléopération par l’opérateur, lorsque ce dispositif est configuré suivant une relation caméra-bras anthropomorphique. Aussi, la question qui se pose maintenant est de savoir si le respect d’une telle configuration est fondamental pour parvenir à l’appropriation ou si l’opérateur humain peut passer outre cette architecture, ce qui révélerait encore davantage son potentiel de déformabilité représentationnelle. Les conditions expérimentales de cette seconde partie correspondent à des degrés progressifs de déformation de la relation vision-manipulation par rapport à la morphologie humaine, la caméra étant positionnée à côté de l'épaule, de biais à 45° ou de côté à 90° (Fig. 2). L’hypothèse que nous émettons est que plus la configuration de l’ensemble caméra-bras robotique s’apparente à une architecture morphologique de type humain, plus l’appropriation devrait être élevée. Les résultats montrent, dans un premier temps, que seules les conditions anthropomorphiques et biais fournissent une précision dans la délimitation de l’espace de saisie qui ne diffère pas significativement d’avec la condition naturelle. Il est intéressant de souligner que l'écart type de la condition biais (σ=0.1) est presque deux fois plus élevé que pour la condition anthropomorphe (σ=0.06). De plus, on observe l'augmentation du facteur Π au fur et à mesure que la configuration s'éloigne de la condition anthropomorphe. 2.5. Analyse de la dimension motrice du contrôle à distance Pagano et Bingham ([32]) ont mis en évidence une absence de corrélation entre un jugement verbal et un jugement moteur de la perception monoculaire des distances. Ainsi, on ne peut pas se limiter à une évaluation perceptive et donc une mesure de l’acte moteur s’impose pour apprécier le réel niveau d’appropriation du système par l’opérateur humain. 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 164

Pour évaluer cette dimension motrice, différentes natures de paramètres sont à notre disposition. En s’appuyant sur les travaux de Viviani et Schneider ([48]), nous avons déjà pu les regrouper en deux niveaux d’analyse distincts : le phénoménologique et le comportemental. Le premier niveau d’analyse traite des performances brutes. Nous en avons retenu deux. Le taux de réussite correspond au nombre de fois où l’opérateur parvient à saisir l'objet sur le nombre total de tentatives. Le second paramètre phénoménologique correspond au temps moyen d’exécution du mouvement. Quant au niveau comportemental, il consiste en une comparaison avec un modèle. Là encore, deux critères sont évalués. Le premier, inspiré de [27], mesure l’erreur spatiale, écart existant entre la trajectoire idéale (une ligne droite dans nos conditions expérimentales) depuis le point de départ du mouvement jusqu’à l’atteinte de l’objectif et la trajectoire réellement exécutée par le robot. Concrètement, cette erreur correspond au rapport de la distance réalisée par le robot (R) sur la distance théoriquement la plus courte (T), tel que : S = R/T. Le second critère concerne la coordination entre le mouvement du bras et l’ouverture de la pince. [20] montre une synchronisation entre leur changement de cinématique et une anticipation de l’ouverture de la pince dès le début de la phase dite de transport. Nous allons donc mesurer le nombre d’occurrences de simultanéité de ces deux tâches et le moment de déclenchement de l’ouverture. Les caractéristiques du dispositif expérimental sont identiques à celle du paragraphe 2.4 (Fig. 2). Le taux de réussite de saisie met en évidence un effet de session, pour les trois conditions confondues, indiquant un adaptation progressive de l’opérateur au système. De plus, la condition anthropomorphe donne un taux de réussite de saisie statistiquement plus élevée que dans les deux autres conditions. On note aussi un effet de direction avec un pourcentage de réussite de saisie supérieur pour les directions centrales par rapport aux latérales pour les trois conditions confondues, qui disparaît pour la condition anthropomorphique seule. Pour le temps d’exécution, on observe aussi un effet de session. Mais la condition anthropomorphique n’est significativement plus véloce que par rapport à la condition côté. Les conclusions quant à l’effet de rayon sont identiques à celles du taux de réussite. Pour les paramètres comportementaux, l’erreur spatiale est elle aussi sensible à l’effet de session. Les trajectoires de la pince dans la condition anthropomorphique apparaissent plus rectilignes que dans la condition de côté mais pas par rapport à la condition de biais. On trouve ici aussi un effet de direction, significatif pour toutes le conditions réunies mais qui disparaît pour la seule condition anthropomorphique. En ce qui concerne la coordination motrice, le pourcentage de contrôle simultané de l’ouverture de la pince avec le déplacement du bras croit de manière significative au cours des

sessions. Là encore, la condition anthropomorphique est significativement supérieure à la condition côté mais pas à la condition biais. L’effet de direction joue pour l’ensemble des conditions mais pas pour la condition anthropomorphique seule. L’initiation de l’ouverture de la pince donne les mêmes résultats, tant sur le plan des sessions que sur celui des comparaisons de conditions. De l’ensemble de ces résultats, on peut déduire qu’une condition anthropomorphique offre à l’opérateur une performance en terme de vitesse et précision du contrôle du télémanipulateur qu’une vision de côté ne pourra jamais lui donner. Cette supériorité semble clairement due au fait que la configuration anthropomorphe fournit à l’individu des relations métriques connues, lui permettant d’exprimer une dynamique de mouvement de type humain et ainsi de s’approprier la machine, par un processus assimilateur. 3. Aspect morpho-fonctionnel - Implémentation de mécanismes d'anticipation visuo-motrice 3.1. Cadre de l'étude D’une manière générale, on observe une baisse de la performance à cause de la réduction des indices permettant en situation "naturelle" la perception de la structure de l’espace d’action ([29]). Les limitations visuelles sont de deux types : temporel et spatial. D'un point de vue temporel, des travaux ont montré qu’un délai supérieur à 300 millisecondes (entre l'action de l'opérateur et le retour visuel de cette action) semble être une valeur maximale pour permettre le contrôle visuel du mouvement d'une cible présentée sur un terminal vidéo ([26]). De plus, il apparaît nécessaire d’avoir une fréquence de rafraîchissement uniforme et élevée pour assurer la perception directe du mouvement visuel sur un terminal de visualisation. Même si l'on respecte ces conditions, une telle condition de vision indirecte entraîne une absence des indices de mouvement que sont la parallaxe de mouvement ainsi que les mouvements de l’observateur qui ne génèrent pas de flux optique ([2]), dont on connaît le rôle majeur dans le contrôle du déplacement ([11]). Sur le plan spatial, la téléopération pose le problème de la limitation du champ visuel exploitable par l’opérateur et, en particulier, du manque de vision périphérique ([16]). Ceci est notamment dû à des difficultés d’évaluation des distances et de la profondeur, distordues par l’interface et la caméra vidéo. Viennent s’ajouter à cela une dégradation d’indices monoculaires tels que la taille, la luminance ou l’accommodation, ainsi que la perte d’indices binoculaires comme la disparité et la parallaxe binoculaire ([40]). Pour pallier ces difficultés, l'anticipation visuo-motrice semble une bonne solution comportementale. Par exemple, lors d’un mouvement de capture d’une balle, les 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 165

enregistrements neurophysiologiques chez l’homme prouvent que le cerveau n’attend jamais que le sens du toucher soit activé pour produire un début de réponse. Dans cette situation, le cerveau va produire une contraction des muscles environ 300 ms avant que l’objet ne touche la main ([24]). Lors du contrôle du déplacement locomoteur, l’axe du regard va anticiper systématiquement sur la trajectoire à réaliser. Il a été mis en évidence que lors de son déplacement l’individu ne conserve pas son axe céphalique rigoureusement aligné avec le reste du corps. En effet, il apparaît que pour des trajectoires courbes, l’orientation de la tête du sujet est déviée dans la direction de la marche, vers la concavité de la trajectoire. Plus précisément, la direction de la tête, ou plutôt du regard, guiderait le déplacement en anticipant systématiquement les changements de direction de la locomotion d’un intervalle d’environ 200 millisecondes ([12]). Une stratégie de type "je vais là où je regarde" et non pas "je regarde là où je vais", semble sous-tendre ce guidage de la trajectoire de déplacement ([25]). Il en va de même pour le contournement d’un repère. Les enregistrements des mouvements du regard et du corps montrent que le regard pointe en direction du repère bien avant que l’individu ne se trouve à son niveau, le réalignement de la tête dans la direction de la marche ne s’effectuant qu’après le franchissement de l'obstacle ([13]). Ceci suggère que l’orientation du regard est contrôlée pas à pas selon un mécanisme prédictif de la nouvelle direction à emprunter ([34]). De plus, il est important de souligner que ces deux études de Grasso mettent en évidence la dynamique d’orientation de la tête, que l’individu ait à réaliser une trajectoire courbe ([12]) ou un contournement de repère ([13]). Cela montre que ces deux tâches semblent relativement similaires quant aux mécanismes de contrôle sensori-moteur qu’elles mettent en jeu. 3.2. Objectifs expérimentaux Nous allons tester ce phénomène d'anticipation pour la commande de la base mobile. Une analogie a été effectuée entre la direction du regard humain et la caméra mobile qui équipe le robot. Vu l’architecture fonctionnelle de notre système, deux possibilités d’implémenter une anticipation visuelle sur le déplacement s'offrent à nous : soit (i) par automatisation du mouvement anticipatoire de la caméra en fonction des commandes de navigation que l’opérateur transmet au robot soit, inversement, (ii) par automatisation de la navigation du robot à partir des commandes que l’opérateur envoie à la caméra. Les hypothèses de notre travail expérimental sont les suivantes. Premièrement, une situation dans laquelle la caméra est mobile et pointe vers la trajectoire future de l'engin téléopéré devrait conduire à de meilleures performances (en termes de contrôle de la trajectoire) qu'une situation dans laquelle la caméra est fixe et pointe toujours dans l'axe de l'engin. Deuxièmement, par analogie avec les travaux évoqués ci-

dessus, une situation dans laquelle la caméra "anticipe" temporellement les changements d'orientation de l'engin devrait fournir une performance de conduite encore plus élevée, car en plus proche adéquation avec le programme moteur humain. C'est donc dans la situation où l'opérateur contrôle la caméra, qui elle-même commande la "motricité" de l'engin, que le contrôle de la trajectoire devrait être optimisé. 3.3. Résultats expérimentaux Trois modes de commande ont été testés, deux modes avec anticipation visuelle et un mode sans anticipation visuelle. Le mode sans anticipation, appelé mode fixe, correspond à une commande manuelle de la base mobile, la caméra restant fixe dans l'axe du robot. Il sert de mode témoin. Dans le premier mode d'anticipation visuelle, appelé mode plate-forme, l'opérateur commande la base mobile et la caméra s'oriente automatiquement vers la tangente à la trajectoire ("je regarde là où je vais") (Fig. 3-a). Cette implémentation ne suit pas le mode anthropomorphique. Dans le second mode d'anticipation visuelle, appelé mode caméra, l'opérateur commande la caméra et la base mobile suit ce mouvement ("je vais là où je regarde") (Fig. 3-b). Cette implémentation suit le mode anthropomorphique. On émet l'hypothèse que lorsque le couplage visuo-locomoteur suit une organisation de type humain, l'appropriation devrait s'effectuer par un processus à dominante assimilatrice. On demande à l'opérateur de réaliser un slalom. Deux types de paramètres sont utilisés pour mesurer le degré d'appropriation et le processus dominant d'appropriation : des performances brutes (temps d'exécution des parcours, nombre de collisions, nombre d'arrêts) et des indices comportementaux (lissage des trajectoires, loi de puissance). Pour les premiers, les deux conditions anticipatrices sont chacune significativement plus rapides que la condition fixe. En ce qui concerne le nombre de collisions, seule la condition caméra donne significativement moins de collisions que la condition fixe même si la condition plate-forme a un nombre moyen de collisions assez proche de celui de la condition caméra. Quant au nombre d'arrêts, dans les deux conditions anticipatrices ils sont très significativement moins fréquents que dans la condition fixe. Passons maintenant aux indices comportementaux. Les trajectoires réalisées en condition fixe sont beaucoup plus anguleuses que celle en condition anticipatrice. C'est caractéristique d'une commande plus heurtée, moins fluide. Une manière de quantifier ce lissage est de calculer le rayon de courbure instantané de chaque trajectoire et d’évaluer la distribution fréquentielle de ce rayon au cours de chacune des trajectoires ([36]). Concrètement, le rayon de courbure (r) est calculé comme le rapport de la vitesse linéaire instantanée (v) sur la vitesse de rotation instantanée (w). Ainsi, si le robot a une vitesse linéaire faible et une vitesse de 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 166

rotation élevée, le rayon de courbure sera petit (<1), d’autant plus petit que la vitesse de rotation sera importante. Inversement, si le véhicule avance et tourne en même temps (trajectoire curvilinéaire), le rayon de courbure sera très grand (>1). La Fig. 4 représente le pourcentage d'occurrence des rayons de courbure, exprimé en logarithme décimal, pour les trois conditions. On remarque un pic autour de 0. Cela correspond à des rayons de courbure moyens et donc des portions de trajectoire courbe. Si l'on regarde plus en détail, on remarque que ce pourcentage est plus élevé pour la condition caméra que pour la condition plate-forme, lui même plus élevé que pour la condition fixe. Toutes ces différences sont significatives. On constate même la présence d'un second pic de rayons de courbure, toujours exprimé en logarithme décimal, aux alentours de -2. Il s'agit là de rotations sur place de la base mobile. Ce pourcentage est significativement plus élevé en condition fixe qu'en condition plate-forme, lui-même significativement plus élevé qu'en condition caméra. L'expérience a été réalisée en quatre sessions et montre que ces effets sont valables pour toutes les sessions. Cela signifie que l'anticipation visuelle apportée par une vision mobile assure une plus grande fluidité dans l'enchaînement des virages qu'un entraînement en vision fixe. L’analyse du paramètre précédent nous a montré que lorsque l’opérateur se trouve dans une situation plus proche des conditions naturelles de vision, celui-ci tend à maximiser le lissage des trajectoires du robot. Cette propension à lisser ses déplacements est une particularité que l’humain généralise à la majorité des membres qu’il mobilise, ceci afin certainement d’optimiser une fonction de coût ([43]). Aussi, cette optimisation ne semble pas se limiter simplement aux particularités géométriques de la trajectoire mais également au rapport existant entre cette géométrie (rayon de courbure) et la cinématique (vitesse linéaire) du mouvement. Cette relation a déjà été étudiée pour les gestes d’écriture et de dessin dans un espace 2D ([47]) ou 3D ([41]). Ces mouvements ont été découverts comme obéissant à ce qu’on appelle la "loi de puissance deux tiers" ([23]). Cette loi démontre que la vitesse angulaire de l’extrémité de l’effecteur (ici la main) est proportionnelle à la racine deux tiers de sa courbure ou, de manière équivalente, que la vitesse tangentielle instantanée est proportionnelle à la racine cubique du rayon de courbure. Cela signifie que durant le geste d’écriture, la vitesse de la main diminue dans les parties les plus courbes de la trajectoire et augmente quand la trajectoire devient plus droite. On constate même que cette loi ne semble pas seulement gouverner la génération des mouvements de bras mais, aussi, celle de la locomotion humaine ([46]). Concrètement, afin de caractériser le comportement locomoteur de l’opérateur via le robot, nous avons calculé les rayons de courbure et les vitesses tangentielles des diverses trajectoires. Après une transformation

logarithmique, le coefficient de corrélation ainsi que la pente de la ligne de régression entre ces deux valeurs ont été analysés statistiquement. Puis, les rayons de courbure et vitesses tangentielles ont été normalisés (réduits à un même nombre de points) pour chaque essai et représentés ensemble suivant la condition de vision. Pour que la condition de téléopération suive la "loi de puissance deux tiers", l’analyse de la corrélation entre rayons de courbure et vitesses tangentielles doit révéler une relation linéaire de rapport 1/3 lorsque les deux variables sont représentées suivant une échelle logarithmique. En cas contraire, le comportement ne peut être considéré comme obéissant à cette loi biologique. Les résultats sont très intéressants. En condition fixe, la corrélation entre le rayon de courbure et la vitesse linéaire n'est pas significative. Si l'on calcule néanmoins l'équation de la droite de régression linéaire liant leurs logarithmes, on obtient : y=0,01x+0. Les mêmes conclusions s'imposent pour la condition plate-forme avec une droite de régression quasiment identique : y=0,02x+0. Ainsi, pour ces deux conditions, il n'y a pas de corrélation significative entre la vitesse linéaire et le rayon de courbure et on ne voit pas apparaître de rapport 1/3. En revanche, la condition caméra donne des résultats bien différents. D'abord, le rayon de courbure et la vitesse sont significativement corrélés. Bien plus, la droite de régression linéaire liant le logarithme du rayon de courbure et celui de la vitesse linéaire est de pente 1/3 (Fig. 5). Pour résumer ces résultats, si les conditions anticipatrices sont nettement supérieures à la condition fixe, la condition caméra l'emporte tout de même. Premièrement, elle est la seule pour laquelle aucun effet de session ou d'apprentissage n'apparaît pour aucun des cinq paramètres étudiés. Etant donné que la vitesse d’acquisition d’un système renseigne sur la nature du processus dominant impliqué dans cette acquisition, cette observation est un premier argument en faveur du fait que l’implémentation d’un mécanisme d’anticipation suivant le modèle "caméra" accentue l’assimilation du robot par l’opérateur. Ensuite, on constate des différences plus franches entre le mode caméra et le mode fixe qu'entre le mode plate-forme et le mode fixe. C'est par exemple le cas pour le nombre de collisions significativement plus faible en condition caméra qu'en condition fixe alors qu'il ne l'est pas entre les conditions plate-forme et fixe. Le dernier argument est sans conteste la conformité à la loi de puissance du mode caméra, totalement absente pour le mode plate-forme. Cela plaide encore pour la mise en œuvre d'un mécanisme à dominante assimilatrice pour l'appropriation du robot par l'homme dans la condition caméra. Ces dernières analyses soulignent l’importance de la qualité de l’implémentation du mécanisme de type humain quant à la nature du processus d’adaptation qu’il met majoritairement en jeu. D’après nos résultats, l’adaptation homme-machine en condition 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 167

anthropomorphique s’effectuerait bien par un processus à dominante d’assimilation. Inversement, étant donné que le modèle plate-forme parvient à un niveau d’efficacité non significativement différent du modèle caméra, on peut en déduire que les opérateurs placés dans cette condition non anthropomorphe compensent leur impossibilité de mise en œuvre du processus d’assimilation par un accroissement d’accommodation, leur assurant un niveau final d’adaptation relativement identique à la situation anthropomorphe. Cette favorisation de mise en jeu d’un processus d’assimilation en condition "anthropomorphique" s’expliquerait par la similarité entre l’organisation spatio-temporelle du couplage caméra–plate-forme du robot et le couplage naturel regard–locomotion de l’homme. En effet, on sait que lors de l’exécution du mouvement en situation naturelle, la fovéalisation de la cible tout au long du déroulement de l’action entraîne une optimisation des ajustements moteurs se traduisant par une réduction de la variabilité spatiale des trajectoires ([38]). Ainsi, la tête, portant les yeux, est utilisée comme une centrale inertielle de guidage qui est stabilisée dans l’espace et à partir de laquelle le mouvement du corps est coordonné ([35]). Le fait que le reste du corps se contente de suivre la direction indiquée par l’orientation volontaire du regard est une explication sur la plus grande compatibilité homme–machine observée dans le modèle "caméra", les études ergonomiques montrant que les modes de commande semi-automatiques les plus efficaces sont ceux où le contrôle de haut niveau est laissé à la volonté de l’opérateur humain ([5], [33]). 4. Conclusions et perspectives La recherche de caractéristiques anthropomorphes pour une machine pilotée à distance favorise le processus d'adaptation par assimilation. Dans le travail sur l'aspect morphologique, l’opérateur humain arrive à un niveau d’appropriation assez élevé (2.3). Le paragraphe 2.4 montre que cette appropriation est meilleure en condition anthropomorphe que dans les deux autres ce qui permet de supposer que l’opérateur s’approprie le système selon un processus à dominante assimilatrice. Le paragraphe 2.5 permet de déduire que, lorsqu’une machine présente un mode de fonctionnement qui se rapproche du modèle humain, c’est en la configurant selon une architecture structurale anthropomorphe que l’opérateur pourra au mieux se l’approprier. Des travaux sur l'aspect morpho-fonctionnel nous pouvons tirer deux conclusions. Premièrement, les données recueillies militent davantage en faveur d’une interprétation de l’organisation temporelle de la commande motrice des mouvements depuis la tête jusqu’aux pieds, plutôt qu’en terme de commande simultanée sur l’ensemble du système nerveux. Deuxièmement, la reproduction de la "loi de puissance" dans le cadre d’une action médiatisée par un artefact mécanique, nous amène à une explication

neuroscientifique de ce phénomène comme relevant bien d’un modèle interne de planification du mouvement propre à l’homme. On retrouve ici une adaptation de type assimilatrice. Il est néanmoins intéressant de constater que lorsque l'opérateur humain met en œuvre une stratégie d'accommodation, par exemple dans le cas du mode plate-forme, les performances brutes peuvent être du même niveau que celles obtenues avec un système anthropomorphe. Ainsi, on peut chercher à développer aussi les capacités d'accommodation de l'opérateur. Cela permet d'obtenir une palette de commandes plus large. Références [1] Berti, A., & Frassinetti, F. (2000). When far becomes near : remapping of space by tool use. Journal of Cognitive Neuroscience, 12, 415-420. [2] Cornilleau-Péres, V., & Gielen, C.C.A.M. (1996). Interactions between self-motion and depth perception in the processing of optic flow. Trends in Neurosciences, 19, 196-202. [3] Crannell, C.W., & Peters, G. (1970). Monocular and binocular estimations of distance when knowledge of the relevant space is absent. Journal of Psychology, 76, 157-167. [4] Cutting, J.E. (1997). How the eye measures reality and virtual reality. Behavior Research Methods, Instrumentation and Computers, 29, 29-36. [5] Endsley, M.R., & Kaber, D.B. (1999). Level of automation effects on performance, situation awareness and workload in dynamic control task. Ergonomics, 42, 462-492. [6] Fitch, H., & Turvey, M.T. (1978). On the control of activity : some remarks from an ecological point of view. In D. Landers & R. Christina (Eds), Psychology of motor behavior and sport. Urbana, IL : Human Kinetics Pub. [7] Fitts, P.M. (1951). Human Engineering for an Effective Air Navigation and Traffic Control System. Washington D.C. : National Research Council. [8] Fogassi, L., Gallese, V., Fadiga, L., Luppino, G., Matelli, M., & Rizzolatti, G. (1996). Coding of peripersonal space in inferior premotor cortex (area F4). Journal of Neurophysiology, 76, 141-157. [9] Gaillard, J.P. (1993). Analyse fonctionnelle de la boucle de commande en télémanipulation. In A. Weill-Fassina, P. Rabardel & D. Dubois (Eds), Représentations pour l’Action. Toulouse : Octares. [10] Gaillard, J.P. (1997). Psychologie de l’Homme au Travail. Les Relations Homme-Machine. Paris : Dunod. [11] Gibson, J.J. (1979). The ecological approach to visual perception. Boston : Houghton Mifflin. [12] Grasso, R., Glasauer, S., Takei, Y., & Berthoz, A. (1996). The predictive brain : Anticipatory control of head direction for the steering of locomotion. NeuroReport, 7, 1170-1174. 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 168

[13] Grasso, R., Prévost, P., Ivanenko, Y.P., & Berthoz, A. (1998). Eye-head coordination for the steering of locomotion in humans : An anticipatory synergy. Neuroscience Letters, 253, 115-118. [14] Gray, S.V., & Wilson, J.R. (1988). User safety requirements for robot safety, a task analysis approach. 10th Ergonomics International Association Symposium. 1-5 August, Sydney. [15] Halligan, P.W., & Marshall, J.C. "Left neglect for near but not for far space in man." Nature, 350, 498-500, 1991. [16] Hightower, J.D., Spain, E.H., & Bowles, R.W. (1987). Telepresence : A hybrid approach to high-performance robots. Third International Conference on Advanced Robotics (ICAR’87). [17] Hoc, J.M. (2000). From human-machine interaction to human-machine cooperation. Ergonomics, 43, 833-843. [18] Hollnagel, E., & Woods, D.D. (1983). Cognitive systems engineering : new wine in new bottles. International Journal of Man-Machine Studies, 18, 583-600. [19] Iriki, A., Tanaka, M., & Iwamura, Y. (1996). Coding of modified body schema during tool use by macaque postcentral neurons. Neuroreport, 7, 2325-2330. [20] Jeannerod, M. (1984). The timing of natural prehension movements. Journal of Motor Behavior, 16, 235-254. [21] Jeannerod, M. (1997). The Cognitive Neuroscience of Action. Cambridge, MA: Blackwell. [22] Karsenty, L., & Brézillon, P. (1995). Coopération homme-machine et explication. Le Travail Humain, 58, 289-310. [23] Lacquaniti, F., Terzuolo, C., & Viviani, P. (1983). The law relating the kinematic and figural aspects of drawing movements. Acta Psychological, 54, 115-130. [24] Lacquaniti, F., Maioli, C. (1987). Anticipatory and reflex coactivation of antagonist muscles in catching. Brain Research, 406, 373-378. [25] Land, M.F. (1998). The visual control of steering. In L.R. Harris & K. Jenkin (Eds). Vision and Action, 163-180. Cambridge University Press. [26] Lui, A., Tharp, G., French, L., Lai, S. & Stark, L. (1993). Some of what one needs to know about head-mounted displays to improve teleoperator performance. IEEE Transaction on Robotics and Automation, 9, 638-648. [27] Magenes, G., Vercher, J.L., & Gauthier, G.M. (1992). Hand movement strategies in telecontrolled motion along 2D trajectories. IEEE Transactions on Systems, Man, and Cybernetics, 22, 242-257. [28] Maravita, A., Husain, M., Clarke, K., & Driver, J. (2001). Reaching with a tool extends visual-tactile interactions into far space : evidence from cross-modal extinction. Neuropsychologia, 39, 580-585.

[29] Massimo, M., & Sheridan, T. (1989). Variable force and visual feedback effects and teleoperator man/machine performance. Nasa Conference on Space Telerobotics. Pasadena. [30] Older, M.T., Waterson, P.E., & Clegg, C.W. (1997). A critical assessment of task allocation methods and their applicability. Ergonomics, 40, 151-171. [31] Orliaguet, J.P., & Coello, Y. (1998). Geste d’homme, gestes de machine. Science & Vie, 204, 150-156. [32] Pagano, C.C., & Bingham, G.P. (1998). Comparing measures of monocular distance perception : verbal and reaching errors are not correlated. Journal of Experimental Psychology : Human Perception and Performance, 24, 1037-1051. [33] Parasuraman, R., & Mouloua, M. (1996). Automation and Human Performance : Theories and Applications. Mahwah : Lawrence Erlbaum. [34] Patla, A.E., Prentice, S.D., Robinson, C., & Neufeld, J. (1991). Visual control of locomotion : Strategies for changing direction and for going over obstacles. Journal of Experimental Psychology : Human Perception and Performance, 17, 603-634. [35] Patla, A.E., Adkin, A., & Ballard, T. (1999). Online steering : coordination and control of body center of mass, head and body reorientation. Experimental Brain Research, 129, 629-634. [36] Péruch, P., & Mestre, D. (1999). Between desktop and head immersion : Functional visual field during vehicle control and navigation in virtual environments. Presence, 8, 54-64. [37] Piaget, J. (1936). La Naissance de l’Intelligence chez l’Enfant. Paris, Lausanne : Delachaux et Niestlé. [38] Prablanc, C., Pélisson, D., & Goodale, M.A. (1986). Visual control of reaching movements without vision of the limb. I. Role of retinal feedback of target position in guiding the hand. Experimental Brain Research, 62, 293-302. [39] Rabardel, P. (1991). Activity with a training robot and formation of knowledge. Journal of Artificial Intelligence in Education. USA. [40] Reinhardt-Rutland, A.H. (1996). Remote operation : a selective review of research into visual depth perception. The Journal of General Psychology, 123, 237-248. [41] Soechting, J.F., Lacquaniti, F., & Terzuolo, C.A. (1986). Coordination of arm-movements in three-dimensional space. Sensorimotor mapping during drawing movement. Neuroscience, 2, 295-311. [42] Stassen, H.G., Dankelman, J., & Grimbergen, C.A. (1998). Developments in minimally invasive surgery and interventional techniques. In Proceedings of the 16th EAC on HDM and MC. Kassel, Germany. [43] Todorov, E., & Jordan, M.I. (1998). Smoothness maximization along a predefined path accurately predicts the speed profiles of complex arm 5e Journées Nationales de la Recherche en Robotique,Guidel, Morbihan, 5-7 octobre 2005 169

movements. Journal of Neurophysiology, 80, 696-714. [44] Vanderhaegen, F., Crevits, I, Debernard, S., & Millot, P (1994). Human-machine cooperation : toward an activity regulation assistance for different air-traffic control levels. International Journal of Human-Computer Interaction, 6, 65-104. [45] Vercher, J.L., Gauthier, G.M., Bertrand J.C. & Magenes G. (1989). Bimanual micro-manipulator for televideo-operation of anthropomorphic robots. IEEE SMC 89, Cambridge, MA, 2, 804-805. [46] Vieilledent, S., Kerlirzin, Y., Dalbera, S., & Berthoz, A. (2001). Relationship between velocity and curvature of a human locomotor trajectory. Neuroscience Letters, 305, 65-69. [47] Viviani, P., & Cenzato, M. (1985). Segmentation and coupling in complex movements. Journal of Experimental Psychology : Human Perception and Performance, 21, 32-53. [48] Viviani, P., & Schneider, R. (1991). A developmental study of the relationship between geometry and kinematics in drawing movements. Journal of Experimental Psychology : Human Perception and Performance, 17, 198-218. [49] Warren, W.H., & Whang, S. (1987). Visual guidance of walking through apertures : body-scaled information for affordances. Journal of Experimental Psychology : Human Perception and Performance, 13, 371-383. Figures Appropriation par processus à dominante d'accommodation Homme Machine Appropriation par processus à dominante d'assimilation Approche anthropomorphique Fig. 1 - Application du modèle piagétien d'adaptation à la coopération homme-machine. 20° 0°-20° 40°-40°20 cm 20° épaule45°biaiscôté anthropomorphique Fig. 2 - Caractéristiques du dispositif expérimental.

trajectoiredu robotaxe duporteur r-(L/2)L r axe de lacamérapoint de tangente Raxe duporteur obstacleaxe de lacaméraa(t)S(t)direction de latrajectoire durobotD(t)z(t) a b Fig. 3 - Modélisations anticipatrices. 0

10

20

30

40

50

60

70

-4 -3 ,5 -3 -2 ,5 -2 -1,5 -1 -0 ,5 0 0 ,5 1 1,5 2 2,5 3

Log (r)

% d

'oc

cu

rr

fixe plate-forme caméra % occurence Fig. 4 - Lissage des trajectoires. y = 0,33x + 0

-1

0

1

-1,5 0 1,5

log du rayon de courbure

log

de la

vites

se ta

ngen

tielle Fig. 5 - Représentation logarithmique et normalisée de la relation entre rayons de courbure et vitesses tangentielles pour l’ensemble des essais de la condition vision mobile caméra.


Méthodologie de conception de machines d’entraînement d’évaluation et de rééducation musculaire

L. Afilal, S. Moughamir et N. Manamanni CReSTIC, Université de Reims, BP 1039 51687 cedex 2 France

[email protected]

Résumé

Cet article propose une démarche globale pour la conception de machines d’entraînement d’évaluation et de rééducation musculaire pour des articulation à un degré de liberté. Cette démarche est présentée à travers un modèle formel générique de spécification et de conception du système de contrôle commande de ce type de machines.

Mots clés Machine d’entraînement, rééducation musculaire, évaluation, articulation, isocinétisme.

1. Introduction L’utilisation des machines d’entraînement d’évaluation et de rééducation musculaire devient courante dans les domaines du sport, de la rééducation et de la médecine [12]. Le développement et la conception de ces machines doivent passer par un certain nombre de défis scientifiques et techniques. La connaissance du domaine d’application spécifique doit être intégrée dans le processus de conception et de développement. Notre démarche consiste à proposer un modèle générique réutilisable qui peut facilement être spécialisé pour le développement du système de contrôle commande des machines d’entraînement d’évaluation ou de rééducation musculaire. Le principe de fonctionnement de ces machines consiste à appliquer sur le membre de l’utilisateur, un couple exercé par un bras mobile entraîné par un moteur électrique. Le contrôle de la force, de la position et de la vitesse permet de réaliser des entraînements adaptés et graduels. L’évaluation est réalisée en exploitant les signaux de mesure de force et de position. Dans cet article, nous présenterons d’abord les fonctions médico-sportives, pour répondre aux besoins en termes d’entraînement d’évaluation et de rééducation dans les domaines de la médecine et du sport [5]. Avant de traiter de la spécification du système de contrôle commande et de détailler sa structure, nous proposons un tableau de correspondance pour permettre une communication simple et efficace entre les praticiens du sport et de la médecine et le monde de l’automatique. Enfin, nous illustrerons la démarche proposée à travers la présentation d’une réalisation pour le genou avec

des résultats d’entraînements et d’évaluation des membres inférieurs. 2. Les fonctions médico-sportives d’une machine d’entraînement et de rééducation Une séance d’entraînement ou de rééducation est définie par une configuration chargée de réaliser un enchaînement de plusieurs phases. Chacune de ces phases est définie comme une suite de plusieurs séries de répétitions des deux motifs de mouvement, un motif « aller » et un motif « retour ». Pendant les entraînements, la contraction du groupe musculaire de base peut réaliser, selon le cas, une action de type : -Concentrique : raccourcissement du muscle concerné, les points d’insertion du muscle se rapprochent. Le patient fournit un effort et le muscle est moteur. Le déplacement s’effectue dans le sens de l’effort du patient. -Excentrique : allongement du muscle concerné, le sens du mouvement entraîne une extension du muscle et les points d’insertion du muscle s’éloignent. Le patient fournit un effort et le muscle est résistant. Le déplacement s’effectue dans le sens opposé à l’effort du patient. -Isométrique : conservation de la longueur du muscle. L’effort fourni par le patient est compensé par le système pour maintenir une position fixe. L’entraînement et la rééducation musculaire peuvent être effectués de différentes manières : le mouvement se réalise avec charge constante à vitesse variable, charge variable avec limitation du seuil de vitesse maximale ou charge et vitesse de déplacement variables. Les modes d’entraînement et de rééducation peuvent être classés en trois catégories : les modes à vitesse contrôlée, les modes à charge contrôlée et le mode à position contrôlée. La multiplicité des modes d'entraînement permet d'utiliser la même machine avec différents types d'utilisateurs et d'enchaîner des exercices variés pour un même utilisateur. 2.1. Les modes à vitesse contrôlée

Isocinétique Le déplacement en mode isocinétique se réalise avec une vitesse constante prédéterminée. Ce mode est utilisé pour évaluer la capacité d’un groupe musculaire à développer une force à vitesse constante dans une



amplitude articulaire spécifiée. Le segment du membre peut développer son couple maximal dans toute l’amplitude testée. Ce mode d’entraînement particulièrement utilisé en évaluation permet d’obtenir une mesure précise de l’effort musculaire et une amélioration de la force musculaire dynamique [4]. En particulier, le mode isocinétique excentrique donne de très bons résultats dans de nombreux cas, tels que les dysfonctionnements articulaires des personnes âgées et les programmes d’entraînement d’athlètes [2]. Nous proposons de réaliser ce mode avec une condition sur la force musculaire : le dispositif de commande assure un asservissement précis de la vitesse durant le mouvement tant que la force exercée par le patient reste supérieure à un seuil fixé, sinon le mouvement s’arrête. Le réglage de la valeur minimum de la force permet d’adapter l’entraînement aux patients et de les motiver progressivement.

Conduit Ce mode original réalise le déplacement selon une amplitude donnée et à une vitesse programmable sans condition sur la force musculaire. Il permet de réaliser un travail musculaire intense sans surcharger une articulation pathologique. Le mode conduit peut être utilisé dans la rééducation d’une articulation (comme le genou) faisant suite à une intervention chirurgicale comme une arthroplastie totale. Dans ce mode, des flexions passives de l’articulation sont possibles. Au départ, l’amplitude du déplacement et sa vitesse sont fixées avec précision par le praticien. La vitesse sera d’autant plus lente que l’articulation est douloureuse. Ce type de mouvement est réalisé aussi pour le retour du bras mobile lors des modes de rééducation Assisté où le mouvement doit être lent et constant. 2.2. Les modes à charge contrôlée

Isotonique En mode isotonique, la charge exercée sur le muscle doit rester constante au cours du mouvement. Ce mode est classiquement réalisé grâce aux appareils utilisant des poids, mais l’utilisation de bras de levier intermédiaires (entre le poids et le segment du membre) rend ces appareils imprécis. De plus, les renforcements musculaires de type excentrique sont impossibles à réaliser sur les appareils à poids. L’utilisation des techniques de l’automatique permet de répondre à ces problèmes en simulant une charge pesante constante et en assurant l’isotonicité réelle du mouvement grâce à un asservissement de la force qui tient compte de la pesanteur et du poids des membres (jambe, bras …). Ce mode est réalisé avec des conditions sur la force et selon deux types de contractions musculaires : -Concentrique : le patient doit exercer une force supérieure à la charge pour entraîner le bras mobile, sinon le mouvement s’arrête. -Excentrique : Le bras mobile entraîne le membre du patient qui doit résister en exerçant une force

suffisante pour que le mouvement continue. Si la force exercée par le patient dépasse un seuil, l’appareil s’arrête pour éviter le mouvement dans l’autre sens. La possibilité de réaliser un mouvement réellement isotonique en excentrique ou en concentrique ouvre ainsi des possibilités pour de nombreuses études scientifiques.

Physiocinétique En général l’entraînement sportif spécialisé sur le terrain permet de développer une courbe de force musculaire très particulière et très spécifique du sport pratiqué. Actuellement les sportifs réalisent leur renforcement musculaire sur des appareils à charges additionnelles. Dans ce cas, la prise de volume musculaire se réalise correctement mais le couple pic de force/angle articulaire spécifique au sport pratiqué est souvent décalé. Le sportif développera ainsi plus de force mais l’impulsion maximale au cours du geste sportif ne s’effectuera pas à l’angle articulaire optimal. Ce mode original breveté [1], appelé Physiocinétique permet le renforcement musculaire selon une courbe de force imposée. La charge est contrôlée pendant que la vitesse du segment de membre est variable en fonction de l’angle articulaire et de l’effort de l’utilisateur. Il permet de : -Réaliser un mouvement d’amplitude totale avec application de la force, seulement sur une portion de ce déplacement, évitant ainsi la surcharge d’une articulation sensible ou pathologique. -Corriger la courbe de force musculaire d’un membre (séquelles d’un traumatisme ancien) et de l’identifier à celle de l’autre membre. -Modifier la courbe de force du sportif afin de l’approcher et à terme de la superposer à une courbe dite idéale pour la discipline sportive (celle d’un champion de la discipline par exemple). Le mode Physiocinétique est réalisé simplement en simulant une charge pesante variable en fonction de l’angle de l’articulation. Durant le mouvement, le système de commande doit assurer, pour une position articulaire donnée, l’asservissement de la force à appliquer sur le segment tout en tenant compte de la pesanteur et du poids des membres. Le sportif ou le patient peut réaliser des mouvements proches du geste physiologique comme par exemple lors du déplacement naturel d’un segment de membre réalisant un tir dans un ballon ou un lancer de poids.

Assisté Ce mode original est conçu pour la rééducation d’hémiplégies flasques en cas de testing inférieur à 3. Le mouvement est partiellement assisté en compensant la pesanteur et le poids des membres. Le mouvement assisté démarre dès qu’une réaction perceptible du patient est détectée et s’arrête si le patient ne réagit plus. Le réglage du seuil de l’intensité de la réaction perceptible et de la vitesse maximale introduit un


facteur de motivation très important pour ce type de patients. L’assistance assurée par ce mode permet une rééducation précise et graduelle, impossible à réaliser pendant les séances de rééducation classique en piscine.

Etirement Indispensable pour les sportifs, les étirements favorisent l’aisance articulaire et participent à la prévention des lésions musculaires accidentelles ; leur pratique permet la multiplication des fibres musculaires et le développement harmonieux du muscle. Le bras mobile effectue un déplacement lent de type isotonique (force constante) dans deux sens. Deux types d’étirements sont possibles. - Etirement passif prolongé : au départ la force du déplacement est relativement faible, ensuite elle peut être réglée en temps réel par le patient grâce à l’interface homme-machine. Dès que la résistance du groupe musculaire du patient atteint la force programmée, le segment s’immobilise à la position atteinte. Le patient peut faire progresser à nouveau le segment mobile soit en relaxant davantage le groupe musculaire concerné soit en augmentant manuellement la force développée par l’appareil. De nouveau dès que la résistance du patient égalise la force programmée le segment s’arrête à la nouvelle position d’équilibre. Ainsi cette opération peut être répétée plusieurs fois par le patient. Enfin, si le patient exerce une force supérieure à la force programmée, le segment se déplace en sens inverse et si l’appareil enregistre une variation brutale de la résistance du patient, le segment revient en position de départ. - Etirement avec contraction et relâchement : l’appareil exécute les mêmes fonctions que le mode passif mais le patient a en plus la possibilité de bloquer le segment mobile dans un angle extrême par rapport au muscle. Dans ce cas le segment reste immobilisé durant un temps prédéterminé au cours duquel le patient exécute une contraction du muscle agoniste ou antagoniste. Ensuite l’appareil revient en mode passif. Le patient peut enchaîner plusieurs fois ces opérations. 2.3. Le mode à position contrôlée : Isométrique Dans le mode isométrique, le muscle garde la même longueur et le travail mécanique reste nul. Ce mode est utilisé dans des disciplines comme la gymnastique, l’escalade et l’haltérophilie pour procurer un gain de force spécifique à un angle articulaire donné. Dans la rééducation, il permet la correction de la courbe physiologique force musculaire / angle articulaire pathologique. Suite à des traumatismes chirurgicaux ou autres, la contraction isométrique permet de conserver une certaine activité musculaire alors que l’articulation est encore limitée dans sa fonction.

Partant d’une position de repos, le segment de membre est déplacé vers une position angulaire de travail où le patient doit commencer son entraînement en fournissant un effort musculaire ; le segment du membre demeure immobile pendant un temps fixé préalablement. Le patient ou le praticien choisit plusieurs positions angulaires de travail en associant à chaque position une durée d’arrêt. Les angles étant fixés d’avance, le dispositif de commande doit assurer à chaque fois une régulation précise pour maintenir la position. Pour motiver le patient ou le sportif pendant le mouvement, un histogramme représentant son effort en fonction des positions angulaires peut être tracé en temps réel. 3. Correspondances médico-techniques Afin d'implanter les entraînements spécifiés par les spécialistes du sport et de la médecine, plusieurs définitions techniques sont nécessaires. En effet, les besoins médicaux énoncés par un vocabulaire spécifique doivent être transcrits en termes techniques pour réaliser la commande automatique appropriée. Pour permettre une communication simple et efficace entre d’une part, les médecins et kinésithérapeutes et d’autre part, les ingénieurs automaticiens, nous avons établi un tableau (TAB.1) de correspondances médico-techniques. Expression médicale

Définition technique

Groupe Musculaire

Sens de l’effort musculaire

-Aller - force musculaire exercée « Aller » (F<0)

-Retour - force musculaire exercée « retour » (F>0)

Mode Nature du mouvement - Isocinétique. - vitesse constante avec condition sur

la force musculaire - Conduit - vitesse constante sans condition sur

la force musculaire - Isotonique - simulation d'une charge pesante

constante - Physiocinétique - simulation d'une charge pesante

fonction de la position - Assisté - vitesse fonction des réactions d’effort

du patient; moteur assistant ce mouvement contre la gravité et le poids des membres

- Etirement - simulation d’une charge pesante créant un déplacement à faible vitesse jusqu'à obtention de l’équilibre avec la tension musculaire

- Isométrique - position constante Type Nature de l'effort musculaire - Concentrique. - muscle moteur - Excentrique - muscle résistant

TAB. 1- Correspondances médico-techniques


Pour caractériser complètement la nature de l’entraînement à réaliser, trois classes d’expressions médicales ont été identifiées : Groupe musculaire correspond au sens de l’effort musculaire, Mode et Type correspondent respectivement à la nature du mouvement qu’effectue la machine et à la nature de l’effort musculaire réalisé par le patient (moteur ou résistant). Pour réaliser les mouvements décrits dans le tableau 1, trois lois de commande (vitesse, force et position) sont nécessaires. 4. Spécification et hiérarchie du contrôle commande Une étude préliminaire [11] a permis de mettre en évidence les niveaux hiérarchiques nécessaires pour ordonnancer l’exécution des lois de commande tout en respectant les contraintes imposées par la séance d’entraînement comme l’indique la figure 1, Une séance d’entraînement se compose d'un enchaînement de phases. Une phase est constituée de plusieurs séries d'exercices séparées par des périodes de relâchement musculaire et chacune de ces séries est caractérisée par plusieurs répétitions de mouvements aller-retour (motif aller - motif retour). Ces motifs de mouvement, représentant un enchaînement des lois de commande, sont sélectionnés en fonction des données (muscle, mode et type d'entraînement) correspondant à la phase en cours. Outre ces données, une phase est caractérisée par le nombre de séries et de répétitions à effectuer ainsi que par les paramètres quantifiant et limitant les grandeurs : position, vitesse et force. Ces paramètres sont utilisés soit pour l'élaboration de la consigne des asservissements soit pour le conditionnement des transitions entre les états de la phase en cours. Ainsi le système de contrôle commande est structuré en quatre niveaux hiérarchiques. On distingue deux types de flux d'informations : les informations échangées avec la partie électronique (informations capteurs et commandes machine) et les informations échangées avec le patient (ordres et messages). Pour maîtriser la complexité de la conception et l'implantation logicielle d'un tel système de contrôle commande, le formalisme de spécification utilisé doit satisfaire les critères suivants : -Il doit offrir une représentation graphique facilement appréhendée par « l'expert du domaine » afin qu'il puisse participer activement au processus de spécification en apportant ses besoins, ses remarques et ses critiques. Il faut par ailleurs trouver un équilibre entre les facultés de communication et les possibilités formelles car la spécification doit être facilement comprise sans pour autant nuire à la précision et à la rigueur. -La spécification doit suivre une méthode hiérarchique par analyse descendante afin d'exprimer la structuration et la coopération hiérarchique identifiée entre les différents niveaux de contrôle commande.

Séance d’entraînement : enchaînement de phases

Phase : séries de répétition des mouvements « Aller » et « Retour »

Motif aller ou Motif retour : Enchaînement de lois de commande

Lois de commande : élaboration de référence et lois d’asservissement

ordres patient messages patient

commande machine informations capteurs FIG. 1 - Niveaux hiérarchiques de contrôle commande .-Le formalisme de spécification doit permettre l'expression de comportements génériques réutilisables et paramétrables car il existe plusieurs invariants concernant notamment le déroulement des différents motifs d’aller et de retour. -La spécification doit être principalement basée sur un formalisme hybride qui permet d'une part, de définir la logique de lancement coordonné des tâches des différents niveaux selon la configuration en cours et d'autre part, d'intégrer les spécifications de comportements continus correspondants aux lois de commande. En résumé, la nature et l'organisation des tâches de contrôle commande de nos machines nécessitent un formalisme de spécification alliant structuration par objets dynamiques et décomposition par niveaux hiérarchiques. Nous avons choisi de spécifier les quatre niveaux hiérarchiques du système contrôle-commande à l’aide du formalisme Statecharts-Objet [6], qui est destiné principalement à la spécification et à la conception. Le Statecharts-Objets est constitué de plusieurs modules reliés par des invocations hiérarchiques. Par rapport à une structure objet classique, un module correspond à une classe dont les attributs et les méthodes sont enrichies par un comportement dynamique réutilisable par ces instances. Un module est donc la réunion, au sein d’une même entité, d’un ensemble d’attribut et d’un ensemble de méthode permettant de manipuler les valeurs des attributs et de son comportement dynamique décrit en Statecharts. Le comportement est décrit par le Statecharts, il définit la logique d'exécution des différentes méthodes, et fournit ainsi une vision cohérente et synthétique du flot de contrôle. Dans ce comportement, les actions associées aux transitions et aux activations (ou désactivations) des états correspondent à l'exécution d'opérations simples non séquentielles. Les activités associées aux états correspondent à des appels aux méthodes spécifiées par des algorithmes ou par des lois de commande.


Dans ce qui suit, nous présentons les modules génériques utilisés pour les spécifications du contrôleur séquentiel défini par les niveaux hiérarchiques. Les attributs de ces modules décrivent les paramètres d’entraînement ainsi que ceux relatifs aux lois de commandes et aux utilisateurs. Chacune des sous-sections suivantes est consacrée aux spécifications d'un des niveaux du contrôleur séquentiel.

4.1. Séance d’entraînement Le module Statecharts de FIG 2 qui correspond à une séance d’entraînement permet de coordonner les modes d’entraînement (ou de rééducation) et les phases consécutives qui forment une séance. Les attributs, dont les valeurs doivent être instanciées pour chaque séance spécifique d’entraînement, sont : i) le nombre de phases d’entraînement, p; ii) un tableau qui comporte les phases successives de la séance; et iii) un index, i, de la phase d’entraînement courante. Le mode de fonctionnement de ce module est donné par les états: Preparation, Calibration, Phase, Abnormal_state, et Emergency_state. Un ordre de départ, donné par l'utilisateur, active l'état Préparation, qui permet d’initialiser les paramètres d’entraînement. L'état Calibration peut alors être activé pour démarrer l’étalonnage. Cet état invoque le module Movement_calibration, qui permet d’identifier la force de pesanteur du membre et de la partie mobile de la machine, sur toute la plage du mouvement. Pendant les phases suivantes d’entraînement ces données seront soustraites de la force mesurée pour obtenir une évaluation correcte de l'effort musculaire du patient. Quand l’état Calibration se termine, l’étape suivante consiste en l'initialisation de l'attribut i à 1, et l'activation de l’état Phase. Ceci invoque l'exemple indiqué par phase [i] du module Phase (correspondant au deuxième niveau de la hiérarchie) pour exécuter la première phase d’entraînement.

Séance d’Entraînement

nom /* nom de la séance */ p /* nombre de phase dans la séance d’entraînement */ phase /* table qui référence les p phases successives de la séance */ i /* index variant de 1 à p qui indique le numéro de la phase en cours */

PreparationInvoke(Setup)

CalibrationInvoke(Movement_calibration)

PhaseInvoke(phase[i])

Emergency_state

resume ∧ end_calibration/ i=1

critical_faultend_emergency_statestart

i=p ∧ end_phaseresume ∧ i<p ∧ end_phase / i=i+1

end_setup

Abnormal_state

Training

minor_fault

end_abnormal_state

end_session

FIG. 2 - Spécification du module Séance d’Entraînement

Quand une phase se termine, l’état End_phase est atteint (FIG. 3), ce qui ne correspond pas à la fin de la configuration (i.e i < p). Cette transition incrémente la variable i afin d'exécuter la phase suivante de la séance d’entraînement. À la fin de la dernière phase, i=p ∧ end_phase, l’état end_session est activé pour signaler la fin de la séance d’entraînement.

L’occurrence d’un défaut majeur comme un arrêt d’urgence ou une erreur électronique désactive le super état Training et active l’état Emergency_state. Ces défauts critiques nécessitent une connaissance et une re-initialisation du système. D'autre part, les défauts d'utilisation ou mineurs, tels qu’un mauvais positionnement du membre, produisent un événement de défaut anormal pour arrêter le mouvement courant et pour garantir la sécurité de l'utilisateur. La machine devrait donc être équipée par des capteurs afin de détecter ce type de défaut. 4.2. Module Phase

Une phase comporte une succession de séries d’entraînement séparée par une période de relaxation musculaire. Chaque série comporte un certain nombre de répétitions d'un motif « aller » suivi d’un motif « retour » qui sont choisis en fonction du groupe musculaire, du mode d’entraînement, et du type d’entraînement nécessaire pour la phase courante. Les attributs de ce module phase sont (FIG. 3): - Le nombre de série, nb_series, et de répétitions, nb_rep, de la phase; - les index de la série courante j, et de la répétition courant, k; - les identifiants des motifs “aller” et retour” qui seront invoqués dans la phase courante. Le Statechart du module Phase (FIG. 3) possède un super état, Mouvement, pendant lequel les lois de commande sont exécutées, un état Relaxation et un état end_phase indiquent la fin de la phase courante. L'invocation d'un exemple de ce module (de l'état Phase du module Séance d’Entraînement), déclenche la transition d'initialisation, qui met en place les attributs j et k pour indiquer la première répétition de la première série. Cette transition mène également à l’exécution de la méthode Calculate_Pattern, qui détermine les modules du troisième niveau correspondant au motif du mouvement (aller ou retour) nécessaire à la phase courante. Les noms de ces modules sont assignés aux attributs Motif_aller et Motif_Retour en fonction des valeurs des attributs mode, muscle et type de la phase concernée. L'état Reach_reference_position invoque le motif « Free_Return » (non décrit dans cet article) du niveau 3, qui déplace le membre à entraîner à la position de référence. En cette position, la première série de la phase courante d’entraînement commence à exécuter alternativement les états Go_movement and Return_movement qui invoquent les modules référencés, respectivement, par les attributs Motif_aller et Motif_Retour. Les transitions entre ces deux états sont prises en compte quand la machine arrive à une des positions de référence extrême du mouvement (en haut, en bas, à droite ou à gauche).


Phase nom /* nom de la phase*/ nb_rep /* nombre de répétitions de chaque séries */ nb_series /* nombre de séries de la phase */ muscle /* le muscle à entraîner (quadriceps, biceps,…) */ mode /* un des modes d’entraînement de la machine * type /* entraînement Concentrique, Excentrique, ou les deux */ j /* numéro de la répétition courante*/ k /* numéro de la série courante */ motif_aller /* nom du module correspondant au motif aller de la phase courante*/ motif_retour /* nom du module correspondant au motif retour de la phase courante */

Go_movement

i k ( d )

Relaxation

end_go_movement

repeat ∧ k≠nb_series relax

Reach_reference_position

invoke(Free Return)

k=nb_series

end_Free_Return

/ j=1, k=1, calculate_pattern

Return_movement

end_return_movement ∧ j≠nb_rep / j=j+1

end_return_movement ∧ j=nb_rep

end_phase

Movement

FIG. 3 - Spécification du module Phase

La transition de Go_movement à Return_movement met à jour également le compteur de répétition en incrémentant l'attribut j. Quand toutes les répétitions de la série courante sont exécutés (c.-à-d., j=nb_rep) l'état Relaxation est activé. Cet état à double transition de sortie peut également être activé si l'utilisateur donne un ordre relax durant l’exécution dans le super état Movement.

- la première transition est sélectionnée quand la

fin de la phase est atteinte (k=nb_series) pour activer l'état end_phase d'état;

- la seconde transition est activée par l'utilisateur pour commencer la prochaine série de la phase courante en incrémentant k, en plaçant j à 1 et en activant l'état Go_movement.

Les paramètres caractéristiques (force en fonction de la position) du mouvement en cours d’exécution sont traités et visualisés grâce à l’IHM durant les états Go_movement et Return_movement,

4.3. Une structure générique des Motifs Aller et Retour Les modules du niveau 3 (FIG. 1) représentent les états et séquences de commutations nécessaires à l’exécution d’un motif de mouvement donné. Une structure générique du comportement dynamique de ces modules a été identifiée. La figure FIG. 4a (respectivement, FIG. 4b) illustre cette structure générique pour les motifs « aller (respectivement, motif « retour »). Dans la suite nous détaillons l’exécution du motif « aller » (le comportement du motif « retour » étant semblable).

start

Reaching_up

entry: reference=θmin

throughout: Lθ

θ=θmin

Active

entry:

throughout:

θ<θmin+∆θ

At_down

entry: reference=θmax

throughout: Lθ

end

interrupt

resume

Auxiliary state

θ<θmin+∆θ

a- mouvement Aller

start

Reaching_down

entry: reference=θmax

throughout: Lθ

θ=θmax

Active

entry:

throughout:

θ>θmax-∆θ

At_up

entry: reference=θmin

throughout: Lθ

end

interrupt

resume

Auxiliary state

θ>θmax-∆θ

b- mouvement Retour

FIG. 4 - Comportement dynamique générique pour les modules du niveau 3.

Le module de FIG. 4a comporte 5 états de base : - Un état initial, At_down, permettant de garder l’articulation immobile à une position angulaire extrême (minimale) en exécutant une commande en position avec une certaine référence θmin correspondant à la position angulaire extrême (minimale) de l’articulation de l’utilisateur. - Un état de décélération progressive, Reaching_up, pour mener la machine à la position angulaire extrême supérieure, θmax. Cet état est activé dès que l'angle de décélération est atteint, i.e., θ < θmin+∆θ. - Un état terminal, end, pour arrêter le mouvement lorsque la position finale est atteinte. - Un état principal, Active, qui exécute la loi de commande adéquate du motif de mouvement correspondant. Dans le cas des lois de commande en force et en vitesse (c-à-d, mode isocinétique et isotonique), cet état est activé si la force appliquée par l'utilisateur dépasse un seuil de force minimum. Pour les autres modes, où le but est de contrôler la position angulaire de l’articulation, cet état est actif si une position prédéterminée est atteinte. - Un super état Auxiliary, comprenant un ou plusieurs sous états pour exécuter les opérations auxiliaires nécessaires, avec les lois de commande, garantissant les performances requises d'une session d'entraînement. Cet état est activé pour arrêter la machine si une contrainte de sécurité est violée pendant l'état actif. Dans ce cas, l'événement d'interruption (lié à la transition d'entrée) représente une force musculaire insuffisante; l’état Active peut


alors terminer sa tâche lorsque l’utilisateur applique la valeur de force nécessaire. L’état Auxiliary peut également être utilisé pour déplacer la machine d’une position de travail à une autre. Dans ce cas l’événement interrupt invoque un délai pour limiter la durée de l’état Active. Par exemple, la réutilisation du modèle générique du motif "aller" (FIG. 4a) dans le cas d'un module isocinétique est illustrée FIG. 5 (les spécifications des autres modules peuvent être trouvées dans [9]. Les valeurs fm, ωm, θmin et θmax doivent être fixées par un spécialiste du domaine. Le Statecharts du motif donne la séquence de commutation des lois de commande, nécessaire à la réalisation d'un mouvement isocinétique en motif "aller". Dans ce cas, la machine doit entraîner l’articulation avec une vitesse constante en un mouvement « aller » à condition que la force développée par l’utilisateur soit supérieure à la force seuil fm. Pendant chaque état, une commande en position Lθ, ou en vitesse Lω, est exécutée. Quand la force développée par l’utilisateur dépasse la force seuil dite de travail fm, on accède à l’état Active pour exécuter une commande en vitesse qui est la commande de base d’un entraînement isocinétique. Si l’utilisateur réduit sa force en dessous de fm, l’état Stop devient actif ce qui mène à un arrêt graduel de la machine en mettant la référence ou la consigne de vitesse à zéro. L’état Active s’enclenche de nouveau dès que l’utilisateur développe l’effort nécessaire au mouvement. 5. Structure du système de contrôle commande Pour réaliser une séance d'entraînement, nous avons montré que le système de contrôle commande de la machine doit d’une part exécuter une séquence de mouvements alternant des motifs « aller » et « retour » d’autre part assurer à la réalisation d'autres tâches tels que l'initialisation, l'étalonnage et la sécurité. Ce système de commande est naturellement hybride [3] et peut être représenté dan FIG. 6 où le contrôleur séquentiel représente les trois premiers niveaux hiérarchiques (section 4.) Partant des modes d’entraînement définis et des spécifications établies, trois lois de commandes (position, vitesse, et force) ont été identifiées pour effectuer l’ensemble des mouvements. L’enchaînement de ces lois de commande dépend pour chaque exercice à réaliser de la position angulaire de l’articulation, et de la force qu’exerce l’utilisateur. La structure générique du comportement dynamique des modules représentant les motifs « aller » et les motifs « retour » peut être employée pour n’importe quelle machine d’entraînement ou de rééducation sur un degré de liberté de l’articulation. L’exécution d’un motif de mouvement donné nécessite un contrôleur séquentiel de commutation des trois lois de commande identifiées : vitesse (Lω), force (Lf) et position (Lθ) représenté (FIG.7).

Isocinétique_aller fm /* force seuil nécessaire durant l’état Active */ ωm /* vitesse de référence de l’état Active */ θmin /* position angulaire extrême (minimale) de l’utilisateur*/ θmax /* position angulaire extrême (maximale) de l’utilisateur */ ∆θ /* distance de deceleration angulaire */ référence /* valeur de consigne de la loi de commande courante*/

fest < fm

fest > fm

fest > fm

Stop entry: reference = 0

throughout: Lω

Reaching_up entry: reference = θmin

throughout: Lθ

θ =θmin

Active entry: reference = ωm

throughout: Lω

θ < θmin+∆θAt_down

entry: reference = θmax

throughout: Lθ

θ < θmin+∆θ

end

FIG. 5 - Spécification du module Isocinétique_aller.

Signal de contrôle

Contrôleur Séquentiel

Machine d'entraînement

Sélection de la loi de

commande et de la consigne

Contrôleur Continu à commutations

Information capteur

Informationscapteur

FIG. 6 - Structure du système de contrôle commande

de la machine.

L'activation de ces lois de commande dépend de la variable i (i ∈ 1,2,3) délivrée par le contrôleur discret. Afin de garantir la continuité de la variable de commande au moment de la commutation entre les lois de commande, une solution pratique basée sur l'utilisation d'un filtre numérique a été développée pour garantir un comportement souple du système et assurer le confort de l'utilisateur [8]. La valeur du paramètre, qui conditionne la largeur de bande de filtre est fixée expérimentalement pour chaque utilisateur et, d'une manière générale, cette valeur est petite pour des exercices d’entraînement et grande dans le cas des sessions de rééducation.

θ

e Lf+−

reference

Machine

Membre du patient

f

1

2

3

θ

Reactions, solicitations

u

i

1

2

3

switch

Lθ

Contrôleur sequentiel

switch

f θ

α

filtre

Lω

ω

FIG. 7 - Contrôleur à commutations.


5.1. Loi de commande de vitesse Essentiellement utilisée pendant le mode isocinétique. Le but principal de la loi de commande de vitesse est de garantir une vitesse constante sans erreur statique afin d'éviter la dérive de la pièce mobile de la machine quand la référence est zéro. Pour répondre à ces exigences, il est nécessaire mettre en oeuvre un contrôleur qui tient compte des non-linéarités du modèle. De plus, la commande doit être robuste vis-à-vis des variations du modèle induites par les interactions mécaniques homme-machine [7]. 5.2. La loi de commande en position La loi de commande en position est employée dans le mode d’entraînement isométrique où le patient doit appliquer une force maximale autour d'un nombre fixe de positions déterminées par le praticien. Par ailleurs, cette loi est appliquée près des positions extrêmes des modes d’entraînement pour réaliser une décélération douce vers la position finale. Cette loi de commande doit respecter d’une part une erreur statique nulle vis à vis de la position imposée par le médecin en dépit de la force exercée par le patient et d’autre part un positionnement du bras qui doit se faire sans dépassement de la consigne [8-9]. 5.3. Loi de commande en force Cette loi de commande est utilisée dans les modes : isotonique, physiocinétique, assisté et pendant les étirements. Son but est d’assurer au système un comportement classique d’une machine à poids, tout en évitant les inconvénients de ces machines, tels que les pertes dues aux systèmes de transmission, la non réversibilité etc. [7] [9]. Dans ces conditions et contrairement à la machine à poids, la charge imposée à l’utilisateur correspond exactement aux spécifications de l’utilisateur grâce à un étalonnage systématique qui permet de compenser la gravité. 6. Réalisations et résultats

La démarche présentée a été appliquée pour le développement et la conception d’une machine pour le genou et les membres inférieurs, appelée Multi-Iso (FIG 8). Réalisée dans le cadre d’un contrat industriel avec la société MYOSOFT [9], elle est actuellement en phase de commercialisation. Cette machine à usage médical et sportif, permet la rééducation, l’évaluation et l’entraînement musculaire des quadriceps et des ischio-jambiers. Le patient est assis sur un fauteuil réglable qui s’adapte à sa morphologie et aux besoins de ses séances d’entraînement. La partie inférieure de la cuisse est bloquée par un dispositif de sangles permettant de maintenir l’axe de rotation des genoux dans l’axe de rotation du bras mobile de l’appareil.

FIG. 8 – MULTI-ISO Le principe de fonctionnement consiste à appliquer, sur un (ou deux) membre(s) inférieur(s) du patient, un couple exercé par un moteur synchrone autopiloté.Cette motorisation permet de faire varier la force d’entraînement appliquée sur la jambe de 0 à 200daN, avec des vitesses comprises entre 0 et 350°/s. Afin d’illustrer certaines performances de Multi-Iso, nous présentons ici quelques résultats d’une étude de validation effectué dans le cadre d’une collaboration avec l’UFR STAPS de l’Université de Reims. Les exemple choisis portent sur le développement de la force musculaire des quadriceps (effort dirigé vers le haut) en mode Isocinétique à la vitesse de 60°/s pour un groupe de 5 personnes ; les exercices proposés se sont déroulés sur trois semaines à raison de quatre entraînements par semaine. L’entraînement réalisé est de type Concentrique pour trois sportives, alors que les deux autres travaillent simultanément en Concentrique et en Excentrique. Chaque séance débute par deux séries d’échauffement avec plusieurs répétitions. Après deux minutes de repos, l’individu effectue trois séries d’évaluations ; il applique à chaque fois son effort maximal et un temps de repos de deux minutes lui est accordé entre les séries. Cette phase d’évaluation permet de déterminer une courbe d’effort moyen illustrant, à chaque séance, la progression du pic de force, le travail et la puissance développée. Ensuite, le sportif commence l’entraînement effectif en Isocinétique qui comporte deux séries de trois répétitions, puis quatre de six et enfin une série de dix répétitions. Au bout de trois semaines d’entraînement, nous avons choisi de ne présenter ici que les résultats des sportives les plus assidues (un individu en Concentrique et un autre en Concentrique et Excentrique). La figure 9 montre pour chaque semaine, les moyennes des courbes d’évaluation de l’individu n°1.


première semaine

deuxième semaine

troisième semaine

FIG. 9 - Évolution de la courbe d’effort de l’individu

n°1 en concentrique

PREMIERE SEMAINE

DEUXIEME SEMAINE

TROISIEME SEMAINE

FIG. 10 - Évolution de la courbe d’effort de l’individu

n°2 en excentrique La courbe d’évolution de l’effort (FIG.9) montre une amélioration du pic de force pour la dernière. Concernant le second individu, les résultats obtenus montrent que pour l’entraînement Excentrique sur la figure (FIG.10), les courbes d’effort des quadriceps présentent une augmentation significative. Les résultats obtenus mettent en évidence l'apport de Multi-Iso dans le domaine sportif, les performances de son système de contrôle commande vis-à-vis du cahier des charges 7. Conclusion Pour répondre à des besoins des domaines de la médecine et du sport, nous avons proposé dans cet article une méthodologie de conception de machines d’entraînement d’évaluation et de rééducation musculaire, allant de la spécification des modes d’entraînement à la conception du système de contrôle commande. Cette démarche nous a permis de mettre en évidence quatre niveaux hiérarchiques nécessaires pour ordonnancer l’exécution des lois de commande tout en

respectant les contraintes imposées par la séance d’entraînement. Nous avons montré que l’exécution d’une séance d’entraînement consiste à enchaîner une séquence de mouvement d’aller et retour qu’il faut personnaliser en fonction des caractéristiques du mode choisi et de l’utilisateur. L’exécution d’un motif de mouvement donné est réalisé grâce à un contrôleur séquentiel de commutation des trois lois de commande identifiées : vitesse, force et position. La structure générique du comportement dynamique des modules représentant les motifs « aller » et les motifs « retour » peut être employée pour n’importe quelle machine d’entraînement ou de rééducation sur un degré de liberté d’une articulation. Par ailleurs, nous travaillons actuellement dans le cadre d’un autre contrat industriel sur une machine pour les membres supérieurs. Si les modes à un degré de liberté de cette machine, pour les articulations du coude et de l’épaule, restent identiques, dès qu’il faut effectuer des mouvements physiologiques, d’autres problèmes apparaissent [10]. Ces problèmes sont liés à la complexité des mouvements dus à la multiplication des degrés de libertés et aux contraintes liées à la sécurité de l’utilisateur. Remerciements Les auteurs remercient la région Champagne-Ardenne pour son soutient à l’équipe Génie biomédical dans le cadre du CPER SYS-REEDUC. Références [1] L. Afilal, N. Manamanni, S. Moughamir, J.

Zaytoon, Méthode et système de personnalisation d’un appareil d’exercices physiques, Brevet 04 05256 déposé par l’URCA, mai 2004.

[2] M. Albert, Entraînement musculaire et isocinétisme exentrique . Paris: Masson, 1997.

[3] Antsaklis, P.J., editors (1998), Special Issue on Hybrid Control Systems, Proceedings of the IEEE, vol. 43, No.4, pp. 452-587, April 1998

[4] JL. Croisier, JM.Crielaard, Critical analysis of use of an isokinetic device. Journal de Traumatologie du Sport, pp. 48-52, 1995.

[5] M. Gross, Intra-machine and inter-machine reliability of the Biodex and Cybex II for knee flexion and extension peak torque and angular work, J. Orthopedic and Sports Physical Therapy, vol. 13, pp. 329-330, 1991.

[6] D. Harel, Statecharts, a visual formalism for complex systems, Journal of science of computer prog., vol. 8(1), pp. 231-274, 1987.

[7] N. Manamanni, L. Afilal, S. Moughamir, T. Cherouali and J. Zaytoon, Characterisation and implementation of mechanical stimulation on isokinetic machines, Control Engineering Practice, Vol. 13, n° 9, pp 1151-1161, 2005.


[8] S. Moughamir, J. Zaytoon, L. Afilal, Modelling and analysis of an industrial hybrid control system. Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics, San Diego (CA) USA. p. 851-856, 1998.

[9] S. Moughamir, J. Zaytoon, N. Manamanni, L. Afilal, A system approach for control development of lower-limbs training machines, Control Engineering Practice, vol. 10, n° 3, pp. 287-299, 2002.

[10] S. Moughamir; A. Deneve; J. Zaytoon; L. Afilal Hybrid Force/Impedance Control for the Robotized Rehabilitation of the Upper Limbs 16th IFAC World Congress, Prague, July 2005.

[11] J. Zaytoon, S. Moughamir, N. Manamanni, "Formal specifications of sequential control for training machines for the lower limbs," 23rd annual conf. of the IEEE EMB. Istanbul, 2001.

[12] ANAES, Les appareils d’isocinétisme en évaluation et en rééducation musculaire : intérêt et utilisation, Agence Nationale d'Accréditation et d'Évaluation en Santé, http://www.anaes.fr, 2000.


http://www.anaes.fr/

Ballons dirigeables autonomes

Simon LacroixLAAS/CNRS

7, Ave du Colonel Roche31077 Toulouse Cedex [email protected]

Résumé

Depuis une petite dizaine d’années, les ballons dirigeablesconnaissent un certain succès dans la communauté robo-tique, et chaque année voit de nouveaux projets se concré-tiser dans les laboratoires. L’objet de cet article est de fairele point sur ces activités, en recensant les principaux tra-vaux réalisés et en identifiant les points durs qui restentencore à résoudre pour que ces projets débouchent sur desapplications effectives. Après une brève introduction surles différents aspects propres aux ballons dirigeables (his-torique, technologies et applications), les principaux pro-jets de robotisation de ballons dirigeables sont présentés.L’article se conclut par une discussion sur les travaux àmener et les perspectives futures.

1 Introduction

Bien que déjà opérationnels depuis plus 10 ans, les dronesintéressent de plus en plus la communauté des roboti-ciens. D’une part le développement des technologies per-met d’envisager des concepts innovants, pour lesquels lacommande de vol commence seulement à être étudiée, no-tamment dans la famille des drones à voilure tournante.D’autre part, il s’agit aussi d’étendre les capacités opéra-tionnelles de ces engins, en passant del’automatiquequipermet de réaliser des trajectoires pré-programmées àl’au-tonomie, qui permet de réaliser des missions plus com-plexes, en considérant notamment les informations four-nies par la perception de l’environnement survolé.

Les ballons dirigeables font partie des vecteurs considé-rés, et de nombreux projets de ballons dirigeables auto-nomes ont récemment vu le jour dans différents labora-toires. Ces engins ont une place un peu à part, et présentantvraisemblablement des intérêts opérationnels dans certainscontextes. L’objet de cet article est de faire un point surles travaux menés, et d’essayer d’entrevoir l’avenir de telssystèmes.

Après un très bref rappel historique, la section 3 donnebrièvement quelques éléments techniques sur les ballonsdirigeables, et la section 4 mentionne les différentes appli-cations de ces engins. La section 5 présente les principauxprojets de ballons dirigeables autonomes. Enfin, l’article seconclut par une brève discussion.

2 Bref historiqueIl ne s’agit bien entendu pas de présenter ici en détail l’his-toire des technologies des ballons dirigeables (de nom-breux ouvrages et sites web existent sur le sujet - parexemple [30]), mais les grandes lignes de cette histoire sontutiles à connaître, notamment pour mettre en perspective lepotentiel des ballons dirigeables.Après les vols en ballonsnon dirigeablesdurant la pre-mière moitié du XIXme siècle, le premier vol en ballonmotorisé a été réalisé par H. Gifffard en 1852 (à bord d’unballon de 300 m3 d’hydrogène mû par un moteur... à va-peur !), mais le premier vol en ballon à proprement parlerdirigeablea été réalisé par deux officiers français en 1884.La fin du XIXme siècle a vu de nombreux progrès réali-sés, et le développement des moteurs à explosion a permisla réalisation d’engins opérationnels. Les premières appli-cations effectives ont vu le jour au début du XXme siècle,en Grande Bretagne, en France et particulièrement en Al-lemagne où plus de 40000 passagers ont été transportés àbord de Zeppelins entre 1910 et 1914. Pendant le premierconflit mondial, quelques ballons ont été utilisés pour desmissions de reconnaissance, mais ils ont été bien vite ar-més, et plusieurs dizaines de ballons allemands ont été uti-lisés lors de raids au dessus de Londres et Paris. Ces opé-rations on cessé en 1917, à cause de leur vulnérabilité faceaux progrès des plus lourds que l’air.L’entre-deux-guerres apparaît véritablement comme l’âged’or des ballons dirigeables, avec les liaisons transatlan-tiques réalisées par les Zeppelins bien entendu, mais aussiavec des expéditions polaires et des développements mi-litaires britanniques et américains. Mais cette période estaussi émaillée de catastrophes retentissantes. Durant le se-cond conflit mondial, de très nombreux ballons sont exploi-tés par la marine américaine, avec pour fonction d’escorterles navires et de les aider à détecter les sous-marins.Les ballons dirigeables ont ensuite connu une véritable tra-versée du désert jusqu’au début des années 70, avec la ré-apparition de ballons modernes exploités à des fins publi-citaires (les célèbres “Good-Year”). À partir de cette pé-riode, de nombreux projets de recherche visant à des sys-tèmes permettant de transporter des charges très lourdes oùà maintenir en l’air une charge utile pendant de très longuesdurées ont aussi été étudiés dans le monde.


L’histoire du développement et de l’utilisation des ballonsdirigeables est bien entendu indissociable de celle des pluslourds que l’air : les différents records établis par les en-gins aériens (distance, temps de vol, altitude) ont d’abordtous été établis par des ballons, avant d’être rapidementbattus par des avions, et le même schéma s’est reproduitavec les applications des engins aériens, qui ont d’abordété réalisées par des ballons. Cependant, nous verrons dansla section 4 qu’il existe des applications pour lesquelles lesballons présentent toujours un intérêt opérationnel ou éco-nomique certain.

La situation aujourd’hui

Depuis la “renaissance” des ballons dirigeables au débutdes années 1970, le nombre de ballons pilotés stagne à untrès faible niveau : en 2000, seulement 30 ballons étaienthomologués et en service dans le monde entier, dont lamoitié aux États-Unis [24], et la situation a peu évolué de-puis. Ces engins sont essentiellement dédiés à des opéra-tions promotionnelles, voire à des “vols de croisières”, etparfois pour des missions d’observation ou de surveillance(ainsi lors des JO d’Athènes en 2004). Bien plus nombreuxsont les petits ballons radio-commandés, mais ils sont aussiprincipalement utilisés pour des opérations de communica-tion commerciale.Mais l’évolution des technologies semble indiquer la possi-bilité du développement de nouveaux systèmes opération-nels - même si les esprits les plus critiques ne manquentpas de remarquer que s’il en est ainsi depuis près de trenteannées, aucune application industrielle sérieuse n’a vu lejour depuis. Les évolutions qui laissent espérer un retoureffectif des ballons dirigeables sont essentiellement liéesaux matériaux, à la meilleure compréhension de lois quirégissent le vol des ballons, et à l’optimisation des ren-dements des systèmes de propulsion. Les modèles “NT”,derniers nés de la compagnie Zeppelin, dont un exemplairepromène régulièrement des passagers amateurs au dessusdu lac de Constance depuis quelques années, sont tout àfait représentatifs de ces progrès technologiques.La communauté académique et industrielle est très active :des conférences “Lighter than air” sont organisées auxÉtat-Unis tous les deux ans par l’American Institute of Ae-ronautics and Astronautics, et en alternance l’associationbritannique Airship Association [1] organise en Europe les“Airship Conventions and Exhibitions” - cette dernière as-sociation édite par ailleurs un bulletin d’actualités trimes-triel très complet. En France, l’association Aerall organisede manière moins régulière des rencontres autour des bal-lons dirigeables [2].

3 Quelques éléments techniquesLes technologies impliquées dans la conception des bal-lons dirigeables sont très nombreuses, et font appel à desdomaines variés (aérodynamique, matériaux, systèmes depropulsion...). L’inventivité des chercheurs et ingénieursdans le domaine a été est est toujours très grande, et la ma-

jorité des communications données dans les conférencesporte sur ces aspects. Nous rappelons ici juste quelques no-tions élémentaires - le lecteur intéressé pourra se rapporterà [21], ouvrage qui fait référence en la matière.

3.1 Notions de bases

La principale caractéristique des ballons dirigeables estbien entendu que leur sustentation est principalement dûeà la poussée d’Archimède : cela a directement une consé-quence bénéfique sur leurs besoins énergétiques, qui sontessentiellement requis pour leur déplacements et non pourleur maintien en vol. De nos jours plus aucun ballon di-rigeable n’est gonflé à l’hydrogène pour des raisons évi-dentes de sécurité, et la grande majorité utilise de l’hé-lium1, quelques rares prototypes fonctionnant à vapeur,voire à air chaud.Notons cependant que l’expression “plus léger que l’air”est impropre : la densité de tout ballon dirigeable doittou-jours être légèrement supérieure à celle de l’atmosphèreoù il évolue, sans quoi il devient quasiment incontrôlable.Le supplément de portance nécessaire à leur maintien envol est obtenu soit grâce à des effets aérodynamiques pro-voqués par une vitesse de déplacement et une inclinaisonde l’enveloppe ou de surfaces de contrôle, soit grâce àdes actionneurs qui propulsent de l’air vers le bas (voirsection 3.3). La maintien d’une densité constante par rap-port à l’atmosphère où le ballon évolue doit lui aussi êtrecontrôlé, pour pallier les variations de température et depression de l’atmosphère, mais aussi la variation de massedu ballon dûe à la consommation de carburant : cela estle plus souvent réalisé grâce à des “ballonnets", petites en-veloppes localisées à l’intérieur de l’enveloppe principale,remplies d’air et dont la pression est contrôlée. Le contrôlede la pression des ballonnets modifie aussi leur volume,assurant ainsi indirectement un contrôle de la pression degaz porteur, ce qui permet de maintenir la forme des enve-loppes souples. Pour les ballons les plus sophistiqués, lesballonnets sont aussi utilisés pour contrôler l’équilibrage.Les effets de la loi dite des “carrés-cubes” sont utiles àconnaître : il s’agit tout simplement des conséquences dufait que la surface d’une enveloppe croît avec le carré desa taille, tandis que le poids du gaz qu’elle embarque croîtavec le cube de sa taille. La première conséquence est quele ratio charge utile embarquable / poids de l’enveloppeest plus favorable quand la taille du ballon grandit, maisla conséquence la plus importante est que la sensibilité auxperturbations aérologiques diminue avec la taille d’un bal-lon, ces perturbations étant proportionnelles à la surface del’enveloppe, tandis que l’inertie d’un ballon est bien en-tendu proportionnelle à son poids.

3.2 Types de dirigeables

On distingue trois types de ballons dirigeables :– Les dirigeables rigides (tels les Zeppelin des années 30),

1La densité relative de l’hélium fait que l’on considère en premièreapproximation qu’un m3 d’hélium permet de soulever 1 kg.


FIG. 1 – Quelques formes de ballon dirigeables : le Zeppe-lin NT (2000, forme “classique”), le prototype Dinausaure(1978, forme hybride), le mini ballon Skycell (2000, formelenticulaire).

dont la forme de l’enveloppe est assurée par la structuremécanique, indépendemment de la pression du gaz por-teur ;

– Les dirigeables semi-rigides, qui consistent en une enve-loppe souple fixée sur une longue structure rigide quien constitue le socle (on parle de “quille”). Tous lesconcepts modernes de ballons de grande taille sont réa-lisés ainsi.

– Et les dirigeables souples (“blimp” en anglais), qui sontconstitués d’une enveloppe à laquelle sont fixés les élé-ments nécessaires à son opération (actionneurs, énergieet charge utile). La plupart des petits dirigeables sontréalisés ainsi, la loi des carrés-cubes empêchant l’utili-sation de structures rigides.

Les principales formes d’enveloppe rencontrées sont lessuivantes (figure 1) :– Forme “classique” ou “en cigare” : c’est la forme la plus

répandue, et c’est celle de tous des ballons pilotés actuel-lement opérationnels dans le monde. Cette forme permeten effet d’obtenir une bonne portance aérodynamique endéplacement, tout en minimisant la traînée.

– Forme “ailes hybrides” : il s’agit cette fois d’optimiserencore plus la portance aérodynamique.

– Formes lenticulaire et sphériques : lorsque des ballonssont conçus pour voler en conditions quasi-statiques (àl’intérieur de bâtiments par exemple), on peut avoir inté-rêt à avoir une forme symétrique.

Enfin de nombreuses formes plus originales ont été pro-posées dans le développement de certains prototypes, sansqu’aucun concept particulier ne rencontre de grand succès.

3.3 Moyens de contrôleHormis le contrôle de la pression interne de l’enveloppe etéventuellement de l’équilibrage, deux moyens de contrôlesont couramment utilisés pour les ballons dirigeables :– Les propulseurs, quasiment exclusivement basés sur des

hélices. Ils peuvent être placés en différentes positions,

et même être “vectorisés” (orientables). Une configura-tion classique assez répandue est une paire de propul-seurs couplés, situés au niveau de la nacelle, dont l’anglede tangage peut être réglé afin d’obtenir une composantede poussée verticale, permettant ainsi le décollage ver-tical et le maintien d’une altitude à des vitesses où leseffets aérodynamiques ne sont pas opérants.

– Les surfaces de contrôle, le plus souvent situées à laqueue de l’appareil pour permettre un contrôle de la pro-fondeur et du lacet.

Bien entendu, les engins destinés à des vols quasi statiques(le plus souvent sphériques ou lenticulaires) sont dépour-vus de surfaces de contrôles.

3.4 Avantages et inconvénients

On trouvera dans la littérature de nombreuses analyses desvertus comparées entre les ballons dirigeables et les autresengins aériens (ainsi dans l’introduction de [14] pour lesengins de faibles dimensions), dans lesquelles les ballonssemblent être les vecteurs idéals pour un très grand nombred’applications. Mais force est de reconnaître que l’histoiredément souvent les défenseurs des ballons les plus enthou-siastes... En simplifiant à l’extrême, nous retenons que lesdeux principaux avantages des ballons sont les suivants :

– Faible consommation énergétique, ce qui favorise bienentendu les plateformes aériennes dites “à grande endu-rance”

– Sécurité : si les vols sont effectués dans des conditionsmétéorologiques adéquates, les ballons sont des vecteursextrêmement sûrs, pour eux-mêmes et pour leur environ-nement.

Mais leur inconvénient principal et de taille est leur sensi-bilité aux conditions météorologiques, et particulièrementaux rafales de vent : ainsi le ballon dirigeable de 18 m3

Karma utilisé au LAAS devient très difficile à manoeu-vrer avec un vent supérieur à 10 km/h (mais la loi des car-rés/cubes fait que des engins plus gros restent opération-nels pour des vents plus grands). Comme pour tout enginaérien, ce sont bien entendu les phases de décollage et d’at-terrissage qui sont les plus délicates - mais à cela s’ajoutentaussi les phases de manoeuvres au sol, qui deviennent viteproblématiques par grand vent2.

4 Quelles applications ?

L’histoire a montré que si les ballons dirigeables ont sou-vent été les premiers vecteurs utilisés pour la plupart desapplications envisagées des engins aériens, ils ont toujoursété rapidement remplacés par les plus lourds que l’air. Maisleur spécificités font qu’ils restent des systèmes intéres-sants pour différentes niches applicatives, que nous présen-tons rapidement ici.

2De nombreux accidents dommageables pour les ballons dirigeablesont lieu alors qu’ils sont au sol.


FIG. 2 – Illustrations du CargoLifter et du Skycat d’ATG(aucun prototype de ces tailles n’a encore vu le jour).

4.1 Transport de charge

De très nombreux projets de ballons dirigeables de grandetaille dédiés au transport de charges exceptionnelles ont étéinitiés (ainsi le projet Titan, ballon lenticulaire de de 188mètres de diamètre pour un volume 900.000 m3 mené auCNRS pendant les années 1970). Ce type d’engin pourraitpermettre de transporter des charges jusqu’à plusieurs di-zaines de tonnes sans rupture de charge entre le départ etl’arrivée, et sans besoin d’infrastructure spécifique, le bal-lon ne devant pas nécessairement atterrir pour prendre etdéposer la charge. Le projet industriel CargoLifter initiéen Allemagne en 1997 est sans doute un des projets quia le plus marqué les esprits, tant l’ambition et les inves-tissements financiers étaient importants. L’objectif était deconstruire un engin de 260 mètres de long, capable d’em-barquer des charges de 160 tonnes, mais le projet a mal-heureusement fait faillite en 2002, après que de nombreuxretards aient été pris dans le développement de différentsdémonstrateurs technologiques.Les difficultés technologiques pour réaliser ces systèmeshors du commun sont encore nombreuses, mais motiventtoujours des investissements industriels. Ainsi le groupebritannique ATG continue à envisager le développement de

tels engins [29].

4.2 Plateformes stratosphériques

Une autre application propre pour laquelle les ballons di-rigeables pourraient s’avérer idéaux sont les plateformesstratosphériques ou “Hale” (High Altitude Long Endu-rance). Ce genre de système pourrait réaliser les mêmestâches qu’un satellite (observation, relais de communica-tion...) en restant plusieurs semaines au dessus d’une zonedonnée, à des altitudes de l’ordre de 20 à 30 kilomètres.Aucun projet n’a encore abouti à des systèmes opération-nels, et à notre connaissance aucun prototype n’a non plusdémontré la faisabilité technologique. Mais la viabilité éco-nomique par comparaison aux coûts de satellites est telleque c’est sans aucun doute le type d’application qui génèreactuellement le plus de développements industriels dans ledomaine des ballons dirigeables [22, 25]. Notons qu’un deséléments qui fait que ce genre de système peut être consi-déré de manière réaliste est que les vents stratosphériquessont biens plus faibles qu’aux altitudes auxquelles volentles avions civils par exemple : ajouté au fait que la pres-sion atmosphérique est aussi très faible, cela rend possiblele déploiement et la stabilisation d’engins avec de faiblesmoyens énergétiques.

4.3 Exploration planétaire

De nombreuses études sur la possibilité d’utiliser des bal-lons pour explorer une planète ont été menées par diffé-rentes agences spatiales [12]. Le système le plus aboutiétait sans doute le système Franco-Russe “Mars 94”, dontle lancement fut repoussé en 1998, et finalement annuléaprès l’échec de la mission Mars 96, mais il ne s’agissaitpas à proprement parler d’un ballon dirigeable, puisqu’ildevait se déplacer au gré des vents martiens et des varia-tions thermiques jour/nuit [31]. Si aujourd’hui aucune mis-sion n’est programmée, des travaux de plus en plus pré-cis sont toujours réalisés, tant pour l’exploration de Mars[17, 13] que pour celle de Vénus [28]. Les travaux sontprincipalement menés au JPL, mais l’ESA supporte aussides travaux exploratoires [4].

4.4 Observation

Comme la plupart des vecteurs aériens, les ballons diri-geables peuvent bien entendu être exploités pour des mis-sions d’observation, leur intérêt étant dans ce cas la capa-cité d’évoluer lentement sur de longues périodes. Une mis-sion de détection de mines au Kosovo avec un radar à pé-nétration de sol a ainsi été largement médiatisée [7]. AuxÉtats-Unis, la emploi de ballons pour la surveillance desfrontières a été promu : c’est ici l’effet dissuasif qui est re-cherché.

4.5 Publicité

Il s’agit d’une application à ne pas négliger, puisque la plu-part des ballons dirigeables actuellement en service, qu’ilssoient pilotés ou radio-commandés, sont dédiés à cela.


FIG. 3 – Un des ballons du projet Sass Lite.

4.6 Intérêt de l’autonomie ?

Au vu des différents contextes applicatifs possibles, il estpertinent de se demander si l’autonomie peut être utile.Nous pensons que la réponse est affirmative, pour plusieursraisons :– Il y a d’une part les contextes où elle s’impose naturel-

lement, le pilotage par un opérateur n’étant pas envisa-geable. Il s’agit bien entendu des plateformes stratosphé-riques et des ballons d’exploration planétaire.

– Et il y a d’autre part les applications où l’autonomie peutapporter en termes de coûts (missions d’observation etde communication publicitaires), et permettre des opé-rations de plusieurs dizaines d’heures.

Enfin, il est raisonnable de penser que des techniques decontrôle de vol avancées pourront à terme permettre desopérations de tous types de ballons plus sûres et plus ro-bustes aux perturbations aérologiques.

5 Aperçu des principaux projets deballons autonomes

5.1 SASS LITE

Si on excepte les contrôleurs automatiques de cap qui équi-paient déjà les Zeppelins transatlantiques pendant les an-nées 30, à notre connaissance le premier projet de ballonautonome est le Sass Lite (“Small Aerostat SurveillanceSystem, Low Intensity Target Exploitation”) mené par lasociété américaine Applied Research Associates3 dans uncontexte militaire [6] (figure 3). Le projet a été initié à lafin des années 80, et en 1993 différents ballons de 300 à600 m3, munis d’un moteur thermique de 35 chevaux, ontréalisés des déplacements autonomes de plusieurs dizainesde kilomètres, pendant plusieurs heures. Malheureusementaucune information technique sur les lois de commandesutilisées n’est donnée dans les publications.

5.2 Aurora

Le projet de ballon dirigeable autonome Aurora est sansdoute celui qui est le plus connu dans la communauté des

3Société maintenant devenue “Bosch Aerospace”.

FIG. 4 – Le ballon du projet Aurora, et un résultat de suivide points de passage

roboticiens, et aussi un de ceux qui produit le plus de résul-tats (ce projet a été présenté en détail aux JNRR 2001 [27]).Initié par Alberto Elfes à la fin des années 90 à l’Infor-mation Technology Center de Campinas (Brésil), le pro-jet concerne le contrôle autonome du vol d’un ballon, et ad’entrée inclut l’instrumentation et le développement d’unprototype [14, 15]. Le ballon utilisé est un modèle AS-800 de la société britannique Airspeed Airship (aujour-d’hui disparue), de 25 m3 et doté de deux moteurs ther-miques de modélisme montés selon sur un axe orientableen tangage (mécanisme classique de propulsion vectori-sée). Outre les développements matériels et logiciels quiont consisté à “robotiser” ce ballon y installant les capteursnécessaires (GPS, compas, gyromètres...), des travaux ontété menés sur la modélisation dynamique [16, 3] et bien en-tendu sur le contrôle de vol [8, 9]. Ces travaux ont été éten-dus par des collaborations avec l’Institut Superior Tecnicode Lisbonne et l’équipe Icare de l’INRIA, en considérantnotamment le contrôle par asservissement visuel [27]. Ànotre connaissance, seuls des contrôleurs de type PID pourasservir des paramètres de vol (cap, altitude) et rallier despoints de passage ont été effectivement testés en conditionsréelles (figure 4)


FIG. 5 – Le ballon Lotte de l’Université de Stuttgart. Noterl’unique propulseur situé à l’arrière.

5.3 Lotte

Le projet Lotte est mené par l’Université de Stuttgart de-puis le début des années 90. Il a d’abord consisté à réa-liser un ballon d’une longueur de 16 m et de 105 m3

de volume (figure 5), et différents développements tech-nologiques associés, notamment l’utilisation de cellulesphotovoltaïques [23]. De sérieuses études aérodynamiquesont ensuite été menées (modélisation, identification deparamètres en soufflerie, développement de contrôleurs[33, 32]). Malheureusement peu de communications inter-nationales sont publiées autour de ce projet, dont nous neconnaissons aujourd’hui pas précisément l’avancement.

5.4 Karma

Le Laas a commencé à s’intéresser aux ballons dirigeablesautonomes en 2000, et a développé un prototype dont lepremier vol a eu lieu en Mars 2003 (figure 6). Outre le dé-veloppement du prototype et son exploitation pour menerdes travaux sur la cartographie de l’environnement survolé,différents travaux relatifs au contrôle de vol ont été me-nés : modélisation du système et identification des para-mètres du modèle (en soufflerie en collaboration avec Su-pAéro [5], ou bien à partir de données de vol [26]), dé-veloppement de différents contrôleurs (stabilisation de pa-ramètres de vol et suivi de trajectoires [20, 19]), et plusrécemment planification de trajectoire.Tous ces travaux ont été évalués en simulation, mais aucunn’a encore débouché sur un contrôle effectif du ballon, quiest toujours téléopéré lors de ses vols.

5.5 Autres projets

De très nombreux autres projets de ballons dirigeables au-tonomes ont été et sont menés dans d’autres laboratoires etméritent d’être mentionnés :– Le projet mené au LSC, où les travaux portent surtout sur

la planification de trajectoires faisables et leur suivi [18]– Le projet Alpha mené entre l’ENST et l’AnimatLab et

avec la société Airstar, dans lequel des contrôleurs sontgénérés par des techniques évolutionnistes [11]

– Un projet est mené à l’université Hagen en Allemagne– Deux projets sont en genèse à l’Université des Andes à

FIG. 6 – Le ballon Karma du Laas

Bogotta (projet “Uran”) et à l’Institut Supérieur de Ro-botique au Portugal

Cette liste est loin d’être exhaustive, et ne mentionne no-tamment pas les projets de ballons autonomes “indoor”(qui ont été notamment menés au laboratoire GRASPd’Upenn [34] et à Berkeley - projets qui semblent avoirété abandonnés).

6 DiscussionLe développement futur des ballons dirigeables sera vrai-semblablement restreint à des applications très particu-lières, mais potentiellement utiles et économiquementviables. L’automatisation de leur vol, fonctionnalité bienévidemment indispensable à leur autonomie, permettrasans aucun doute de favoriser ce développement, notam-ment pour les applications où elle s’impose.Si le nombre de projets de recherche dans le domainecroît, le contraste reste saisissant entre le grand volume desétudes théoriques et le très faible nombre de prototypes quiont effectivement validé des développements - et le plussouvent en exploitant des techniques de contrôle extrême-ment simplifiées. Nous pensons qu’il y a principalementdeux raisons à cette situation : d’une part le déploiementd’un ballon est une opération logistiquement assez lourde,et d’autre par la difficulté du problème est grande. Le mo-dèle d’un ballon dirigeable n’est en effet pas aisément sim-plifiable, ses paramètres ne sont pas faciles à déterminerprécisément, et surtout il s’agit d’un système qui a unegrande inertie et qui est extrêmement sensible aux pertur-bations aérologiques.

Références[1] The Airship Association. www.airship-

association.org.

[2] Association Aerall. www.aerall.com.

[3] J.R. Azinheira, E. de Paiva, J. Ramos, S.S. Bueno,M. Bergerman, and S.B.V. Gomes. Extended dyna-


mic model for aurora robotic airship. In14th AIAALighter-Than-Air Conference and Exhibition, Akron,Ohio (USA), July 2001.

[4] D. Barnes, P. Summers, and A. Shaw. An investi-gation into aerobot technologies for planetary explo-ration. In 6th ESA Workshop on Advanced SpaceTechnologies for Robotics and Automation, Noord-wijk (The Netherlands), Dec. 2000.

[5] A. Bonnet, E. Hygounenc, and P. Soueres. Modéli-sation d’un dirigeable sans pilote pour le développe-ment d’une stratégie de vol autonome.Revue Scienti-fique et Technique de la Défense, 62(4) :43–51, Dec.2003.

[6] J.H. Boshma. The devlepment progress of the U.S.Army’s SASS LITE, unmanned robot airship. In10thAIAA Lighter-Than-Air Conference and Exhibition,Scottsdale, AZ (USA), Sept. 1993.

[7] S. Christoforato and P.K. Bishop. Mineseeker de-ployment to kosovo for mine survey. In14th AIAALighter-Than-Air Conference and Exhibition, Akron,Ohio (USA), July 2001.

[8] E.C. de Carneiro, S.S. Bueno, and M. Bergerman.A robust pitch attitude controller for aurora’s semin-autonomous robotics airship. In13th AIAA Lighter-than-air Systems Technology Conference, Norfolk,Va. (USA), pages 141–148, July 1999.

[9] E.C. de Paiva, J.R.H Carvalho, P.A.V. Perreira, andJ.R. Azinheira. An h2/h-infinity pid heading control-ler for aurora-i semi-autonomous robotic airship. In14th AIAA Lighter-Than-Air Conference and Exhibi-tion, Akron, Ohio (USA), July 2001.

[10] A.G DiCicco, K.T. Knock, and G.E. Powell. Balloonexperiments at venus (bev). In11th AIAA LighterThan Air Systems Technology Conference, Clearwa-ter Beach, Fl. (USA), pages 144–154, May 1995.

[11] S. Doncieux and J.-A. Meyer. Evolving neural net-works for the control of a lenticular blimp. In G. R.Raidl and Cagnoni, editors,Applications of Evolu-tionary Computing, EvoWorkshops2003, pages 626–637, 2003.

[12] A. Elfes, M. Bergermann, and S. Bueno. The po-tential of robotic airships for planetary exploration.In 10th International Conference on Advanced Robo-tics, Budapest (Hungary), pages 131–138, Aug. 2001.

[13] A. Elfes, S.S. Bueno, M. Bergerman, E.C. De Paiva,Jr. J.G. Ramos, and J.R. Azinheira. Robotic airshipsfor exploration of planetary bodies with an atmos-phere : Autonomy challenges.Autonomous Robots,14(2-3) :147–164, 2003.

[14] A. Elfes, S.S. Bueno, M. Bergerman, J.G. Ramos, andS.B Varella Gomes. Project AURORA : developmentof an autonomous unmanned remote monitoring ro-botic airship.Journal of the Brazilian Computer So-ciety, 4(3) :70–78, April 1998.

[15] A. Elfes, S.S. Bueno, and J.G. Ramos. A semi-autonomous robotic airship for environment moni-toring missions. InIEEE International Conferenceon Robotics and Automation, Leuven (Belgium), Aug.1998.

[16] S.B. Varella Gomes and J. Jr G. Ramos. Airship dyna-mic modeling for autonomous operation. InIEEE In-ternational Conference on Robotics and Automation,Leuwen (Belgium), pages 3462–3467, May 1998.

[17] M.K. Heun and H.M. Cathey andR. Haberle. Marsballoon trajectory model for mars geoscience aerobotdevelopment. In13th AIAA Lighter Than Air SystemsTechnology Conference, San Francisco, CA (USA),pages 48–57, June 1997.

[18] S. Hima and Y. Bestaoui. Time-optimal path planningfor lateral navigation of an autonomous airship. InAIAA Guidance, Navigation, and Control Conferenceand Exhibit. Austin (TX), USA, Aug. 2003.

[19] E. Hygounenc and P. Soueres. Lateral path followinggps-based control of a small-size unmanned blimp.In IEEE International Conference on Robotics andAutomation, Taipei (Taïwan), pages 540–545, Sept2003.

[20] E. Hygounenc, P. Soueres, and S. Lacroix. Trajectorytracking for autonomous blimb. In4th InternationalAirship Convention and Exhibition, Cambridge (UK),July 2002.

[21] G.A. Khoury and J. David Gillett, editors.AirshipTechnology, volume 10 ofCambridge Aerospace Se-ries. Cambridge university press, 1999.

[22] R. Kueke, P. Lindstrand, P. Groepper, and I. Schae-fer. High altitude long endurance aerostatic plat-forms : the European approach. In3rd InternationalAirship Convention and Exhibition, Friedrichshafen(Germany), July 2000.

[23] P. Kungl, M. Schlenker, and B. Kröplin. Research andtesting activities with the solar powered airship lottewithin the scope of the airship research group at theuniversity of stuttgart. In14th AIAA Lighter-Than-AirConference and Exhibition, Akron, Ohio (USA), July2001.

[24] A. Nayler. Airship activity and development world-wide - 2000. In3rd International Airship Conven-tion and Exhibition, Friedrichshafen (Germany), July2000.

[25] G. Olmo, T.C. Tozer, and D. Grace. The europeanHeliNet project. In3rd International Airship Conven-tion and Exhibition, Friedrichshafen (Germany), July2000.

[26] D. Patino, L. Solaque, S. Lacroix, and A. Gauthier.Estimation of the aerodynamical parameters of an ex-perimental airship. InEEE/RSJ IROS 2005 Workshopon Robot Vision for Space Applications, Edmonton,Alberta, Canada, Aug. 2005.


[27] P. Rives, J.R. Azinheira, J.R.H. Carvalho, G.F. Sil-veira, E.C. de Paiva, and S.S. Bueno. Dirigeable d’ob-servation : le projet AURORA. InTroisièmes Jour-nées Nationales de la Recherche en Robotique, Giens(France), Oct. 2001.

[28] M.S. Smith, R.S. Schallenkamp, C.J. Ekstein, andK. Blizard. Development of venusian aerobots. In13th AIAA Lighter Than Air Systems TechnologyConference, San Francisco, CA (USA), pages 48–57,June 1997.

[29] Advandced Technologies Group. www.atg-airships.com.

[30] S. Ungermark. Airships : Misconceptions and Myths.www.ungermark.se/lakehurst.html.

[31] A. Vargas, J. Evrard, and P. Mauroy. Mars 96 aero-stat : an overview of technology developments andtesting. In13th AIAA Lighter Than Air Systems Tech-nology Conference, San Francisco, CA (USA), pages29–36, June 1997.

[32] D-A. Wimmer, M. Bildstein, K.H. Well, M. Schlen-ker, P. Kungl, and B-H. Kröplin. Research airshiplotte. development and operation of controllers forautonomous flight phases. InWorkshop on Aerial Ro-botics - IEEE/RSJ International Conference on Intel-ligent Robots and Systems, Lausanne (Switzerland),Oct. 2002.

[33] D-A. Wimmer and K.H. Well. Instrumentation, iden-tification and control of airship lotte. In14th AIAALighter-Than-Air Conference and Exhibition, Akron,Ohio (USA), July 2001.

[34] H. Zhang and J.P. Ostrwoski. Visual servoing withdynamics : Control of an unmanned blimp. InIEEEInternational Conference on Robotics and Automa-tion, Detroit, Mi. (USA), pages 618–623, May 1999.


Stabilisation de véhicules aériens à décollage vertical : Théorie et application

R. Lozano P. Castillo S. Salazar D.Lara

Heudiasyc, UMR CNRS 6599UTC, BP 20529

60205 Compiègne, FranceTel : +33 3 44 23 49 36fax : +33 3 44 23 44 77

e-mail : rlozano, castillo, sergio, [email protected]

Résumé

Nous présentons les configurations aérodynamiques lesplus courantes capables de décoller verticalement. Unmodèle dynamique est obtenu en utilisant le formalismed’Euler-Lagrange. Après linéarisation de la dynamiquede l’altitude et du lacet on obtient deux systèmes PVTOL(Planar Vertical TakeOff and Landing) connectés à 90˚.Des lois de commande à entrée borné pour le tangageet le roulis sont proposés basées sur l’approche de satu-rations imbriquées. On présente les capteurs disponiblesdans ce domaine et des résultats expérimentaux sur unmini-hélicoptère à 4 rotors. Après discuter des aspects desécurité sur les drones nous présentons les conclusions etles perspectives.

Mots Clef

Quadrirotor, Lyapunov analysis, Saturation function,UAVs.

1 IntroductionDepuis une dizaine d’années, les avances technologiquesont permis la conception et la construction de mini-avionsou mini-hélicoptères avec des capacités toujours plus déve-loppées pour réaliser des vols en autonome. Ces appareilssont connus sous le nom de drones. Le nombre d’indus-triels et d’universités qui s’intéressent aux drones ne cessed’augmenter dû à ses applications tant civiles que mili-taires.

Parmis les applications civiles nous pouvons citer : la sur-veillance du traffic, des frontières, des barrages, des lignesde haute tension et des grands ouvrages d’art, le sauvetagedes personnes en difficulté, la detection de feux de forêts,la retransmission de signaux de communication, etc.

La recherche dans le domaine des véhicules aériens auto-nomes est essentiellement pluridisciplinaire. En effet ellefait intervenir des domaines très variés tels que l’aérodyna-mique, le traitement du signal et de l’image, la commandeautomatique, la mécanique, les matériaux et composites,

les communications, l’informatique temps réel, l’architec-ture de microcontrôleurs, l’électronique, la sûreté de fonc-tionnement, les nanotechnologies, la gestion de l’énergie,la motorisation et même la biologie.

Dans ce papier nous nous intéressons en particulier aux vé-hicules aériens miniatures ou mini-UAV (Unmanned Auto-nomous Vehicles) capables de réaliser du vol stationnairesachant que cette caractéristique est très utile pour des mis-sions de surveillance aérienne. Nous nous intéresserons enparticulier au quadri-rotor.

Ce papier est organisé de la manière suivante. Dans la sec-tion II nous présentons un aperçu des configurations aéro-dynamiques les plus courantes. Un modèle dynamique sim-plifié est donné en section III. La section IV motive l’étudedu problème du PVTOL (Planar Vertical TakeOff and Lan-ding). La section V est dédiée à présenter un algorithmede contrôle du PVTOL. La section VI donne une introduc-tion aux capteurs et microcontrôleurs couramment utilisésdans les mini-véhicules aériens. Une application réelle estprésentée dans la section VII. Des aspects de sécurité sontabordés dans la section VIII et les conclusions sont finale-ment données en section IX.

2 Configurations aérodynamiquesDans cette section nous présentons rapidement les confi-gurations aérodynamiques les plus couramment utilisées.Notre présentation se limite aux mini-véhicules aériens ca-pables de réaliser du vol stationnaire. Par simplicité nousallons distinguer les multi-rotors, les dirigeables et lesconfigurations à ailes battantes. Nous allons classifier lesmulti-rotors en fonction du nombre des rotors : 1, 2, 3 ou 4rotors.

2.1 Configurations à 4 rotorsLes quadrirotors ont 4 moteurs installés sur une croix nor-malement en fibre de carbone. Pour cette raison ils sontégalement appelés X4. Dans le commerce ont trouve leDraganfly (Canada), l’intellicopter (Allemagne) et plus ré-cemment l’X-UFO (Chine). Il est constituée de 4 rotors. Le


FIG. 1 – Configuration d’un quadrirotor

moteur avant et le moteur arrière tournent dans le sens de lamontre et les moteurs droit et gauche dans le sens contraire.Les helices utilisées sont à pas fixe. Le tangage est ob-tenu par une différence de vitesse de rotation des rotorsavant et arrière. Le roulis est obtenu de manière similaireavec la différence de vitesse des moteurs latéraux. Le la-cet s’obtient en augmentant la vitesse des moteurs avant etarrière tout en réduisant la vitesse des moteurs latéraux. Ilexiste aussi une version de X4 dans laquelle tous les rotorstournent dans le même sens. Dans ce dernier, 2 rotors sontinclinés par rapport à l’horizontal de manière à créer uncouple de lacet. L’inclinaison peut être fixe ou variable etpermet de commander le mouvement de lacet. Étant donnéque les quadri-rotors sont commandés par différence de vi-tesse de rotation des rotors, il est important que l’on puissevarier rapidement la vitesse de rotation des moteurs. Pourcela il convient d’utiliser des pales très légères et des rap-ports de réduction relativement grands. Les quadri-rotorsont des couples de commande de grande amplitude. Lescouples de tangage, roulis et lacet sont pratiquement dé-couplés entre eux. La mécanique et l’entretient des quadri-rotors sont relativement simples. Plusieurs universités enFrance travaillent sur des quadri-rotors (ENSIEG, UTC,LSC d’Evry, École des Mines, I3S, etc.)

2.2 Configurations à 3 rotors

Dans cette catégorie nous trouvons le trirotor, le vectron etl’hélicoptère auto-stable.

Le tri-rotor est constitué de 2 rotors à l’avant qui tournentdans des sens opposés et un rotor à l’arrière avec orienta-tion réglable. Le fonctionnement est similaire à celui d’unquadri-rotor mais la performance en vol n’est pas aussi sa-tisfaisante. Des expériences ont été faites sur le tri-rotor àHeudiasyc. Voir figure 2A.

Le vectron est constitué de 3 rotors qui tournent dans lemême sens, voir figure 2B. Le corps circulaire de l’appa-reil tourne par conséquence dans le sens contraire. Les vi-tesses des moteurs sont variées à des instants très précis demanière à obtenir des couples de tangage et de roulis. LeLIRMM a fait des travaux de recherche avec le tri-rotor.

FIG. 2A - Le trirotor. FIG. 2B - Le Vectron.

FIG. 2C - L’hélicoptère auto-stable.

L’hélicoptère auto-stable (blade-runner), voir figure 2C, aété inventé récemment par un norvégien. Il est constitué dedeux rotors à pas fixe qui sont montés sur le même axe etqui tournent dans des sens opposés. Un petit rotor de queuepermet d’obtenir le couple de tangage. Cet hélicoptère a lapropriété d’être stable grâce au fait qu’il existe une arti-culation entre les pales du rotor principal et l’axe du rotor.Étant donné son mode de fonctionnement, cet appareil peutêtre utilisé uniquement en intérieur.

2.3 Configurations à 2 rotorsDans ce type de configuration nous pouvons distinguerceux qui utilisent un ou deux plateaux cycliques et ceuxqui utilisent des pales à pas fixe. Parmi ceux qui utilisentdes plateaux cycliques nous avons l’hélicoptère classiqueavec un rotor principal et un rotor de queue, voir figure 3.L’ONERA à Toulouse travaille sur un hélicoptère YamahaR-50. Dans cette catégorie on peut citer aussi l’hélicoptèreen tandem qui possède deux rotors qui tournent en contre-sens mais dans des axes différents. L’hélicoptère co-axial aaussi deux rotors contrarotatifs, mais sur le même axe. Hi-robo a mis dans le commerce un mini-hélicoptère co-axial.En France des universitaires (UTC, projet Auryon) et desindustriels construisent des prototypes de ce type d’héli-coptères. Les hélicoptères co-axiaux peuvent avoir un oudeux plateaux cycliques.

En ce qui concerne des appareils sans plateaux cycliques, il


FIG. 3 - L’hélicoptère classique.

FIG. 4 - Le T-Wing.

est claire qu’avec seulement deux rotors on ne peut pas gé-nérer une force et trois couples indépendants. Il faut doncajouter soit des ailerons soit des mécanismes pour faire pi-voter les rotors. Ainsi nous trouvons dans cette catégoriele birotor avec des ailerons, c’est à dire deux rotors surdes axes différents et des ailerons dans le flux d’air des ro-tors pour obtenir les couples nécessaires à la commande en3D. Les rotors peuvent tournent en sens opposés ou dansle même sens. On peut citer le T-wing de l’Université deSydney, voir figure 4. Nous avons également la possibilitéd’avoir deux rotors contrarotatifs sur le même axe et desailerons dans le flux d’air des rotors (Bertin, I3S), voir fi-gure 5. Cette dernière configuration est très compacte. Fi-nalement nous pouvons avoir deux rotors qui pivotent sur2 axes. Cette configuration est très compacte aussi, mais lecouple de tangage est relativement faible, voir figure 6.

FIG. 5 - L’over eye de Bertin Tech.

FIG. 6 - Le BIROTAN.

FIG. 7 -L’avion 3D.

2.4 Configurations ayant un seul rotorDans cette configuration nous trouvons essentiellement lesavions appelés 3D, voir figure 7. Ces avions ont un mo-teur suffisamment puissant pour décoller verticalement etdes ailerons d’une grande surface pour assurer des couplesde commande suffisamment grands afin que l’appareil soitfacile à piloter. Ils se développent de plus en plus et ilsont l’avantage de pouvoir voler comme un avion normal,ce qui donne la possibilité de se déplacer rapidement et demanière très économique en termes d’énergie.

2.5 Les dirigeablesLes dirigeables utilisent de l’hélium pour générer une pous-sée verticale et des rotors pour générer des couples, voirfigure 8. Ayant un volume important, ils se déplacent len-tement et sont relativement plus sensibles au vent. Mais lesdirigeables ont l’avantage d’être stables et d’avoir des vi-brations mécaniques moindres. En France, le LAAS, l’Uni-versité d’Evry et l’INRIA Sophia Antipolis réalisent destravaux de recherche sur les dirigeables.

FIG. 8 - Le dirigeable de LSC.


2.6 Les appareils à ailes battantesLes ailes battantes constitue un système de propulsion al-ternatif pour les mini et micro-aéronefs. Les battementsd’ailes reproduisent le vol des oiseaux ou des insects deplus en plus fidèlement. En France le laboratoire Femto deBesançon et la Société Silmach travaillent sur un projet delibellule artificielle d’une centaine de grammes, voir figure9.

FIG. 9 - La libellule.

3 Le Modèle dynamiqueDans cette section nous présentons le modèle dynamiquede l’hélicoptère possédant quatre rotors en utilisant uneapproche Lagrangienne. Les coordonnées généralisées del’hélicoptère sont décrites par :

q = (x, y, z, ψ, θ, φ) ∈ R6,

où ξT = (x, y, z) représentent la position du centre demasse de l’hélicoptère par rapport à un repère fixeI.ηT = (ψ, θ, φ) sont les trois angles d’Euler (lacet, tangageet roulis) et représentent l’orientation de l’hélicoptère.

Le Lagrangian est

L(q, q) = Ttrans + Trot − U,

oùTtrans = m2 ξT ξ est l’énergie cinétique de translation de

l’hélicoptère,Trot = 12 ηT Jη est l’énergie cinétique de ro-

tation,U = mgz est l’énergie potentielle,z est la positionverticale,m représente la masse de l’hélicoptère,J(η) estla matrice d’inertie.

Le modèle dynamique de l’hélicoptère est obtenu des equa-tions d’Euler-Lagrange avec la force généralisée externe.

d

dt

(∂L∂q

)− ∂L

∂q=

[Fξ

τ

],

oùFξ = RF ∈ R3 est la force de translation appliquée auquadri-rotor due aux entrées de commande,τ ∈ R3 sont les

FIG. 10 - Le schema du quadrirotor.

moments généralisés etR est la matrice de transformationreprésentant l’orientation du quadri-rotor.

Nous écrivons ainsiF = [0 0 u]T , oùu =∑4

i=1 fi est lapoussée ou entrée collective.fi = kw2

i est la force produitepar le moteuri, k > 0 est un constante etwi est la vitesseangulaire du moteuri, i = 1, ...4.

Les moments généralisés sur les variables deη sont

τ =

τψ

τθ

τφ

,

∑4i=1 τMi

(f2 − f4)`(f3 − f1)`

,

où ` est la distance entre les moteurs et le centre de gravitéet τMi

est le couple produit par le moteurMi.

Nous obtenons donc

mξ +

00mg

= Fξ = RF , (1)

Jη + C(η, η)η = τ, (2)

où

C(η, η) = J− 12

∂

∂η

(ηT J

)

est la matrice de Coriolis et contient les paramètres gyro-scopiques et centrifuges.

Finalement nous obtenons

mx = −u sin θ, (3)

my = u cos θ sinφ, (4)

mz = u cos θ cosφ−mg, (5)

ψ = τψ, (6)

θ = τθ, (7)

φ = τφ, (8)

où x et y sont les coordonnées dans le plan horizontal,zest la position verticale, etτψ, τθ et τφ sont les nouveaux


moments angulaires (moment de lacet, moment tangage etmoment de roulis), ce qui sont liés aux couples généralisésτψ, τθ et τφ par

τ =

τψ

τθ

τφ

= J−1(τ − C(η, η)η).

4 Du Quadrirotor au PVTOLDans cette section nous développons une stratégie de com-mande pour stabiliser le quadri-rotor en vol stationnaire.Nous utilisons l’idée que le quadri-rotor peut être considérécomme l’interconnexion de deux avions du type PVTOL.

Il faut remarquer que chacune des entrées du contrôle peutêtre utilisée pour contrôler un ou deux degrés de libertécomme suit. L’entrée collectiveu est essentiellement em-ployée pour donner à l’altitude une valeur désirée. L’entréeτψ est employée pour commander le déplacement de lacet.τθ est employé pour commander le mouvement de tangageet le mouvement horizontal dans l’axex. De mêmeτφ estemployé pour commander l’angle de roulis et le déplace-ment horizontal dans l’axey.

Le contrôle de la position verticale peut être obtenu en uti-lisant l’entrée de commande suivante

u = (r1 + mg)1

cos θ cos φ, (9)

où r1 est donné par un contrôleur PD

r1 , −az1 z − az2(z − zd), (10)

oùaz1 , az2 sont des constantes positives etzd est l’altitudedésirée. Le mouvement de lacet peut être commandé enappliquant

τψ = −aψ1 ψ − aψ2(ψ − ψd) (11)

En effet, introduisant (9)-(11) dans (3)-(6) et en supposantcos θ cosφ 6= 0, c’est à dire,θ, φ ∈ (−π/2, π/2), nousobtenons

mx = −(r1 + mg)tan θ

cosφ(12)

my = (r1 + mg) tan φ (13)

z =1m

(−az1 z − az2(z − zd)) (14)

φ = −aψ1 ψ − aψ2(ψ − ψd) (15)

Les paramètres de contrôleaψ1 , aψ2 , az1 , az2 doivent êtrechoisis de manière à assurer une réponse stable à l’altitudeet au déplacement de lacet.

Des equations (14) et (15) nous avons que, siψd etzd sontconstantes, alorsψ et z convergent. Ceci signifie que,ψ etψ → 0, ce qui implique queψ → ψd. De façon similaire,z → zd et .

Nous considérons premièrement le sous-système donné par(8) et (13). Notons que étant donné quer1 → 0, ce sous-système est approximativement égale au déplacement ho-rizontal d’un avion du type PVTOL. La stratégie de com-mande que nous allons utiliser est basée sur une analyse deLyapunov et sur la technique des saturations emboîtées.

5 Stratégie de commandeÉtant donné que le quadrirotor a des contraintes physiquessur les amplitudes des entrées de commande, nos allonsproposer une stratégie de commande qui permet de res-pecter ces contraintes. Par ailleurs, l’entrée de commandeτφ sera telle queφ, φ, y et y convergent vers zero, voir(8) et (13). Les conditions initiales surφ, φ, y et y sontarbitraires.

Notons que pourT assez grand,r1 etψ sont arbitrairementpetits, par conséquent (13) se réduit à

y = g tan φ.

Pour simplifier l’analyse nous imposerons une borne su-périeure sur| φ | telle que la différencetan(φ) − φ estarbitrairement petite. Par conséquent, le sous-système pré-cédent se réduit à

y = gφ, (16)

φ = τφ, (17)

ce qui représente quatre intégrateurs en cascade.

Nous allons utiliser la stratégie de commande développéeen [4]. Cette technique des saturations emboîtées permetde stabilizer de façon exponentielle une chaîne d’intégra-teurs avec une entrée bornée.

Alors, nous proposons

τφ = −σφ1(φ + σφ2(φ + φ + σφ3(2φ + φ +y

g+

σφ4(φ + 3φ + 3y

g+

y

g)))), (18)

oùσa est une fonction de saturation de la forme suivante

σa(s) =

−a s < −a,s −a ≤ s ≤ a,a s > a.

Le système en boucle fermée est asymptotiquement stable,voir [4], et par conséquentφ, φ, y et y convergent vers zero.

Notons que pourT1 suffisamment grand,r1 etφ sont arbi-trairement petits, par conséquent (12) se réduit à

x = −g tan θ (19)


Finalement nous prenons le sous-système (7)-(19). Commeauparavant, nous supposons que la stratégie du contrôle as-surera une borne sur| θ | tel quetan(θ) ≈ θ. Par consé-quent (19) se réduit àx = −gθ.

Utilisant une procédure semblable à celle que nous avonsproposée pour le contrôle de roulis, nous obtenons

τθ = −σθ1(θ + σθ2(θ + θ + σθ3(2θ + θ − x

g+

σθ4(θ + 3θ − 3x

g− x

g)))) (20)

6 Capteurs et microcontrôleurs pourles UAV

Dans cette section nous présentons un tour d’horizon descapteurs qui sont couramment utilisés pour l’estimation dela localisation et de l’orientation des véhicules aériens.

Le GPS (Global Positioning System) permet de connaîtrela position du drone, en trois dimensions(x, y, z). Cette in-formation est envoyée par des satellites en orbite autour dela terre. La sélection du GPS embarqué dans le drone, doitse faire sur sept caractéristiques principales : la consom-mation électrique, la taille, le poids, la précision globale,la précision, le nombre de ports série et la vitesse de trans-mission.

La centrale inertielle est un dispositif muni essentiellementde gyromètres, d’accéléromètres. Le gyromètre permet demesurer la vitesse angulaire. Il existe des gyromètres mé-caniques ou gyroscopes, des gyromètres en céramique etdes gyromètres laser. Un gyroscope mécanique est consti-tué essentiellement d’une masse qui tourne sur elle-même,permettant ainsi d’avoir une direction (l’axe de rotation)qui ne change pas (principe de la toupie). La précision et lepoids des gyromètres varie en fonction du prix.

Un accéléromètre est un dispositif destiné à mesurer l’ac-célération d’un mobile. L’accéléromètre est un composantde base des navigateurs inertiels. Il est typiquement consti-tué de trois éléments : un bâti solidaire du mobile dont onveut connaître les accélérations, une masse sismique reliéepar une lame flexible au bâti support.

La camera vidéo est un des capteurs extéroceptifs les plusperformants, qui fournit une information particulièrementriche sur l’environnement. Elle permet de transmettre lesimages vues par le drone, vers l’opérateur au sol. Dans cer-tains cas, on traite les informations transmises par la ca-méra sur un PC au sol via une carte d’acquisition d’imagespour déterminer la position de l’engin, pour faire du suivide trajectoire, ou bien pour la détection d’obstacles.

Les télémètres à ultrasons fonctionnent en mesurant letemps de retour d’une onde sonore inaudible émise par lecapteur. La vitesse du son dans l’air étant à peu près stable,on en déduit la distance de l’obstacle.

FIG. 11 - Le système embarqué.

Le télémètre laser est un système de hautes performanceet très onéreux. Il mesure le temps de vol en observant leretard entre l’onde émise et l’onde reçue, mais également ilmesure la distance entre le télémètre et le premier obstaclerencontré.

Le microcontrôleur est une partie très importante dans laréalisation de tous les systèmes embarqués. En effet, c’estlui qui regroupe, extrait et calcule toutes les informationsdont dispose le véhicule aérien.

7 Résultats en temps réelDans cette section nous présentons les résultats expérimen-taux en temps réel obtenus avec le contrôleur présenté dansla section précédente appliqué à un mini-hélicoptère possé-dant quatre rotors. Tout d’abord, nous décrirons l’architec-ture de la plate-forme et ensuite nous expliquerons com-ment les paramètres du contrôleur ont été réglés pour assu-rer les tâches de décollage, d’atterrissage et du vol station-naire d’une manière satisfaisante.

Le véhicule aérien que nous avons utilisé est un mini hé-licoptère à quatre rotors, il a été fabriqué par InnovationsDraganfly Inc.

L’architecture embarquée est constituée par un microcon-trôleur du type RABBIT RCM3400, une centrale inertielleet trois capteurs à ultrasons, voir Figure 11. Le microcon-trôleur gère tout le processus de commande. Il réalise lecalcul de la loi de commande et l’envoie les entrées di-rectement aux moteurs. La centrale inertielle est utiliséepour mesurer l’orientation de l’hélicoptère et la vitesse an-gulaire. Les capteurs à ultrasons mesurent la position del’hélicoptère. Nous avons utilisé le compilateurDynamicC pour produire le code pour le microcontrôleur.

Les paramètres du contrôleur sont sélectionnés en utili-sant la procédure suivante. Premièrement, par simplicité onajuste les paramètres du contrôleur du lacet. L’algorithmede commande du lacet est fondamentalement un contrôleurProportionnel Dérivateur (PD). Les paramètres sont sélec-tionnés pour obtenir une réponse rapide sans introduire depetites oscillations dans le déplacement de lacet.


FIG. 12 - Vol automatique d’un quadrirotor.

Les paramètres de la commande du roulis sont réglés pen-dant que la manette des gaz et de contrôle de tangage sonten mode manuel. Les paramètres du contrôle de roulis sontajustés dans la séquence suivante. Nous sélectionnons pre-mièrement, le gain de la vitesse angulaire de roulisφ. En-suite, nous sélectionnons le gain du contrôleur pour le dé-placement de roulisφ. L’objectif est de faire converger ra-pidement l’erreur de roulis vers zéro sans oscillations indé-sirables.

Le gain du contrôleury et l’amplitude de la fonction de lasaturation sont sélectionnés de telle façon que le mini hé-licoptère réduit sa vitesse dans l’axey assez rapidement.Pour compléter le réglage des paramètres du contrôle deroulis nous choisissons les gains concernant le déplace-menty pour obtenir une performance satisfaisante.

Les paramètres du contrôle de tangage sont sélectionnésde la même manière. Finalement nous réglons les para-mètres du contrôle de la manette de gaz pour obtenir unealtitude désirée. Un des ces paramètres du contrôleur estutilisé pour compenser la force de gravité qui est estiméeen utilisant des données réelles.

Puisque ce mini hélicoptère a des hélices souples, le ré-glage des paramètres peut être réalisé en tenant le quadri-rotor dans la main et en portant des lunettes de protection.Il est certain que cela ne peut se faire avec des machinesvolantes de plus grande taille.

L’objectif du contrôle est de réaliser le vol stationnaired’un mini-hélicoptère complètement en automatique. Lesfigures 12 et 13 montrent le performance de la loi de com-mande lorsqu’elle est appliqué au quadri-rotor.

8 Aspects de sécurité dans les dronesIl nous a paru important d’ajouter quelques lignes sur desaspects de sécurité dans les drones basés sur notre expé-rience dans le domaine. Premièrement il est pertinent derappeler que la législation ne permet pas le vol de dronesdans des zones urbaines. Au fait, on peut uniquement volerdes modèles réduits de moins de 2,5 kg dans les terrainsd’aéromodélisme autorisés par la FFA.

Le fait de rendre autonome un modèle réduit nous oblige à

FIG. 13 - Quadrirotor en vol autonome.

étudier les aspects de sécurité de manière prioritaire. Nousdevons premièrement éviter le démarrage intempestif desmoteurs. Aussi il est indispensable de couper l’alimenta-tion des moteurs en cas de panne. Les pannes les plus cou-rantes sont la perte de liaison radio et le mauvais fonction-nement des capteurs (gyromètres, accéléromètres, GPS). Ilest donc impératif de développer des méthodes pour détec-ter ce type de pannes. Pour réduire le risque d’accidents ilest important d’utiliser des hélices carénées et de réduireau minimum le poids total de l’appareil. L’utilisation de lu-nettes de protection des yeux est fortement conseillé pen-dant les travaux de mise au point.

9 Conclusions et perspectivesIl existe une grand variété de configurations de mini-objets volants. Il serait utile d’approfondir les connais-sances sur les caractéristiques aérodynamiques de cha-qu’une des configurations, voire de pouvoir réaliser uneconception optimale qui intègre le plus d’informations pos-sible.

Des centrales inertielles miniatures, peu onéreuses et ac-cesibles à tout publique, permettent de stabiliser l’orienta-tion d’un objet volant en utilisant un microcontrôleur em-barqué. Des accéléromètres et des gyromètres sont utiliséspour estimer la verticale et des compas électroniques in-diquent la direction du nord. Plusieurs type de stratégies de


commande peuvent être utilisées pour la stabilisation desmini-véhicules aériens.

Un point crucial reste la mesure de la position du drone.La mesure par le GPS comporte des erreurs de l’ordre de 1ou 2 m en fonction du nombre des satellites visibles selonle temps et les obstacles dans l’environnement. Les GPSdifférentiels donnent une meilleure mesure de la positionmais restent très coûteux. Ceci motive le développementdes méthodes alternatives d’estimation de la position uti-lisant des caméras, des capteurs à ultrason et des capteursinfrarouges.

RemerciementsNous remercions la Région de Picardie et les organisateursdu concours ONERA-DGA pour leur soutien.

Références[1] P. Castillo, R. Lozano and A. Dzul, "Modelling and

Control of Mini-Flying Machines", Springer-Verlag inAdvances in Industrial Control, July 2005.

[2] I. Fantoni, R. Lozano,Control of Nonlinear Mechani-cal Underactuated Systems. Springer-Verlag, Commu-nications and Control Engineering Series, 2001.

[3] L. Marconi, A. Isidori, A. Serrani, “Autonomous ver-tical landing on an oscillating platform : an internal-model based approach”,Automatica, vol. 38, pp. 21-32,2002.

[4] A.R. Teel, “Global stabilization and restricted trackingfor multiple integrators with bounded controls”,Sys.Contr. Lett., vol. 18, pp. 165-171, 1992.

[5] T.S. Alderete, “Simulator aero model implementation"[Online], NASA Ames Research Center, Moffett Field,California. Available athttp : //www.simlabs.arc.nasa.gov/library_docs/

rt_sim_docs/Toms.pdf

[6] B. Etkin and L. Duff Reid,Dynamics of Flight, JohnWiley and Sons, Inc., New York, 1959. ISBN 0-471-03418-5

[7] B.W. McCormick, Aerodynamics Aeronautics andFlight Mechanics, John Wiley & Sons, New York, 1995.

[8] H. Goldstein,Classical Mechanics, Addison WesleySeries in Physics, Adison-Wesley, U.S.A., second edi-tion, 1980.

[9] N. Sacco, “How the Draganflyer flies" [Online],RotoryMagazine, 2002. Available athttp : //www.rctoys.com/pdf/draganflyer3_rotorymagazine.pdf


Modelisation, estimation et controle des drones a voilures tournantes :

Un apercu des projets de recherche francais

Tarek Hamel1, Philippe Soueres21 I3S, UNSA-CNRS, 2000 route des Lucioles, 06903 Sophia Antipolis France,

[email protected],2, LAAS-CNRS, Toulouse, France,

[email protected],

Abstract—L’objectif de cet article est de presenterun ensemble de resultats relatifs a la modelisation,l’estimation, et la commande des drones a voilurestournantes. Cette etude s’appuie sur un ensemble deprojets recents menes par des laboratoires de recherchefrancais. Nous proposons tout d’abord une descrip-tion des configurations les plus connues de ce typede vehicule et nous analysons leurs atouts et leursfaiblesses sur la base des specificites dynamiques. Unedescription des strategies de controle permettant derepondre a differents objectifs de navigation est ensuitedonnee. La troisieme partie est consacree aux pro-blemes d’estimation de l’etat. Elle offre une descriptiondes differentes approches du probleme de filtrage per-mettant de fusionner les differentes donnees sensoriellespour reconstruire tout ou partie de l’etat du vehicule.Enfin, les techniques d’asservissement visuel dediees ala commande de drone sont presentees a la fin de cedocument.

I. Introduction

La robotique aerienne connaıt depuis plusieurs anneesun engouement considerable tant chez des constructeursprives que dans les laboratoires de recherche. Cet interetest motive par les recentes avancees technologiques quirendent possible la conception de systemes performantdoues de reelles capacites de navigation autonome, a descouts non prohibitifs. Aujourd’hui, les principales limita-tions que rencontrent les chercheurs sont d’une part lieesa la difficulte de maıtriser l’appareil en presence de tur-bulences atmospheriques, et d’autre part a la complexitedu probleme de navigation necessitant la perception d’unenvironnement souvent contraint et evolutif, en particulierdans le cas de vols a basse altitude. Les applications sontnombreuses. Elles concernent en premier lieu les domainesde la securite (surveillance de l’espace aerien, du traficurbain et interurbain), la gestion des risques naturels (sur-veillance de l’activite des volcans), la protection de l’en-vironnement (mesure de la pollution de l’air, surveillancedes forets), l’intervention dans des sites hostiles (milieuxradioactifs, deminage des terrains sans intervention hu-maine), la gestion des grandes infrastructures (barrages,lignes a haute tension, pipelines), l’agriculture (detectionet traitement des cultures) et la prise de vue aerienne dansla production de films. Toutes ces missions necessitent uncontrole performant de l’appareil et par consequent desinformations precises sur son etat absolu et /ou relatif ason environnement.

Contrairement aux robots mobiles terrestres pour les-quels il est souvent possible de se limiter a un modelecinematique, la commande des robots aeriens requiert laconnaissance d’un modele dynamique. Les effets de lagravite et des forces aerodynamiques en sont les principalescauses. Ces systemes, pour lesquels le nombre d’entrees decommande est inferieur au nombre de degres de liberte,sont dits sous-actionnes. Le mecanisme de controle nefournit generalement qu’une ou deux entrees de commandepour la dynamique de translation et deux ou trois entreesde commande pour la dynamique de rotation.

Au debut des annees 90, la communaute automatiquea montre un regain d’interet pour la commande de cessystemes. Un exemple marquant en est l’etude approfondierealisee sur la dynamique d’avions de type VTOL1, dans leplan lateral, qui a permis de constituer une source impor-tante de connaissances et a conduit a des developpementssupplementaires sur la theorie des systemes plats et lestechniques de linearisation entrees-sorties [1], [2].

Plus recemment, plusieurs equipes de recherche fran-caises, fortes de leur experience sur la commande desrobots mobiles evoluant au sol, se sont lancees dans l’etudede la commande d’engins volants. On peut citer, les projetsde controle de dirigeables souples Blimps du LAAS-CNRS,de l’INRIA Sophia Antipolis et du LSC-Evry les projetsconcernant la commande d’helicopteres de petite taille (al’instar d’une vingtaine d’universites americaines, et del’ETH de Zurich) L’ONERA de Toulouse, le laboratoireHeudiasyc de l’universite de Compiegne, le LSC-Evry,l’INPG de Grenoble le LAAS-CNRS, l’I3S-UNSA-CNRSet le CEA-LIST de Fontenay-Aux-Roses.

Cet article est organise de la facon suivante : La sectionII presente les principaux resultats elabores a ce jour surla modelisation des engins volants miniatures a voilurestournantes. La section III presente les idees de controle de-veloppees. La section IV presente les premieres tentativesen estimation d’etat, d’identification de parametres et lesproblemes rencontres. La section V presente les recentescontributions en asservissement visuel pour les drones.Enfin, les perspectives d’evolution des recherches sur cesujet sont donnes dans la section VI.

1A decollage et atterrissage vertical


II. Modelisation des engins volants miniatures a

voilures tournantes

Le terme “miniature” ne reflete pas un simple change-ment d’echelle par rapport aux helicopteres convention-nels. En effet, compte tenu de leur taille, de leur rapportmasse/inertie et de leur sensibilite aux vent, la dynamiquede ces drones miniatures se trouve etre tres differente decelle des engins de grande dimension. Les modeles exis-tants ont ete principalement concus dans le but d’evaluerles limites de capacites de vol de l’appareil. La maıtrise dela dynamique du vol, non-lineaire et tres complexe, relevegeneralement de la seule expertise du pilote. Pour conferera ces appareils des capacites de navigation autonome,il est necessaire de caracteriser ces non-linearites, dontl’expression est reliee aux differentes conditions de vol.En consequence, une representation simple du comporte-ment dynamique complet de l’helicoptere dans tous sesmodes de vol n’existe pas. La complexite de la dynamiqueresulte principalement du fait que l’expression des forcesaerodynamiques est differente pour chaque mode de vol.L’automaticien ne disposant que de ces modeles pour baserson etude, est contraint a considerer chaque mode de volcomme un probleme particulier. Ainsi, il apparaıt que ladynamique d’un helicoptere pour des manoeuvres prochesdu vol plane (ou quasi-stationnaire) est la plus simple.Ceci est principalement du au fait que, dans ce cas, lesforces aerodynamiques liees a la vitesse du vent relatifsont negligeables. D’apres [10], les angles de battement quiproduisent les moments de rotation pour le tangage et leroulis pour un helicoptere standard, peuvent etre conside-res comme des fonctions algebriques des angles du plateaucyclique. Bien sur, ceci n’est pas vrai en presence devent relatif. Il apparaıt, du point de vue de l’automatiqueet de la robotique que l’etude des manoeuvres prochesdu vol plane est essentielle, notamment pour permettrel’execution de missions telles que le vol stationnaire, lesuivi de trajectoire a basse vitesse, le decollage, ou encorel’atterrissage.

Avant d’aller plus en avant dans la description des mo-deles, nous allons rapidement decrire les configurations lesplus repondues dans les laboratoire francais et etrangersde drones a voilures tournantes.

- Rotor principal : Cette configuration est la plusrepandue. La compensation du couple genere par le rotorprincipal se fait grace au rotor anticouple situe a l’arrierede la machine (appele aussi rotor de queue). Le rotorprincipal permet la montee et la descente ainsi que latranslation (avant/arriere et laterale). Le rotor de queuepermet le controle en lacet de l’appareil (mouvement derotation autour de l’axe du rotor principal). A travers ledeveloppement des mini drones Vigilant, Fuji puis le projetRessac actuel, l’ONERA a acquis une forte experiencesur l’automatisation de ce type d’helicoptere (Fig. 1).Le laboratoire Heudiasyc est egalement implique dans larobotisation d’helicopteres miniatures de ce type depuis

plusieurs annees (Fig. 2).

Fig. 1. L’helicoptere Yamaha Airmax du projet RESSAC de

l’ONERA

Fig. 2. L’helicoptere thermique du laboratoire Heudiasyc

- Configuration a quatre rotors : Cette configura-tion, qui n’existe qu’en modele reduit, est destinee princi-palement a l’execution de vols en interieur. Les deux rotorssitues sur l’axe “x” de l’engin ont un sens de rotationoppose a celui des deux rotors situes sur l’axe “y” (Fig.3). La montee et la descente sont assurees par l’actionsimultanee des quatre rotors. La difference de pousseesentre les rotors arriere et avant produit un couple deroulis qui permet de controler le mouvement de translation(avant/arriere). Le deplacement gauche/droite, quant alui, est assure par la difference de poussee entre les rotorssitues sur la gauche et ceux situes sur la droite. Enfin, pourle contole en lacet de l’appareil, c’est la somme des anti-couples produits par les quatre rotors qui definit le sensde rotation. Plusieurs equipes francaises sont equipees de

Fig. 3. Le X4-flyer du CEA-LIST et ses bimoteurs

robots ayant cette configuration. Le laboratoire Heudiasycpossede la version commerciale du X4-flyer. Le CEA-List, en collaboration avec l’I3S dans le cadre du projetROBVOLINT du programme ROBEA2, a reconstruit lastructure et l’electronique de l’appareil tout en conservant

2http ://www.irccyn.ec-nantes.fr/Robvolint/


son mode de fonctionnement DROPTERE. Le LSC-Evry,dans le cadre du concours DGA-ONERA3, a concu unenouvelle version, nommee XSF, equipee d’helices bipalescarenees. La particularite du vehicule est le pivotementde deux des quatre supports moteurs autour de l’axe deroulis.

- Configuration a deux rotors carenes :

Certains ingenieurs en France, notamment ceux deBertin-Technologies, ont realise des machines sur lesquellesle rotor de queue a ete elimine au profit d’une helice care-nee (ou deux helices coaxiales contrarotatives) destinee aassurer la portance et procurer, par inclinaison de quatrederives situees en dessous, la force horizontale permettantd’incliner l’appareil afin qu’il effectue un deplacementlongitudinal ou lateral. Une collaboration entre BertinTechnologies, le LAAS-CNRS et l’I3S-CNRS, a permisl’elaboration d’un ensemble de strategies de commandeet d’estimation pour le drone HoverEye (Fig. 4). Desdrones de structure similaire sont egalement developpesdans le cadre des projets americains Kestrel (Honeywell)et ISTAR (Allied Aerospace).

Fig. 4. Le HoverEye de Bertin-Technologie

Il est a noter egalement que dans le cadre du concoursDGA-ONERA l’equipe AURYON4 du laboratoire UMRCNRS 6599 HEUDIASYC - UTC developpe un drone a labase d’une mecanique birotor coaxial contrarotatif a pasvariables 5. L’ensemble mecanique-electronique est encap-sule dans une forme qui ne comporte aucune excroissance.Les atouts principaux de cette mecanique de vol residentdans la bonne manœuvrabilite, la stabilite en stationnaire,les capacites de vol en translation.

A. Modelisation

Comme nous l’avons explique plus haut, la variabi-lite d’un grand nombre de parametres rend impossiblel’etablissement un modele generique complet d’helicoptere.Toutefois, si l’on limite l’etude a des modes de vols prochesdu vol stationnaire, il est possible de decrire la dyna-mique du fuselage comme celle d’un corps rigide a laquelle

3Les systemes developpes, respectant le cahier des charges du

concours, cherchent a demontrer la faisabilite technique et l’interet

operationnel des drones miniatures utilises comme aide au fantassin

dans sa progression en milieu hostile.

4http ://www.auryon.utc.fr/

Fig. 5. Le drone AURYON - Heudiasyc Compiegne : version finale

(image de gauche) et Mecanique de tests (image de droite)

viennent s’ajouter les forces aerodynamiques provoqueespar la rotation des rotors [11], [12], [16], [17], [14], [18].En utilisant le formalisme de Newton, les equations de ladynamique s’ecrivent sous la forme suivante :

» = v (1)

mv = ¡FRe3 + mge3 +RΣΓ1 (2)

R(η) = Rsk(Ω) (3)

IΩ = ¡Ω× IΩ+ Γ1 + Γ2 (4)

ou » et v representent respectivement la position et lavitesse du centre de masse de l’engin par rapport au repereinertiel. m est la masse totale du corps et I ∈ <3×3 estla matrice d’inertie au centre de masse, exprimee dans lerepere local de l’engin. Le vecteur5 Ω designe le vecteur devitesse angulaire du corps exprime dans son repere local,g represente la constante gravitationnelle et R ∈ SO(3)est la matrice de rotation du fuselage par rapport aurepere inertiel. La matrice Σ ∈ <3×3 represente le couplageentre les dynamiques de translation et de rotation qui esta l’origine du phenomene de dynamique des zeros. Sonexpression depend principalement de la configuration del’helicoptere. Lorsqu’il s’agit d’une configuration a un ro-tor principal, ou deux rotors coaxiaux, la derniere ligne decette matrice est nulle. Dans le cas du X4-flyer, le terme decouplage entre la dynamique de translation et de rotationest theoriquement nul (Σ = 0). Le couple Γ2 regroupetous les phenomenes aerodynamiques et gyroscopiquesgeneres par la rotation des rotors. Dans la plupart desmodeles proposes [6], ce couple se reduit aux resistancesde l’air s’opposant a la rotation des rotors. Le seul systemepour lequel les effets gyroscopiques peuvent etre facilementmodelises est le X4-flyer [14]. Enfin, F ∈ < et Γ1 ∈ <3

representent respectivement la force et les couples agissantsur le fuselage, provoques par les entrees de commande. Ilssont au nombre de quatre pour la plupart des helicopteres :une force pour commander la dynamique de translation ettrois couples pour controler la dynamique de rotation. Le

5sk(Ω) est la matrice pre-produit vectoriel associee au vecteur Ω,

c’est-a-dire pour tout vecteur v ∈ Re3

alors Ω × v = sk(Ω)v.


systeme est donc sous-actionne au sens large 6

La grande difficule dans l’etablissement d’un modele estla modelisation de la force F ∈ < et des couples Γ1 ∈ <3

et Γ2 ∈ <3. Nous avons choisi d’illustrer les difficultesrencontrees lorsqu’on cherche a expliciter cette force etces couples en fonction de leurs entrees, en considerant lecas du X4-flyer. Au cours de cette description nous men-tionnerons les differences avec un modele d’ helicoptereminiature. Pour plus de detail, nous renvoyons le lecteurvers [7], [6].

B. Modelisation du X4-flyer et de l’helicoptere standard

Rappelons que la force F et les vecteurs couples Γi

sont generes principalement par la poussee des rotors. Lapoussee produite par le rotor i a pour expression [6] :

Ti = CM$2i (µit

¡ Áit) (5)

ou $i est la vitesse de rotation des pales, µi designele pas collectif et Ái represente l’angle d’incidence (angled’inclinaison des pales par rapport au vent relatif). Lecoefficient CM = 1

4 (%R3nca) est une constante qui dependde la densite de l’air, du rayon des pales et de leur nombre,de la longueur de la corde des pales et enfin de la pente dela courbe de portance par radian. Dans le cas de conditionsproche du vol stationnaire, l’expression de la poussee peutetre reecrite comme suit :

Ti = CM$2i µt ¡ Cφ$

√T (6)

ou Cφ = CM

R√

2%Aet A designe la surface du disque du

rotor. La forme de l’equation (6) se prete difficilement al’elaboration d’une commande de la poussee d’un rotor.D’une part, les constantes CM et Cφ ne sont pas connuesde facon precise et dependent elles-memes d’autres fac-teurs tels que la densite de l’air par exemple. D’autre part,la relation entre la poussee Ti et le pas collectif µi est non-lineaire. Ceci rend le controle de la poussee tres difficilepour la plupart des configurations d’helicopteres existantescar elles sont generalement commandees via le pas collectif.Neanmoins, la forme de cette equation montre qu’il estpossible de considerer la vitesse du rotor comme entreede commande principale pour Ti. C’est le cas du X4-Flyerpour lequel le pas collectif µi de chaque rotor est fixe a unevaleur constante. Par consequent, la relation (6) devientdonc :

Ti = CT $2i (7)

ou

CT =4C2

Mµ2it³

Ci +√

(4CMµt + C2i )

´2 (8)

6Le terme “large” a ete volontairement rajoute pour differencier

cette classe de drones d’une autre classe de systeme que l’on peut

qualifier de sous-actionne au sens strict, puisque le nombre d’entrees

est de trois et non plus de quatre. Etant donne que ce dernier type

d’appareil n’existe que depuis quelques annees et n’a pas encore

suscite l’interet de la communaute, nous ne l’avons pas considere dans

ce document.

est une constante “difficilement”mesurable. Le calcul de lapoussee Ti d’un rotor constitue la premiere etape dans leprocessus d’estimation des efforts agissant sur la structurede l’engin. La force totale generee par le rotor i appliqueesur la structure est :

F = (Ti ¡ Di)

ou Di = CD½$2i [6] est la traınee due a l’acceleration de la

masse d’air soumise a la rotation des pales (CD representele coefficient de traınee multiplie par la surface exposee).Il est facile de verifier que la force de traınee est propor-tionnelle a la poussee Ti. Par consequent, en regroupanttous les termes inconnus dans un seul coefficient “b”, nouspouvons enfin ecrire la force generee par le rotor principald’un helicoptere ou par l’un des rotors du Roswell-flyersous la forme :

Fi = b$2i (Re3) (9)

L’action de l’air sur chaque rotor, cree un anti couplede rotation agissant suivant l’axe de pivot de chaquerotor. Le pas collectif etant fixe a une valeur connue,notamment dans le cas du X4-flyer, on deduit des lois del’aerodynamique, que l’action de l’air sur les pales d’unrotor est proportionnelle au carre de la vitesse angulairede ces pales. Ainsi on peut ecrire :

Qi = κi$2i e3 (10)

ou κi est une constante positive difficilement dependantdes memes parametres que b. Cette expression n’est pastout a fait vraie pour le rotor de queue d’un helicopterestandard, car le pas collectif varie avec la commande delacet, mais les effets sont si petits que la meme hypothesepeut etre faite :

QQ = κQ$2P e2 (11)

L’indice Q indique qu’il s’agit la d’un rotor de queue,l’indice P fait reference au rotor principal et enfin levecteur e2 represente l’axe autour duquel agit cet anti-couple. Apres avoir defini l’expression de l’anti couple, ilconvient maintenant de definir la dynamique de rotationd’un rotor.

Iri= ¿i ¡ Qi (12)

ou Irirepresente l’inertie du rotor i autour de son axe

de rotation.

1) Modele du X4-flyer: En se basant sur la descriptiondu X4-flyer presentee plus haut, les expressions de la forceF et du vecteur couple Γ1 peuvent etre decrites par :

F

Γ11

Γ21

Γ31

=

b b b b0 db 0 −dbdb 0 −db 0κ −κ κ −κ

︸︷︷︸A

$21

$22

$23

$24

(13)


ou d represente la plus petite distance separant l’axed’un rotor du centre de masse de l’engin. Etant donneque les parametres b, d et κ sont non nuls, la matriceA est de rang plein. En considerant maintenant chaquerotor Ri comme etant un disque rigide tournant a lavitesse $i autour de l’axe e3 de la structure, le rotor subitles rotations du fuselage. Ainsi, en utilisant le theoremefondamental de la mecanique, il est possible d’exprimerles effets gyroscopiques sous la forme7 :

Γ2 = ¡4∑

i=1

Ir(Ω× e3)$i.

En faisant l’hypothese que le centre de masse se trouveau centre de la structure en croix supportant les rotors, lamatrice Σ est totalement nulle.

2) Modele de l’helicoptere standard: L’elaboration d’unmodele generique pour l’helicoptere est plus complexe quecelle du X4-flyer. Nous avons choisi de nous limiter a unedescription sommaire du fonctionnement de l’appareil enmode de vol proche du vol stationnaire. Nous presenteronssans trop de details les expressions des forces et couplesagissant sur le fuselage. Comme nous l’avons evoque plushaut, lorsque le mode de vol est proche du vol plane, ladynamique du vent relatif peut etre ignoree. Le modeledynamique se ramene alors a celui d’un corps rigide dansl’espace soumis a une force due au rotor principal, a troismoments de rotation permettant de commander l’orienta-tion du fuselage et a deux moments de rotation pertur-bateurs lies a la resistance de l’air. Un des trois degresde commande de rotation concerne le lacet. Il est obtenupar l’action du rotor de queue. C’est essentiellement unmoment de rotation pur, du a la bonne compensationassociee a la longueur de la queue de l’helicoptere. Enrevanche, les deux autres couples qui controlent le rouliset le tangage sont obtenus par des petites inclinaisons dudisque lie au rotor principal et qui induit egalement de pe-tites forces dans la dynamique de translation connues sousle terme de Small body forces. Ces dernieres introduisentune dynamique de zeros dans le systeme. Toutefois, etantdonne que le systeme est hamiltonien, cette dynamique estau mieux a dephasage faiblement non-minimal8. La forcede sustentation F = |TP | a une norme egale a pousseedu rotor principal, sa direction est opposee a celle de lagravite. La matrice Σ representant le couplage entre lesdynamiques de translation et rotation est donnee par larelation

Σ = LK¡1

dans laquelle L =

eT1

eT2

eT2

, K =

0 ¡l3P ¡l3Ql3P 0 0¡l2P l1P l1Q

7Il faut noter que si la vitesse de rotation est la meme pour tous

les rotors, plus precisement si les rotors sont commandes via les pas

collectifs, ces effets sont pratiquement nuls.

8Lorsque les sorties du systeme ainsi que leurs derivees sont egales

a zero, les etats internes peuvent osciller.

lP est le vecteur distance entre le rotor principal et lecentre de masse, et lQ le vecteur distance entre le rotorde queue et le centre de masse ; tous deux exprimes dansle repere local. Dans le cas ou l’on ne considere que des

T 1M

T 2M

TM3T M

e M

1sa

1sb

β

Fig. 6. Orientation du vecteur force TP et la definition du vecteur

eP .

petites variations des angles a1s et b1s qui represententrespectivement l’inclinaison longitudinale et laterale du“disque rotor”principal par rapport au plan du repere local(voir Fig. 6), l’expression du couple Γ1 peut etre donneepar :

Γ1 ' K

¡a1s |TP |b1s |TP |

T 2Q

De plus, si l’on considere l’excentricite du rotor principalpar rapport au centre de masse et l’elasticite des pales durotor qui tend a resister a la deformation du“disque rotor”principal, l’expression du couple devient :

Γ1 ' K

¡a1s |TP |b1s |TP |

T 2Q

+ k0F ¡ ¯max(eP × e3)

ou le vecteur k0 represente l’excentricite du rotor, ¯max re-presente l’angle maximal du battement vertical du disquerotor, le vecteur eP , quant a lui, indique la direction dela poussee principale exprimee dans le repere local. Pourfinir, les deux couples perturbateurs lies a l’action de l’airsur les deux rotors sont regroupes dans le couple Γ2 :

Γ2 = QP e3 ¡ QQe2

3) Modele du HoverEye de Bertin Technologie: Lesingenieurs de Bertin technologies, en collaboration avecle LAAS-CNRS et l’I3S-UNSA-CNRS, ont propose unemodelisation assez complete de l’appareil pouvant rendrecompte de plusieurs modes de vol. Pour cela, la dynamiquedu systeme est consideree comme etant la dynamiquedu corps rigide associe au fuselage auquel sont ajouteesles forces aerodynamiques provoquees par la rotation desdeux rotors, l’influence de la carene, des gouvernes, etcelles provoquees par le vent. Dans cette etude, il aete suppose que les efforts aerodynamiques obeissent auprincipe de superposition. On distingue ainsi les efforts depropulsion des helices des efforts de portance et de traıneegeneres par la circulation d’air autour de la cellule, etdes efforts generes par les gouvernes. La legitimite d’un


tel decoupage n’a rien d’evident : en toute rigueur, levehicule, en mouvement dans un fluide, exerce par larotation de l’helice et par deflexion des gouvernes, uneforce sur le fluide qui en retour applique une force surla cellule. Cependant, l’objectif etant de modeliser lesphenomenes qui regissent le mouvement du microdroneafin d’en elaborer la commande, il est possible de negligerles couplages en premiere approximation. En considerantl’expression du torseur aerodynamique global donne parles tests en soufflerie, on peu ensuite tester la robustessede lois de controle elaborees.

G

zbe3

T

P

Fext

Fail

TF

Fa

L

εWind Velocity

Fig. 7. Efforts aerodynmiques sur le drone HoverEye

Le systeme non lineaire etabli decrit le sous-actionnement naturel de l’appareil (trois couples generespar les quatre gouvernes pour le controle d’attitude et uneforce poussee generee par la rotation des deux helices) etmettant en evidence une dynamique instable des zerosgeneree par un terme de couplage entre les dynamiquesde translation et de rotation. Il met egalement en exerguela difficulte de mesurer les efforts aerodynamiques et laposition du point d’application de ces efforts qui varie enfonction de l’angle d’incidence de l’appareil [31]. De facongenerale le systeme a pour forme :

» = v (14)

mv = ¡FRe3 + mge3 +RΣΓ1 + G(R, v, vv)(15)

R(η) = Rsk(Ω) (16)

IΩ = ¡Ω× IΩ+ Γ1 + Γ2(ε, R, vv) (17)

ou ε represente le point d’application des forces aerody-namique generalement variable et inconnu. Les termes G

et Γ2 representent respectivement les forces et couples ae-rodynamiques exerces sur le fuselage. Leur expression estprotegee par la confidentialite mais une version simplifieeest donnee dans [31].

Les principales equipes de recherches participant a lamodelisation des drones a voilures tournantes sont : leLAG a Grenoble, implique dans une modelisation del’helicoptere incluant les effets aerodynamiques, Le CEA-LIST a Fontenay-Aux-Roses s’interesse, en collaborationavec l’I3S-UNSA-CNRS, a la modelisation du X4-Flyer a

proximite d’obstacle, le LSC a Evry qui travaille princi-palement a l’elaboration d’un modele du X4-flyer base surle formalisme lagrangien et tenant compte de la flexibilitede certains composants, l’ONERA a Tououse s’interesseau helicopteres miniatures a rotor principal et enfin Ber-tin Technologies a Versaille qui, en collaboration avec leLAAS-CNRS a Toulouse et l’I3S-UNSA-CNRS a SophiaAntipolis, a developpe un modele relativement complet dudrone Hover-Eye a partir de tests en soufflerie.

III. Strategies de controle avancees

Dans cette partie nous allons presenter les travaux derecherche de la communaute relatives au probleme decommande en tentant de les positionner par rapport al’activite internationale.

Les premiers travaux sur la commande non-lineaires deshelicopteres ont ete orientes vers l’extension de la tech-nique de linearisation entree-sortie developpee par Hauseret Sastry [2] pour le controle d’un avion a decollage (etatterrissage) vertical (PVTOL). Sachant, que la linearisa-tion entree-sortie ne peut etre appliquee qu’aux systemesnon lineaires a dephasage minimal, Koo et Sastry [19]ont propose une linearisation entree-sortie approximative,en ignorant le terme de couplage Σ. Il en resulte unsysteme simplifie sans la dynamique des zeros que l’on peutqualifier de systeme a dephasage minimal. Par ailleurs, ila ete demontre que, contrairement au PVTOL, le systemedecrivant la dynamique de l’appareil n’est pas plat [18](ceci n’est pas vrai pour le X4-flyer). D’autres techniquesde commande non lineaire ont ete utilisees pour controlerseulement une partie de la dynamique. En effet, les travauxde Sira-Ramirez sur la commande par modes glissants [20]ou encore ceux de Kaloust bases sur la methode directe deLyapunov [21] ne concernent que la dynamique verticalede l’appareil. A notre connaissance, le premier travail basesur la methode directe de Lyapunov pour la poursuite detrajectoire et pour la stabilisation vers une configurationfixe tenant compte du modele complet de l’helicoptere setrouve dans [9]. Un resultat similaire a ete propose parFrazzoli et al. [17] peu de temps apres.

Dans ce qui suit, nous presentons les idees de base desstrategies de controle realisees au sein de la communautefrancaise, en precisant a chaque fois l’originalite du resul-tat etabli par rapport aux methodes existantes.

A. Commande par extension dynamique

En se basant sur le developpement precedant de ladynamique d’un helicoptere, une representation du mo-dele Eq. 1-4, peut etre resumee sous forme d’un schemabloc (cf. figure 8) faisant apparaıtre dans lequel on peutvoir la boucle d’anticipation (Feedforward) provoquant ladynamique des zeros.

A l’instar de Hauser et Sastry [2], la plupart des auteurschoisissent d’omettre le terme introduisant la dynamiquedes zeros dans le systeme, au profit de la conceptiond’une loi de commande robuste [11], [24], [17], [12], [18].


QM Q T

u

w

l0

u

RPostionLinear velocity

Rotationalkinematics

Angularvelocity

v

lift force -uRe 3

lift

R

ξ

Ω

σ

Air resistanceon rotor blades

feedforwordleading to zero dynamics

feedback coupling

σR

Fig. 8. Schema bloc de la dynamique d’un helicoptere.

Dans cette approche, la loi de commande est concueen ignorant la boucle d’anticipation (Σ = 0), puis uneanalyse de robustesse du systeme en boucle fermee estrealisee en re-injectant la boucle d’anticipation (Σ 6= 0).En adoptant cette strategie, le schema bloc devient unesuccession d’integrateurs. En effet, si l’on definit commevecteur d’etat x = (x1, x2, x3, x4)

T = (», v,R,Ω)T , unerepresentation possible du systeme (1-4) est :

x1 = Á(x2)

x2 = Á(x3)

x3 = Á(x3, x4)

x4 = Á(x4, ¿). (18)

Une technique particulierement bien adaptee pourcontroler un tel systeme est le Backstepping. Cette ap-proche a en effet la propriete d’etre plus flexible, plusrobuste et moins restrictive que les techniques de linearisa-tion [25]. Sur cette base, le probleme qui ete resolu dans [7]a ete de determiner la force sustentatrice F et le vecteurcouple Γ1 dependant des etats (», v, R et Ω) et eventuel-lement des derivees par rapport au temps des parametresde la trajectoire desiree (»d, Ád), de telle sorte que l’erreurE = (»¡ »d, Á¡Ád) converge asymptotiquement vers zero.Dans l’elaboration d’une telle loi de controle la grandedifficulte provient du sous-actionnement de la dynamiquede translation puisque seule l’entree F ∈ < intervientdans cette dynamique. Toutefois, le fait de definir laquantite vectorielle FRe3 comme une nouvelle entree decommande et de considerer une extension dynamique de laforce F a l’aide d’un double integrateur, permet de fairedisparaıtre le probleme de sous-actionnement . Ainsi, laveritable variable de controle F et sa derivee premiere F

sont considerees comme des etats internes du controleurdynamique. Un des avantages d’un tel choix est que ledegre relatif de la nouvelle commande, F , par rapport a» est quatre, egale au degre relatif liant » et les couples.La mise en correspondance des degres relatifs des entreespar rapport aux sorties du systeme, permet une affectation

combinee de la dynamique complete d’un vecteur d’erreurdependant des coordonnees de position et de quelquestermes generes par la procedure du backstepping. Plusprecisement, en plus des deux erreurs originales, δ1 = »¡»d

et ε1 = Á ¡ Ád, quatre erreurs ont ete generees :

δ2 : pour stabiliser la vitesse de translation ,

δ3 : pour incorporer l’erreur en tangage et roulis,

δ4 : pour stabiliser les vitesses de tangage et de roulis,

ε : pour stabiliser l’angle ou la vitesse du lacet.

Le resultat a ete l’elaboration d’une fonction de Lyapu-

nov permettant, dans le cas ou les Small body forces sontignorees, d’assurer la convergence exponentielle de toutesles erreurs vers zero. Ceci n’assure malheureusement pasla stabilite du systeme complet ! Toutefois, moyennant uncertain nombre de majorations et de calculs complexes,cette approche a permis de presenter un resultat originalliant la nature de la stabilite, les parametres de trajectoirea suivre et les parametres physiques et geometriques del’helicoptere. En ce sens, il a pu etre montre sous certainesconditions que le systeme est stable, plus precisementuniformement borne pour un helicoptere standard. Enfin,il a ete demontre que la taille du domaine de stabilite estliee a la regularite de la trajectoire suivie et a l’inverse del’ecart entre le point d’application de la force et le centrede masse [9], [7].

B. Commande par retour d’etat statique

Les strategies de controle presentees jusqu’ici ont prin-cipalement ete developpees pour un helicoptere standard.Elles s’averent inadaptees pour la commande du X4-flyer.En effet, l’equation (13) fait apparaıtre une relation alge-brique liant la force F , le vecteur couple Γ1, et les vitessesde rotation des moteurs. La particularite du modele duX4-flyer a motive le developpement d’une nouvelle tech-nique de controle generique qui s’applique a l’ensemble desconfigurations d’helicopteres. Cette approche ne necessiteni extension, ni reduction de la dynamique du contro-leur. Il s’agit la, d’un simple retour d’etat statique ! Enexaminant, le vecteur FRe3 de controle de la dynamiquede translation, on s’apercoit que son amplitude est F etque sa direction est donnee par le vecteur Re3. Ainsi, enchoisissant9 comme controle desire pour la dynamique detranslation, le vecteur :

(FRe3)d := mge3 ¡ m»d + mk1(k1 + k2) (19)

avec δ2; δ2 = 1k1

(v¡»d)+δ1; k1, k2 > 0, et en considerantla fonction de stockage suivante :

S1 =1

2|δ1|

2 +1

2|δ2|

2. (20)

on obtient :

d

dtS1 = ¡k1|δ1|

2 ¡ k2|δ2|2 ¡ (FRe3 ¡ (FRe3)d) (21)

9Pour des raisons de simplicite, la dynamique des rotors n’est pas

consideree.


En reecrivant la quantite vectorielle comme suit :

(FRe3)d = F (Re3)d,

la dynamique de translation peut etre separee de la dy-namique de rotation. En effet le vecteur directeur dela commande (Re3)d definit les orientations desirees entangage et en roulis. En rajoutant l’orientation desireesur le lacet, il est possible de deduire toute la matriced’orientation desiree Rd. En choisissant une representationpar les quaternions de la deviation angulaire R = RT Rd,il est possible de majorer dynamique de S1 par :

d

dtS1 · ¡k1|δ1|

2 ¡ k2|δ2|2 + 2

√2

F

mk1|δ2||η|

avec |R ¡ I3|F = 2√2|η|, et η representant le vecteur des

quaternions de la deviation R considere comme l’erreur astabiliser via les couples de la dynamique de rotation [5].Ce type d’approche a ete etudiee sous plusieurs angles.Le laboratoire Heudiasyc s’est interesse a la techniquede commande par saturations imbriquees de Teel [26]sur toute la dynamique du systeme. Le CEA-LIST encollaboration avec l’I3S-UNSA-CNRS s’est interesse a unetechnique mixte (backstepping et les approches de petitgains). Cette derniere technique paraıt particulierementadaptee au probleme etudie. En effet, si l’on sature la dy-namique de translation, on sature par la meme occasion ladynamique de rotation. En d’autres termes, si on sature laforce de sustentation F au voisinage de la force de graviteF ∈ [mg¡ε,mg+ε] alors, quel que soit le couple applique,on peut montrer que la deviation angulaire de l’appareil estlineairement proportionnelle a ε. Ce type de technique aete egalement etendu au probleme de saturation de l’etat,notamment de la vitesse de translation, garantissant ainsila validite du modele du drone dans un mode de vol quasi-stationnaire [14].

C. Planification de trajectoire et controle de deplacements

du drone

Le LSC-Evry s’est interesse recemment au problemede stabilisation avec planification de mouvement des sixconfigurations independantes du X4-flyer XSF (structureparticuliere d’un vehicule a quatre rotors dans laquelledeux rotors sont directionnels. Etant donne que le lacetpeut etre stabilise sans difficulte et independamment desautres mouvements, la dynamique restante est lineariseeautour des angles faibles de roulis et de tangage. Onmontre que le systeme presente une sortie plate qui estsusceptible d’etre utile pour la generation de mouvement[13]. Le controleur de poursuite est base sur la navigationpoint par point. Les deux degres de liberte internes menenta une transformation non bijective entre les entrees decommande et les forces de poussees. Ceci rend le XSFdifferent de celui du robot aerien X4-flyer classique. Lemodele dynamique introduit cinq entrees de commandecalculees pour stabiliser le systeme autour d’une trajec-toire pre-definie. Le chemin pre-defini est, une route de

vol, decrit par des droites raccordes avec des coins arrondis[15].

D. Commande adaptative et identification des forces aero-

dynamiques

La commande des manœuvres de decollage et d’at-terrissage pose des problemes tres difficiles a resoudre.Ces difficultes sont dues principalement a la variationdes forces aerodynamiques, en fonction des parametresde l’environnement. En particulier, lorsqu’il est proche dusol10 les ecoulements d’air a travers le rotor principal d’unhelicoptere standard sont perturbes. Si l’on suppose, parexemple, que la manœuvre d’atterrissage est realisee enmode de vol quasi-stationnaire, la decroissance de l’energiecinetique communiquee a l’air par le rotor se transformeen energie de pression. L’augmentation de cette dernierese fait sentir sur l’intrados des pales par une augmentationde la portance T du rotor qui se trouve inversementproportionnelle a la distance “Z” entre le disque rotor et lesol [10]. Si cet effet permet de limiter la poussee necessairepour tenir l’helicoptere en vol, il s’avere toutefois tres dan-gereux car l’ecoulement aerodynamique est perturbe parles tourbillons d’extremites de pales. Dans ces conditions,quand un helicoptere en vol stationnaire se met a amorcerune descente verticale a faible vitesse, l’inversion du sensdes vitesses risque d’empecher le flux d’air de traverser lerotor, soit vers le haut, soit vers le bas ; on dit alors que lespales travaillent dans leurs propres remous, et l’air formeun anneau tourbillonnaire autour du rotor. Ce phenomeneappele “etat de vortex”, se trouve a l’origine de “vibrationsdangereuses” sur tous les helicopteres et risque d’entrainerdes “pertes de controle” [28]. Dans ce cas, on montre quela grande sensibilite de l’helicoptere aux changements dupas collectif pour de telles manœuvres, ne permet pasle developpement de lois commande simples et robustesstabilisant l’helicoptere. Par ailleurs, on peut montrer quesi on choisit de commander la vitesse de rotation durotor principlal (voir Sec. II-B), au lieu du pas collectif,le probleme pose se simplifie grandement. En particulier,tous les changements affectant la force de sustentation F

et des anti-couples QP et QQ peuvent etre estimes viaune identification en ligne des parametres (b, κP et κQ)au cours de la manœuvre. Quant aux interferences duesa l’etat de vortex et aux effets aerodynamiques pouvantdegrader l’orientation du disque rotor quand l’helicoptereest proche du sol, il apparaıt difficile de les identifier enligne. Toutefois, des resultats interessants ont ete obtenusen modelisant ces phenomenes comme des bruits a bassesfrequences. Ainsi, il a ete montre que la loi de controle,etablie par backstepping est robuste par rapport a ce typede bruit et par rapport aux Small body forces [6].

10Ces effets sont negligeables lorsque l’altitude du centre de pous-

see est superieur au diametre du rotor.


E. Controle du Hover-Eye en presence de rafale de vent

Sur la base du modele d’evolution du centre de masse del’appareil, des solutions ont ete proposees pour stabiliserl’appareil autour d’une configuration fixe de l’espace mal-gre le phenomene instable de la dynamique des zeros etles problemes des efforts aerodynamiques provoques pardes rafales de vent. Tout d’abord, il a ete montre qu’iletait possible, en deplacant le point de controle, du centrede masse vers le haut de l’appareil, d’annuler les effetsdes zeros dynamiques. En considerant ce nouveau point decontrole, une procedure de decouplage entre la dynamiquedu lacet et l’attitude du drone simplifiant ainsi la proce-dure de controle etablie a ete utilisee. La loi de controleproposee est une commande non-lineaire adaptative, baseesur les techniques du backstepping, permettant l’identifi-cation en ligne de la resultante des efforts aerodynamiqueslateraux et des coordonnees de son point d’application surl’appareil. Les travaux realises, trop techniques pour etrereportes ici, sont decrits dans [31].

IV. Estimation d’etat et filtrage de donnees

L’implementation de toute loi de controle necessite lareconstruction et l’estimation des etats dont elle est fonc-tion. En fonction des types de capteurs embarques ons’interesse a la reconstruction de l’information de positionet de vitesse, absolues ou relatives, par fusion des infor-mations inertielles provenant de la centrale embarquee, duGPS ou de la camera. Le principe consiste a integrer lesmesures accelerometriques et gyrometriques pour obtenirla vitesse et la position du drone. Cette integration divergetres rapidement en boucle ouverte. On cherche alors arecaler l’estimation de la position et de la vitesse obtenuepar integration des mesures inertielle via la mesure duGPS ou de la vision. Pour le probleme d’estimation enpresence de mesure GPS, des resultats existent depuis unedizaine d’annees mais aucune des solutions connues n’estreellement satisfaisante pour repondre aux problemes ren-contres. En effet, les techniques existantes considerent desmesures sans retard alors que les releves en vol indiquentque le GPS fournit la mesure de position et de vitesse a unefrequence d’un Hz, avec un retard de 1 a 1.5 seconde. Parailleurs, bien que l’interet de la communaute roboticiennepour les problemes de correction des donnees inertiellesvia la vision soit croissant [27], il n’existe pas a l’heureactuelle de resultat satisfaisant permettant de repondreau probleme d’observation considere.

A. Filtrage et correction des donnees de la centrale iner-

tielle

Le principe d’estimation de l’attitude consiste genera-lement a recaler la matrice obtenue par integration desdonnees gyroscopiques, en effectuant une mesure de cettematrice a partir des accelerometres et des magnetometres.Les algorithmes classiquement utilises sont du type filtragecomplementaire ou filtrage de Kalman, et sont bases surdes modeles lineaires n’exploitant pas la structure du

groupe SO(3) des matrices de rotation et son algebre deLie associee.

En reponse a ce constat, une methode originale a eteelaboree consistant a utiliser des filtres complementairesnon-lineaires et exploitant la structure du Groupe SpecialOrthogonal et de la variete sous-jacente associee a sonevolution. Deux approches ont ete proposees, l’une sequen-tielle inspiree de la structure geometrique du probleme[22], l’autre plus compacte consistant a stabiliser globale-ment les differentes variables[23]. Apres avoir constate labonne qualite des resultats de ces filtres non-lineaires auregard d’un filtrage de Kalman classique sur des donneesde la centrale inertielle, une version simplifiee du filtresequentiel a ete integree sur le X4-flyer du CEA-LIST.Les resultats experimentaux se sont averes de tres bonnequalite pour le tangage et le roulis. En revanche, a causede la pollution des donnees magnetometriques genereepar les moteurs, l’estimation du lacet s’est averee bienmoins bonne. Pour repondre a ce probleme, un nouveaufiltre a ete developpe utilisant uniquement les donneesaccelerometriques. Si ces donnees sont suffisamment riche,et si l’estimation initiale de l’orientation est proche de laveritable valeur que l’on associe avec les mesures gyro-scopiques au moyen d’un filtre complementaire qualifie depassif, il est possible de restituer la matrice de rotationcomplete. Ce resultat est tres novateur puisqu’il permetde s’affranchir des magnetometres. Il a ete teste avecsucces en simulation, puis experimentalement sur le droneHoverEye de Bertin Technologies [23].

Notons qu’a l’exception de quelques travaux sur l’esti-mation de la matrice de rotation et des biais des gyrospar filtrages de donnees (dont certains sont confidentielscomme ceux de l’ONERA), les travaux realises ces der-nieres annees par des equipes francaises ont ete principa-lement consacres a la modelisation et a la commande. Ondevrait voir une augmentation significative des resultatsd’estimation dans les prochaines annees. Les delais demise en place des plate-formes experimentales dans leslaboratoires et de validation experimentale des algorithmesde commande sont les principales causes de ce retard.

V. Commande referencee Vision pour les drones

a voilures tournantes

A. Description des approches classiques

Grace a la frequence et a la qualite des informationsdelivrees le capteur de vision CCD, l’asservissement visueloffre un moyen performant de reguler le mouvement enrobotique. Les methodes utilisees se repartissent entredeux principales tendances qui sont :

- L’asservissement visuel 3D qui repose sur uneestimation de la position et de l’orientation de l’amervisuel par rapport a la camera, a partir des images cou-rantes et desirees. Cette approche supppose generalementla connaissance a priori d’un modele geometrique de lacible et des parametres intrinseques de la camera [29].


- L’asservissement visuel 2D qui vise a relier di-rectement la variation des indices visuels s(r, t) dans leplan image au mouvement de la camera sans necessiter dereconstruction 3D. A chaque configuration r = (»,R) dela camera, cette relation est definie a l’aide d’une matriced’interaction Ls selon le schema suivant :

s =∂s

∂rr = Ls

µV

Ω

¶

La tache est alors definie par la regulation a zero d’unefonction de tache admissible e(s, t) = s(r, t)¡s∗, de memedimension que le vecteur de sortie (voir [30] pour unecomplete definition) :

e(s, t) = s(r, t)¡ s∗; e(r, t) = Ls

µV

Ω

¶(22)

Les schemas de commande generalement proposes re-sultent de la convergence exponentielle de la fonction detache vers zero. Toutefois, le couplage entre la dynamiquede translation et la dynamique de rotation, induit parla condition de convergence exponentielle de l’erreur verszero, peut parfois entraıner des mouvements indesirables,voire impossibles, de la camera.

Initialement developpee pour la commande des mani-pulateurs [32], [33], l’approche 2D a ensuite ete etenduea la commande des robots a roues grace a l’introductionde degres de liberte supplementaires obtenus en montantla camera sur une platine mobile ou un bras. [34], [35].Depuis, ces techniques ont connu un essor important dansle domaine de la robotique mobile [36], [37], [38], [39].Toutefois, la majeure partie de ces travaux reposent surdes schemas de controle de type cinematique (commandeen vitesse). La dynamique n’etant prise en compte quevia les techniques du couple calcule ou de la commandea grand gain [30]. Les premiers resultats proposes tenantcompte de la dynamique ont ete principalement dedies auxrobots manipulateurs [40], [41], [42]. Un premier ensemblede resultats interessants, concernant respectivement l’ap-plication de techniques d’asservissement 2D et 3D a larobotique aerienne, a ete obtenu a la suite de travauxde Rives et al. [43] et de Zhang et Ostrowski [44] sur lacommande des dirigeables.

Afin de mieux prendre en compte les problemes inhe-rents a la dynamique sous-actionnee des robots volants,une nouvelle technique d’asservissement visuel a ete pro-posee dans [3]. Cette approche est presentee dans la sectionsuivante. Apres une description generale de la methodeet de son application au probleme de commande deshelicopteres, nous presenterons son extension au problemede suivi de lignes paralleles.

B. Commande referencee vision des systemes dyna-

miques : utilisation des coordonnees spheriques

Comme nous l’avons dit plus haut, les techniques clas-siques d’asservissement 2D ne sont applicables que sur dessystemes completement actionnes et caracterises par des

dynamiques lentes. Pour les systemes sous-actionnes pluscomplexes tels que les engins volants, il est necessaire detenir compte de la dynamique complete dans la bouclede commande. En effet, a cause du sous-actionnement,il n’est par exemple pas possible de realiser des tachesde positionnement a partir des approches classiques. Ceciest principalement du au couplage et a l’impossibilite dedefinir un diffeomorphisme entre la tache et l’ensemble desdegres de liberte l’engin. Pour repondre a ce problemela methode qui a ete proposee consiste a definir un dif-feomorphisme entre les sorties controlables du systeme etl’image du motif visuel, et a creer une structure passivede la dynamique dans cet espace. En d’autres termes, elleconsiste a decoupler la dynamique de translation de cellede rotation via un choix approprie de la representationdes indices visuels (points et droites). Pour simplifier lapresentation, nous supposerons dans la suite que le reperede la camera coıncide avec le repere local de l’engin.

Notons P ′ ∈ I la representation inertielle d’un pointobserve par la camera et P sa representation dans le repereattache a la camera, c’est-a-dire :

P = R′T .(P ′ ¡ ») (23)

Soit p = 1σ(P )P la projection du point P sur la surface S

definissant la geometrie de la camera.

p =1

¾(P )P ¡

1

¾(P )2d

dt¾(P )P

= ¡sk(Ω)p + pηTp sk(Ω).p + (I3 ¡ pηT

p )V

¾(P )(24)

ou ηp represente le vecteur normal a S au point p.L’equation 24, telle qu’elle est definie, n’est structurelle-ment passive que si une surface spherique pour l’imageest utilisee [3]. En effet, dans ce cas ηp = p et ainsila dynamique d’un point image se simplifie et devientsimilaire a la dynamique du point P :

pi = ¡sk(Ω)pi + ¼p

V

¾(Pi)(25)

La matrice ¼p = (I3 ¡ ppT ) represente l’operateur deprojection sur l’espace tangent de la surface spherique11

de l’image au point p. Soit p∗1, . . . , p∗n l’ensemble des

points desires observes par la camera quand elle atteint saposition et son orientation desirees. La difference entre levecteur image observe et le vecteur desire est un vecteurde dimension 3n, note δ, donne par l’expression suivante :

δ = vect(pi ¡ p∗i ) ∈ R3n (26)

Tout comme dans les approches classiques, la tache estdefinie par la regulation a zero d’une fonction de tacheadmissible δ1(pi), de meme dimension que le vecteur de

11Il n’est pas necessaire d’implementer une camera spherique dans

un processus reel. Il suffit de calculer numeriquement les coordonnees

spheriques.


V

ΩΩ x p

r1

π Vpp.

Vr

Ω x pr1

π Vp

P

Plan image

u

v

=

Fig. 9. Projection d’un point image sur une sphere.

sortie. Si l’on ne s’interesse qu’a l’asservissement de po-

sition, la difference entre les centroıdes (q =i=n∑i=1

pi et

q∗ =i=n∑i=1

p∗i ) de l’image spherique des motifs courant et

desire est largement suffisante. En effet, contrairement ala centroıde classique, cette expression incorpore l’infor-mation de profondeur separant la cible du plan image. Deplus, si on considere que la direction de la sortie desiree q∗

est fixe dans le repere inertiel, la dynamique de la fonctionde tache δ1 = q ¡ q∗ devient :

δ1 = ¡Ω× δ1 ¡ QV (27)

mV = ¡Ω× mV + FT (28)

R = RΩ (29)

IΩ = ¡Ω× IΩ+ ΓT (30)

ou Q =i=n∑i=1

1ri

¼piest une matrice inconnue mais definie po-

sitive, car ¾i > 0. Neanmoins, ces deux bornes (inferieureet superieure) peuvent etre estimees a partir des positionsinitiale et finale de la camera. Ainsi, la structure passivenecessaire a l’application des techniques du backstepping,apparaıt clairement dans les equations de dessus. En effet,en considerant comme fonction de stockage la fonction :

S =1

2|δ1|

2

il vient : δT1 d/dtδ1 = δT

1 QV . En d’autres termes, la matriced’interaction L = [sk(δ1) Q] n’a plus a etre estimeepuisque le terme sk(δ1) n’apporte aucune informationutile et que la matrice Q est une matrice definie positiveassurant que toute loi de commande de la forme V = ¡kδ1,stabilise exponentiellement l’ecart en position vers zero.Pour la stabilisation de l’orientation, il apparaıt toutefoisnecessaire de definir d’autres taches et bien sur d’autresvecteurs de sortie [3]. Les systemes consideres sont bel etbien dynamiques, par consequent les entrees de commandene sont plus en vitesse. En supposant que des informations

inertielles (mesures gyroscopiques et mesure de la direc-tion de la gravite, par exemple) sont disponibles, deuxalgorithmes generaux de commande ont ete proposes :l’un pour les systemes completement actionnes prenanten compte toute la dynamique du systeme [4] ; le seconddestine aux systemes sous-actionnes [3]. Les travaux dethese d’Abdel-Hamid Chriette (realisee au LSC-Evry) ontete en partie dedies a l’exploitation de ces idees pour lecontrole d’un helicoptere miniature. Il a etendu ce resultat[3] au cas ou le modele complet de l’helicoptere (incluant ladynamique des zeros) est utilise. L’idee principale de cettecontribution est la determination de la position optimalede la camera par rapport au centre de masse qui minimiseles effets de la dynamique des zeros. Ainsi, comme il n’estpas evident, voire impossible, de placer la camera au centrede masse de l’appareil, il convient de la placer dans laposition qui subit le moins d’oscillations. Les effets dupositionnement de la camera par rapport au centre demasse d’un corps rigide quelconque, mais sous-actionne,ont egalement ete etudies. Une variante de ces algorithmesest en cours d’implementation sur le drone HoverEye deBertin-Technologie.

C. Suivi de lignes par asservissement visuel d’un systeme

dynamique

Afin de permettre la commande des drones le longde chemins geometriques definis par des amers tels quedes cables de lignes a hautes tension, ou des autoroutes,il est necessaire de considerer d’autres primitives quedes simples points. Pour cela, les droites constituent desmotifs bien adaptees qui ont deja fait l’objet de travauxde recherche approfondis [32] [45], [46]. Parmi toutes lesparametrisations possibles pour representer une droite,seule la representation par coordonnees de Plucker bi-normee est structurellement passive12 Cette approche aete initialement exploitee en asservissement visuel pour lacommande d’un bras manipulateur [45], [46]. La represen-tation s’exprime sous la forme :

H = P × U ; |U | = 1; |H| = |P |

ou U represente la direction de la droite et P representele point de la droite le plus proche du centre focal. Soith = H

|H|, le vecteur unitaire normal au plan contenant

la droite et passant par le centre focal. Les equations dumouvement de la camera par rapport a ces coordonneespeuvent etre donnees par :

U = ¡sk(Ω)U (31)

h = ¡sk(Ω)h +1

|H|¼h(V × U). (32)

Il apparaıt clairement que la dynamique du vecteur h estla meme que celle de la projection spherique du point P

dans le plan orthogonal au vecteur U .

12Pour plus de details sur cette representation nous invitons le

lecteur a consulter les references suivantes : [47], [32], [48].


De maniere similaire, si la cible est composee de deuxdroites paralleles ou plus, il a ete montre que le centragede la camera entre ces droites et son positionnement enprofondeur par rapport a ces dernieres, peut etre realisepar la regulation a zero de la difference entre les centroıdes

(q =i=n∑i=1

hi et q∗ =i=n∑i=1

h∗i ) relatifs a l’image des motifs

courant et desires. La direction des lignes, quant a elle,peut servir a fixer l’orientation en lacet de la camera. Eneffet, la seconde tache, qui se trouve independante de lapremiere, peut etre formulee comme suit :

ε1 = q02 ¡ F

ou F ∈ A represente la direction souhaitee, et q02 ≈ U

represente l’information visuelle utilisee :

q02 =

q2

|q2|, avec q2 =

∑i≤j

aij (hi × hj)

En revanche, il est impossible de definir la vitesse selon ladirection des droites a partir des ces informations geome-triques. Ainsi, pour realiser la derniere tache parallelementaux deux autres, il est possible de se baser sur les mesuresembarquees de vitesse selon le schema suivant :

η2 := m(UT V )¡ mvd. (33)

A partir de la definition des quatre ecarts a reguler(le vecteur δ1 pour le centrage et le positionnement enprofondeur, ε1 pour fixer la direction de la camera etenfin η2 pour la regulation la vitesse dans la direction deslignes), un schema de controle base sur les techniques debackstepping peut etre utilise pour stabiliser le systeme [8].

VI. Conclusions et Perspectives

Apres avoir presente de facon synthetique les resultatsdeveloppes dans les laboratoires francais sur la modeli-sation des engins volants a voilures tournantes capablesde realiser des vols stationnaires, un modele dynamiquegenerique a ete propose dans lequel le sous-actionnementet les forts couplages entre les dynamiques de translationet de rotation ont ete mis en evidence. Nous avons en-suite presente les strategies de planification et de controleavance dediees a la commande de ces vehicules. L’ensemblede ces methodes devrait prochainement etre complete pard’autres approches telles que la commande predictive,fortement developpee au LAG-Genoble, et l’utilisation desfonctions transverses developpees a lINRIA. Au niveau del’estimation d’etat et du filtrage de donnees, les resultatssont tres partiels a l’heure actuelle mais cette question sus-cite enormement d’interet au sein des laboratoire francaisnotamment a l’I3S, au LAAS et a Heudiasyc deja actifs surce theme ou dans le cadre de projets recemment inities auLAG et au LSC.

Au niveau de l’asservissement visuel, la recherche restelimitee a tres peu de laboratoire. Il s’agit notammentdes laboratoire intervenant dans le projet ROBVOLINT

(CEA-LIST, I3S-UNSA-CNRS, IRISA, IRCCyN). Les tra-vaux actuel dans ce domaine concernent la modelisa-tion adequate des informations visuelles, et la recherched’autres informations generiques pour d’autres types demotif. Il s’agit la de trouver une representation adequate,calculable a partir d’elements caracteristiques extraits del’image, permettant de retrouver la passivite structurellenecessaire. Par ailleurs, toute representation non minimalede l’information extraite semble etre une bonne possibilite.Les coordonnees spheriques d’un point et les coordonneesde Plucker d’une droite en sont de bonnes illustrations.D’autres objectifs concernent l’amelioration du condition-nement de la jacobienne de la tache, et la prise en comptedes retards lies a la transmission et a l’extraction desinformations visuelles.

References

[1] P. Martin, S. Devasia, and B. Paden, “A different look at output

tracking : Control of a vtol aircraft,” Automatica, vol. 32, No 1,

pp. 101–107, 1996.

[2] J. Hauser, S. Sastry, and G. Meyer, “Nonlinear control design

for slightly non-minimum phase systems : Applications to v/stol

aircraft,” Automatica, vol. 28, no. 4, pp. 651–670, 1992.

[3] Hamel T. and Mahony R. Visual servoing of an under-actuated rigid body system : An image based approach. IEEE-

Transactions on Robotics and Automation, Vol 18, No 2, pp

187-198

[4] Hamel T. et Mahony R. Visual servoing of fully actuated dy-namic systems using a robust backstepping design. 6th IFAC

Symposium Robot Control SYROCO’2000, Vienne, Autriche.

[5] Hamel T., Mahony R., Lozano R. et Ostrowski J. DynamicModelling and Configuration Stabilization for an X4-flyer. Dans

le 15eme IFAC World Congress’2002.

[6] Mahony R. and Hamel T. Adaptive compensation of aerodyna-mic effects during takeoff and landing manoeuvres for a scalemodel autonomous helicopter. European Journal of Control

(EJC), Vol 7, No 1, pp 43-58. 2001.

[7] Mahony R. and Hamel T. Robust Trajectory Tracking for aScale Model Autonomous Helicopter. International Journal of

Non-linear and Robust Control, 2004.

[8] Mahony R. and Hamel T. Image Based Visual Servo Controlfor Tracking Linear Image Features. IEEE Transactions on

Robotics and Automation, April 2005.

[9] Mahony R. Hamel T. et A. Dzul-Lopez Hover control via an ap-

proximate Lyapunov control for a model helicopter. Proceedings

of 38th

Conference on Desicion and Control, Phoenix, Arizona,

pp. 3490-3495, 1999.

[10] R.W. Prouty, Helicopter Performence, Stability and Control,Krieger Publishing Company, reprint with addition, original

edition (1986), USA, 1995.

[11] M. J. van Nieuwstadt, Trajectory Generation for NonlinearControl Systems, Ph.D. thesis, California, USA, July 1996.

[12] H. Shim T. Koo, F. Hoffmann, and S. Sastry, “A comprehensive

study of control design for an autonomous helicopter,” in The37th Conference on Decision and Control, Florida, USA, 1998.

[13] L. Beji and A. Abichou, Streamlined Rotors Mini Rotorcraft :Trajectory Generation and Tracking. International Journal of

Control Automation, and Systems, V.3, No.1, pp. 87-99, 2005.

[14] Guenard N., Hamel T., Moreau V., Modelisation et elaborationde commande de stabilisation de vitesse et de correction d’as-siette pour un drone de type X4-Flyer. Conference Internationale

Francophone en Automatique CIFA’2004.

[15] L. Beji and A. Abichou, Trajectory generation and tracking of amini-rotorcraft. IEEE-Internatinal Conference on Robotics and

Automation ICRA’2005, Espagne, avril 2005.


[16] O. Shakernia, Y. Ma, T. J. Koo, J. Hespanha, and S. Sastry,

“Vision guided landing of an unmanned air vehicle,” in Procee-dings of the 38th Conference on Decision and Control, Phoenix,

Arizona, USA, 1999, pp. 4143–4148, Session FrA06.

[17] M. Dahlen E. Frazzoli and E. Feron, “Trajectory tracking

control design for autonomous helicopters using a backstepping

algorithm,” in Proceedings of the American Control ConferenceACC, Chicago, Illinois, USA, 2000, pp. 4102–4107.

[18] H. Sira-Ramirez, R. Castro-Linares, and E. Liceaga-Castro, “A

Liouvillian systems approach for the trajectory planning-based

control of helicopter models,” International Journal of Robustand Nonlinear Control, vol. 10, pp. 301–320, 2000.

[19] T. John Koo and S. Sastry, “Output tracking control design

of a helicopter model based on approximate linearization,” in

Proceedings of the IEEE Conference on Decision and ControlCDC’98, 1998.

[20] H. Sira-Ramirez, M. Zribi, and S. Ahmed, “Dynamical sliding

mode control approach for vertical flight regulation in helicop-

ters,” in The IEEE Control Theory Appl, 1994, vol. 141, pp.

19–24.

[21] J. Kaloust, C. Ham, and Z. Qu, “Nonlinear autopilot control for

a 2-dof helicopter model,” in The IEEE Control Theory Appl.,1997, vol. 144, pp. 612–616.

[22] Metni N., Pflimlin J-M. et Hamel T. Attitude and Gyro BiasEstimation for a Flying UAV. IEEE, International Conference

on Intelligent Robots and Systems IROS’2005.

[23] Pflimlin J-M., Hamel T et Soueres P. A Nonlinear Observer onSO(3) Group for Attitude and Gyro Bias Estimation for a FlyingUAV. 16th IFAC World Congress’2005.

[24] R. Bradley, “The flying brick exposed : nonlinear control of a ba-

sic helicopter model,” Tech. Rep. TR/MAT/RB/6, Department

of Mathematics, Glasgow Caledonian University, Scotland, UK,

1996.

[25] M. Krstic, I. Kanellakopoulos, and P.V. Kokotoviv, Nonlinearand adaptive control design, American Mathematical Society,

Rhode Islande, USA, 1995.

[26] A. R. Teel, “A nonlinear small gain theorem for the analysis

of control systems with saturation,” IEEE Transactions onAutomatic Control, vol. 41, no. 9, pp. 1256–1270, 1996.

[27] H. Rehbinder and B. K. Ghosh, Pose estimation using line baseddynamic vision and inertial sensors , IEEE Transactions on

Automatic Control, vol. 48, no. 2, pp.

[28] A. Chriette, Contribution a la commande et a la modelisationdes helicopteres : Asservissement visuel et commande adapta-tive, Phd. thesis, These de l’Universite d’Evry Val d’Essonne,

CEMIF-SC FRE 2494, Universite d’Evry, France, 2001.

[29] S. Hutchinson, G. Hager, and P. Cork, “A tutorial on visual

servo control,” IEEE Transactions on Robotics and Automation,

vol. 12, no. 5, pp. 651–670, 1996.

[30] C. Samson, M. Le Borgne, and B. Espiau, Robot Control : Thetask function approach, The Oxford Engineering Science Series.

Oxford University Press, Oxford, U.K., 1991.

[31] Pflimlin J.-M., Hamel T., Soueres P. Hovering flight stabilizationin wind gusts for ducted fan UAV. Dans la 44th Conference on

Decision and Control CDC’04.

[32] F. Chaumette, La relation vision-commande : theorie et appli-cation a des taches robotiques, Phd. thesis, These de l’Universite

de Rennes 1, IRISA, Universite de Rennes, Rennes, France,

1990.

[33] B. Espiau, F. Chaumette, and P. Rives, “A new approach to

visual servoing in robotics,” IEEE Transactions on Roboticsand Automation, vol. 8, no. 3, pp. 313–326, 1992.

[34] R. Pissard-Gibollet and P. Rives, “Applying visual servoing

techniques to control of a mobile hand-eye system,” in Pro-ceedings of the IEEE International Conference on Robotics andAutomation, ICRA’95, Nagasaki, JAPAN, 1995, pp. 166–171.

[35] P. Rives D. Tsakiris and C. Samson, “Applying visual servoing

techniques to control nonholonomic mobile robots,” in Procee-dings of the IEEE/RSJ/INRIA Workshop On New Trends inImage-based Robot Servoing, Grenoble, 1997, pp. 21–33.

[36] K. Hashimoto and T. Noritsugu, “Visual servoing of nonholo-

nomic cart,” IEEE Transactions on Robotics and Automation,

pp. 1719–1724, April 1997.

[37] Y. Ma, J. Kosecka, and S. Sastry, “Vision guided navigation for

a nonholonomic mobile robot,” IEEE Transactions on Roboticsand Automation, vol. 15, no. 3, pp. 521–536, 1999.

[38] Viviane Cadenat, commande referencee multi-capteurs pourla navigation d’un robot mobile, Ph.D. thesis, Universite Paul

Sabatier de Toulouse, 1999.

[39] F. Conticelli, B. Allotta, and P. K. Khosla, “Image-based visual

servoing of nonholonomic mobile robots,” in Proceedings of theConference on Decision and Control, Phoenix, Arizona, USA,

1999.

[40] R. Kelly, “Robust asymptotically stable visual servoing of planar

robots,” IEEE Transactions on Robotics and Automation, vol.

12, no. 5, pp. 759–766, 1996.

[41] E. Zergeroglu, D. Dawson, M. de Queiroz, and S. Nagarkatti,

“Robust visual-servo control of robot manipulators in the pre-

sence of uncertainty,” in Proceedings of the 38th Conference onDecision and Control, Phoenix, Arizona, USA., 1999.

[42] A. Maruyama and M. Fujita, “Visual feedback control of rigid

body motion based on dissipation theoretical approach,” in

Proceedings of the 38th Conference on Decision and Control,Phoenix, Arizona, USA, 1999, pp. 4161–4166.

[43] P. Rives J. R. Azinheira and J. R. H. Carvalho, “Visual

servo control for hovering of an outdoor robotic airship,” in

Proceedings of the IEEE International Conference on Roboticsand Automation, ICRA2002, Washington DC, Virginia, USA,

2002.

[44] H. Zhang and J. P. Ostrowski, “Visual servoing with dynamics :

Control of an unmanned blimp,” IEEE Transactions on Roboticsand Automation, vol. 18, no. 2, April 2002.

[45] N. Andreff, B. Espiau, and R. Horaud, “Visual servoing from

lines,” in Proceedings of the IEEE International Conference onRobotics and Automation, ICRA’00, San Francisco, USA, 2000.

[46] N. Andreff and B. Espiau, “Revisiting Pluker coordinates

in vision-based control,” in Symposium on Advanced RobotKinematics, ARK2002, Caldes de Maravella, Spain, 2002.

[47] J. Plucker, “On a new geometry of space,” PhilosophicalTransactions of the Royal Society of London, vol. 155, 1865.

[48] O. Faugeras, Three-Dimentional computer vision - A geometricviewpoint, MIT Press, Combridge, MA, USA, 1993.


Robust Stability of Teleoperation Schemes Subject to CommunicationDelays

Silviu-Iulian Niculescu∗

HEUDIASYC (UMR CNRS 6599),Universite de Technologie de Compiegne, Centre de Recherche de Royallieu,

BP 20529, 60205, Compiegne, cedex, France.E-mail: [email protected]

AbstractThis paper addresses the robust stability analysis of somebilateral teleoperation control scheme subject to variousconstant and/or time-varying delays in the communicationchannel.The stability conditions are derived usingfrequency-domain techniques. More specifically, in the case ofconstant delays, the stability regions of the systems’ pa-rameters are completely characterized.Finally, the analysis is extended to the case of time-varyinguncertain delay, and we derive sufficient (closed-loop) sta-bility conditions.

1 IntroductionA basicteleoperation systemconsists of aslave deviceanda master device. The master isdirectly manipulatedby ahuman operator, and the slave is designed to track the mas-ter closely. The main purpose of such a master-slave confi-guration is to manipulate the environment (or space) gene-rally inaccessible to human operators, such as hazardousenvironment. Such systems are often known as abilateralteleoperatorsystems.

Time delay plays an important role in the teleoperation sys-tems. Due to the physical distance between the master andslave, as well as the signal processing, the communicationsinvolve significant delays. Another source of delay is thereaction of the human operators. In this chapter, we willdiscuss the effect of the communication delays (constant ortime-varying) on the closed-loop stability of such systems.

In this context, we are interested in characterizing the waythat delays change performances in communication chan-nels connecting the master and slave sites (bilateral teleo-peration). It is well known that thepassivityof the chan-nel (see, e.g., [1, 6, 17, 18, 24]) may be used to guaranteedesirable characteristics for the closed-loop schemes (seealso [10]). The techniques proposed to perform such ananalysis use the scattering transformation [1] or the wave

∗work in collaobration with KEQIN GU, Southern Illinois Universityat Edwardsville, USA, and DAMIA TAOUTAOU, Universite de Technolo-gie de Compiegne

variable transformation [17, 18], if the delays are assumedconstant. The case of time-varying or distributed delayswas considered in [11, 19] using the wave transformationapproach and in [14] but under some assumptions on thedelay variation.

Consider the following equations widely used to describethe dynamics of teleoperators [1,11].

Mmxm(t) +Bmxm(t) = Fh(t)− Fm(t)Msxs(t) +Bsxs(t) = Fs(t)− (1 + αf )Zexs(t),

(1)where x,M,B are the velocities, inertias, and dampingcoefficients, respectively. The subscriptsm ands denotethe corresponding quantity is of the master and the slave,respectively. The inputFh denotes the operator force ortorque, andZe is the environmental impedance. The quan-tity Fs is the force or torque applied to the slave transmittedfrom the master, andFm is the force on the master fed backfrom the slave.

For an explicit stability analysis, see [6] for variousfrequency-domain techniques (see also [12]), and [2] for aLyapunov functional approach. For delay-independent sta-bility, the approach proposed in this paper is simpler thanthe one proposed in [6], and the derived conditions arene-cessary and sufficient, and in ananalyticalform.

For delay-independent stability, the main idea is to use afrequency-domain method based on the Tsypkin’s crite-rion [5, 12]. For frequency-sweeping tests applied to va-rious control systems, see, for instance, [3]. Various dis-cussions and comments related to such techniques can befound in [12]. Such an approach was used in [20] forthe closed-loop stability analysis of a simple teleoperationcontrol scheme, where delay-independent/delay-dependentstability conditions were derived under the assumption ofsymmetric delays in the channels (τ1 = τ2 = τ ). The ap-proach considered here follows the lines of the approachmentioned above, but it includes also the extension to thecase when the delay is assumed to be time-varying.

As in [11], consider the control law described by the follo-

1


marchand

Rectangle

wing equations

Fs(t) = Ks

∫ t

0

(xsd(t)− xs(t))dθ

+Bs2(xsd(t)− xs(t)), (2)

Fm(t) = Km

∫ t

0

(xm(t)− xmd(t))dθ

+Bm2(xm(t)− xmd(t)). (3)

Due to communication delays, the most recently availableinformation is used instead, that is, we choose,

xsd(t) = xm(t− τ1), (4)

xmd(t) = xs(t− τ2), (5)

whereτ1 andτ2 are the delays in the forward and feedbackcommunication channels, respectively.As mentioned above, we are interested in first findingana-lytical conditionson the system’s parameters such that theclosed-loop system is asymptotically stable for arbitrarycommunication delays. For those parameters which do notsatisfy such delay-independent stability conditions, we willfind the correspondingdelay intervalssuch that the closed-loop system is stable. Furthermore, we are also interestedin finding conditions for which there is only one delay in-terval, and computing the correspondingoptimal bounds.A similar problem, but only with constant and symmetrictime-delays (τ1, τ2), was considered in [20].In the case of time-varying delay uncertainty, the idea isto construct an appropriate fictitious transfer function suchthat the stability of the original closed-loop scheme is re-duced to some H∞-norm property of the correspondingtransfer. To the best of the authors’ knowledge, such anapproach was not considered in the bilateral teleoperationcase.The paper is organized as follows: Section 2 is devotedto the stability analysis of the closed-loop system usingfrequency-domain techniques. Constraints on the control-ler’s gainKs and ‘damping’Bs1 will be given such that theclosed-loop scheme is asymptotically stableindependentof the communication delays. Next, thedelay-dependentstability of the closed-loop system will be considered. Sec-tion 3 discusses the case of time-varying delays. Someconcluding remarks end the paper. The notations are stan-dard.

2 Stability Analysis for Constant De-lays

2.1 Problem setupCarrying out the Laplace transform (under zero initialconditions) of the closed-loop system, using the velocitiesvm(t) = xm(t) andvs(t) = xs(t) as the system variables,we obtain

MmsVm(s) +BmVm(s) = Fh(s)− Fm(s),MssVs(s) +BsVs(s) = Fs(s)− (1 + αf )ZeVs(s),

(6)

and

Fs(s) =Ks +Bs2s

se−τ1sVm(s)− Ks +Bs2s

sVs(s).

(7)

Fm(s) =Km +Bm2s

sVm(s)− Km +Bm2s

se−τ2sVs(s).

(8)

Using the control laws (7) and (8) in the second equationof (6), with the notationBs = Bs + (1 +αf )Ze, it followsthat:

Vs(s) =Ks +Bs2s

Mss2 + (Bs +Bs2)s+Ks

e−τ1sVm(s), (9)

Let τ = τ1 + τ2, and use the following notations:

Γ1(s) = Bs2s+Ks : slave torque, (10)

Γ2(s) = Mss+Bs : slave, (11)

Γ3(s) = Mms+Bm : master, (12)

Γ4(s) = Bm2s+Km : master torque, (13)

we obtain from the first equation of (6) and (8)

Vm(s)Γ3(s) = Fh(s) +Γ4(s)s

(e−τ2sVs(s)− Vm(s)

).

Using (9) in the above, we obtain

Vm(s) ·(sΓ3(s) + Γ4(s)

s− e−τs

Γ4(s)Γ1(s)s(Γ1(s) + sΓ2(s))

)= Fh(s) (14)

Therefore, the transfer function fromFh toVm is given by:

H1(s) =1

(sΓ3(s)+Γ4(s))s

(1− e−τsΓ4(s)Γ1(s)

Γ1(s)+sΓ2(s)1

(sΓ3(s)+Γ4(s))

) .(15)

Furthermore, based on the form ofVs(s), the transfer func-tion fromFh to Vs is given by:

H2(s) = H1(s) · Ks +Bs1s

Mss2 + (Bs +Bs1)s+Ks

e−τ1s.

(16)SinceMs, Bs, Bs1,Ks, αf , Ze are positive real numbers,H1(s) andH2(s) share the right half plane poles. The-refore, to study the stability of the closed-loop system, itis sufficient to study the stability of the transfer functionH1(s). Or, equivalent, one needs only to study the distri-bution of zeros of the expression:

1− e−τsΓ4(s)Γ1(s)

Γ1(s) + sΓ2(s)1

(sΓ3(s) + Γ4(s)). (17)

We will first study asymptotic stability of the closed-loopsystem when it isfree from delays. In this case, the zeros ofthe characteristic function (17) becomes those of the third-order polynomial:

P (s) = sΓ2(s)Γ3(s) + Γ3(s)Γ1(s) + Γ4(s)Γ2(s). (18)


Using the Routh-Hurwitz stability criterion (see, forexample, [8]), it follows that the system free from delaysis asymptotically stable if and only if the following inequa-lity holds:(

Km

Mm+Ks

Ms+BmBs2MmMs

+Bs(Bm2 +Bm)

MsMm

)·(Bs2 +Bs

Ms+Bm2 +Bm

Mm

)>KsBm +KmBs

MsMm. (19)

It is not difficult to show that (19) is always valid for allpositive parameters. Therefore, as expected, if the sys-tem is free from delay, the controller (2)-(5) guarantees theasymptotic stabilityof the closed-loop system.

2.2 Delay-independent stabilityThe next step is to find the conditions under which the sta-bility in the closed-loop systems is guaranteed forarbitrarycommunication delaysτ1 andτ2. First, under a certain pa-rameter constraint, we will find necessary and sufficientconditions for stability. Next, we will provide asimplesuf-ficient condition easy to use in practice.

Theorem 1 Assume the feedback gainsKm andKs,Bm2

andBs2 are positive constants. Then the closed-loop sys-tem is asymptotically stable for all communication delaysτ1, τ2 if and only if,∀ω > 0 :

| (jω)Γ3(jω) + Γ4(jω) |>∣∣∣∣ Γ4(jω)Γ1(jω)Γ1(jω) + jωΓ2(jω)

∣∣∣∣ . (20)

Proof: In view of the form ofH1(s), sincesΓ3(s)+Γ4(s)is Hurwitz stable, it follows that the stability of the closed-loop system (1)-(5) is equivalent to the stability of the unitfeedback closed-loop system with the open-loop transferfunction

Ho(s) =Γ4(s)Γ1(s)

(sΓ3(s) + Γ4(s))(Γ1(s) + sΓ2(s))e−sτ . (21)

Since(sΓ3(s)+Γ4(s))(Γ1(s)+sΓ2(s)) is Hurwitz stable,andHo(s) is strictly proper forτ = 0, then we may ap-ply the Tsypkin’s criterion, and the condition (20) followsdirectly.

Note that forω = 0,

|jωΓ3(jω) + Γ4(jω)| =∣∣∣∣ Γ4(jω)Γ1(jω)Γ1(jω) + jωΓ2(jω)

∣∣∣∣ = Km

Furthermore, if (20) is verified forω > 0, then the same in-equality holds forω < 0. The condition (20) in Theorem 1is a simplefrequency-sweeping testthat can be easily per-formed if the parameters of the system and the controllerare given. To obtain a even simpler criterion than (20), in-troduce the notation

γ(Km, Bm2,Ks, Bs2) = supω>0

∣∣∣∣ Γ4(jω)Γ1(jω)Γ1(jω) + jωΓ2(jω)

∣∣∣∣ ,(22)

which depends continuously on the controller’s parametersKm, Bm2,Ks, Bs2 (they are all real and positive). Then,we have the following natural corollary:

Corollary 1 The closed-loop system is asymptoticallystable for arbitrary communication delaysτ1, τ2 ≥ 0 if thecontroller gainsKs,Km and the “damping coefficients”Bs2, Bm2 are chosen to satisfy

Km <(Bm +Bm2)2

2Mm(23)

γ(Ks, Bs2,Km, Bm2) ≤ Km (24)

Proof: The result is a straighforward from Theorem 1: Thecondition (23) ensures that| jωΓ3(jω) + Γ4(jω) | is astrictly increasing function ofω, which impliesKm <|jωΓ3(jω) + Γ4(jω) | for all ω > 0. Therefore the condi-tion (20) is implied by (24).

As given in the next Proposition, the condition (24) can bewritten out explicitly.

Proposition 1 The closed-loop system is asymptoticallystable for all communication delaysτ1, τ2 ≥ 0, if thecontroller’s parameters satisfy:

Ks ≤MsK

2m

B2m2

√√√√1 +

B2s2B

2m2

M2sK2

m

((1 +

B

Bs2

)2

− 1

)− 1

(25)

Km ≥Bs2BmMs

(26)

Km <(Bm +Bm2)2

2Mm(27)

Proof: We will show that (25) and (26) is necessary andsufficient condition for (24), which will be sufficient tocomplete the proof. Define

f : [0,∞) 7→ (0,∞)

f(ω2) =| Γ4(jω) |2 · | Γ1(jω) |2

| Γ1(jω) + jωΓ2(jω) |2. (28)

Then,f(ω2) is in the form of

f(ω2) = K2m

aω4 + bω2 + 1dω4 + eω2 + 1

where the denominator

dω4 + eω2 + 1 > 0 for all ω2 > 0 (29)

Therefore, the equation (23), or equivalently,f(ω2) ≤K2m, is equivalent to

aω4 + bω2 + 1 ≤ dω4 + eω2 + 1 for all ω2 > 0

in view of (29). But the above is satisfied if and only if

a ≤ d (30)

b ≤ e (31)


With the specific parameters substituted, (30) reduces to(26). The condition (31) is a quadratic inequality ofKs,which is satisfied if and only if (25) is satisfied in view ofthe fact thatKs is positive.

Remark 1 (Tuning parameters) Proposition 1 abovegives a very simple way of constructing the controller(1) such that the closed-loop system is guaranteed tobe asymptotically stable for all communication delaysτ1, τ2 ≥ 0.

2.3 Delay-dependent stability

If (20) is not satisfied for allω > 0, the conditions forTheorem 1 do not hold, and there must exist delays suchthat the system is unstable. Since the system without delaysis asymptotically stable, there always exists one or moreintervals of delay such that the system is asymptoticallystable. We are interested in finding the maximumτ∗ > 0such that the system is asymptotically stable for allτ ∈[0, τ∗). This can be carried out by solving the equation

| (jωΓ3(jω) + Γ4(jω)) |2=∣∣∣∣ Γ4(jω)Γ1(jω)Γ1(jω) + jωΓ2(jω)

∣∣∣∣2(32)

This equation can be reduced to a third order polynomialequation of the variableω2, and formulas are available toexpress the solutions explicitly (see, for example, [22]).Clearly, since (20) is not satisfied for allω ≥ 0, and it isclearly satisfied for sufficiently largeω, the equation (32)has at least one real positive solution. Let all the real po-sitive solutions be denoted asωi, i = 1, 2, ...,m. Clearly,1 ≤ m ≤ 3. Then, we can conclude:

Theorem 2 (Switch characterizations) If (20) is not sa-tisfied for allω > 0, letτ∗ = min

`∈Zmin

1≤i≤m

1

ωi

[Log

(Γ4(jω)Γ1(jω)

(jωΓ3(jω) + Γ4(jω))(jωΓ2(jω) + Γ1(jω))

)+2π`] > 0, (33)

where “Log” denotes the principal value of the logarithm.Then, the closed-loop system is asymptotically stable forall τ ∈ [0, τ∗).

Proof: As discussed above, the equation (32) has one tothree real positive solutions. If and only ifω is a real po-sitive solution, there exists aτ satisfying the characteristicequation

(sΓ3(s) + Γ4(s))− e−τsΓ4(s)Γ1(s)

Γ1(s) + sΓ2(s)= 0

for s = jω, some simple but tedious computations lead tothe smallestτ > 0 in (33). Specific discussions on decidingthe stable delay intervals are very similar to [16].

3 Time-Varying Uncertain DelaysIntroduce the vector of state variablesx = [x1, ..., x4]T ,where

x1(t) =∫ t

0

vm(θ)dθ, x2(t) = vm(t) (35)

x3(t) =∫ t

0

vs(θ)dθ, x4(t) = vs(t) (36)

Then, the closed-loop system described by (1) to (5) can bewritten as

x(t) = Ax(t)+B1x(t−τ1)+B2x(t−τ2)+B3Fh(t) (37)

where:

A =

0 1 0 0

−KmMm

−Bm+Bm2Mm

0 0

0 0 0 1

0 0 −KsMs

− (Bs+Bs2+(1+αf )Ze)

Ms

B1 =

0 0 0 00 0 0 00 0 0 0KsMs

Bs2Ms

0 0

, B2 =

0 0 0 0

0 0 KmMm

Bm2Mm

0 0 0 00 0 0 0

(39)

andB3 =[

0 1 0 0]T

.In the sequel, we will consider the case that the time-delaysτ1 and τ2 are subject to time-varying uncertainties. Letδ1(t) andδ2(t) be continuous time-varying bounded func-tions with bounded derivatives,

0 ≤ δi(t) ≤ εi, δi(t) ≤ ρi, 0 ≤ ρi < 1 i = 1, 2. (40)

With the delay uncertainty, we write the system as follows:

x(t) = Ax(t)+B1x(t− τ1−δ1(t))+B2x(t− τ2−δ2(t))(41)

We have also omitted the human input termFh since itdoes not affect the stability analysis in the state-space form.Although not considered here, it is also possible to allowδito assume both positive and negative values with potentialfurther reduction of conservatism, see [7]. Equation (41)can be written as:

x(t) = Ax+B1x(t− τ1) +B2x(t− τ2)

−B1

∫ 0

−δ1(t)

∂

∂θx(t− τ1 + θ)dθ

−B2

∫ 0

−δ2(t)

∂

∂θx(t− τ2 + θ)dθ (42)

Use (41) for the terms∂∂θx(t−τ1 +θ) and ∂∂θx(t−τ2 +θ)

in the above equation, (known as the model transformation)and let

u1(t) = A

∫ 0

−δ1(t)

x(t− τ1 + θ)dθ (43)

u3(t) = A

∫ 0

−δ2(t)

x(t− τ2 + θ)dθ (44)


u2(t) = B2

∫ 0

−δ1(t)

x(t− τ1 + θ− τ2 − δ2(t− τ1 + θ))dθ

(45)

u4(t) = B1

∫ 0

−δ2(t)

x(t− τ2 + θ− τ1 − δ1(t− τ2 + θ))dθ

(46)SinceB1B1 = B2B2 = 0, we can write (41) as :

x(t) = Ax+B1x(t− τ1) +B2x(t− τ2)−B1u1(t)−B1u2(t)−B2u3(t)−B2u4(t)

(47)

Assuming zero initial conditions, we will estimate thegains fromx to ui, i = 1, 2, 3, 4. It is useful to defineνi(η) = η − δi(η), i = 1, 2. Then,

η − εi ≤ νi(η) ≤ η

Also, sincedνi/dη = 1 − δ′i(η) ≥ 1 − ρi > 0, νi is astrictly increasing function, the inverse functionη = η(νi)is well defined, and

∂η

∂νi=

11− δ′i(η)

≤ 11− ρi

Furthermore, due to the range ofδi, we can easily verifythat

νi ≤ η(νi) ≤ νi + εi

Using Jensen’s Inequality [23] [7], we can show that:∫ t

0

uT4 (ξ)u4(ξ)dξ

≤∫ t

0

δ2(ξ)[∫ 0

−δ2(ξ)

(xT (ν1(ξ − τ2 + θ)− τ1)BT1 ·

B1xT (ν1(ξ − τ2 + θ)− τ1))dθ]dξ (51)

Change integration variable fromθ to µ, with µ = v1(ξ −τ2 + θ)− τ1. Then, we have∫ 0

−δ2(ξ)

xT (ν1(ξ − τ2 + θ)− τ1)BT1 ·

B1x(ν1(ξ − τ2 + θ)− τ1)dθ

≤∫ ξ−τ2−τ1

ξ−τ2−ε2−ε1−τ1

11− ρ1

xT (µ)BT1 B1x(µ)dµ (52)

Therefore,∫ t

0

uT4 (ξ)u4(ξ)dξ ≤ (ε1 + ε2)ε2

1− ρ1||B1||2

∫ t

0

xT (µ)x(µ)dµ

Similarly, we can show∫ t

0

uT2 (ξ)u2(ξ)dξ ≤ (ε1 + ε2)ε1

1− ρ2||B2||2

∫ t

0

xT (µ)x(µ)dµ

With a simpler procedure, we can also show∫ t

0

uT1 (ξ)u1(ξ)dξ ≤ ε21||A||2

∫ t

0

xT (µ)x(µ)dµ∫ t

0

uT3 (ξ)u3(ξ)dξ ≤ ε22||A||2

∫ t

0

xT (µ)x(µ)dµ

With the above discussion, we can write the system descri-bed by (47) and (43)-(46) as

x(t) = Ax(t)−B1x(t− τ1)−B2x(t− τ2) + Bu

yi(t) = cix(t), i = 1, 2, 3, 4 (54)

where

u(t) = [uT1 (t) uT2 (t) uT3 (t) uT4 (t)]T

B = [B1 B1 B2 B2]

and

c1 = ε1||A||, c2 =

√(ε1 + ε2)ε1

1− ρ2||B2||, (55)

c3 = ε3||A||, c4 =

√(ε1 + ε2)ε2

1− ρ1||B1|| (56)

with feedbackui(t) = ∆iyi(t), 1 ≤ i ≤ 4.With the definition ofui andci, it can be easily shown thatthe gains of the dynamic operator∆i is bounded by1.

Theorem 3 The closed loop system is uniformally asymp-totically stable for any time-varying delay uncertaintyδi(t), i = 1, 2, 3, 4, satisfiying (40), if there exist scalarsαi, i = 1, 2, 3, 4 such that

||ΛH(jω)Λ−1||∞ <1

εmax

whereΛ= diag (α1In, .., α4In), and

H(s) =

c1Inc2Inc3Inc4In

(sI −A+B1e−τ1s +B2e−τ2s)−1B

(58)

Proof: Use the small gain theorem, as discussed in Chapter8 of [7].

4 Concluding RemarksIn this chapter, we have been interested in the closed-loopstability of some simple bilateral teleoperation scheme inthe hypothesis of the existence of some communication de-lays. A frequency-domain approach was used to performthe stability analysis in terms of delays. The main advan-tage of the derived method lies in its simplicity.

5 AcknowledgementsThis work is partially supported by ACI: Application del’Automatique en algorithmique des telecommunications(France) and National Science Foundation (US) Grant INT-9818312


References[1] Anderson, J. A. and Spong, M. W.: Bilateral control

of teleoperators with time delay.IEEE Trans. Auto-mat. Contr.AC-34 (1989) 494-501.

[2] Anderson, J. A. and Spong, M. W.: Asymptotic Sta-bility for force reflecting teleoperator with time delay.In. Journal on Robot. Research(1989) 135-149.

[3] Chen, J. and Latchman, H. A.: Frequency sweepingtests for stability independent of delay.IEEE Trans.Automat. Contr., 40 (1995) 1640-1645.

[4] Cooke, K. L. and van den Driessche, P.: On zeroesof some transcendental equations. inFunkcialaj Ek-vacioj29 (1986) 77-90.

[5] El’sgol’ts, L. E. and Norkin, S. B.:Introduction tothe theory and applications of differential equationswith deviating arguments(Mathematics in Scienceand Eng.,105, Academic Press, New York, 1973).

[6] Eusebi, A. and Melchiori, C.: Force reflecting tele-manipulators with time-delay: Stability analysis andcontrol design.IEEE Trans. Robotics & Automation14 (1998) 635-640.

[7] Gu, K., Kharitonov, V. L. and Chen, J.:Stability ofTime-Delay Systems, Berkhauser, Boston, 2003.

[8] Jury, E. I.: Inners and stability of dynamical systems(2nd Edition, Robert E. Krieger Publ.: Malabar, FL,1982).

[9] Kolmanovskii, V. B. and Myshkis, A. D.:AppliedTheory of functional differential equations(Kluwer,Dordrecht, The Netherlands, 1992).

[10] Lozano, R., Brogliato, B., Egeland, O. and Maschke,B.: Dissipative systems analysis and control. Theoryand applications(CES, Springer: London, 2000).

[11] Lozano, R., Shopra, N. and Spong, M. W.: Passi-vation of force reflecting bilateral teleoperation withtime varying delay. inProc. 8th Mechatronics ForumIntl Conf., Enschede, The Netherlands (June 2002).

[12] Niculescu, S.-I.:Delay effects on stability. A robustcontrol approach(Springer-Verlag: Heidelberg, vol.269, 2001).

[13] Niculescu, S. -I. and Abdallah, C. T.: Delay effectson static output feedback stabilization. inProc. 39thIEEE Conf. Dec. Contr., Sydney, Australia (Decem-ber 2000).

[14] Niculescu, S.-I., Abdallah, C.T. and Hokayem, P.:Some remarks on the wave transformation approachfor telemanipulators with time-varying distributed de-lay. in Proc. 4th Asian Control. Conf., Singapore,September 2002.

[15] Niculescu, S. -I., Annaswamy, A. M., Hathout, J. P.and Ghoniem, A. F.: Control of Time-Delay Indu-ced Instabilities in Combustion Systems. inProc. 1stIFAC Symp. Syst. Struct. Contr., Prague (Czech Repu-blic) (2001).

[16] Niculescu, S.-I. and Gu, K.: Robust stability ofsome oscillatory systems including time-varying de-lay with applications in congestion control.AsianControl Conference, September 2002, Singapore.

[17] Niemeyer, G. and Slotine, J.-J. E.: Stable adaptiveteleoperation.IEEE J. Oceanic Eng.16 (1991) 152-162.

[18] Niemeyer, G. and Slotine, J.-J. E.: Designing forcereflecting teleoperators with large time delays to ap-pear as virtual tools. inProc. 1997 IEEE ICRA, Albu-querque, NM (1997) 2212-2218.

[19] Niemeyer, G. and Slotine, J. J. E.: Towards force-reflecting Teleoperation Over Internet, inProc. 1998IEEE Int. Conf. Robotics Automation, 1909-1915,Leuven (Belgium).

[20] Niculescu, S.-I., Taoutaou, D., and Lozano, R.: Onthe closed-loop stability of a teleoperation controlscheme subject to communication time-delays. inProc. 41st IEEE Conf. Dec. Contr., Las Vegas, Ne-vada, December 2002.

[21] Lee, S. and Lee, H.S.: Design of optimal time delayedteleoperator control system. inProc. 1994 IEEE Int.Conf. Robotics Automation8-13, San Diego, CL.

[22] Spiegel M. R. :Mathematical handbook of formulasand tables(Shaum’s outlines series, MacGraw-Hill:NY, 31 st edition, 1993).

[23] A. N. Shiryayev.Probability,Springer Verlag, 1996.

[24] Ortega, R., Chopra, N. and Spong M.W.: A newpassivity formulation for bilateral teleoperation withtime delay. inProc. CNRS-NSF Wshop Time DelaySyst., Paris, France, p. 131-137, January 2003.


Stabilisation de trajectoires pour des véhicules non-holonomes ou sous-actionnés

P. Morin C. Samson

INRIA

2004, Route des Lucioles06902 Sophia-Antipolis Cedex, France

E-mail : [email protected], [email protected]

RésuméCet article est consacré à la commande par retour d’étatdes véhicules non-holonomes ou sous-actionnés, dans lecadre de la stabilisation de trajectoires. Cette classe desystèmes, qui inclut les robots mobiles à roues et de nom-breux engins spatiaux, présente, du point de vue de la com-mande, des caractéristiques très différentes selon le typede trajectoire à stabiliser (e.g. configuration fixe, trajec-toires non-stationnaires, etc). Ceci a conduit au dévelop-pement de différentes approches de commande, destinéesà résoudre des types d’applications particuliers. Le but decet article est de fournir une présentation générale de cesméthodes, à partir des propriétés génériques des véhicules,et de proposer une approche unifiée pour le problème destabilisation de trajectoires.

Mots ClefStabilisation, véhicule non-holonome, véhicule sous-actionné.

1 IntroductionLa diversité des systèmes de locomotion en robotique estune source de développements importants pour l’automa-tique, dans la mesure où la commande de ces systèmesdonne souvent lieu à des problèmes qu’on ne peut pas ré-soudre avec des techniques classiques. En outre, les appli-cations dédiées aux véhicules et nécessitant un niveau d’au-tonomie élevé sont de plus en plus nombreuses. En effet,l’intrusion de ces systèmes en milieu non protégé (trans-port urbain automatisé, applications domestiques, applica-tions militaires) nécessite une bonne robustesse et de fortescapacités de locomotion.La place importante réservée aux véhicules non-holonomeset sous-actionnés dans les applications robotiques reposeen partie sur l’existence de stratégies de commande simpleset robustes pour stabiliser des trajectoires de référence. Lesapplications de type platooning par exemple, où il s’agit decontrôler la position d’un véhicule par rapport au véhiculeprécédant se déplaçant en marche avant, sont essentielle-ment basées sur des techniques d’automatique linéaire. Ce-pendant, d’autres applications nécessitent d’utiliser des ou-

tils plus élaborés, notamment lorsque le contrôle de la si-tuation complète (i.e. position et orientation) du véhiculeest nécessaire. Les études consacrées à ce type d’applica-tions sont nombreuses en automatique, ce qui ne facilitepas toujours leur lisibilité en terme d’intérêt applicatif. Unpermier objectif de cet article est d’exposer les principauxproblèmes étudiés dans la litérature consacrée à la stabili-sation de trajectoires, et de donner un aperçu des approchesexistantes pour la synthèse de retours d’état. Un autre ob-jectif est de présenter une approche de commande que nousavons récemment développée, et qui permet de traiter defaçon unifiée des problèmes traditionellement abordés sé-parément.

La commande des véhicules non-holonomes et des vé-hicules sous-actionnés fait généralement l’objet d’étudesdistinctes. Ceci est en partie justifié par la différence destructure des modèles associés. Pour les systèmes non-holonomes, la difficulté (du point de vue de l’automaticien)se situe au niveau du modèle cinématique, alors qu’elleest liée à la dynamique pour les systèmes sous-actionnés.Cette distinction implique également une hiérarchie en cequi concerne la difficulté à synthétiser des lois de com-mande : alors que des méthodes assez générales ont étéproposées pour la commande des systèmes non-holonomes(et plus généralement des systèmes de commande non-linéaires “sans dérive”), les systèmes sous-actionnés ontjusqu’à présent été étudiés au cas par cas, en raison dela difficulté à mettre en évidence des propriétés structu-relles suffisamment générales et exploitables pour la syn-thèse. Malgré cela, ces deux classes de systèmes possèdentde nombreux points communs, rarement explicités, dont lacompréhension peut permettre de progresser vers un trai-tement unifié des problèmes de commande. La démarchesuivie dans cet article consiste à mettre en évidence ces si-milarités, et à montrer comment on peut en tirer profit pourrésoudre les problèmes de stabilisation de trajectoires.

Le plan de cet article est le suivant. La Section 2 est prin-cipalement consacrée aux modèles des véhicules, et à leurspropriétés les plus significatives du point de vue de la com-mande. La Section 3 est dédiée aux problèmes de stabi-lisation de trajectoires impliquant un objectif de stabilité


asymptotique. En particuler, la stabilisation par retour desortie, la stabilisation de trajectoires non-stationnaires, etla stabilisation de points fixes, sont abordés. Enfin, nousprésentons dans la Section 4 l’approche de commande parfonctions transverses, basée sur un objectif de stabilisationpratique.

2 Notations et modèles2.1 NotationsCk(M ; N) désigne l’ensemble des fonctions de M dans Nk-fois différentiables et de dérivée k-ème continue. La dif-férentielle d’une application f ∈ C1(M ; N) est notée df .Etant donné un vecteur v ∈ Rp, le vecteur transposé estnoté v′. Les notations suivantes concernent les groupes deLie (voir e.g. [23], ou [28] pour un exposé plus complet).Soit G un groupe de Lie. L’élément neutre de G est notée, i.e. ge = eg = g, et l’inverse de g est noté g−1. Latranslation à gauche sur G est notée L, i.e. Lσ(τ) = στ .Un champ de vecteurs X sur G est invariant à gauche sidLσ(τ)X(τ) = X(στ) pour tout σ, τ ∈ G, avec dLσ

la différentielle de l’application Lσ. Par définition, l’en-semble des champs de vecteurs invariants à gauche est l’al-gèbre de Lie g de G. Si X ∈ g, exp(tX) désigne la solu-tion au temps t du système g = X(g) avec g(0) = e. Etantdonné une base X = X1, . . . , Xn de g, et v ∈ Rn, onnotera X(g)v :=

∑ni=1 Xi(g)vi (en cohérence avec le fait

que, dans un système de coordonnées,∑n

i=1 Xi(g)vi estégale au produit de la matrice X(g) = (X1(g) · · ·Xn(g))par le vecteur v). La représentation adjointe est notéeAd, i.e. Ad(σ) = dIσ(e) avec Iσ ∈ C1(G; G) défi-nie par Iσ(g) = σgσ−1. Etant donné une base X =X1, . . . , Xn de g, l’expression de Ad dans la base X seranotée AdX , i.e. ∀v ∈ Rn, Ad(σ)X(e)v = X(e)AdX(σ)v.Rappelons enfin deux relations importantes. Soit X unebase de g et (g1, v1), (g1, v2) deux solutions du systèmeg = X(g)v. Alors,

ddt(g1g

−12 ) = X(g1g

−12 )AdX(g2)(v1 − v2)

ddt(g

−11 g2) = X(g−1

1 g2)(v2 − AdX(g−12 g1)v1)

(1)

2.2 Modèles de véhiculesUn modèle générique des véhicules est donné par les équa-tions suivantes :

q = X(q)C(s)v (2a)M(s)v = −N(s, v)v + P (q, v, t) + Bτ (2b)

L’équation (2a) correspondent au modèle cinématique dusystème.– q est un élément de l’espace de configuration Q. Nous

supposerons que Q admet une décomposition du typeQ = G × S, avec G un groupe de Lie associé à lasituation du véhicule (i.e. position et orientation), et Sun groupe de Lie abélien associé à des variables d’étatinternes du véhicule. On note g ∈ G et s ∈ S lescomposantes de q associées à cette décomposition, i.e.

q = (g, s). La dimension de Q est n = ng + ns avecng = dim(G) et ns = dim(S). Puisque G et S sont desgroupes de Lie, il en est de même pour Q, avec le produitde deux éléments q1 = (g1, s1) et q2 = (g2, s2) définipar q1q2 = (g1g2, s1 + s2).

– X = X1, . . . , Xn est une base de l’algèbre de Lie q deQ. Cette algèbre est égale au produit g × s des algèbresde Lie de G et de S, et l’on peut montrer que chaquechamp Xi se décompose sur g× s de la façon suivante :

Xi(q) =(

Xgi (g)

Xsi (s)

)(3)

avec Xgi ∈ g et Xs

i ∈ s.– C(s) est une matrice de transformation qui traduit l’in-

fluence des variables internes sur la vitesse du véhicule.– v ∈ R

m est une variable de vitesse. Sa dimension, m,correspond au nombre de degrés de liberté (d.d.l.) dusystème.

L’équation (2b) décrit la dynamique du système, avec τ ∈Rp associé aux couples/forces délivrés par les actionneurs,et assimilable à un vecteur de commande. M(s) est la ma-trice d’inertie, N(s, v) est la matrice associée aux forcesde Coriolis et centrifuges, P (q, v, t) correspond à d’éven-tuelles forces extérieures et/ou frottements internes, et lamatrice B relie les intensités des couples/forces produitspar les actionneurs aux forces généralisées.Sans grande perte de généralité, nous ferons les hypothèsessuivantes (voir e.g. [5] ou [17, Chap.I] pour plus de détails).Hypothèses :

1. Les matrices B et C(s) sont de rang plein,

2. Le modèle cinématique, avec v assimilé à une variablede commande, satisfait la condition de rang de l’al-gèbre de Lie1 en tout point, et donc est commandable.

A partir de la décomposition (3), et du fait que les matricesC, M, N , et B ne dépendent pas de g, on vérifie facilementla propriété suivante qui caractérise les véhicules :

Lorsque P ne dépend pas de g, si (g(t), s(t), v(t)) estune solution de (2) associée à l’entrée τ(t) alors, pour toutélément g0 ∈ G (g0g(t), s(t), v(t)), est aussi solution dece système pour la même entrée de commande.

L’invariance des champs Xi conduit à définir des variablesd’erreur entre la configuration q du véhicule et une confi-guration de référence qr à partir de la loi de groupe sur Q.Par exemple, en définissant q := q−1

r q avec qr une courberégulière sur Q, on déduit de (1) le modèle cinématiqued’erreur

˙q = X(q)(C(s)v − AdX(q−1)wr

)(4)

avec wr définie par qr = X(qr)wr .

1Rappelons qu’un système sans dérive x =∑m

i=1 viXi(x) satisfaitla condition de rang de l’algèbre de Lie en x0 si l’espace vectoriel engen-dré par les champs Xi et les crochets de Lie itérés de ces champs entreeux évalués en x0 est de dimension dim(x).


Finalement, notons que lorsque S = ∅, les équations (2) et(4) se réduisent à

g = X(g)Cv (5a)Mv = −N(v)v − P (g, v, t) + Bτ (5b)

et˙g = X(g)

(Cv − AdX(g−1)wr

)(6)

respectivement, avec X une base de g. Dans ce cas,le système (5a) est un “système sur un groupe” ausens où chaqu’un des champs de commande associéX(g)Ce1, . . . , X(g)Cem, avec e1, . . . , em la base ca-nonique de Rm, est invariant à gauche sur G.

2.3 Classification simplifiéeOn peut essentiellement distinguer trois classes de véhi-cules.

Les véhicules non-holonomes (p = m < n). Ces sys-tèmes sont caractérisés par l’existence de contraintes ciné-matiques non-intégrables, qui se traduisent par le fait quem, la dimension de v, est plus petit que n = ng + ns

(et même, dans la grande majorité des cas, plus petit queng). Les robots mobiles à roues constituent les principauxexemples de tels systèmes (voir [5] pour plus de détailssur les mécanismes existants et l’obtention des modèles).Puisque p = m et B est de rang plein, B est carrée inver-sible et l’équation (2b) peut être linéarisée (par un change-ment de variable de commande statique) en v = u, avecu une nouvelle variable de commande reliée à τ de fa-çon bijective (à q, v, t fixé). Pour cette raison notamment,il est usuel de se concentrer sur le modèle cinématique (quicontient les non-linéarités “dures”), sachant que si v∗ estune commande différentiable pour ce modèle, il n’est pasdifficile de calculer une commande u assurant la conver-gence de v vers v∗ (et donc, conduisant asymptotiquementaux mêmes trajectoires). Nous suivrons ce parti pris dansla suite de cet article. Les systèmes de type unicycle (Fig1) et voiture (Fig 2) constituent les exemples les plus ré-pandus. Avec les notations de ces figures, des modèles ci-nématiques possibles (“posture kinematic models” au sensde [5]) sont donnés par

⎧⎨⎩

x = v1 cos θy = v1 sin θ

θ = v2

et

⎧⎪⎪⎨⎪⎪⎩

x = v1 cos θy = v1 sin θ

θ = v1ζ

ζ = v2

(7)

respectivement, avec ζ := tan ϕ , ϕ l’angle associée à la

direction de la voiture, et la distance entre les points P0

et P1. Illustrons la modélisation de la Section 2.2 à partirde ces deux systèmes. Dans les deux cas, G = SE(2) quel’on peut identifier à R

2 × S avec la loi de groupe définiepar

g1g2 =(

p1

θ1

)(p2

θ2

)=(

p1 + R(θ1)p2

θ1 + θ2

)(8)

avec pi = (xi, yi)′ ∈ R2, θi ∈ S, et R(θ) ∈ R2×2 lamatrice de rotation d’angle θ. Le modèle cinématique del’unicycle est donc de la forme (5a) avec

X(g) = R(θ) :=

⎛⎝cos θ − sin θ 0

sin θ cos θ 00 0 1

⎞⎠ , C =

⎛⎝1 0

0 00 1

⎞⎠(9)

et v = (v1, v2)′. On peut assimiler les trois vecteurs co-lonnes de X(g) à la valeur en g de trois champs de vecteursX1, X2, X3. On vérifie facilement que ces champs sont in-variants à gauche par rapport à la loi de groupe définie par(8), et donc (puisque ces champs sont linéairement indé-pendants) qu’ils forment une base de g.Pour la voiture, s = ζ ∈ R = S est la variable interne, etl’on déduit de (7) que l’équation (2a) est vérifiée avec

X(q) =(

R(θ) 00 1

), C(s) =

⎛⎜⎜⎝

1 00 0ζ 00 1

⎞⎟⎟⎠ (10)

et v = (v1, v2)′.

0

P0

i0

j0

x

yθ

P

FIG. 1 – Véhicule de type unicycle

ϕ

0

P0

i0

j0P1

x

yθ

P

FIG. 2 – Véhicule de type voiture

Les véhicules sous-actionnés (p < m = n). A l’opposédes systèmes non-holonomes, les principales non-linéaritésde modèle des véhicules sous-actionnés se situent non pas


au niveau de la cinématique, mais au niveau de la dyna-mique, du fait que le nombre d’actionneurs indépendantsest inférieur au nombre de d.d.l. du système. Pour cette rai-son, il est nécessaire dès le départ de considérer le modèlecomplet. Un exemple simple de système sous-actionné estle véhicule de type glisseur représenté sur la Figure 3. Ils’agit d’un corps rigide se déplaçant dans le plan, et ac-tionné par le biais de deux propulseurs à l’arrière délivrantdes forces f1 et f2. Le point P0 correspond au centre demasse. Avec les notations de la figure, et en l’absence deforces extérieures, le modèle dynamique est donné par⎧⎪⎪⎨

⎪⎪⎩g = X(g)vmv1 = mv2v3 + τ1

mv2 = −mv1v3

Jv3 = τ2

(11)

avec X(g) donnée par (9), m la masse du corps, J son iner-tie, et τ1, τ2 l’intensité de la force et du couple résultant despropulseurs. Le groupe G associé à ce système est encore

0i0

θ

j0

y

x

f 1

f 2

P0

P

FIG. 3 – Véhicule de type glisseur

SE(2), et la relation (5a) est satisfaite avec X(g) donnépar (9) et C = I3 la matrice identité de R3. Enfin, la rela-tion (5b) est satisfaite avec M = Diag(m, m, J), N(v)v =(−mv2v3, mv1v3, 0)′, P = 0, et Bτ = (τ1, 0, τ2)′.

Les véhicules non-holonomes sous-actionnés (p < m <n). Cette famille de système cumule les non-linéaritésdes deux classes précédentes. Les exemples physiques(commandables) de tels systèmes étant peu nombreux, etencore assez marginaux, nous ne traiterons pas ces sys-tèmes dans cet article (voir e.g. [15] pour un exemple).

2.4 Propriétés de commandabilitéCommandabilité en un point. Pour les systèmes non-holonomes, le linéarisé en un point d’équilibre n’est jamaiscommandable, mais la condition de rang de l’algèbre deLie en un point (cf. Hypothèse 2) est une condition suf-fisante de commandabilité locale du modèle cinématique(et aussi une condition nécessaire lorsque les champs asso-ciés sont analytiques). Dès que cette propriété est vérifiée,la commandabilité du modèle dynamique (au sens STLC[26]) est également garantie (voir e.g. [6]).Le cas des systèmes sous-actionnés est plus délicat. Sup-posons d’abord que P = 0. Dans ce cas, comme pour

les systèmes non-holonomes, le linéarisé autour d’un pointd’équilibre ne peut être commandable (car p < m), maiscontrairement au cas précédent, la condition de rang del’algèbre de Lie n’est plus une condition suffisante de com-mandabilité. Toutefois, le théorème de Sussmann [26, Th.7.2], qui fournit une condition suffisante de commandabi-lité (au sens STLC) pour des systèmes de commande gé-néraux, permet très souvent de vérifier cette propriété decommandabilité. Par exemple, on montre facilement à par-tir de ce résultat que le système (11) est commandable ausens STLC en tout point fixe (i.e. en tout (g, v) = (g0, 0)avec g0 arbitraire. Précisons que la commandabilité d’unsystème du type (2) pour une situation g0 implique la com-mandabilité pour toute autre situation. Notons par ailleursque dans [14] (voir également [4]), des critères sont propo-sés pour tester d’autres types de commandabilité. Avant determiner cette section il est important de noter que, contrai-rement au cas des systèmes non-holonomes, le terme deperturbation P peut influencer les propriétés de comman-dabilité du système. Considérons l’exemple du glisseur, etsupposons qu’une force constante cı0 est appliquée au sys-tème. Dans ce cas, on peut vérifier que le linéarisé au-tour de toute configuration g0 = (x0, y0, 0) est comman-dable (alors qu’il ne l’est jamais lorsque P = 0). Notonsque pour une telle perturbation, ces configurations corres-pondent à l’ensemble des points d’équilibre du système.De nombreux systèmes volants [13, 27] satisfont des pro-priétés analogues, avec le terme de perturbation induit parla gravité.

Commandabilité le long de trajectoires. Bien que le li-néarisé en un point fixe des systèmes non-holonomes ousous-actionnés (avec P = 0) ne soit pas commandable,le linéarisé le long de trajectoires non-stationnaires peutêtre commandable. En fait, il est montré dans [25] quepour tout système de commande analytique x = X0(x) +∑m

i=1 uiXi(x), commandable au sens STLC, le linéarisé lelong de trajectoires est génériquement commandable. Cecisignifie essentiellement2 que la commandabilité du linéa-risé est garantie pour “presque toutes” les trajectoires deréférence. Illustrons cette propriété sur les exemples de lavoiture et du glisseur.Considérons une trajectoire de référence admissible (i.e.réalisable) (qr, vr) pour le système (2). On considèrecomme variable d’erreur associée (q = q−1

r q, v = v − vr).Sur SE(2), AdX(g) est donné par

AdX(g) =

⎛⎝R(θ)

(y−x

)0 1

⎞⎠

lorsque X est définie par (9), et sur tout groupe abélienS, Ad(s) est l’application identité. On en déduit que le li-néarisé du modèle cinématique d’erreur (4) (en q = e) est

2Plus précisément, l’ensemble des entrées de référence ur(t) t ∈[0, T ] pour lesquelles le linéarisé est commandable sur un sous intervalle[0, T0] de [0, T ] le long de la trajectoire xr associée est générique dansC∞([0, T ]; R

m) pour tout T > 0.


donné, lorsque G = SE(2), par

˙q = A(sr, vr)g +m∑

i=1

vr,i∂Ci

∂s(sr)s + C(sr)v (12)

avec

A(sr, vr) =

⎛⎜⎜⎝

0 C3(sr)vr −C2(sr)vr

−C3(sr)vr 0 C1(sr)vr

0 0 00 0 0

⎞⎟⎟⎠

et Ci (resp. Ci) le i-ème vecteur ligne (resp. colonne) de C.Dans le cas de la voiture, C est définie par (10), et l’équa-tion (12) devient

˙q = vr,1

⎛⎜⎜⎝

0 ζr 0 0−ζr 0 1 00 0 0 10 0 0 0

⎞⎟⎟⎠ q +

⎛⎜⎜⎝

1 00 0ζr 00 1

⎞⎟⎟⎠ v (13)

Par application du critère de commandabilité pour les sys-tèmes linéaires non-stationnaires (voir e.g. [8, Sec. 5.3]),on montre que ce système est commandable sur [0, T ] dèsque vr,1 est une fonction régulière sur cet intervalle et non-identiquement nulle.Dans le cas du glisseur, S = ∅ et C est la matrice identité,de sorte que l’équation (12) est donnée par

˙g =

⎛⎝ 0 vr,3 −vr,2

−vr,3 0 vr,1

0 0 0

⎞⎠ g + v (14)

Concernant la dynamique, on déduit de (11) l’équation li-néarisée suivante :

˙v =

⎛⎝ 0 vr,3 vr,2

−vr,3 0 −vr,1

0 0 0

⎞⎠ v +

⎛⎝ 1

m 00 00 1

J

⎞⎠ τ (15)

avec τ = τ − τr et τr l’entrée associée à la trajectoire deréférence. En utilisant à nouveau le critère de commandabi-lité des systèmes linéaires non-stationnaires, on peut mon-trer que le système (14)–(15) est commandable sur [0, T ]dès que l’entrée τr est une fonction régulière sur cet in-tervalle et non-identiquement nulle. Lorsque τr est inden-tiquement nulle sur [0, T ], la commandabilité sur cet in-tervalle est encore vérifiée si vr,3 n’est pas identiquementnulle. Dans le cas contraire, (i.e. si le mouvement du glis-seur consiste en une translation pure à vitesse constante) lelinéarisé n’est plus commandable.

3 Méthodes de synthèse pour la sta-bilisation asymptotique

De nombreux objectifs de commande peuvent être formu-lés comme la stabilisation asymptotique à zéro d’un vec-teur de sortie η ∈ Rk, avec k ≤ n. Pour les véhicules, η esttypiquement une composante d’un vecteur(

ην

)= h(q, qr) =

(hη(q, qr)hν(q, qr)

)(16)

avec h(., qr) un difféomorphisme pour tout qr. Afin de réa-liser cette stabilisation, une première étape consiste à éta-blir la relation dynamique qui relie η à l’entrée de com-mande u (i.e. u = v ou u = τ suivant le modèle uti-lisé). Considérons par exemple le cas des véhicules non-holonomes. Dans ce cas, on obtient une equation différen-tielle du premier ordre du type

η = f(η, ν, qr, vr, v) (17)

On peut alors distinguer deux cas :

1. le linéarisé du système (17) en η = 0 est comman-dable (uniformément par rapport à (ν, qr, vr)). Dansce cas, il est possible, localement, de stabiliser η = 0par des retours d’état linéaires du type v = K(t)η.Dans le but d’augmenter la taille du domaine de sta-bilité (et aussi éventuellement de relâcher les hypo-thèses de commandabilité uniforme du système), desretours d’état non-linéaires peuvent être utilisés.

2. le linéarisé du système (17) en η = 0 n’est pas com-mandable. Dans ce cas, il est nécessaire d’utiliser desretours d’état non-linéaires même localement. La syn-thèse de telles commandes et l’analyse du systèmecontrôlé (en termes de robustesse notamment) peuts’avérer très délicate.

Le cas des systèmes sous-actionnés est similaire, avec (17)remplacée par une équation du deuxième ordre reliant η àτ .

3.1 Stabilisation partielle par retour de sor-tie

Pour les véhicules, la stabilisation par retour de sortie estle plus souvent utilisée pour un contrôle en position seule-ment. Plus généralement, il s’agit de stabiliser à zéro unvecteur η ∈ Rk défini par (16), avec hη une fonction choi-sie de sorte que le système dynamique (17) soit linéarisablepar un changement de variable de commande.Considérons d’abord le cas des systèmes non-holonomes.Dans ce cas, le long des solutions du système (2),

η =∂hη

∂qX(q)C(s)v− ∂hη

∂qAdX(q−1)wr +

∂hη

∂qrqr (18)

Si la matrice k×m∂hη

∂q X(q)C(s) est de rang k, ce qui estpossible lorsque k ≤ m, alors l’application

v −→ η (19)

est surjective et l’équation (18) peut être linéarisée par unchangement de variable de commande. Une fois cette li-néarisation effectuée, un simple retour d’état linéaire per-met d’obtenir la stabilité exponentielle de η = 0. Ce typed’approche est très utilisé dans les problèmes de platoo-ning consistant à suivre un véhicule se déplaçant en marcheavant. Dans ce cas, on cherche à contrôler la position duvéhicule par rapport au véhicule précédent (l’orientation


n’ayant pas besoin d’être contrôlée activement), et on défi-nit par exemple hη(q, qr) = h1

η(q, qr) = (xP − xr, yP −yr)′ avec (xP , yP ) (resp. (xr , yr)) les coordonnées d’unpoint P lié au véhicule commandé (resp. d’un point Pr

lié au véhicule de référence). Lorsqu’on ne dispose que demesures de positionnement relatives, on pourra utiliser lafonction hη(q, qr) = h2

η(q, qr) = R(−θr)h1η(q, qr). Pour

garantir que l’application (19) est surjective, il convient dechoisir le point P convenablement. Pour un véhicule detype unicycle, il suffit que P ne soit pas situé sur l’axe desroues arrières (cf. Fig. 1). Pour un véhicule de type voiture,on choisira un point lié à la roue virtuelle de direction etdéporté par rapport au centre de cette roue (cf. Fig. 2).Le cas des systèmes sous-actionnés peut être traité de façonsimilaire, à partir du modèle dynamique. Dans ce cas, oncherche à choisir hη de sorte que l’application

τ −→ η (20)

soit surjective (ce qui est possible lorsque k ≤ p). Dès lors,on peut linéariser l’équation de η et un retour d’état linéaireK1η +K2η convenablement choisi garantit la stabilisationexponentielle de (η, η) = 0. Par exemple, pour le contrôleen position du glisseur, on pourra utiliser les fonctions h1

ou h2 spécifiées ci-dessus. Dans ce cas, comme pour l’uni-cycle, on peut montrer que l’application (20) est surjec-tive lorsque le point P est déporté par rapport au centre demasse P0 (cf. Fig 3).La limitation des approches par retour de sortie provient dufait que la “variable complémentaire” ν dans (16) n’est pasactivement contrôlée. Pour certaines applications (commele platooning) ceci ne met pas en danger le comportementglobal du système. Cependant, l’effet de “cisaillement”(“jack-knife effect” en anglais), pouvant par exemple sur-venir lors de l’exécution de manœuvres par un véhiculede type voiture, montre bien comment ce type d’approchepeut être mis en défaut. Il peut alors s’avérer nécessaire decontrôler l’état complet du véhicule.

3.2 Stabilisation de trajectoires non-stationnaires

Lorsqu’il est nécessaire de stabiliser la position et l’orien-tation (i.e. la situation complète g) d’un véhicule non-holonôme ou sous-actionné par rapport à une trajectoire deréférence, il n’est en général plus possible de linéariser lesystème dynamique (17) par un changement de variable decommande statique car k,la dimension de η, est supérieur àp. L’utilisation d’extensions dynamiques permet dans cer-tains cas de ce ramener à un système (de dimension plusgrande) linéarisable. L’approche de commande par plati-tude [12], qui repose sur cette propriété, est applicable àde nombreux véhicules. Une difficulté de mise en œuvreréside dans l’existence de singularités de ces retours d’étatlorsque la trajectoire de référence possède des points d’ar-rêts. Une solution partielle à ce problème est proposée dans[11].Une autre approche, basée sur les propriétés génériques de

commandabilité le long de trajectoires (cf. Section 2.4),consiste à utiliser des retours d’état statiques linéaires.Dans le cas d’un véhicule de type unicycle, cette méthodea été utilisée dans [24, 7]. A titre d’exemple, pour les vé-hicules de type voiture, on peut montrer le résultat suivant(voir [17, Sec. 2.3.2]) :

Proposition 1 Soit une trajectoire de référence qr pour lavoiture, avec sr(= ζr) supposée bornée. Soit K(t) la ma-trice(−k1|vr,1| 0 − k1

2k2ζr|vr,1 0

2k2vr,1ζr −2k2k4|vr,1| −vr,1(2k2 + k32 ) −k4|vr,1

)

avec k1, . . . , k4 > 0. Alors,– Si vr et vr sont bornées, le retour d’état linéaire

v = K(t)q rend l’origine du système d’erreur linéarisé(13) stable, et globalement asymptotiquement stable sivr,1(t) ne tend pas vers zéro lorsque t tend vers l’infini.

– Si vr(t) est de signe constant et∫ t

0|vr,1|(s) ds → ∞

lorsque t → ∞, v = K(t)q rend l’origine du systèmed’erreur non-linéaire (4) localement asymptotiquementstable.

Notons que la convergence vers zéro de la variable d’erreurn’est généralement pas garantie si vr,1(t) tend vers zérolorsque t tend vers l’infini, et en particulier qu’elle n’est pasobtenue lorsque l’état de référence qr(t) converge vers unevaleur fixe. Ceci est dû au fait que le linéarisé du systèmed’erreur, en une configuration fixe, n’est pas commandable.Un inconvénient des lois de commande linéaires commecelles de la Proposition 1 réside dans le fait que le bas-sin d’attraction de l’origine pour le système contrôlé estgénéralement local, et difficile à spécifier. La synthèsede retours d’état non-linéaires, typiquement par des tech-niques de type Lyapunov, peut permettre d’obtenir des sta-bilisateurs plus globaux. Par exemple, une “version non-linéaire” du retour d’état de la Proposition 1 est donné dans[19]. Concernant les véhicules non-holonomes, de nom-breux résultats sur ce problème (qu’il n’est pas possibleici de détailler) existent dans la littérature. Nous renvoyonsnotamment le lecteur à [7] pour plus de références. Le casdes systèmes sous-actionnés, plus difficile, a été moins étu-dié (voir néanmoins [10, 13]).

3.3 Stabilisation de points fixesContrairement aux deux problèmes précédents, les tech-niques issues de l’automatique linéaire ne peuvent généra-lement pas être utilisées pour la stabilisation de points fixescar le système linéarisé associé n’est pas commandable. Ilfaut cependant rappeler (voir Section 2.4) que certains vé-hicules sous-actionnés échappent à cette règle en raison duterme de perturbation P dans (2) qui rend le système li-néarisé en une configuration fixe commandable. Dans cecas, les techniques linéaires classiques restent utilisables.Lorsque P = 0, ce que nous supposerons dans la suitede cette section, des techniques nonlinéaires doivent être


utilisées. Une difficulté supplémentaire réside dans le faitque la stabilisation asymptotique de points fixes ne peutêtre réalisée par des retours d’état autonomes réguliers (i.e.du type u(x)). Ceci découle du théorème de Brockett [3].De nombreux travaux ont été menés dans les années 90afin de contourner cette difficulté via la synthèse d’autrestypes de commandes (e.g. instationnaires, hybrides conti-nue/discret, etc). Sous des hypothèses de commandabilitérelativement faibles, on peut garantir l’existence de retoursd’état asymptotiquement stabilisants, pour les systèmesnon-holonomes comme pour les systèmes sous-actionnés[9], et de nombreuses méthodes de synthèse ont aussi étédéveloppées. Toutefois, aucune solution de commande nesemble échapper au dilemme suivant :– Les retours d’état réguliers (différentiables par exemple)

permettent éventuellement d’obtenir des propriétés derobustesse et de sensibilité aux bruits de mesure satis-faisantes, mais ne permettent pas d’obtenir une conver-gence exponentielle vers l’équilibre.

– Stabilité et convergence exponentielle peuvent être obte-nus avec des retours d’état seulement continus, mais auprix d’une perte de robustesse vis-à-vis de certaines er-reurs de modèles, et d’une très forte sensibilité aux bruitsde mesure.

Il n’est pas possible ici de détailler tous ces aspects et nousrenvoyons le lecteur à [17, 21] pour plus de détails sur lesméthodes de synthèse existantes et leurs limitations.

4 Stabilisation pratique et fonctionstransverses

L’objectif de cette section est de présenter une nouvelle ap-proche de commande que nous avons commencé à déve-lopper depuis quelques années. Cette approche, basée surun objectif de stabilisation pratique (i.e. stabilisation d’unpetit voisinage d’un point plutôt que du point lui-même),permet d’apporter une solution unifiée à de nombreux pro-blèmes de stabilisation de trajectoires.

4.1 Motivations pour la stabilisation pra-tique

Pour les véhicules non-holonomes ou sous-actionnés, plu-sieurs difficultés suggèrent que l’objectif de stabilisationasymptotique n’est pas toujours bien posé, et ne correspondpas nécessairement aux possibilités du système.

1. Pour la stabilisation asymptotique de point fixe, nousavons brièvement rappelé en Section 3.3 le dilemmeperformance/robustesse qui empêche d’obtenir uneconvergence rapide de façon robuste. Ceci se traduiten pratique par la difficulté à obtenir un positionne-ment très précis par rapport à une situation fixe.

2. Les résultats de stabilisation asymptotique de trajec-toires reposent sur une connaissance a priori de latrajectoire à stabiliser, et ne garantissent une conver-gence de l’erreur que pour certaines trajectoires deréférence (cf e.g. Prop 1). Si celles-ci ne sont pas

connues à l’avance (e.g. si elle sont issues d’une me-sure en temps réel), la question du choix de com-mande à utiliser reste posée. On peut alors se de-mander s’il existe des lois de commande (éventuelle-ment instationnaires) paramétrisées par la trajectoirede réference, i.e. u(q, v, qr, vr, τr, t) qui permettentde stabiliser asymptotiquement toute trajectoire de ré-férence. Il a récemment été montré dans [16] quepour de nombreux véhicules (unicycle, voiture, etc),de telles commandes n’existent pas.

3. Pour certains problèmes de commande, il peut êtreutile de pouvoir “suivre”, avec une précision donnée,des trajectoires non-réalisables. Un premier exempleconcerne des applications de “platooning” avec unvéhicule de tête susceptible de faire des manœuvres(voir [1]). Un autre exemple concerne le cas ou desperturbations agissant sur le système ne permettentpas de calculer à l’avance des trajectoires réalisables(ce qui est courant pour les systèmes sous-actionnés).Enfin, lorsque la trajectoire de référence doit fairel’objet d’une planification, celle-ci peut être drasti-quement simplifiée lorsque l’on dispose de lois decommande permettant de suivre, avec une précisiondonnée, des trajectoires non-réalisables. La stabilisa-tion asymptotique de trajectoires non-réalisables étantimpossible, il est nécessaire de considérer un objectifde commande moins contraignant.

L’approche de commande par fonctions transverses [18,20], basée sur un objectif de stabilisation pratique, permetd’apporter des solutions à ces problèmes.

4.2 Fonctions transverses : définition et exis-tence

Définition 1 Soient X1, . . . , Xm des champs de vecteurssur une variété différentielle M . Une fonction f ∈C1(Tp; M), avec p ∈ N et T := R/2πZ, est une fonctiontransverse aux champs X1, . . . , Xm si

∀α ∈ Tp , rang H(α) = dim(M) (21)

avec

H(α) =(

X1(f(α)) · · ·Xm(f(α))∂f

∂α1(α) · · · ∂f

∂αp(α))

Dans [18], nous avons montré que si les champsX1, . . . , Xm satisfont la condition de rang de l’algèbrede Lie en un point x0 alors, pour tout voisinage U dex0 il existe une fonction transverse à ces champs, à va-leur dans U . Le principe de l’approche de commande parfonctions transverses consiste à utiliser α1, . . . , αp commedes variables de commande (virtuelles) supplémentaires,pour contrôler des déplacements sur M dans des directionscomplémentaires à celles données par les Xi. Lorsque leschamps Xi sont invariants à gauche sur un groupe de LieG, cette approche est systématique comme nous allons lemontrer maintenant.


4.3 Application à la stabilisation des véhi-cules non-holonomes

Le résultat suivant a été donné dans [20, Prop. 1] (avec desnotations légèrement différentes).

Proposition 2 Soit G un groupe de Lie de dimension n etX = X1, . . . , Xn une base de g. Considérons le système

g = X(g) (Cv + P (g, t)) (22)

avec v ∈ Rm, C une matrice n × m de rang plein, et Pune application continue. Alors,i) si f ∈ C1(Tp; G), la dérivée de z := gf−1(α) avec gsolution de (22) et α ∈ C1(R; Tp) est donnée par

z = X(z)AdX(f(α))(C(α)v + P (g, t)

)(23)

avec v = (v1, . . . , vm, α1, . . . , αp)′, C(α) = (C| − A(α))et A(α) la matrice n×p définie par f = X(f(α))A(α)α ;ii) si f est une fonction transverse aux champsX(g)Ce1, . . . , X(g)Ce1 (avec e1, . . . , em la base ca-nonique de Rm), la matrice C(α) est de rang n pour toutα, et par conséquent le retour d’état dynamique

v = C(α)†(AdX(f(α)−1)vz − P (g, t)

)avec C(α)† une inverse à droite de C(α) transforme lesystème (23) en z = X(z)vz .

Indiquons comment se résultat fournit une solution au pro-blème de stabilisation pratique d’une trajectoire de réfé-rence quelconque (i.e. réalisable ou non) pour de nom-breux véhicules non-holonomes. Considérons tout d’abordle cas où le modèle cinématique ne contient pas de va-riable interne (ce qui correspond par exemple au modèlede l’unicycle donné par (7)). Si gr est une trajectoire de ré-férence sur G, le modèle d’erreur (6) est de la forme (22)avec P (g, t) = −AdX(g−1)wr. Puisque le modèle ciné-matique satisfait la condition de rang de l’algèbre de Lie(par hypothèse) en tout point, il existe (voir Section 4.2),pour tout voisinage U de e, une fonction transverse auxchamps X(g)Ce1, . . . , X(g)Cem, à valeur dans U . A par-tir d’une telle fonction, la Proposition 2 permet de calcu-ler des commandes dynamiques v qui assurent la conver-gence exponentielle de z = gf(α)−1 vers e, et donc laconvergence de l’erreur de suivi g vers f(α) ∈ U . Il suf-fit pour cela, dans un système de coordonnées, de choisirvz = (X(z))−1Kz avec K une matrice Hurwitz-stable.Ainsi, indépendamment de la trajectoire de référence, onobtient la convergence de l’erreur de suivi vers un voisi-nage de l’origine qui peut être rendu arbitrairement petitvia le choix de la fonction transverse. A ce stade, il resteà spécifier de telles fonctions. Dans [20], une expressiongénérale est proposée. Pour des systèmes sur des groupesde Lie, ces fonctions sont définies sur Tn−m (ce qui cor-respond à la plus petite valeur possible), et la matrice C(α)

est alors carrée et inversible. Par exemple, pour l’unicycle,une famille de fonctions transverses est donnée par

fε(α) =

⎛⎝ ε1 sinα

ε1ε24 sin 2αε2 cosα

⎞⎠ ε1 = 0, ε2 ∈ (0, π/2) (24)

Les deux paramètres ε1, ε2 permettent de modifier la“taille” de la fonction transverse, et donc la précision dusuivi. Il faut noter que de petites valeurs de ces paramètrespeuvent conduire, en particulier lorsque la trajectoire gr

n’est pas réalisable, à un nombre important de manœuvres.Ceci est rarement souhaitable en pratique. Des fonctionstransverses un peu plus complexes, permettant de mieuxgérer ce compromis précision/manœuvres, sont proposéesdans [2] (voir aussi [1] pour des détails complémentaires,et une validation expérimentale de ces lois de commande).Indiquons maintenant comment cette approche peut s’ap-pliquer à d’autres modèles de véhicules contenant des va-riables internes. Considérons par exemple le cas de la voi-ture (notons que tous les systèmes de type unicycle ou voi-ture avec remorques à attaches centrées peuvent être traitésde façon analogue). Deux méthodes sont possibles.Premièrement, il est bien connu que le modèle cinématique(7) de la voiture peut être transformé, par un changement devariables d’état et de commande, en un système chaîné dedimension quatre. Une telle transformation est égalementpossible, lorsque sr = ζr = 0, pour le modèle d’erreur desuivi (4), modulo un terme de perturbation P0, i.e.

y = Y1(y)v1 + Y2(y)v2 + P0(y, t) (25)

avec Y1(y) = (1, 0, y2, y3)′ et Y2(y) = (0, 1, 0, 0)′. Dèslors, il suffit de remarquer que les champs Y1 et Y2 sontinvariants à gauche sur R4 par rapport à une loi de groupe(voir [20] pour plus de détails). On est donc dans le cadred’application de la Proposition 2, avec (25) correspondantau système (22).Une deuxième méthode consiste à travailler directementavec le modèle d’erreur (4). Il n’est en effet pas très diffi-cile d’étendre la Proposition 2 à certains systèmes du type(2a) (voir [21] pour plus de détails).

4.4 Application à la stabilisation des véhi-cules sous-actionnés

L’approche de commande par fonctions transverses a ini-tialement été développée pour la commande des systèmesnon-linéaires sans dérive, et donc en particulier pour lesmodèles cinématiques des véhicules non-holonomes. Ré-cemment, dans [22], nous avons montré qu’il est aussi pos-sible d’utiliser cette approche pour la commande des sys-tèmes sous-actionnés. Nous présentons ici le principe decette extension. Précisons toutefois que ce travail est en-core préliminaire, et en cours de développement. Considé-


rons la classe de systèmes⎧⎪⎪⎨⎪⎪⎩

g = X(g)vv1 = u1

v2 = u2

v3 = av1v2

(26)

avec u1, u2 des variables de commande, et a une constantequi doit être non nulle pour garantir la commandabilité ausens STLC du système. Ce système est évidemment un casparticulier du système (5). De nombreux modèles de sys-tèmes sous-actionnés peuvent se mettre sous cette forme.C’est clairement le cas du modèle (11) du glisseur (par per-mutation des vitesses v2 et v3 et changement de variablede commande). C’est aussi le cas de nombreux autres sys-tèmes (manipulateurs plans sous-actionnés, satellites sous-actionnés, etc). Le principe des fonctions transverses estde générer des variables de commandes supplémentairesagissant dans des directions non-directement commandées.Pour les véhicules non-holonomes, ces directions se si-tuent au niveau de la cinématique. Pour les véhicules sous-actionnés, elles se situent au niveau de la dynamique. Enparticulier, pour le système (26), il s’agit essentiellementde générer une variable de commande supplémentaire pourcontrôler v3, afin de pouvoir suivre, dans un sens de stabi-lisation pratique, une trajectoire de référence gr arbitraire.D’après (6), le modèle d’erreur cinématique associé à gr

est donné par

˙g = X(g)(v − AdX(g−1)vr) (27)

avec vr définie par gr = X(gr)vr. Introduisons les équa-tions suivantes :

p1(t) = p1(0) +∫ t

0 ϑ1(s) dsh1(t) = h1(0) exp ((p1(t) − p1(0))X1)

(28)

Ces relations impliquent que si h1(0) est proche de e et| ∫ t

0ϑ1(s)ds| reste petit pour tout t, alors h1(t) reste proche

de e pour tout t. Soit g := gh−11 . Pour que g soit proche de

e, il suffit que h1 et g soient proches de e. Nous montronsci-dessous comment synthétiser un retour d’état qui assurecette propriété.On déduit de (1), (27), et (28), que

˙g = X(g)AdX(h1)(v − AdX(g−1)vr

)(29)

avec v = (v1 − ϑ1, v2, v3)′. Puisque v2 = v2 et v3 = v3,on déduit de (26), (27), et (28), que⎧⎨

⎩p1 = ϑ1

˙v2 = u2

˙v3 = av1v2 = aϑ1v2 + av1v2

(30)

Avec y = (p1, v2, v3)′, Y1(y) = (1, 0, ay2)′, et Y2(y) =(0, 1, 0)′, les équations précédentes s’écrivent

y = Y1(y)ϑ1 + Y2(y)u2 + (0, 0, av1v2)′ (31)

Notons que Y1 et Y2 correspondent aux champs de vecteursdu système chaîné de dimension 3 (au paramètre a près quipeut être différent de l’unité). Le système (31) est un casparticulier de (22) avec g = y, X = Y = Y1, Y2, Y3 :=[Y2, Y1],

C =

⎛⎝1 0

0 10 0

⎞⎠

v = (ϑ1, u2)′, et P (g, t) = (0, 0, v1(t)v2)′ =(0, 0, v1(t)y2)′. La loi de groupe associée (par rapport àlaquelle les champs Yi sont invariants à gauche), que nousnoterons pour la différencier de la loi de groupe sur G,est définie par

∀(x, y) ∈ R3 × R

3, x y :=

⎛⎝ x1 + y1

x2 + y2

x3 + y3 + ay1x2

⎞⎠

Comme le système y = Y1(y)ϑ1 + Y2(y)u2 satisfait lacondition de rang de l’algèbre de Lie en tout point, il existedes fonctions transverses pour ce système. De telles fonc-tions sont par exemple données par (comparer avec (24))

f(α) =

⎛⎝ ε1 sin α

ε2 cosαaε1ε2

4 sin 2α

⎞⎠ (ε1, ε2 > 0) (32)

La variable z = y f(α)−1 de la Proposition 2 est donnéepar

z =

⎛⎝ y1 − f1(α)

y2 − f2(α)y3 − f3(α) − af1(α)(y2 − f2(α))

⎞⎠ (33)

et l’équation (23) peut être développée comme suit :⎧⎪⎪⎨⎪⎪⎩

z1 = ϑ1 − c1(α)αz2 = u2 − c2(α)αz3 = −ac3α + av1v2 − af1(α)(u2 − c2(α)α)

+ay2(ϑ1 − c1(α)α)(34)

avec c1(α) = ε1 cosα, c2(α) = −ε2 sinα et c3 =−(ε1ε2)/2. Conformément à la Proposition 2, on véri-fie facilement que ce système peut être linéarisé par unchangement de variable de commande (ϑ1, u2, α). Posonsϑ1 = c1(α)α − k1z1 avec k1 > 0, afin de stabiliser z1 àzéro. Puisque z1 = y1 − f1(α) = p1 − f1(α), si l’on posede plus p1(0) = f1(α(0)), on a

∀t,

p1(t) = f1(α(t))ϑ1(t) = c1(α(t))α(t) (35)

Dès lors, il s’agit d’utiliser les trois entrées de commandeu1, u2, et α afin de contrôler v. Pour ce faire introduisonsla variable

ξ = (v1, z2, z3)′ − AdX(g−1)vr − v(g)

= T (−f1)(v − f23) − AdX(g−1)vr − v(g)(36)


avec

T (f1) :=

⎛⎝1 0 0

0 1 00 af1 1

⎞⎠ , f23 =

⎛⎝ 0

f2

f3

⎞⎠

et v∗ une fonction spécifiée ci-dessous. Lorsque ξ = 0, etf est “petite” (i.e. ε1 et ε2 dans (32) sont proches de zéro),v est approximativement donné par AdX(g−1)vr + v(g).Si de plus h1 reste proche de e (ce qui est est le cas si h1(0)est choisi proche de e), une approximation du système (29)est

˙g = X(g)v(g) (37)

En choisissant v∗ de sorte que l’origine g = e soit un équi-libre asymptotiquement stable du système (37), on peut es-pérer que g, et donc g, reste proche de e. Afin de concrétisercette démarche intuitive, il faut donc montrer que i) on peutstabiliser ξ à zéro par le choix des commandes u1, u2, et α,et ii) cette stabilisation implique la convergence de l’erreurde suivi g vers un “petit voisinage” de e.Stabilisation de ξ = 0 : La dérivée de ξ le long des solu-tions du système est donnée par⎧⎪⎨⎪⎩

˙ξ1 = u1 + ε1α2 sin α − ε1α cosα + r1 + ξ1s1(

˙ξ2

˙ξ3

)= M(α)

(u2

α

)+(

r2

r3

)+ ξ1

(s2

s3

)(38)

avec M(α) la matrice inversible (∀α) définie par

M(α) :=(

1 ε2 sinα−aε1 sin α aε1ε2

2 cos 2α

)

et ri, si (i = 1, 2, 3), des fonctions dépendant deg, ξ2, ξ3, α, vr, et vr, mais pas de ξ1. Il n’est alors pas diffi-cile de synthétiser une loi de commande stabilisant ξ = 0 :

Lemma 1 Considérons le retour d’état régulier⎧⎪⎪⎨⎪⎪⎩

(u2

α

):= M(α)−1

(−k

(ξ2

ξ3

)−(

r2

r3

))u1 := −ε1α

2 sin α + ε1α(2) cosα − r1

−ξ1s1 − kξ1 − ξ2s2 − ξ3s3

(39)avec k > 0 et α(2) la fonction dépendant de g, ξ, α, vr, vr,et vr, dont la valeur coïncide avec la dérivée temporelle dela commande α le long des solutions du système contrôlé.Alors, par application de ce retour d’état (dynamique) ausystème (26), d

dt‖ξ‖2 = −2k‖ξ‖2 et ξ = 0 est donc expo-nentielle stable.

Stabilité pratique de g = e : Avant de donner le résultatde stabilité de g = e, il est nécessaire de spécifier la fonc-tion v∗. Cette fonction doit être différentiable et choisie desorte que g = e soit un équilibre localement exponentiel-lement stable du “système idéal” (37). Dans un système decoordonnées autour de g = e, il suffit de choisir un re-tour d’état linéaire qui rend l’origine du “système linéaire”

˙g = X(e)v∗ asymptotiquement stable. Dès lors, à partir del’équation du système bouclé (29)–(36) et du Lemme 1, onpeut établir le résultat suivant (voir [22] pour la preuve)

Proposition 3 Soit v∗ une fonction différentiable qui rendl’origine du système (37) localement exponentiellementstable. Posons h1(0) := e, α(0) = ±π/2, et désignonspar η la fonction de classe3 K telle que maxα(‖f(α)‖ +dg(h1, e)+‖I3−AdX(h1)‖) ≤ η(ε) avec ε := ‖(ε1, ε2)‖,et dg une distance sur G. Alors, pour toute constante Kr, ilexiste ε0, γg, γv, β > 0 tels que , pour toute trajectoire deréférence gr telle que ‖vr‖ ≤ Kr, et pour tout ε ∈ (0, ε0],

dg(g(0), e) ≤ γg

‖(v − vr)(0)‖ ≤ γv

⇒ dg(g, e) est a.b. par βη(ε)

où “a.b.” signifie “asymptotiquement bornée”. De plus, si‖vr(t)‖ et ‖vr(t)‖ sont bornées, alors ‖v(t)‖ et les com-mandes u1(t), u2(t), et α(t), sont bornées.

Commentons brièvement ce résultat. Etant donnée uneborne sur les vitesses associées à la trajectoire de référence,et sous réserve d’une erreur initiale suffisamment petite etd’un ε petit également, on garantit i) la bornitude de l’er-reur de suivi, ii) la possibilité (en théorie) de réduire cetteerreur autant que l’on veut en choisissant ε1 et ε2 petits,et iii) l’existence d’un domaine d’attraction uniforme parrapport à la trajectoire de référence et par rapport à ε.

ConclusionLa stabilisation de trajectoires recouvre plusieurs problé-matiques qui ont jusqu’à présent été abordées avec destechniques différentes. De nombreuses applications, qui nerequièrent pas un contrôle actif de l’orientation du véhi-cule, peuvent être traitées par des méthodes d’automatiquetrès classiques. Lorsqu’un contrôle en orientation est né-cessaire, des techniques plus élaborées doivent être utili-sées, avec des limitations en pratique, comme par exemplel’impossibilité de garantir des propriétés de stabilisationasymptotique sans connaissance à priori sur la trajectoireà stabiliser. La plupart de ces limitations peuvent êtrecontournées en relâchant l’objectif de commande au pro-fit d’une stabilisation pratique (i.e. stabilisation d’un petitvoisinage d’un point). En outre, il devient alors possible destabiliser des trajectoires générales (i.e. non réalisables parle véhicule commandé), ce qui augmente le champ d’ap-plication de ces systèmes. L’approche de commande parfonctions transverses offre un cadre théorique assez géné-ral pour la synthèse de tels “stabilisateurs pratiques”. Unevalidation expérimentale sur un véhicule de type unicyclea montré ses potentialités, et nous espérons que cet articlesuscitera des intérêts et collaborations en vue d’autres ap-plications.

3Rappelons que η ∈ C0(R+; R+) est une fonction de classe K si

η(0) = 0 et η est strictement croissante.


Références[1] G. Artus. Application de l’approche par fonc-

tions transverses à la commande de véhicules non-holonomes manœuvrants. PhD thesis, Ecole Natio-nale Supérieure des Mines de Paris, 2005.

[2] G. Artus, P. Morin, and C. Samson. Control of amaneuvering mobile robot by transverse functions.In Symp. on Advances in Robot Kinematics (ARK),pages 459–468, 2004.

[3] R.W. Brockett. Asymptotic stability and feed-back stabilization. In R.W. Brockett, R.S. Millman,and H.J. Sussmann, editors, Differential GeometricControl Theory. Birkauser, 1983.

[4] F. Bullo, N.H. Leonard, and A.D. Lewis. Controllabi-lity and motion algorithms for underactuated lagran-gian systems on Lie groups. IEEE Trans. on Automa-tic Control, 45 :1437–1454, 2000.

[5] G. Campion, G. Bastin, and B. d’Andrea Novel.Structural properties and classification of kynematicand dynamic models of wheeled mobile robots. IEEETrans. on Robotics and Automation, 12 :47–62, 1996.

[6] G. Campion, B. d’Andrea Novel, and G. Bastin. Mo-delling and state feedback control of nonholonomicmechanical systems. In IEEE Conf. on Decision andControl (CDC), pages 1184–1189, 1991.

[7] C. Canudas de Wit, B. Siciliano, and G. Bastin, edi-tors. Theory of robot control. Springer Verlag, 1996.

[8] C.-T. Chen. Linear system theory and design. OxfordUniversity Press, 1984.

[9] J.-M. Coron. Stabilization in finite time of locallycontrollable systems by means of continuous time-varying feedback laws. SIAM Journal on Control andOptimization, 33 :804–833, 1995.

[10] I. Fantoni and R. Lozano. Non-linear Control for Un-deractuated Mechanical Systems. Springer-Verlag,2002.

[11] M. Fliess, J. Lévine, P. Martin, and P. Rouchon. De-sign of trajectory stabilizing feedback for driftless flatsystems. In European Control Conference (ECC),pages 1882–1887, 1995.

[12] M. Fliess, J. Lévine, P. Martin, and P. Rouchon. Flat-ness and defect of non-linear systems : introduc-tory theory and examples. International Journal ofControl, 61 :1327–1361, 1995.

[13] T. Hamel, R. Mahony, R. Lozano, and J. Ostrowski.Dynamic modelling and configuration stabilizationfor an x4-flyer. In IFAC World Congress, 2002.

[14] A.D. Lewis and R.M. Murray. Configuration control-lability of simple mechanical control systems. SIAMJournal on Control and Optimization, 35 :766–790,1997.

[15] A.D. Lewis, J.P. Ostrowski, R.M. Murray, and J.W.Burdick. Nonholonomic mechanics and locomotion :the snakeboard example. In IEEE Conf. on Roboticsand Automation (ICRA), pages 2391–2397, 1994.

[16] D.A. Lizárraga. Obstructions to the existence of uni-versal stabilizers for smooth control systems. Mathe-matics of Control, Signals, and Systems, 16 :255–277,2004.

[17] P. Morin. Stabilisation de systèmes non linéaires cri-tiques et application à la commande de véhicules,2004. Habilitation à Diriger des Recherches, dispo-nible sur http ://www.inria.fr/rrrt/th-049.html.

[18] P. Morin and C. Samson. A characterization of the Liealgebra rank condition by transverse periodic func-tions. SIAM Journal on Control and Optimization,40(4) :1227–1249, 2001.

[19] P. Morin and C. Samson. Commande. In J.-P. Lau-mond, editor, La robotique mobile. Hermes, 2001.

[20] P. Morin and C. Samson. Practical stabilization ofdriftless systems on Lie groups : the transverse func-tion approach. IEEE Trans. on Automatic Control,48 :1496–1508, 2003.

[21] P. Morin and C. Samson. Trajectory tracking for non-holonomic vehicles : overview and case study. InK. Kozlowski, editor, 4th Inter. Workshop on RobotMotion Control (RoMoCo), pages 139–153, 2004.

[22] P. Morin and C. Samson. Control of underactuatedmechanical systems by the transverse function ap-proach. Technical report, INRIA, 2005. Disponiblesur http ://www.inria.fr/rrrt/rr-5525.html.

[23] R.M. Murray, Z. Li, and S.S. Sastry. A mathemati-cal introduction to robotic manipulation. CRC Press,1994.

[24] C. Samson and K. Ait-Abderrahim. Feedback controlof a nonholonomic wheeled cart in cartesian space.In IEEE Conf. on Robotics and Automation (ICRA),pages 1136–1141, 1991.

[25] E. D. Sontag. Universal nonsingular controls. In Sys-tems & Control Letters, volume 19, pages 221–224,1992.

[26] H.J. Sussmann. A general theorem on local control-lability. SIAM Journal on Control and Optimization,25 :158–194, 1987.

[27] R.L. Toro. Modélisation et commande d’un objet vo-lant à voilure tournante possédant une seule hélice.Master’s thesis, UTC, Heudyasic, 2003.

[28] F.W. Warner. Foundations of differential manifoldsand Lie groups. Springer Verlag, 1983.


Stabilization of mechanical systems with underactuation degree one viatotal energy shaping

\Romeo Ortega,∗‡Alessandro Astolfi†, ¶Jose Angel Acosta‡and\Arun D. Mahindrakar

\ Laboratoire des Signaux et SystémesSupelec

Plateau du Moulon91192 Gif-sur-Yvette, France

ortega(mahindrakar)@lss.supelec.fr

‡ Electrical Engineering DepartmentImperial College

Exhibition Road, LondonSW7 2BT, UK

[email protected]

¶Depto. de Ingeniería de Sistemas y AutomáticaEscuela Superior de Ingenieros

Camino de los Descubrimientos s/n.41092 Sevilla, [email protected]

Abstract

Interconnection and damping assignment passivity-basedcontrol is a new controller design methodology devel-oped for (asymptotic) stabilization of nonlinear systemsthat does not rely on, sometimes unnatural and technique–driven, linearization or decoupling procedures but insteadendows the closed–loop system with a Hamiltonian struc-ture with a desired energy function—that qualifies as Lya-punov function for the desired equilibrium. The assignableenergy functions are characterized by a set of partial differ-ential equations that must be solved to determine the con-trol law. We prove in this paper that for a class of mechani-cal systems withunderactuation degree onethe partial dif-ferential equations can beexplicitly solved. Furthermore,we introduce a suitable parametrization of assignable en-ergy functions that provides the designer with a handle toaddress transient performance and robustness issues. Fi-nally, we develop a speed estimator that allows the imple-mentation ofposition–feedbackcontrollers.

Note The present paper is an abridged version of the orig-inal work [3] where several examples and all proofs, omit-ted here, may be found.

∗Corresponding author.†The work of Alessandro Astolfi was partially sponsored by the Lev-

erhulme Trust.‡The work of Jose Angel Acosta was partially sponsored by the Con-

trol Training Site programme of the European Commission and by theSpanish MCYT under grants DPI2001-2424 and DPI2003-00429.

1 IntroductionIn [30] we introduced a controller design technique, calledinterconnection and damping assignment passivity–basedcontrol (IDA–PBC), that achieves stabilization for under-actuated mechanical systems invoking the physically mo-tivated principles ofenergy shapingand damping injec-tion. IDA–PBC endows the closed–loop system with aHamiltonian structure where the kinetic and potential en-ergy functions have some desirable features, a minimal re-quirement being to have a minimum at the desired oper-ating point to ensure its stability. Similar techniques havebeen reported for general port–controlled Hamiltonian andLagrangian systems in [29, 39] and [31], respectively; seealso [12, 13, 14] for the case of Lagrangian mechanicalsystems and [28] which contains an extensive list of refer-ences on this topic. The success of these methods relies onthe possibility of solving a set of partial differential equa-tions (PDEs) that identify the energy functions that can beassigned to the closed–loop. The PDE associated to the ki-netic energy defines the admissible closed–loop inertia ma-trices and is nonlinear, while the PDE of assignable poten-tial energy functions is linear. In [12] the authors identify aseries of conditions on the system and the assignable iner-tia matrices such that the PDEs can be solved. Also, tech-niques to solve the PDEs have been reported in [8, 11] andsome geometric aspects of the equations are investigatedin [23]. In [18] it is shown that the kinetic energy PDEreduces to an ordinary differential equation (ODE) if thesystem is of underactuation degree one, that is, if the dif-ference between the number of degrees of freedom and thenumber of control actions is one—see also [9] for a detailed


study of this case for the Controlled Lagrangian Method. Inspite of all these developments the need to solve the PDEsremains the main stumbling block for a wider applicabilityof these methods.In this paper we are interested in the application of IDA–PBC to mechanical systems with underactuation degreeone. The main contributions of the paper are:

1. Identification of a class of underactuation degree onemechanical systems for which the PDEs of IDA–PBCcan beexplicitly solved. Roughly speaking, we as-sume that the open–loop systems inertia matrix andthe force induced by the potential energy (on the unac-tuated coordinate) are independent of the unactuatedcoordinate.

2. Derivation of conditions to effectively assign a min-imum to the energy function at the desired operatingpoint—providing in this way a complete constructiveprocedure for stabilization. The conditions are givenin terms of singlealgebraic inequalitythat measuresour ability to influence, through the modification ofthe inertia matrix, the unactuated component of theforce induced by potential energy.

3. Development, using the recently introduced methodof Immersion and Invariance [6, 22], of a speed esti-mator that allows the implementation of the proposedcontrollersmeasuring positiononly. To the best of ourknowledge, this is the first position–feedback solu-tions reported for these systems—at this level of gen-erality.

4. Last, but not least, the introduction of a suitableparametrization of assignable energy functions—viatwo free functionsand a gain matrix—giving the de-signer the possibility to address transient performanceand robustness issues. In spite of their great practi-cal importance these issues are rarely studied in theliterature. Indeed, most of the controllers reportedfor this class of systems rely on the rather unnatural,technique–driven and fragile operations of lineariza-tion and decoupling. Other existing schemes give verylittle freedom to the designer to tune the controller—basically only the selection of saturation and domina-tion functions or the adjustment of high–gain injectionor damping.

2 The IDA–PBC method for (simple)mechanical systems

In this section we briefly review the material of [30] thatintroduces the IDA–PBC approach to regulate the positionof underactuated mechanical systems with total energy

H(q, p) =12p>M−1(q)p + V (q) (1)

whereq ∈ Rn, p ∈ Rn are the generalized position andmomenta, respectively,M = M> > 0 is the inertia matrix,andV is the potential energy. If we assume that the systemhas no natural damping, then the equations of motion canbe written as1

[qp

]=

[0 In

−In 0

] [ ∇qH∇pH

]+

[0

G(q)

]u, (2)

whereu ∈ Rm andG ∈ Rn×m with rankG = m < n.In IDA–PBC stabilization is achieved assigning to theclosed–loop a desired total energy function. The main re-sult of [30] is contained in the proposition below, that weprove for the sake of completeness.

Proposition 1 Assume there isMd(q) = M>d (q) ∈ Rn×n

and a functionVd(q) that satisfy the PDEs

G⊥∇q(p>M−1p)−MdM

−1∇q(p>M−1d p) +

2J2M−1d p

= 0 (3)

G⊥∇V −MdM−1∇Vd = 0, (4)

for someJ2(q, p) = −J>2 (q, p) ∈ Rn×n and a full rankleft annihilatorG⊥(q) ∈ R(n−m)×m of G, i.e.,G⊥G = 0and rank(G⊥) = n −m. Then, the system (2) in closed–loop with the IDA–PBC

u = (G>G)−1G>(∇qH −MdM−1∇qHd + J2M

−1d p)−

−KvG>∇pHd, (5)

whereKv = K>v > 0, takes the Hamiltonian form

[qp

]=

[0 M−1Md

−MdM−1 J2 −GKvG>

] [ ∇qHd

∇pHd

],

(6)where the new total energy function is

Hd(q, p) =12p>M−1

d (q)p + Vd(q). (7)

Further, if Md is positive definite in a neighborhood ofq?

andq? = arg min Vd(q), (8)

then (q?, 0) is a stable equilibrium point of (6) withLyapunov functionHd. This equilibrium is asymptot-ically stable if it is locally detectable from the outputG>(q)M−1

d (q)p. An estimate of the domain of attractionis given byΩc whereΩc , (q, p) ∈ R2n | Hd(q, p) < cand c corresponds to the largest bounded sub-level set ofHd.

1All vectors in the paper arecolumnvectors, even the gradient of ascalar function:∇(·) = ∂

∂(·) —when clear from the context the subindexin ∇ will be omitted. We will also assume that all functions are suffi-ciently smooth and, whenever rank conditions are imposed, we assumethat they hold uniformly with respect to their arguments.


The main contribution of the present paper is the identi-fication of a class of mechanical systems for which wecan explicitly solve the PDEs (3), (4). In spite of thepresence of the free matrixJ2, the kinetic energy PDE(3) is a complicated nonlinear matrix PDE. In order tosolve it we propose in this paper tofix Md transformingthe PDE into analgebraic equationthat we will solve forJ2. Towards this end, we make first the assumption thatthe inertia matrixM does not depend on the unactuatedcoordinates, thus eliminating the termG⊥∇q(p>M−1p)of (3). Second, introducing suitable parameterizations forJ2 andMd, we will prove that—for the case of underactu-ation degree one—we haveenough degrees of freedominJ2 to solve the algebraic equations. These developmentsare presented in Section 3.

The potential energy PDE (4), even though linear, may alsobe difficult to solve analytically. To be able to provide anexplicit solution we impose in Section 5 the additional as-sumption that the unactuated component of the force in-duced by the potential energy, that isG⊥∇V , is a functionof only oneof the actuated coordinates and makeMd afunction of this coordinate as well. Stability will be estab-lished if we can assign a potential energy functionVd thatsatisfies (8). See Point 2 in Section 1 and Remark 1 below.

Remark 1 It is clear that, for position regulation prob-lems, our main objective is to shape the potential energyfunction hence we could leaveMd = M and (4) becomesG⊥(∇V −∇Vd) = 0. If the systems is underactuated ourability to modify V in this way is obviously limited, seeRemark 4.3.18 of [39] and [23]. To overcome this obstacleit was proposed in IDA–PBC [30] to change also the ki-netic energy term.2 This is done through the modificationof M—that introduces the “coupling term"MdM

−1 in thepotential energy PDE. Our objective is then to find, amongthe set of positive definiteMd that solve (3), one that willallow us to shapeV . The key player in this intertwinedgame isJ2, that we recall is free, thus providing degrees offreedom to assignMd. See Remark 3 below and [28] foradditional discussions on the role ofJ2 applications be-yond the realm of mechanics.

Remark 2 The class considered in the paper contains sev-eral practically relevant examples. A particular case of thisclass has been studied in [3], and a complete characteriza-tion of all underactuation degree one mechanical systemswhich are feedback–equivalent to it is given in [2].

Remark 3 In the light of some recent misleading nov-elty claims reported in [40] we find necessary to clarify—again—the history of the termJ2 and its role on stabiliza-tion. Already in the first publication concerning IDA–PBC[29] we indicated that, due precisely to the freedom in the

2To the best of the authors’ knowledge the first paper where shapingthe total energy for stabilization of mechanical systems was proposed is[4], see also Chapter 3 of [31].

choice of this term (that is intrinsic to IDA–PBC), the classof mechanical systems stabilized with IDA–PBCstrictlycontainsthe class stabilized via the controlled Lagrangianmethod of [12] or its extension [13]. It was shown that bothmethods coincide for a particular choice ofJ2. This termwas given an interpretation in terms ofgyroscopic forcesin a Lagrangian framework for the first time in [11], witha preliminary report widely distributed to the communityas early as October 2000. As openly recognized in the In-troduction of [16], our work heavily inspired the modifiedcontrolled lagrangian method reported in [16], and utilizedin [40]—that essentially mimics our derivations.

3 Solving the kinetic energy PDEWe now proceed to define the class of mechanical systemsfor which we can explicitly solve (3). Toward this end weintroduce the following:

Assumption A.1 The system has underactuation degreeone, that is,m = n− 1.

Assumption A.2 There exists a full rank left annihilatorG⊥ of G such that

G⊥∇q(p>M−1p) = 0. (9)

Assumption A.2 essentially imposes thatM does not de-pend on the unactuated coordinate. It is satisfied by manywell–known physical examples, for instance, the Ball andBeam [20], the VTOL Aircraft [25] and the Acrobot [36].It is easy to see that the assumption isalways satisfied, tak-

ing (with some minor loss of generality)G =[

In−1

0 . . . 0

]

and introducing a partial feedback–linearization inner–loop [36]. Indeed, after some simple calculations we seethat the partially feedback–linearized system takes the so–called Spong’s Normal Form [19]:3

q = p (10)

p =

[O

− 1mnn(q)

ψu(q, p)

]+

[In−1

− 1mnn(q)

m>u (q)

]u,

where we have partitioned the inertia matrix and definedthe functionψu ∈ R as

M =[

? mu

m>u mnn

], ψu , e>n (MM−1p +∇V )

with mu ∈ Rn−1, mnn ∈ R and en the n–th vector ofthen–dimensional Euclidean basis. This system is in theform (2) with a “new inertia matrix" equal identity, hencesatisfying Assumption A.2.In the sequel we will impose some assumptions onM,VandG to define a class of mechanical systems for which

3Since

[O

− 1mnn(q)

ψu(q, p)

]is not necessarily a gradient vector

field a partially linearized system may not be in the form (2).


we can solve the PDEs. These assumptions can be con-siderably simplified if we proceed from Spong’s Nor-mal Form. It is well–known that, in contrast to PBC,feedback–linearization is a fragile operation that requiresexact knowledge of the systems parameters and states toensure the “double integrator" structure. Therefore, weprefer to present the assumptions on the original system(2), stating as remarks their implication for the system inSpong’s Normal Form.

3.1 An equivalent representation of the PDEWe find convenient to first express (3) in an alternativeequivalent form. For, we introduce a suitable parametriza-tion of the free matrixJ2. It is clear from (3) thatJ2 shouldbe linear in p. We make now the important observationthat, without loss of generality (see Remark 4),J2 can beparameterized in the form

J2 =

0 p>α1 p>α2 . . . p>αn−1

−p>α1 0 p>αn . . . p>α2n−3

......

.... ..

...−p>αn−1 −p>α2n−3 . . . 0

where the vector functionsαi(q) ∈ Rn, i =1, . . . , no, no , n

2 (n − 1), are free parameters and wehave defined for notational convenience the (partial) coor-dinate

p , M−1d p. (11)

Alternatively, we can write

J2 =no∑

i=1

p>αiWi, (12)

with theWi ∈ Rn×n, i = 1, . . . , no, defined as follows.First, we constructn2 matrices of dimensionn × n, thatwe denoteF kl = fkl

ij , k, l ∈ 1, 2, . . . , n, accordingto the rule

fklij =

1 if j > i, i = k andj = l0 otherwise.

Notice that onlyno matrices are different from zero. Then,

we defineW kl , F kl − (F kl

)>. Finally, we set (in an

obvious way)

W1 = W 12,W2 = W 13, . . . , Wn = W 1n,

Wn+1 = W 23, . . . , Wno = W (n−1)n.

For instance, for the casen = 3, for which alsono = 3,we get

W1 ,

0 1 0−1 0 00 0 0

, W2 ,

0 0 10 0 0−1 0 0

,

W3 ,

0 0 00 0 10 −1 0

.

Using this parameterization some simple calculations es-tablish that the termG⊥J2 that appears in (3) becomes

G⊥(q)J2(q, p) = p>J (q)A>(q) (13)

where we defined

J ,[α1

... α2

... · · · ... αno

]∈ Rn×no ,

which is afreematrix, and

A ,[W1

(G⊥

)>,W2

(G⊥

)>, . . . ,Wno

(G⊥

)>]∈ Rn×no .

(14)

Proposition 2 Under Assumptions A.1, A.2 the kinetic en-ergy PDE (3) becomes

n∑

i=1

γi(q)dMd

dqi= −[J (q)A>(q) +A(q)J>(q)], (15)

where4

γ = col (γ1, . . . , γn) , M−1Md(G⊥)> ∈ Rn (16)

Remark 4 An n × n skew–symmetric matrix containsatmostno non–zero different terms. Hence, the proposedJ2

contains all skew–symmetric matrices which are linear inp, that is, all matrices of the form

∑ni=1 Ωipi, Ωi = −Ω>i ,

and the parametrization is done without loss of generalityas claimed above.5

3.2 A parametrization of Md that solves thePDE

In this section we present a parametrization of the desiredinertia matrix for which there exists aJ that sets to zerothe term in brackets of

p>[n∑

i=1

γidMd

dqi+ 2JA>]p = 0, (17)

that we write here for ease of reference as

n∑

i=1

γidMd

dqi= −2AJ>, (18)

recalling thatγi, as defined in (16), are functions ofMd.It is important to underscore that the set ofMd that satis-fies (18) is strictly contained in the set that satisfies (15)—which, as stated in Proposition 2, characterizesall solu-tions of (3). We decide to work with this smaller set be-cause, as will be shown below, we can in this way give asimple explicit expression forMd. Of course, all solutionsof (18) are solutions of (3).

4Notice that, under Assumption A.1,G⊥ is arow vector.5The space of skew–symmetric matrices, usually denotedso(n), can

be alternatively defined noting thatso(n) is isomorphic toRn0 via the hatoperator· : Rn0 → so(n), and then use the basise1, . . . , en0.


As explained in the introduction, we solve (18) as an alge-braic equation in the unknownJ for agivenMd. Towardsthis end, we note from (14) and skew–symmetry of the ma-tricesWi that

G⊥A = 0. (19)

The equation above indicates thatA ∈ Im G which, inview of (18), suggests to selectMd such thatdMd

dqi∈ Im G

as well. The question on whether there will existsJ tosolve (18) will depend on the rank ofA as shown in thefollowing simple linear algebra lemma.

Lemma 1 Consider a matrixA ∈ Rn×no with no ≥ n,rank A = n − 1, and such thatw>A = 0 for somew ∈Rn. Then, for all vectorsx ∈ Rn such thatw>x = 0 thereexists a vectory ∈ Rno such thatx = Ay.6

In order to use Lemma 1 we now establish thatA satisfiesthe required rank condition.

Lemma 2 For the matrixA defined in (14) we have

rank A = n− 1.

To present the main result of this section—a parametriza-tion of Md such that (3) can be explicitly solved—werequire:

Assumption A.3 The input matrixG is function of asingle element ofq, sayqr, with r an integer taking valuesin the set1, . . . , n.

Obviously, the assumption will be always satisfied if itis possible to (via an input change of coordinates andre–ordering of the variablesq) transform the input matrix

into G =[

In−1

0 . . . 0

]. On the other hand, referring to

Spong’s Normal Form (10), we see that the assumption issatisfied for the partially–linearized system if the columnof M corresponding to the unactuated coordinate dependsonly onqr.

Proposition 3 Let Assumptions A.1–A.3 be satisfied.Under these conditions, for all desired (locally) positivedefinite inertia matrices of the form

Md(qr) =∫ qr

q?r

G(µ)Ψ(µ)G>(µ)dµ + M0d (20)

where the matrix functionΨ = Ψ> ∈ R(n−1)×(n−1) andthe constant matrixM0

d ∈ Rn×n, M0d = (M0

d )> > 0, maybearbitrarily chosen, there exists a matrixJ2 such that thekinetic energy PDE (3) holds in a neighborhood ofq?

r .

6The proof of the lemma for the casen = 2, hencen0 = 1, followsfrom basic plane geometry considerations and is omitted for brevity.

4 Solving the potential energy PDEThe potential energy PDE (4) can be written using (16) as

γ>(q)∇Vd = s(q) (21)

where, to simplify the notation, we have defined the scalarfunction

s , G⊥∇V. (22)

This function, that is uniquely determined by the open–loop system, plays a critical role in the stabilization prob-lem and we propose to take a brief pause to analyze it. Firstof all, notice that for all admissible equilibriaq, we have

s(q) = 0. (23)

This follows from the dynamic equations for momenta in(2), whose right hand side evaluated forp = 0 becomes−∇V + Gu. Secondly, the vector∇V contains the forcesinduced by the potential energy, in particular,G⊥∇V arethose forces that cannot be (directly) affected by the con-trol. Referring back to the original potential energy PDE(4), we recall that the mechanism to shape the potential en-ergy is through the introduction of the termMdM

−1. Sincewe have imposed thatMd depends on a single coordinateit is reasonable to require thats also depends only onqr, aswill be done below.OnceMd is fixed, γ as given by (16) is also fixed, andequation (21) is a linear PDE that may be solved using, forinstance, the techniques of [10]. See the examples workedout in [30]. Since our interest in this paper is to give aconstructive solutionto the stabilization problem we maketwo additional assumptions to be able to explicitly solve(21).

Assumption A.4 The vectorγ and the functions, definedin (16), (22), respectively, are functions ofqr only, with qr

as in Assumption A.3.

Assumption A.5γr(q?r ) 6= 0.

Under Assumption A.3 and withMd defined by (20)γ is a function ofqr if M is a function ofqr. Clearly,for systems in Spong’s Normal Form, whereM = In,Assumption A.4 will be satisfied ifψu does not depend onp. Assumption A.5 is a generic condition that is imposedto ensure that the PDE (21) admits a well–defined solutionin a neighborhood ofq?

r . This stems from the fact that theγi are functions ofqr and, in view of (23),s vanishes atq?r .

We are in position to present our next result whose prooffollows from the equivalence of (4) and (21) and some di-rect computations.

Proposition 4 Let Assumptions A.1–A.5 be satisfied andMd be given by (20). Under these conditions,all solutions


of the potential energy PDE (4) are given by

Vd(q) =∫ qr

0

s(µ)γr(µ)

dµ + Φ(z(q)), (24)

with γ, s given in (16), (22), respectively, andz ∈ Rn,7

defined as

z(q) , q −∫

0

qr γ(µ)γr(µ)

dµ, (25)

with Φ anarbitrarydifferentiable function.

Remark 5 Propositions 3 and 4 characterize a set ofassignable energy functions of the form (1) in terms of thetriplet Ψ,M0

d , Φ. The construction proposed forMd en-sures onlyMd(q?) > 0. To enlarge the domain of pos-itivity of Md—and consequently enlarge the domain ofstability—suitable selections ofΨ andM0

d must be found.The same comment applies to Assumption A.5 that shouldbe satisfied in some (quantifiable, and hopefully big) neigh-borhood ofq?

r . We note that the functionssγrand γi

γrappear

explicitly in the control law (5) through the term∇Vd (im-plicit in ∇Hd).

5 Main stabilization resultIn the previous section we proposed a parametrizationof the assignable energy functions in terms of the tripletΨ,M0

d , Φ. Here we will impose some additionalconstraints on these parameters to ensure asymptoticstability of the closed–loop. As expected, for stabilitywe will require (besides positivity ofMd) assignment ofthe desired minimum toVd, i.e., (8). To articulate thiscondition we note first that the change of coordinatesq Ã z + qrer is a diffeomorphismthat preserves theextrema—hence we analyze the potential energy functionin these new coordinates, see [30] for a discussion on thisissue. Now, from (24), and the fact thatΦ(z) is arbitrary, itis clear that restrictions will only be imposed on the term∫

sγr

. Recalling (23) and Assumption A.5 we note that thisfunction already has an extremum atq?

r . To ensure that it isa minimum we verify that its second derivative, evaluatedat q?

r , is positive. Some simple calculations show that thiscondition is equivalent to:

Assumption A.6γr(q?r ) ds

dqr(q?

r ) > 0.

The assumption has the following interpretation. First,we recall from (22) thats represents the forces inducedby the potential energy function that are unactuated. Sec-ond,q?

r corresponds to an equilibrium that will, typically,be open–loop unstable therefore the open–loop potentialenergy functionV will have amaximumat this point anddsdqr

(q?r ) < 0. Finally, from (4) and (16) we see thatγr is

the element of the “coupling term",G⊥M−1Md, through

7z(q) is the, so–called, characteristic of the homogeneous part of thePDE [10]. Notice thatz is ann–dimensional vector butzr = 0. We haveintroduced this (awkward) definition for notational compactness.

which we can modify the (unactuated coordinates of the)open–loop potential energy (see Remark 1). In summary,Assumption A.6 reflects our ability to shape, for the pur-poses of stabilization, the potential energy through modifi-cation of the kinetic energy.Interestingly, we will show in the proposition that the onlyadditional condition imposed forasymptoticstability is asfollows.

Assumption A.7 |G>M−1er(q?r )| 6= 0.

Furthermore, for the particular case of quadraticΦ, a verysimpleexplicitexpression for the control law is given.

Proposition 5 Consider the underactuated mechanicalsystem (2) verifying Assumptions A.1–A.3. Assume thereexists matricesΨ andM0

d such that Assumptions A.4–A.6hold withMd given by (20). Under these conditions, for alldifferentiable functionsΦ the IDA–PBC (5) ensures thatthe closed–loop dynamics is a Hamiltonian system of theform (6) with total energy function (7), withVd defined in(24). Moreover,(q?, 0) is a locally stableequilibrium withLyapunov functionHd(q, p) provided the rootqr = q?

r ofs(qr) is isolated, the functionz(q) satisfies

z(q?) = arg minΦ(z), (26)

and this minimum is isolated. It will beasymptoticallysta-ble if Assumption A.7 holds.Furthermore, if we select

Φ(z(q)) =12

[z(q)− z(q?)]> P [z(q)− z(q?)]

with P = P> > 0, the control law is of the form

u = A1(q)PS(q − q?) +

p>A2(qr)p...

p>An(qr)p

+ An+1(qr)−

(27)−KvAn+2(qr)p

whereKv = K>v > 0 is free,S ∈ R(n−1)×n is obtained

removing ther–th row from then–dimensional identity ma-trix, for some matricesAi, i = 1, . . . , n + 2.

Remark 6 To quantify the domain of attraction, e.g.,to obtain an (almost) global version of the asymptoticstability claim, we need to rule out the existence oflimit cycles in the whole space(qr, ν) as well as stableequilibria, different from the desired one. This can be donereinforcing Assumption A.7 as follows.

Assumption A.7’ |G>M−1ers(qr)| = 0 ⇒ qr = qr, i.e.,an equilibrium for the generalized coordinates

and imposing the following additional condition:


Assumption A.8 Fix a > 0 (possiblya = +∞). For allpointsqr ∈ [q?

r − a , q?r + a], qr 6= q?

r such thats(qr) = 0we have that

γr(qr)ds

dqr(qr) < 0.

The latter ensures that all other equilibria correspond tomaximum or saddlepoints of the desired potential energyfunction, and are henceforth unstable.

6 Implementation of the controllervia position feedback

In this section we prove that, using the recently introducedmethod of Immersion and Invariance [6, 22], we can de-sign a speed estimator that allows the implementation ofthe proposed controllersmeasuring only positionfor thefollowing particular class of systems

q = M−1(qr)pp = η(qr) + G(qr)u, (28)

that clearly satisfies Assumptions A.1–A.4 and contains theexamples considered [3]. To ensure stability we will im-pose the (rather weak) additional assumption that the ma-trix Ψ (that definesMd) is bounded.

Proposition 6 Consider the system (28) assuming, withoutloss of generality, thatG is bounded.8 SelectboundedΨand M0

d in (20) such that Assumptions A.5 and A.6 hold.Define theposition feedbackcontroller

u = A1(q)PS(q − q?) +

(p + λq)>A2(p + λq)...

(p + λq)>An(p + λq)

+

(29)

+An+1 −KvAn+2(p + λq)

whereλ > 0, andp is an estimate ofp− λq generated via

˙p = η + Gu− λM−1(p + λq). (30)

Then there exists a neighborhood of the point(q?, 0,−λq?)such that all trajectories of the closed–loop system startingin this neighborhood are bounded and satisfy

limt→∞

(q(t), p(t), p(t)) = (q?, 0,−λq?).

Furthermore, if Assumption A.7 holds and the full statefeedback controller (27) ensures global asymptotic stabil-ity then the neighborhood is the whole spaceR3n, thusboundedness and convergence areglobal.

8This assumption is without loss of generality, because we can alwaysredefine the control signal with a scalar normalizing factor without affect-ing the stabilizability properties.

7 Conclusions and future researchIn this paper we have identified a class of underactuatedmechanical systems for which the IDA–PBC designmethodology gives a completeconstructivesolution tothe stabilization problem—without the need to solve anyPDE. The main assumptions made on the system are that ithas underactuation degree one and that, roughly speaking,the dynamics that are not directly affected by the control,e.g. “in Ker G", can be modified through the action ofone actuated coordinateqr. The underactuation degreeAssumption A.1 is needed to ensure there are enoughdegrees of freedom in the free IDA–PBC parameterJ2

to solve the kinetic energy PDE as an algebraic equation.Assumptions A.2 and A.3 ensure that we can construct thesolution choosingdMd

dqr∈ Im G. Assumptions A.4 and

A.5, needed to solve the potential energy PDE, specifythe role of qr. Finally, Assumption A.6 measures ourability to affect the potential energy function through themodification ofMd.

We have also presented aposition feedbackimplementation—with provable stability properties—for a subclass of the class considered in the paper. (In[2] a characterization of all mechanical systems that arefeedback–equivalent to this subclass is given in terms ofsolvability of a set of PDEs with algebraic constraints.)This class contains several practically interesting bench-mark examples, some of which are studied in [3].

Besides ensuring asymptotic stability the IDA–PBCmethodology provides the designer with some degrees offreedom to improve transient performance and robustness.These degrees of freedom are given in terms of parame-terized expressions for the assignable energy functions.More precisely, the total energy function can be effectivelyshaped via the selection of the scaling matrixΨ, the con-stant matrixM0

d in the inertia matrix (20) and the choice ofthe functionΦ in the potential energy (24). An additionaltuning parameter is the damping injection gainKv thatmay be any positive definite (possibly state–dependent)matrix.

For simplicity we have chosen in our simulations aquadratic functionΦ for the potential energy, but motivatedby other considerations, e.g., input constraints or rate sat-urations, we could have also taken other (logarithmic orsaturated) functions. An advantage of a quadratic functionis that the control law takes a very nice expression (27),which consists of the sum of three types of terms that aremodulated by functions of the distinguished coordinateqr:

– (“proportional–like") linear terms on the additionalcoordinate errorS(q − q?) that contribute to the po-tential energy shaping;9

9We have shown with examples the importance of a suitable selectionof the relative weights (the matrixP ) of the configuration coordinates.


– (“derivative–like") linear terms inp due to the damp-ing injection that enforce asymptotic stability;

– (“gyroscopic–like") quadratic terms inp that comefrom the interconnection matrixJ2. These terms,which serve to propagate the damping through thewell–known mechanism of feedback interconnectionof passive and strictly passive systems [28], are es-sential for the solution of the present problem. SeeRemark 3.

Current research is under way to extend the present workin the following directions.

• In [24] we worked out two examples, the Acrobot andthe Furuta’s Pendulum, that do not satisfy Assump-tions A.2 nor A.4. The term,G⊥∇q(p>M−1p) in-troduces a quadratic term inMd in the kinetic en-ergy PDE, but it can still be solved with a suitablechoice of J2. Similarly, even though AssumptionA.4 does not hold, we can solve the potential energyPDE with a machinery specifically tailored for theseexamples. Developing a general theory for a well–identified class of systems containing these examplesis currently under investigation.

• In the proof of asymptotic stability in Proposition 5we have established that in the residual setΩ the char-acteristic of the potential energy PDE is constant. Thisseems to be a geometric property of the PDEs thatneeds to be further clarified. In particular, it would bedesirable to use it to simplify the proof and removethe, rather awkward, Assumption A.7. (We point outthat this property ofz(q) holds for other classes of me-chanical systems—for instance, the Ball–and–Beamand the Acrobot systems which do not satisfy As-sumptions A.2 nor A.4.)

• To relax Assumptions A.3 and A.4 we need to explorethe complete set of solutions forMd defined by (3), orequivalently (15). In particular, it seems necessary tomakeMd function of all coordinates.

• Working out a general theory without Assumption A.1seems a difficult task. On one hand, we cannot trans-form the kinetic energy PDE into an algebraic equa-tion. On the other hand, as indicated in [23], somegeometric obstacles that hamper our ability to shapeVd may appear in this case.

• Comparison of the class studied here with the oneidentified, via elegant geometric conditions, in [12].See also [11]. Also, it would be interesting to explorethe connections with the recent work [19], where theauthors consider underactuation degree one mechani-cal systems with a cyclic coordinate.

• The examples presented in the paper are transformedinto Spong’s Normal Form via partial feedback lin-earization. It has been argued in this paper that this

operation is fragile so it would be interesting to avoidit. This extension is also of interest if a true positionfeedback controller on the actual system is to be real-ized. Toward this end, the result of Section 6 shouldbe extended to a broader class of systems.

• The proposed controllers should be tested experimen-tally and confronted with other existing schemes. Theoutcome of this research will be reported elsewhere.

References[1] J. A. Acosta,Underactuated Nonlinear Control Sys-

tems, PhD thesis, University of Seville, Dept. of Auto-matic Control and Systems Engineering, Seville, Spain,2004.

[2] J. A. Acosta, R. Ortega and A. Astolfi, Position feed-back stabilization of mechanical systems with underac-tuation degree one,6th IFAC Symp. Nonlinear ControlSystems, NOLCOS’04, Stuttgart, Germany, September1–3, 2004.

[3] J. A. Acosta, R. Ortega and A. Astolfi: Interconnec-tion and damping assignment passivity–based controlof mechanical systems with underactuation degree one,American Control Conference (ACC04), June 30–July2, 2004, Boston, MA. (To appear inIEEE Trans. Au-tomat. Contr..)

[4] A. Ailon, R. Ortega: An observer-based controller forrobot manipulators with flexible joints,Syst. & Cont.Letters, Vol. 21, pp.329-335, 1993.

[5] A. Astolfi and R. Ortega, Energy based stabilizationof the angular velocity of a rigid body operating in fail-ure configuration,J. of Guidance Control and Dynam-ics, Vol 25, No. 1, pp. 184–187, Jan–Feb 2002.

[6] A. Astolfi, R. Ortega: Immersion and Invariance: Anew tool for stabilization and adaptive control of non-linear systems,IEEE Trans. Automat. Contr., Vol. 48,No. 4, April 2003, pp. 590–606.

[7] R. Akmeliawati and I. Mareels, Passivity-based-control for flight control systems,Proceedings of Infor-mation Decision and Control 99, pp 15–20, 1999.

[8] D. Auckly and L. Kapitanski and W. White, Controlof nonlinear underactuated systems,Comm. Pure Appl.Math., Vol. 3, 2000, pp. 354–369.

[9] D. Auckly and L. Kapitanski, On theλ–equations formatching control laws,SIAM J. Control and Optimiza-tion, Vol. 41, No. 5, 2002, pp. 1372–1388.

[10] P. Berg and J. McGregor,Elementary Partial Dif-ferential Equations, McGraw–Hill, NY, 1966.


[11] G. Blankenstein, R. Ortega and A.J. van der Schaft,The matching conditions of controlled Lagrangians andinterconnection assigment passivity based control,Int Jof Control, vol. 75, no. 9, pp. 645-665, 2002..

[12] A. Bloch, N. Leonard and J. Marsden, Controlled La-grangians and the stabilization of mechanical systems,IEEE Trans. Automat. Contr., Vol. 45, No. 12, Decem-ber 2000.

[13] A. M. Bloch, D. E. Chang, N. Leonard, and J.E. Marsden, Controlled Lagrangians and the stabiliza-tion of mechanical systems II: Potential shaping,IEEETrans. on Automatic Control, 2001, 46, 1556-1571.

[14] D. E. Chang and J. E. Marsden, Reduction of con-trolled Lagrangian and Hamiltonian systems with sym-metry, SIAM J. Control and Optimization, 43, 2004,277-300.

[15] A. M. Bloch, Nonoholonomic Mechanics and Con-trol , Springer–Verlag, NY, 2003.

[16] D.E. Chang, A.M. Bloch, N.E. Leonard, J.E. Mars-den and C.A. Woolsey, The equivalence of controlledlagrangian and controlled hamiltonian systems for sim-ple mechanical systems,ESAIM: Control, Optimisation,and Calculus of Variations, Vol. 8, pp. 393–422, 2002.

[17] D. Mclean, Automatic Flight Control Systems,Prentice Hall, New Jersey, 1990.

[18] F. Gomez-Estern, R. Ortega, F. Rubio and J. Aracil,Stabilization of a class of underactuated mechanical sys-tems via total energy shaping,IEEE Conf on Decisionand Control, Orlando, FL, USA Dec. 4–7, 2001.

[19] J.W. Grizzle, C.H. Moog, and C. Chevallereau, Non-linear control of mechanical systems with an unactu-ated cyclic variable,IEEE Trans. Automat. Contr., (Tobe published).

[20] J. Hauser, S. Sastry and G. Meyer, Nonlinear controldesign for slightly non-minimum phase systems: appli-cation to V/STOL aircraft,Automatica, Vol. 28, No. 4,July 1992, pp. 665–679.

[21] Z. P. Jiang and I. Kanellakopoulos, Global outputfeedback tracking for a benchmark nonlinear system,IEEE Trans. Automat. Contr., vol. 45, no. 5, pp. 1023-1027, 2000.

[22] D. Karagiannis, A. Astolfi and R. Ortega: Two re-sults for adaptive output feedback stabilization of non-linear systems,Automatica, Vol. 39, No. 5, May 2003,pp. 857–866

[23] A. Lewis, Notes on energy shaping,43rd IEEE ConfDecision and Control, Dec 14–17, 2004, Paradise Is-land, Bahamas.

[24] A. Mahindrakar, A. Astolfi, R. Ortega and J. A.Acosta, Further constructive results on IDA–PBC ofmechanical systems,LSS Internal Report, March 2005.

[25] P. Martin, S. Devasia, B. Paden, A different look atoutput tracking: Control of a VTOL aircraft,Automat-ica, Vol. 32, No. 1, 1996, pp. 101–107.

[26] R. Olfati-Saber, Global configuration for the VTOLaircraft with strong input coupling,IEEE Trans. Au-tomat. Contr., Vol. 47, No. 11, November 2002, pp.1949–1952.

[27] R. Olfati-Saber, Normal forms for underactuated me-chanical systems with symmetry,IEEE Trans. Automat.Contr., Vol 47, No. 2, pp 305–308, 2002.

[28] R. Ortega and E. Garcia-Canseco, Interconnectionand damping assignment passivity–based control: ASurvey,European J of Control, Vol. 10, pp. 432–450,2004.

[29] R. Ortega, A. van der Schaft, B. Maschke andG. Escobar, Interconnection and damping assignmentpassivity–based control of port–controlled hamiltoniansystems,Automatica, Vol. 38, No. 4, April 2002.

[30] R. Ortega, M. Spong, F. Gomez and G. Blankenstein,Stabilization of underactuated mechanical systems viainterconnection and damping assignment,IEEE Trans.Automat. Contr., Vol. AC–47, No. 8, August 2002, pp.1218–1233.

[31] R. Ortega, A. Loria, P. J. Nicklasson and H.Sira–Ramirez, Passivity–Based Control of Euler–Lagrange Systems, Springer-Verlag, Berlin, Commu-nications and Control Engineering, Sept. 1998.

[32] H. Rodriguez, A. Astolfi and R. Ortega, On the con-struction of static stabilizers and static output trackersfor dynamically linearizable systems, related results andapplications,IEEE 2004 Conference on Decision andControl, December 14 - 17, 2004, Bahamas.

[33] N. Rouche and J. Mawhin,Ordinary DifferentialEquations: Vol II , Pitman Publ., London, 1980.

[34] S. Sastry,Nonlinear systems. Analisys, stabilityand control, Springer-Verlag, New York, 1999.

[35] R. Sepulchre and M. Jankovic and P. Kokotovic Con-structive Nonlinear Control., Springer-Verlag, Lon-don, 1997.

[36] M. W. Spong, Underactuated mechanical systems,in Control Problems in Robotics and Automation,(eds.) B. Siciliano and K. Valavanis, LNICS Vol. 230,Springer–Verlag, 1998.

[37] E. D. Sontag, On stability of perturbed asymptoticallystable systems,IEEE Trans. Automat. Contr., Vol. 48,No. 2, Feb. 2003, pp. 313–314.


[38] A. R. Teel, A nonlinear small gain theorem for anal-ysis of systems with saturationIEEE Trans. Automat.Contr., Vol. 41, No. 9, September 1996, pp. 1256–1270.

[39] A. J. van der Schaft,L2–Gain and Passivity Tech-niques in Nonlinear Control, Springer–Verlag, Berlin,1999.

[40] C. Woolsey, C. Reddy, A. Bloch, D. Chang, N.Leonard and J. Marsden, Controlled Lagrangian sys-tems with gyroscopic forcing and dissipation,EuropeanJournal of Control, Vol 10, No 5, 2004, pp 478–496.


Architectures logicielles pour la robotique

L. Nana

Laboratoire d’Informatique des SYstèmes Complexes (LISyC), EA3883Université de Bretagne Occidentale

20 Avenue Le GorgeuC.S. 93837 – BP 809

29238 BREST Cedex 3

[email protected]

RésuméLe besoin en architectures logicielles robotiques se justifie par la complexité croissante des tâches confiées aux robots. Elles permettent de structurer les différents niveaux de développements en niveaux d'abstractions et d'améliorer la réutilisabilité et la modularité des composants matériels et logiciels des systèmes robotiques. En théorie, au moins un composant d'un robot se doit d'être utilisable sur plus d'un robot. Par exemple, un contrôleur de robot marcheur pourrait également contrôler une roue motrice sur un robot à roue. Toute réutilisation de ce type nécessite, de toute évidence, un ensemble commun de spécifications. Toutes ces raisons ont conduit au développement d'architectures robotiques, mais aucune architecture dominante unique n'a émergé. L'élaboration de normes dans ce domaine est d'une importance certaine. Quelques travaux ont été effectués dans ce sens, mais le sujet reste ouvert. De même, la sûreté de fonctionnement, bien qu'ayant atteint une certaine maturité du point de vue du matériel, nécessite des solutions adaptées au niveau du logiciel, et doit être prise en compte tant au niveau des langages destinés à la programmation robotique qu'au niveau de la conception et de la mise en oeuvre des environnements de programmation robotique. La sûreté de fonctionnement logicielle est d'autant plus importante que le logiciel prend une place de plus en plus importante dans les systèmes robotiques. Nous proposons dans cet article, de faire le point sur les architectures logicielles pour la robotique et d'examiner plus particulièrement la prise en compte de la sûreté de fonctionnement logicielle des applications robotiques.

Mots ClefArchitectures logicielles, robotique, sûreté de fonctionnement logicielle.

1 IntroductionAujourd’hui, les robots sont, et effectuent des tâches, de plus en plus complexes. D’autre part, un gros projet

robotique peut impliquer des centaines d’ingénieurs et/ou chercheurs et plusieurs institutions. Dans ce contexte, la disponibilité d’architectures adéquates semble indispensable afin de structurer les différents niveaux d’abstraction et d’améliorer la réutilisation et la modularité des composants matériels et logiciels des systèmes robotiques. Le logiciel prend une place de plus en plus importante dans les systèmes robotiques. L’utilisation de techniques de génie logiciel est donc nécessaire voire indispensable, dès les premières phasesde réalisation d’un projet robotique, afin d’éviter les coûts de re-conception et de faciliter l’évolutivité et la maintenance des systèmes mis en oeuvre. Dans cet article, nous nous intéressons plus particulièrement à la sûreté de fonctionnement logicielle dans les architectures robotiques. En effet, les systèmes robotiques sont par essence des systèmes critiques. L’intégration et l’adaptation de mécanismes de sûreté de fonctionnement, en particulier logiciels, à ces systèmes, est donc d’un intérêt indéniable.

Dans la deuxième section de cet article, un bref aperçu des architectures robotiques est présenté. La troisième section est quant à elle consacrée à l’utilisation de mécanismes de sûreté de fonctionnement du logiciel dans le cadre d’applications robotiques. La quatrième et la cinquième sections relatent deux expériences en matière de conception et de réalisation d’architectures logicielles pour des applications robotiques sûres, à savoir l’architecture associée au langage PILOT (Programming and Interpreted Language Of actions for Telerobotics) et une architecture de réalisation de mission de l’IFREMER. La première a été conçue et mise en oeuvre au sein du LISyC et s’applique principalement à la robotique mobile. La deuxième est quant à elle relative aux applications robotiques sous-marines. Cet article se termine par une conclusion en sixième section.

2 Bref aperçu des architectures robotiquesLa communauté robotique reconnaît qu’aucune architecture n’est parfaite pour répondre à toutes les


tâches, et que différentes tâches ont différents critères de succès qui conduisent à différentes architectures. Les architectures de programmation robotique peuvent être regroupées en quatre grandes catégories: - les architectures centralisées classiques- les architectures hiérarchiques,- les architectures comportementales etles architectures hybrides.Les premiers travaux concernant les architectures de contrôle robotique étaient inspirés de l’intelligence artificielle [27], c’est-à-dire organisés autour de processus décisionnels et d’un état symbolique du monde et du robot. Les architectures conçues suivant cette philosophie font partie de la catégorie des architectures centralisées classiques. Elles placent la planification au centre du système et partagent l’axiome suivant lequel le problème central en robotique est la cognition, c’est-à-dire, la manipulation de symboles pour maintenir et agir sur un modèle du monde, le monde étant l’environnement avec lequel le robot interagit. Parmi les architectures centralisées, nous pouvons citer: le système de planification STRIPS du robot Shakey [28] dans lequel le plan est statique et le monde supposé inchangé au cours de l’exécution du plan, les architectures Blackboard [18]qui accumulent des données sur le monde et prennent des décisions immédiates basées à la fois sur les objectifs à priori variables et un monde changeant. Pour une tâche donnée, si le système peut modéliser le monde suffisamment bien, et si le monde obéit à son (ses) modèle(s), et si le système peut récupérer l’information pour l’intégrer dans le cœur de la planification centrale, alors une architecture centralisée classique constitue un bon choix pour la réalisation de la tâche. Les architectures centralisées conviennent bien aux tâches pour lesquelles la réactivité et le réflexe ne sont pas des critères essentiels.

Les architectures hiérarchiques décomposent la programmation des applications en niveaux de plus en plus abstraits. Chaque niveau a pour rôle de décomposer une tâche que lui a recommandée le niveau supérieur, en tâches plus simples qui seront ordonnées au niveau inférieur. Le niveau le plus haut gère les objectifs globaux de l’application, alors que le niveau le plus bas commande les actionneurs du robot. L’instance la plus connue de ce type d’architecture est NASREM (Nasa/nbs Standard REference Model) [24]. Dans la même famille, nous pouvons citer l’architecture du LIFIA [17] et l’architecture SMACH de l’I3S (Informatique, Signaux et Systèmes de Sophia-Antipolis) [35]. Les architectures hiérarchiques telles que NASREM font encore l’hypothèse que le meilleur moyen d’interagir avec le monde est à travers la manipulation et le raisonnement au sujet de modèles du monde, bien qu’elles reconnaissent qu’il doit y avoir différents modèles du monde pour raisonner au sujet des différents aspects du monde. Ce que peut réaliser un tel système, en utilisant des modèles prédictifs du monde, c’est une très haute précision. Chaque couche a un modèle de ce qui va se produire dans

le monde, étant donné un ensemble d’entrées et de sorties, et il revient aux couches inférieures de s’assurer que ce qui était attendu se réalise précisément. Les architectures hiérarchiques sont appropriées pour des tâches qui s’exécutent dans un environnement prévisible et qui requièrent une haute précision. Leur principal défaut est la taxonomie des modules du système, a priori imposée artificiellement, qui sert à les restreindre plutôt qu’à les supporter. En effet, la façon dont chaque module dans le système est structuré n’est pas définie par les besoins de la tâche, mais par l’endroit où il s’insère dans l’architecture. Les architectures hiérarchiques ont généralement une réactivité assez faible: compte tenu de la décomposition systématique de la programmation, la chaîne allant des capteurs aux actionneurs en passant par les processus décisionnels capables de répondre à des changements del’environnement est complexe, entraînant des temps de réponse longs.

Les architectures comportementales sont nées au milieu des années 80 avec l’architecture “subsomption” proposée par Brooks [5]. Elles sont issues de l’observation de comportements animaux simples, et sont basées sur l’idée qu’un comportement complexe et évolué d’un robot peut émerger de la composition simultanée de plusieurs comportements simples. Brooks définit un comportement élémentaire comme “un traitement prenant des entrées capteurs et agissant sur les actionneurs”. L’architecture DAMN (Distributed Architecture for Mobile Navigation) proposée par Rosenblat [31] à l’Université de Carnegie Mellon est une autre variante des travaux de Brooks. Les travaux de Brooks ont mis en évidence l’atout de ce type d’architecture: la rapidité de la réaction du système face aux événements extérieurs ou à des situations spécifiques. Les architectures comportementales ont fait leurs preuves dans de nombreuses et parfois spectaculaires expérimentations concernant la robotique mobile, car la réactivité qui les caractérise permet d’aborder la navigation dans un environnement dynamique. Toutefois, la complexité des applications reposant sur cette approche va rarement au delà de la navigation. En effet, plusieurs comportements sont souvent en concurrence pour le contrôle des actionneurs et on ne peut pas, à priori, assurer la stabilité d’exécution de la loi de commandes complexes telles que celles requises pour le contrôle de bras manipulateurs. Ces approches présentent une autre limitation: les comportements étant préétablis, le système s’accommode difficilement d’un changement de mission impromptu.

Face aux lacunes des deux précédentes catégories d’architectures, certains chercheurs ont proposé des architectures hybrides qui allient les capacités réactives des architectures comportementales et les capacités de raisonnement propres aux architectures hiérarchiques. Ces architectures peuvent être suffisamment souples et puissantes pour que leur domaine d’utilisation en terme de variété de robots contrôlés et de type d’application justifie


leur commercialisation. Parmi elles, nous pouvons citer: le CONTROLSHELL [33] vendu par la société californienne RTI (Real-Time Innovations), l’architecture du LAAS [ALA 98] qui a fait ses preuves dans les domaines de la robotique mobile, que ce soit sur les plates-formes HILARE ou dans l’expérience MARTHA, ou encore l’architecture ORCCAD (Open Robot Controller Computer Aided Design system) de l’INRIA [6][19]. L’architecture ORCCAD a la particularité d’être indépendante du système à piloter. Elle autorise également la spécification et la validation de missions en robotique.

3 Sûreté de fonctionnement dans les architectures robotiques

3.1 Bref aperçu des mécanismes de sûreté de fonctionnementLa sûreté de fonctionnement est une propriété importante aux différents niveaux du processus de contrôle et de commande tant en ce qui concerne la télérobotique, qu'au regard des systèmes automatisés de production. Elle touche aux différents aspects de la réalisation d'une mission, partant de la conception du plan à son exécution sur le système commandé, en passant par le processus d'interprétation du plan ou de génération de l'exécutable.

Deux approches principales sont souvent utilisées pour la mise en oeuvre de la sûreté de fonctionnement: la prévention des erreurs et la tolérance aux fautes [22][20][21]. La prévention des erreurs vise à écarter à priori les fautes et les erreurs qui mettent en cause la fiabilité du système, et ceci avant toute utilisation régulière de ce dernier. Pour atteindre cet objectif, les principaux moyens sont l'utilisation de méthodes et de langages de spécifications formels et l'utilisation de tests. La tolérance aux fautes est quand à elle basée sur le principe suivant lequel la prévention des erreurs, bien que bénéfique, ne permet pas de garantir une élimination totale des erreurs dans le système. Elle a pour but de permettre au système de se comporter de façon satisfaisante même en présence de fautes.

3.2 Solutions pour la sûreté de systèmesLa prise en compte de la sûreté de fonctionnement logicielle dans la conception d’architectures robotiques reste encore marginale de nos jours. Un certain nombre de travaux ont toutefois été effectués dans ce domaine. Zalewski et al. [38] ont souligné la complexité des solutions actuellement fournies pour la vérification des systèmes de contrôle informatiques qui restreint leur applicabilité à des systèmes simples, alors que la complexité des applications critiques est habituellement élevé et continue à s’accroître drastiquement avec les progrès des technologies informatiques. Ils ont étudié deux approches principales.

La première approche est basée sur l’« Analyse d’Arbresde Fautes » (AAF) et l’ « Analyse de Mode de Défaillance et d’Effet » (AMDE). Il s’agit de techniques d’analyse de sûreté utilisées avec succès dans des systèmes conventionnels (non basés sur l’informatique). Elles sont utilisées lors de la conception du système et se focalisent sur les conséquences de défaillances des composants. Des adaptations ont été proposées pour l’analyse des systèmes de logiciels sûrs [23]. Zalewski et al ont proposé une méthode d’analyse informelle de sûreté de systèmes basés sur le logiciel utilisant l’AAF [38]. Une application à l’industrie nucléaire a été effectuée [25]. L’avantage de cette solution est que les techniques sous-jacentes sont déjà bien utilisées pour de nombreuses applications industrielles, ce qui permet aux ingénieurs de sûreté de s’adapter facilement à leurs nouvelles versions. L’inconvénient est que ces techniques sont pour la plupart plutôt informelles. Une adaptation de ces solutions aux logiciels orientés objet a également été proposée par Zalewski et al. Elle fait l’hypothèse que les modèles orientés objets des composants logiciels sont fournis avec leurs spécifications formelles. Cette approche a été appliquée à une étude de cas de contrôle de feux de circulation ferroviaire.

La deuxième approche est basée sur l’utilisation de méthodes formelles et semi formelles et de modèles initialement développés pour le domaine logiciel: logique temporelle, réseaux de Petri, LOTOS, modèles action-événements, etc. Zalewski et al ont combiné dans un seul système intégré, via une interface commune, des outils d’ingénierie traditionnels tels que ceux reposant sur UML, avec des outils de méthodes formelles tels que des outils de « model checking » ( Statecharts, etc.) [2].

Garbajosa et al ont proposé et mis en oeuvre un outil pouvant servir comme partie frontale pour le test des systèmes et acceptant des descriptions de tests en langage naturel, afin d’affranchir les ingénieurs du test de la nécessité d’avoir une parfaite maîtrise des systèmes physiques pour lesquels les tests sont définis et des techniques de programmation, qui leurs sont peu familiers [10].

Rutten a proposé une trousse à outils pour la programmation sûre d’applications robotiques [32]. Cette dernière est basée sur la synthèse de contrôleurs [30].

Différents autres travaux basés sur l’utilisation des techniques d’intelligence artificielle ont été effectués pour le diagnostic de faute [39] et la supervision [13].

3.3 Mise en œuvre dans les architectures robotiquesSeabra Lopes et al proposent dans [34], une architecture pour l’assemblage de tâches qui fournit à différents niveaux d’abstraction, des fonctions pour


l’ordonnancement des actions, le contrôle de leur exécution, le diagnostic et le recouvrement d’erreur. La modélisation des défaillances d’exécution faite à travers des taxonomies et des réseaux de causalité joue un rôle central dans le diagnostic et le recouvrement.

Dans l’architecture de subsomption les comportements sont modélisés chacun par une (ou plusieurs) machine(s) à états finis augmentée(s). Cette modélisation permet l’application de méthodes de vérification, mais aussi la mise en œuvre de mécanismes de tolérance aux fautes par l’exploitation des suppresseurs et des inhibiteurs.

Dans l’architecture du LAAS le niveau décisionnel est réactif aux comptes-rendus d’exécution des niveaux inférieurs. Ces comptes-rendus peuvent être exploités pour la mise en œuvre d’actions de recouvrement.

LL’’aarrcchhiitteeccttuurree OORRCCCCAADD ddee ll’’IINNRRIIAA eesstt uunnee ddeessaarrcchhiitteeccttuurreess qquuii mmeetttteenntt uunn accent sur la sûreté des applications [36]:o Exécution temps réel rigoureuse des lois de

commande.o Utilisation du langage synchrone ESTEREL pour la

spécification de la partie contrôle.o Utilisation des outils de vérification formelle pour la

partie contrôle des applications.

L’aspect sécuritaire dans la réalisation de missions

robotiques a également été l’une des motivations principale du projet « Architecture Logicielle pour la robotique mobile et téléopérée » qui a conduit à la création du langage PILOT et de son architecture logicielle. Dans la section suivante, nous présentons les travaux réalisés dans ce contexte pour la sûreté de fonctionnement des applications robotiques. Une brève description de l’architecture de contrôle du langage PILOT est d’abord effectuée. L’approche de sûreté et les solutions mises en œuvre dans le cadre de cette architecture sont ensuite abordées.

4 Mécanismes de sûreté de l’architecture PILOT

4.1 Architecture logicielle PILOTLe système de contrôle de PILOT (FIG. 1) est l'interface entre l'utilisateur et la machine pilotée (Robot Cible) [9][26]. Il comporte six modules: une Interface Homme Machine (IHM), un Serveur de Communication, un Générateur de Règles, un Evaluateur, un Module d'Exécution ou Driver et un Interpréteur. Ces modules sont exécutés en parallèle et communiquent par socket et par mémoire partagée. Le système de contrôle peut s'exécuter soit en mode centralisé, soit en mode distribué. Le choix du mode d'exécution est effectué de façon statique (avant la compilation). L'IHM fournit des moyens pour la construction de plans, la création dynamique d'actions (sans recompilation du code), et la modification du plan avant et au cours de l'exécution de ce dernier. Elle intègre également des moyens pour la supervision de l'exécution du plan. L'IHM stocke le plan dans une zone de mémoire partagée avec l'interpréteur. Ce dernier lit le plan en mémoire partagée et envoie des ordres (demande d'évaluation de précondition d'une action, ordre de démarrage de l'action, etc.) aux autres modules afin de réaliser l'exécution du plan. Le serveur de communicationgère les communications inter modules. Le rôle du générateur de règles est de transformer les chaînes de caractères des règles de préconditions et de surveillance en arbres binaires. Il stocke le résultat dans une zone de mémoire partagée avec l'évaluateur. Ce dernier évalue les règles de précondition et de surveillance à partir des arbres binaires correspondants. Le module d'exécution réalise l'interface entre le robot et le système de contrôle. Il traduit les ordres de haut niveau du plan en ordres de bas niveau compréhensibles par la machine téléopérée. Le module d'exécution supporte différents protocoles de communication (connexion série, Ethernet, FDDI).

4.2 Sûreté de fonctionnement avec PILOT

4.2.1 Mécanismes internesLes actions PILOT comportent des règles de précondition et de surveillance. Ces règles constituent des moyens de sûreté pour l'application PILOT. En effet,

Interpréteur

Serveur

Générateurdes règles

Évaluateur

Exécution

Interface Homme Machine

Mémoire partagée

Socket

Liaison sans fil

ROBOT

FIG. 2 – Système de contrôle PILOT


une action ne peut être exécutée que si sa précondition est vraie. De même, lorsqu'une règle de surveillance est satisfaite, le traitement associé est effectué (le traitement par défaut est l'arrêt de l'action). Ce mécanisme est équivalent au mécanisme des exceptions et constitue une solution pour la mise en oeuvre de la tolérance aux fautes.Si nous considérons par exemple l'action avancer pour un robot mobile équipé de détecteurs d'obstacles, une règle de précondition pourrait être le test d'absence d'obstacle. L'une des règles de surveillance serait par exemple le test de présence d'obstacle avec comme traitement associé l'arrêt de l'exécution de l'action.

Les plans PILOT sont modifiables au cours de leur exécution, ce qui est un atout majeur pour la tolérance aux fautes. En effet, l'opérateur peut, en cas de dysfonctionnement dans l'exécution d'un plan, apporter des modifications permettant au système de revenir dans un état de fonctionnement satisfaisant (poursuite de la mission ou arrêt dans un état sûr).

La nature interprétée du langage et la possibilité de modifier des plans en cours d'exécution rendent possiblel'exécution de plans incomplets. On peut ainsi lancer l'exécution d'un plan sans fin de séquence principale ou contenant une structure parallèle dont l'exécution ne peut se terminer en l'état parce qu'elle est incomplète. Afin de pallier cet inconvénient, l’environnement de contrôle de PILOT a été doté d’un mécanisme d’édition dirigée par la syntaxe permettant de garantir la validité syntaxique du plan à chaque phase de sa construction (insertion, modification, suppression de primitives). Cette approche permet de préserver les avantages de la possibilité de modifier dynamiquement des plans: terminaison de plans bien assurée, etc.

L’édition dirigée par la syntaxe ne prend pas en compte la validité sémantique du plan lors de sa modification au cours de l'exécution. Une approche basée sur le formalisme de « synthèse des contrôleurs » a été incorporée dans l’architecture de contrôle afin de sécuriser les modifications en cours d'exécution, notamment par la gestion d'aspects tels que la suppression, l'insertion ou la suppression de primitives. Grâce à ce travail, il est désormais possible d'effectuer des actions de compensation ou de recouvrement d'erreurs « sécurisées » en cours de mission.

4.2.2 Mécanismes liés au processus de développementLes différents modules du système de contrôle du langage PILOT ont été modélisés à l'aide d'automates d'états finis et des algorithmes d'interprétation ont été définis pour les différentes primitives du langage. Ces éléments fournissent une bonne base pour la prévention d'erreurs (application de méthodes de vérification formelle). Ils permettent en outre d’éviter des erreurs dues à la

distorsion de l'information tout au long du processus de développement logiciel.

Afin d’augmenter la robustesse du système PILOT des approches de tests statique et dynamique ont été appliquées à son interpréteur qui est l’un de ses modules les plus critiques. La nature réactive des applications robotiques augmente la complexité des opérations de test, car l'on doit, en plus des facteurs usuels, prendre en compte les événements difficilement maîtrisables générés par le robot. Un autre point important est la prise en compte des dommages éventuels que peuvent engendrer des tests effectués directement sur le robot. Un simulateur de robot simple a donc été construit pour les opérations de test.Le test statique a consisté, d'une part, en la lecture du code source dans le but de détecter les erreurs de programmation et, d'autre part, en l'analyse du code source par rapport aux algorithmes d'interprétation et la sémantique de PILOT. Le test dynamique a, quant à lui, consisté en la définition de jeux de tests et en leur application au code binaire de l'interpréteur. Les données de test ont été définies en combinant une approche fonctionnelle au retour d'expérience des tests déjà effectués. Pour la définition de l'échantillon représentatif des données de test, nous avons adopté une approche incrémentale. La séquence vide a d'abord été testée, puis les autres primitives du langage ont été testées individuellement. Trois combinaisons des primitives du langage ont ensuite été considérées: Combinaison en longueur par l'accroissement du

nombre d'éléments dans les séquences du plan. Combinaison en largeur par l'accroissement du

nombre de branches dans le parallélisme, la préemption ou la conditionnelle.

Combinaison en profondeur par l'accroissement du niveau d'imbrication.

Afin d'avoir un ensemble borné de jeux de tests, nous avons émis un ensemble d'hypothèses: les actions du même type sont interchangeables, l'ensemble des séquences résultant de la combinaison de paires quelconques de primitives est représentatif de l'ensemble des séquences comportant deux ou plus de primitives excepté pour les problèmes de mémoire, etc.Chacune des approches de test appliquées à l'interpréteur a permis de détecter des erreurs de différentes natures (erreur de conception dans la gestion des interruptions logicielles et dans la gestion de la terminaison des actions continues, erreurs de programmation, etc.). Ces erreurs ont été corrigées et très peu de dysfonctionnements ont été observés dans l'utilisation de l'interpréteur depuis ce travail.

Bien que les techniques de test statiques et dynamiques décrites ci-dessus se soient révélées très utiles dans ladétection et la correction d'erreurs dans les programmes d'interprétation, leur utilisation ne permet pas de garantir la conformité de l'interprétation des plans à la sémantique


opérationnelle du langage PILOT. Un travail complémentaire a été fait pour pallier cet inconvénient. Il a consisté à modéliser les algorithmes d'interprétationet à vérifier leur conformité par rapport à la sémantique opérationnelle du langage afin de corriger les éventuels dysfonctionnements et de régénérer le code de l'interpréteur à partir du modèle validé. Les réseaux de Petri colorés (RdPC) ont été utilisés pour la modélisation et la vérification. Le support logiciel utilisé a été Design/CPN (http://www.daimi.aau.dk/DesignCPN).

Les RdP et plus particulièrement les RdP colorés ont été choisis pour différentes raisons. Leur nature graphique offre la convivialité souhaitée dans le but d'utiliser ultérieurement le modèle comme médium de communication entre les différentes personnes impliquées dans le développement du logiciel de contrôle, afind'éviter des erreurs dues à la distorsion de l'information. Ils permettent de représenter relativement simplement les différents concepts de l'algorithmique et de la programmation. La disponibilité d'outils, pour la simulation et la vérification des modèles, a également été un critère important.La modélisation a permis de constater que des simplifications sont envisageables tant au niveau de la

représentation interne d'un plan, qu'au niveau des algorithmes d'interprétation, et d'appliquer ces dernières au système de contrôle. Des plans de tests ont été générés en s'appuyant sur l'approche adoptée au cours du test dynamique des algorithmes d'interprétation. La simulation de l'exécution de ces plans a permis de détecter des problèmes de terminaison. Cette dernière ne permettant d’explorer, dans la pratique, qu’une partie des chemins d’exécution, un travail complémentaire a été effectué. A partir des RdPC modélisant les algorithmes d'interprétation et d'un plan de test, le graphe des marquages accessibles correspondant aux chemins d'exécutions possibles est généré à l'aide de l'outil Design/CPN. Le graphe des marquages et le plan de test sont ensuite transmis au programme de vérification qui examine, pour chacun des chemins d'exécution, la satisfaction de la sémantique opérationnelle du langage. Une extension de l’environnement Design/CPN a été effectuée pour intégrer notre programme de vérification.

Après cette présentation des mécanismes de sûreté offerts par l’environnement PILOT et des approches de tests et de vérification adoptées pour renforcer sa robustesse, nous présentons, dans la section suivante, l’étude et l’intégration de mécanismes de sûreté de fonctionnement dans une architecture globale de préparation, de supervision et d’exécution de missions d’engins sous-marins autonomes (Fig. 2.). Ce travail s’est effectué en collaboration avec la Division Robotique de l’IFREMER Toulon. Nous présenterons les solutions proposées pour la sûreté ainsi que les propositions faites pour leur mise en œuvre aux différents niveaux de l’architecture.

5. Mécanismes de sûreté pour des missions d’engins sous-marins autonomes

5.1 Niveau préparation de missionDeux approches sont abordées pour la sûreté: la vérification de propriétés et la tolérance aux fautes. Nous les abordons dans les sous-sections qui suivent.

5.1.1 Vérification de propriétésIl s’agit de vérifier l’adéquation entre les contraintes issues de la spécification de la mission et les caractéristiques de l’engin et de l’environnement (accessibilité de la zone à explorer, précision des capteurs et de la trajectoire, fréquence d’acquisition des mesures, durée de la mission, énergie, limites de vitesse et d’altitude, capteurs et charges utiles adaptées à la mission, temps de calibration, maintien - si nécessaire - de l’engin dans la zone à explorer), de vérifier la cohérence, en terme d’enchaînement d’actions et de logique d’exécution de la mission spécifiée par le scientifique (par exemple, certaines exécutions ne peuvent être faites en parallèle, les post-conditions d’une action et les préconditions de l’action suivante peuvent être incompatibles), et d’effectuer des diagnostics sur l’engin, le système de

Préparation de mission etExploitation de données

Superviseur de Surface

- Checklist

- Diagnostic

a) Pont

b)Fibre optique

c) Lien acoustique

- Configurationengin

Contrôleur Engin

Navire/LaboratoireScientifique

Navire

Opérationnel

EnginAutonome

Configuration “plongée”

Trajectoire et actions“mission”

Données plongée(Synthèse technique)

Données

DiagnosticIntelligentde Surface

Diagnostic Intelligent Engin

Donnéesarchivées

- Cartographie- Données

Scientifiques- Trajectoires et

actions- Validation

opérationnelle

FIG. 2–Architecture globale


contrôle, et leurs modèles éventuels (les données des plongées précédentes pourront être utilisées pour ajuster certains paramètres du diagnostic). La phase de diagnostic pourra permettre, par exemple, de vérifier la terminaison de la mission.La figure 3 montre la structure du sous-système de spécification et de vérification proposé à ce niveau.

Différents outils sont envisageables pour la conception et la spécification. Nous pouvons citer l’environnement STOOD de TNI-Europe qui permet par ailleurs de générer des programmes pour différents systèmes de vérification. Au niveau de la vérification, les approches de « model-checking » et de démonstration peuvent être explorées. Différents outils sont disponibles. Certains outils s’appuient sur l’approche synchrone très utilisée pour la conception de systèmes réactifs dont font partie les systèmes robotiques: outils commerciaux tels que SCADE et ESTEREL [8], SILDEX [11], environnement CELL CONTROL spécialisé pour les automatismes industriels de ATHYS [12]. D’autres formalismes graphiques de spécification et de vérification, synchrones et dédiés au contrôle commande tels que STATECHARTS [16], SYNCCHARTS [3] et GRAFCET [1], ou asynchrones tels que les Réseaux de Petri, offrent également des possibilités intéressantes. L’approche de démonstration a également donné lieu à différents outils de preuves (prouveurs) [14]: Isabelle [29], HOL [15], Coq [7], PVS [37], Boyer-Moore [4]. La plupart de ces systèmes utilisent des logiques d’ordre supérieur qui sont extrêmement souples et expressives.

5.1.2 Tolérance aux fautesIl s’agit ici de prendre en compte les défaillances envisageables afin de permettre, au niveau de la définition de la mission, de prévoir des actions de recouvrement.

L’environnement de conception de plans de missions devra fournir des moyens permettant d’intégrer les réactions aux défaillances (mécanismes de recouvrement).

Dans l’élaboration du plan de mission, on pourra prévoir 2 cas de figures: Introduction de la redondance pour pallier certaines

défaillances, par exemple modification de la trajectoire initiale suite à la détection d’un obstacle. Il s’agit dans ce cas de créer un plan de « repli » pour la partie jugée critique. La gestion d’un tel aspect dépend également de la richesse du système de contrôle qui peut déjà être équipé d’un mécanisme automatique de contournement d’obstacle.

Classement des actions par niveau de « criticité » de façon à prendre les actions de compensation appropriées en cas de dysfonctionnement (abandon et passage à l’action suivante, abandon de la mission, saut à une action spécifique ou à un point particulier du plan de mission, …).

L’approche proposée pour l’intégration de mécanismes de traitement d’erreur consiste, après construction du plan de mission standard (c’est-à-dire ne prenant pas en compte la gestion de fautes autres que celles spécifiées lors de la création des actions), à spécifier pour chaque action ou primitive le traitement de fautes correspondant. La primitive est sélectionnée et les conditions de fautes, ainsi que les réactions associées sont définies. Le système de spécification se sert alors du plan et des données saisies pour générer le fichier de plan de mission incorporant le traitement de fautes.Au niveau des actions, les conditions et traitements de fautes initiaux de l’action sont étendus en cas de besoin pour prendre en compte de nouvelles conditions de fautes et leur associer les traitements souhaités. Les conditions de fautes sont des expressions logiques basées sur des valeurs de capteurs, les états d’exécution d’actions ou de primitives et les états de fautes reçus du système de contrôle « bas niveau ».Les réactions associées aux conditions de fautes sont: l’arrêt de l’action ou de la primitive (il faudra tenir compte du caractère interruptible ou non de l’action) et/ou le saut vers un point du plan et/ou l’exécution d’une séquence à définir.

5.2 Niveau superviseur de surfaceDeux aspects sont considérés à ce niveau, la supervision de la mission et la vérification de propriétés relatives au déroulement de la mission.

Il s’agit, pour la supervision de mission, de récupérer des informations relatives au déroulement de la mission et de les rendre disponibles, par affichage à l’écran et éventuellement stockage dans un fichier accessible par l’utilisateur, afin de permettre à l’opérateur de prendre des décisions notamment en cas de dysfonctionnement. Les données récupérées sont les valeurs de capteurs, les états d’exécution des actions, les états de défaillances éventuelles (alarmes, etc.).

Système de Spécification

formelle

Système de vérification

formelle

Actions del’engin

Description« informelle »de la mission

Descriptionformelle de la mission

Données Cartographiques

Résultat

Caractéristiques de l’engin

Contraintes

Propriétés spécifiques

FIG. 3 – Système de spécification et de vérification


En ce qui concerne la vérification de propriétés, un Système de Diagnostic Intelligent (SDI) permet d’effectuer des vérifications plus élaborées sur le déroulement de la mission. Il est formé de modules de diagnostic intelligent ayant chacun sa spécificité (par exemple une technique particulière d’intelligence artificielle ou la gestion d’un type de fautes particulier), et d’un module de décision. Le module de décision est chargé, d’une part, de collecter les informations utiles au diagnostic et de les transmettre aux modules de diagnostic intelligent appropriés, et, d’autre part, d’effectuer la synthèse des informations de diagnostic reçues des différents modules de diagnostic intelligent afin de transmettre, aux modules le requérant (par exemple, le système contrôlé ou un autre module réalisant par exemple une trace des défaillances), les informations sur les anomalies détectées ou les ordres de correction.Les différents diagnostics et recouvrements envisagés au niveau des SDI sont les suivants:

Diagnostic de défaillance des effecteurs, Diagnostic de défaillance des liens de

communication, Contrôle des batteries (autonomie), Contrôle de la précision de la trajectoire, Contrôle de la précision/qualité des données

mesurées, Contrôle du logiciel de contrôle embarqué (cas

de défaillance partielle).Pour la défaillance totale du logiciel de contrôle embarqué, des procédures de recouvrement sont prédéfinies. De même, le contrôle de l’ordinateur de surface et de son logiciel est assuré par l’opérateur.Le diagnostic de défaillance des effecteurs des AUVs peut être considéré comme un problème de classificationordinaire. La disponibilité d’expertises humaines et d’exemples oriente cependant vers le choix d’une solution basée sur le mixage des approches symboliques et neuronales. En ce qui concerne le recouvrement de ces défaillances, il n’existe pas pour l’instant de base d’exemples. Il s’agit d’un problème de contrôle, pour lequel la théorie automatique classique ne peut être appliquée, dont le recouvrement est plus lié aux stratégies de contrôle qu’aux approches de contrôle. Etant donné que la sélection des stratégies de contrôle peut dépendre de plusieurs contraintes quelquefois difficiles à mesurer ou exprimer, la théorie de contrôle de la logique floue semble être une solution intéressante.Le diagnostic des liens de communication et le contrôle de la batterie de l’AUV sont des problèmes similaires. Ils correspondent davantage à des problèmes de gestion de risques qu’à des méthodes de diagnostic pur. Par conséquent, l’objectif n’est pas uniquement d’effectuer un diagnostic par l’étude d’une situation statique donnée, mais au contraire d’observer l’évolution de cette situation dans le temps, et puis d’évaluer le risque d’avoir une défaillance ou une situation de conflit. Les outils basés sur des méthodes probabilistes tels que les réseaux Bayésiens sont particulièrement bien adaptés à ce type de problème.

5.3 Niveau contrôleur d’enginLe sous-système de sûreté au niveau contrôleur engincomporte un Système de Diagnostic Intelligent dont le principe est le même que celui du niveau Supervision de Surface, un gestionnaire de modes, un gestionnaire de fautes, un gestionnaire d’énergie, un système d’archivage et un module de conversion. Un protocole robuste est utilisé pour le transfert de la mission entre la surface et l’engin, afin de se prémunir contre toute corruption de données et contre l’exécution de missions incomplètes. La mise à jour du plan doit être possible à tout moment à travers une liaison acoustique (mode immergé), radio ou télémétrique (modes surface et « sous surface »). Contrairement au SDI de Surface, dont le rôle est celui d’un agent chargé d’analyser / diagnostiquer les fautes, de fournir à l’opérateur une synthèse des résultats des diagnostics et, éventuellement, de lui proposer des actions à entreprendre pour pallier les défaillances(l’opérateur est seul chargé d’envoyer les ordres d’actions correctives à l’engin), le Système de Diagnostic Intelligent de l’Engin a un fonctionnement autonome. Sur la base des diagnostics qu’il aura effectués, il proposera directement les actions correctives au Système de Contrôle de l’Engin. Le gestionnaire de mode contrôle l’ensemble des transitions d’états du véhicule. Le gestionnaire de fautes détecte les fautes du véhicule et prend les actions sur fautes prédéfinies. Les réponses sur fautes possibles sont: « stop et surface », « change l’étape de la mission », « ignore la faute et continue ». Le gestionnaire d’énergie gère l’énergie du passé et prévoit l’énergie du futur. Lorsque l’énergie atteint certains niveaux de « commutation », un événement d’avertissement et un événement d’alarme sont déclenchés. Le sous-système d’archivage mémorise les données relatives à la mission. Il transmet au Système de Diagnostic Intelligent Engin (SDIE) des informations lui permettant de vérifier la cohérence des données et de détecter d’éventuelles anomalies. Le module de conversion se charge de convertir les actions de recouvrement demandées par le SDIE en une séquence adaptée aux modules destinataires, et de convertir les informations émanant des autres modules dans un format adapté au SDIE.

6. ConclusionMalgré l’existence d’architectures telle que NASREM initialement conçue comme standard pour la robotique mobile, l’étude des architectures logicielles existantes relève la nécessité de poursuivre les efforts de normalisation dans ce domaine. L’on peut noter l’utilisation d’un certain nombre de techniques du génie logiciel dans la conception et la réalisation d’architectures logicielles robotiques: structuration en couche, notion de composants logiciels et de modularité. Un certain nombre d’architectures orientées objets ont également été conçues.


La notion d’agents est également exploitée, en particulier dans le cadre d’application multi-robots.En ce qui concerne la sûreté de fonctionnement logicielle, la majorité des travaux porte sur le diagnostic et le traitement de fautes à l’aide de techniques d’intelligence artificielle. Seules quelques architectures logicielles intègrent ou ont donné lieu à l’utilisation de méthodes formelles. De même, les mécanismes de tolérance aux fautes logicielles sont peu exploités. L’utilisation croissante de la programmation distribuée dans ces architectures, nécessite pourtant d’incorporer des mécanismes tels que la réplication très souvent prise en compte au niveau matériel. L’on peut également noter le peu de report d’expériences en matière de tests rigoureux dans la réalisation de ces architectures qui, bien que dû peut-être à la perception même des activités de tests, traduit un manque d’intérêt en la matière. Ces activités de test sont pourtant très importantes dans le processus de développement de logiciels sûrs.De façon globale, les éléments susmentionnés renforcent la nécessité d’un effort dans l’application de techniques de génie logiciel, et plus particulièrement de celles relatives à la sûreté de fonctionnement, à la mise en oeuvre d’architectures robotiques.Les travaux réalisés dans le cadre de la conception de l’architecture logicielle PILOT ont apporté des solutions génériques pour la sûreté de fonctionnement d’applications robotiques: mécanisme d’édition dirigée par la syntaxe, recouvrement d’erreur à travers la possibilité de modification de missions en cours d’exécution, mécanisme de sécurisation de modifications en cours d’exécution. Les approches de tests statique et dynamique et les méthodes formelles (modélisation et vérification à l’aide de RdP colorés) appliquées à l’interpréteur de plans peuvent également s’appliquer à d’autres environnements de programmation de mission. Dans le cadre de l’étude de mécanismes de sûreté pour l’architecture de programmation de missions d’AUV une approche pour la gestion des fautes été proposée. L’idée novatrice dans cette approche est la hiérarchisation de la gestion des fautes, et la spécification par extension qui permet, d’une part, d’étendre la gestion initiale de fautes intégrée à l’action, évitant ainsi la redondance des traitements, et, d’autre part, d’avoir une gestion de fautes associée à chaque primitive. Les solutions proposées aux différents niveaux de l’architecture globale de préparation de mission sont applicables à d’autres environnements similaires voire à des applications robotiques dans des domaines non maritimes (robotique mobile terrestre ou manufacturière).

Références[1] ADEPA, Le Grafcet, Cépaduès Editions, Paris,

France, 1992.[2] Al-Daraiseh, A., Zalewski, J. and Toetenel, H.

Software engineering in ground transportation systems. In Proceedings of the SCI’01, 5th world

multiconference on systemics, cybernetics and informatics. Orlando, FL., July, 2001.

[3] André C., Representation and analysis of reactive behaviors: A synchronous approach, In CESA'96, IEEE-SMC, Lille, France, 1996.

[4] D.J.B. Bosscher, I. Polak and F.W. Vaandrager. Verification of an audio control protocol. In H. Langmaak, W. P. de Roever and J. Vytopil, editors. Proceedings of the third School and Symposium on Formal Techniques in Real-Time and Fault-Tolerant Systems, volume 863 of Lecture Notes in Computer Science, pages 170-192, Springer-Verlag.

[5] Brooks R. A., A robust layered control system for a mobile robot, IEEE Journal of Robotics and Automation, pages 14-23, Mars 1986.

[6] Castillo E., D. Simon, B. Espiau and K. Kapellos, Computer-aided design of a generic robot controller handling reactivity and real-time control issues, Rapport de recherche 1801, INRIA, November 1992.

[7] Devillers M.C.A., W.O.D. Griffioen, J.M.T. Romijn and F.W. Vaandrager. Verification of a leader election protocol: formal methods applied to IEEE 1394. Report CSI-R9728, Computing Science Institute, Nijmegen, 1997.

[8] Dima C., A. Girault, C. Lavarenne, and Y. Sorel. Off-line real-time fault-tolerant scheduling. In 9th

Euromicro Workshop on Parallel and Distributed Processing, PDP’01, pages 410-417, Mantova, Italy, février 01.

[9] Fleureau J.L., L. Nana Tchamnda, L. Marcé and L. Abalain, Remote-controlled vehicle using PILOT Language, In ANS'99, Pittsburgh, Pennsylvania, American Nuclear Society, 1999.

[10] Garbajosa J., O. Tejedor and M. Wolff. Natural language front end to test systems. Annual review in Automatic Programming, vol. 19, pp. 261-267, 1994.

[11] Girault A. Sur la répartition de programmes synchrones. Thèse de Doctorat, INPG, Grenoble, France, Janvier 1994.

[12] Girault A. Elimination of redundant messages with a two pass static analysis algorithm. Parallel computing, 28(3):433-453, mars 2002.

[13] Gomez P., S. Romero, P. Serrahima and I. Alarcon, A real time expert system for continuous assistance in process control: a successful approach, Annual Review in Automatic Programming, vol. 19, pp. 371-375, 1994.

[14] Groote J. F., F. Monin and J.C. Van de Pol. Checking verification of protocols and distributed systems by computer. In D. Sangiorgi and R. de Simone, Proceedings of Concur’98, Sophia Antipolis, LNCS 1466, pages 629-655, Springer-Verlag, 1998.

[15] Goldschlag D. M. Verifying safety and liveness properties of a daily insensitive fifo circuit on the Boyer-Moore prover. International Workshop on Formal Methods in VSLI Design, 1991.


[16] Harel D., STATECHARTS: A visual approach to complex systems, Science of Computer Programming, 8(3), 231-274, 1987.

[17] Hassoun M. and C. Laugier, Reactive motion planning for an intelligent vehicle, In Intelligent Vehicles'92 Symposium, pages 259-264, Detroit, july 1992.

[18] Hayes-Roth B., A blackboard architecture for control, Artificial Intelligence, 26:pp. 251-321, 1985.

[19] Kapellos K., D. Simon and B. Espiau, Control laws, tasks, procedures with ORCCAD; application to the control of an underwater arm, In 6th IARP (International Advanced Robotic Program), La Seyne sur Mer, France, 1996.

[20] Kermarrec Y., L. Nana and L. Pautet, Implementing recovery blocks in GNAT: a powerful fault tolerance mechanism and a transaction support, In ACM, editor, Proceedings of the TRI-Ada'95 Conference, Anaheim, California, Novembre 1995.

[21] Kermarrec Y., L. Nana, L. Pautet, « Providing fault-tolerant services to distributed Ada 95 applications », In ACM, editor, Proceedings of the Tri Ada'96 conference, Philadelphia, USA, Décembre 1996.

[22] Laprie J. C., « Sûreté de fonctionnement des systèmes informatiques et tolérance aux fautes: concepts de base », TSI, 4(5):419-429, Septembre 1985.

[23] Leveson, N., Cha, S.S., Shimeall, T. J., 1991. Safety and verification of Ada programs using software fault trees. IEEE Software 8(7), 48-59, 1991.

[24] Lumia R., J. Fiala and A. Wavering, The NASREM robot control system and testbed, IEEE Journal of Robotics and Automation, 5(1), pp. 20-26, 1990.

[25] Maier T., FMEA and FTA to support safety design of embedded software in safety-critical systems. InProceedings of the ENCRESS conference on safety and reliability of software based systems. Belgium, 1995.

[26] Nana Tchamnda L., J.L. Fleureau and L. Marcé, A control system for PILOT: software architecture and implementation issues, ANS'01, ANS 9th International Topical Meeting on Robotics and Remote Systems, Seattle, Washington, March, 2001.

[27] Nilsson N., A mobile automation: an application of artificial intelligence techniques, In Proc. Int. Joint Conf. on Artificial Intelligence, pp. 509-520, 1969.

[28] Nilsson N., Shakey the robot, Technical Report 323, SRI, Menlo Park, CA.

[29] Paulson L. C. On two formal analyses of the Yahalom protocol. Technical report 432, Computer Laboratory, University of Cambridge, 1997.

[30] Ramadge P. J., Wonham W. M., « The control of discrete event systems », Proceedings of the IEEE,Special issue on dynamics of discrete event systems, vol. 77, no. 1, pages 81-98,1989.

[31] Rosenblatt J., DAMN: A distributed architecture for mobile navigation, Journal of Experimental andTheoretical Artificial Intelligence, 9(2/3), pp. 339-360, 1997.

[32] Rutten E., A framework for using discrete control synthesis in safe robotic programming », Rapport de recherche, INRIA, 2000.

[33] Schneider S., V. Chen, G. Pardo-Castellote and H. Wang, ControlShell: A software architecture for complex electro-mechanical systems, International Journal of Robotics Research, Special issue on Integrated Architectures for Robot Control and Programming, 1998.

[34] Seabra Lopes L. and L.M. Camarinha-Matos, Learning to diagnose failures of assembly tasks, Annual Review in Automatic Programming, vol 19, pp. 97-103, 1994.

[35] Tigli J.Y., Vers une architecture de contrôle pour robot mobile orientée comportement, SMACH, Thèse de Doctorat, Université de Nice - Sophia Antipolis, Janvier 1996.

[36] Turro N., MaestRo: Une approche formelle pour la programmation d'applications robotiques, Thèse de doctorat, Université de Nice - Sophia Antipolis, Septembre 1999.

[37] Vitt J. and J. Hooman. Assertional specification and verification using PVS of the Steam Boiler Control System. In J.-R. Abrial, et al., editors, Formal Methods for Industrial Applications: Specifying and Programming the Steam Boiler Control. Volume 1165 of Lecture Notes in Computer Science, 1996.

[38] Zalewski, J., W. Ehrenberger, F. Saglietti, J. Gorski & A. Kornecki, Safety of computer control systems: challenges and results in software development, Annual Review in Control, vol. 27, pp. 23-37, 2003.

[39] Zhang J., A. J. Morris and G. A. Montague, Fault diagnosis of a cstr using fuzzy neural networks, Annual Review in Automatic Programming, vol 19., pp. 153-158, 1994.


Problématique de l'identification de la liaison véhicule-sol

M. Basset1, B. Zami1,2, G.L. Gissinger1, P. Baggio2

1MIAM - Laboratoire MIPS - Université de Haute-Alsace - 68200 Mulhouse - France

2 RENAULT - Dir. de la Recherche - Centre Technique - Parc de Gaillon - 27940 Aubevoye - France [email protected]

Résumé Dans le cadre de la dynamique du véhicule, l’intégration dans le modèle global du véhicule d'un modèle décrivant son interaction avec le sol est vitale. En effet, c’est par le pneu que passe la majeure partie des efforts appliqués au véhicule. Encore aujourd'hui, la connaissance des phénomènes mis en jeu dans la transmission des efforts par le pneumatique est limitée. Ainsi l'amélioration des modèles de description de cette interaction est impérative afin de répondre au besoin d'une meilleure modélisation de la dynamique véhicule. Parmi les différents modèles de la littérature qui sont présentés, nous nous concentrerons sur le modèle de pneumatique de Pacejka (modèle couplé très largement utilisé en simulation). Ce dernier, bien qu’ayant un domaine de validité limité, est encore largement utilisé comme référence dans le monde industriel. La difficulté d’estimation de ses coefficients à partir d'essais expérimentaux est abordée. Cette opération, réalisée couramment sur banc d’essais par les manufacturiers de pneumatique, demande souvent à être complétée de manière à tenir compte des variations de conditions (revêtement, protocole d’essais …) non prises en compte par le modèle. Aussi, encore aujourd’hui, il n’existe pas de méthode standard robuste qui permette d’ajuster automatiquement les coefficients aux conditions d’essai réelles. Cette problématique est présentée et ce papier donne les limites sur une première version de la méthode à suivre pour le recalage du modèle de Pacejka à partir des données fournies par le manufacturier, suite à des essais réels. Parallèlement, l’importance des conditions d’essai et de la mesure des variables d’entrée est discuté. Mots Clef Modélisation, identification, pneumatique. 1 Introduction Aujourd’hui, l’effort consacré à l’amélioration des prestations (confort, sécurité, consommation, fiabilité etc…) est considérable. Tout cet effort passe par des moyens de simulation de plus en plus importants et donc une recherche de modèles de plus en plus performants. Dans le cadre de la dynamique du véhicule, l’intégration dans le modèle global du véhicule d'un modèle décrivant son interaction avec le sol est vitale. En effet, c’est par le pneu que passe la majeure partie des efforts appliqués au

véhicule. Encore aujourd'hui, la connaissance des phénomènes mis en jeu dans la transmission des efforts par le pneumatique est limitée. Ainsi l'amélioration des modèles de description de cette interaction est impérative afin de répondre au besoin d'une meilleure modélisation de la dynamique véhicule. En se fondant sur un modèle servant actuellement de référence, le modèle de pneumatique selon Pacejka (modèle couplé très largement utilisé), nous abordons ici la problématique d’estimation des coefficients à partir d'essais expérimentaux. Cette opération, réalisée couramment sur banc d’essais par les manufacturiers de pneumatique, demande souvent à être complétée de manière à tenir compte des variations de conditions (revêtement, protocole d’essais …) non prises en compte par le modèle. L’étude présentée rentre dans le cadre d’un projet qui a pour objectif de déterminer une méthode de recalage des coefficients pour des conditions d’essai « type ». Ce projet peut être divisé en quatre phases dont les trois premières sont exposées ici. Une synthèse des résultats actuels, donnée en conclusion de ce document, dresse un premier bilan. La première partie est dédiée à la caractérisation de l’interface roue-sol. Un bref rappel des modèles existants est donné pour se focaliser sur le modèle largement répandu de Pacejka. Un état de l’art est dressé sur les méthodes permettant l’identification et le recalage de ce dernier. La deuxième partie est réalisée à partir d’essais simulés. Avant de montrer les résultats obtenus pour le recalage du modèle précité, l’analyse de l’identifiabilité du modèle de Pacejka et, en conséquence, l’étude des paramètres pouvant être estimés de façon robuste, ont été menées. Ainsi, après avoir défini le critère de coût utilisé lors de l’estimation, les surfaces de ce critère, tracées en fonction des paramètres à estimer, sont analysées afin de donner des conclusions quant aux résultats espérés. Des exemples de résultats issus de la simulation de manœuvres spécifiques sont donnés. La troisième partie présente les résultats d’essais réels qui viennent en grande partie valider les hypothèses faites sur le choix des coefficients à estimer. Ces essais ont été réalisés en collaboration avec un manufacturier de pneumatique sur un véhicule Renault Scénic équipé de quatre roues dynamométriques. Ce papier nous permet alors de conclure et de donner les limites, dans une première version, de la méthode à suivre


pour le recalage du modèle de Pacejka à partir des données fournies par le manufacturier, suite à des essais réels. 2 Interface roue-sol Les principaux modèles de frottement de la littérature [3] permettent de décrire les forces générées à l’interface roue-sol. Ces modèles peuvent être classés selon deux catégories : les modèles statiques et les modèles dynamiques essentiellement fondés sur le modèle « poils de brosse ». A l’heure actuelle, parmi les différents modèles existants, le modèle LuGre est certainement le plus évolué. Une synthèse des principaux modèles développés est donnée dans le rapport de thèse de B. Zami [12]. En se positionnant au niveau de la modélisation du pneumatique, de nombreux modèles existent également, intégrant notamment la description faite par les modèles d’interface roue-sol. Cependant, aucun de ces modèles ne permet de prendre en compte tous les phénomènes physiques en jeu, tant la complexité est importante. Afin de les différencier, il est nécessaire d’évaluer non seulement leur performance pour la simulation, mais également le régime de fonctionnement (établi ou transitoire), la structure (linéaire ou non linéaire), la prise en compte de l’hystérésis et du carrossage. Le résultat d’une étude menée par A. Porcel [5] est donné en annexe (cf. tableau III). D’autres modèles de connaissance basés sur les modèles de frottement peuvent également être rajoutés. Citons notamment le modèle issu du modèle de frottement de Bliman et Sorine [13]. Une application de ce modèle est donnée par Szymanski [14], pour décrire le comportement du pneumatique à faible vitesse. Le modèle présenté par Canudas [15] est lui basé sur le modèle de frottement de LuGre. Il a montré une bonne corrélation avec des mesures issues d’essais de freinage réalisés sur véhicule. Cependant, il est à remarquer que la complexité des modèles de connaissance rend leur utilisation délicate. Elle nécessite du matériel pour la caractérisation des sols et de la gomme, propre aux manufacturiers de pneumatique et aux spécialistes de la chaussée. De plus, aucun de ces modèles ne bénéficie, à l’heure actuelle, d’une utilisation assez large pour accéder facilement à leurs paramètres. Même si, à terme, certains de ces modèles paraissent très prometteurs, le modèle de Pacejka reste encore aujourd’hui un standard. Nous nous sommes alors centrés ici sur cette structure pour aborder les problèmes d’identification. 3 Hypothèses L’étude ayant été définie autour du modèle de Pacejka, nous en présentons ici les caractéristiques principales ainsi que les méthodes existantes permettant son identifcation. 3.1 Modèle de Pacejka Le modèle de Pacejka [4] est devenu le modèle de référence pour les constructeurs d’automobiles. Il est basé

sur la représentation mathématique du comportement dynamique du pneumatique à l’aide de fonctions analytiques possédant une structure particulière. Cette structure est, ainsi, capable de reproduire les mesures effectuées sur un pneumatique en banc d’essai. La forme générale de la courbe caractéristique du pneumatique peut s’apparenter à une fonction sinusoïdale et avoir une représentation du même type. Les coefficients nécessaires à la calibration de ces équations sont tous issus de relevés expérimentaux. L’expression de cette équation est la suivante :

!

y = D " sin C " arctan B " x # E " B " x # arctan B " x( )( )[ ] + Sv (1)

La courbe obtenue par l’équation ci-dessus est représentée en Figure 1 dont l’allure permet de retrouver facilement bon nombre de ces paramètres : B : facteur de raideur C : facteur de forme D : valeur de pic (par rapport a l’axe x) (N) E : facteur de courbure BCD : rigidité de dérive (pente à l’origine) Sv , Sx: offset vertical/longitudinal x : angle de dérive (rad)/glissement (%) y : variable de sortie (Fx ou Fy) (N)

X

Y

x

y

Sv

Sh

D arctan(BCD)

xm

ya

FIG. 1 – Courbe caractéristique selon le modèle de

Pacejka Il est à noter que chacun des macro-coefficients détaillés ci-dessus est exprimé en fonction de plusieurs micro-coefficients qui permettent au modèle de tenir compte des variations de charge et du carrossage. Ce modèle tient également compte du couplage entre chacun des axes de sollicitations et permet de déterminer la réponse dynamique du pneumatique. Au final, les entrées-sorties du modèle sont les suivantes :

Pacejka

!

"

#

Fz

Fx

Fy

My

Mz

FIG. 2 – Entrées-Sorties du pneumatique selon Pacejka avec les entrées définies par: α : dérive du pneumatique κ : glissement γ : carrossage


Fz : effort vertical La section 5.2 de ce document permettra de voir ces grandeurs, exprimées dans le repère (C,X,Y,Z) (cf. Figure 3) ci-contre, plus en détail.

FIG. 3 – Repère ISO du contact pneu-sol

Même si le modèle le permet, nous n’évoquerons pas la formulation de Mz et de My qui sortent du cadre de cette étude. 3.2 Bibliographie Dans le domaine de l’identification du modèle de Pacejka, les travaux de Mr. Oosten [9] font référence en la matière et ont donné lieu au développement d’un logiciel d’identification chez TNO Automotive. Il est cependant possible de trouver d’autres études ([11], [8]) permettant d’exploiter l’aptitude des algorithmes génétiques à converger vers un minimum global, combiné ou pas avec un algorithme de type grimpeur. Les travaux de M.. Takahashi [6] sont en partie basés sur ceux de Mr. Oosten qu’il adapte pour permettre l’estimation de tous les coefficients à partir d’essais véhicule. Les problèmes, notamment dus au couplage des différentes entrées, rencontrés par ce dernier pour obtenir des courbes caractéristiques réalistes, nous a tout naturellement orienté vers l’estimation d’un jeu minimal de paramètres. La démarche couramment utilisée est de faire varier la hauteur du sommet de la courbe (cf. paramètre D en Figure 1) en fonction du niveau d’adhérence de la surface considérée. Des études ont permis de faire évoluer cette démarche pour également modifier la pente à l’origine de la courbe (cf. arctan (BCD) en Figure 1) [7], puis également la forme générale de la courbe [1] et enfin le facteur dit facteur de courbure (cf. paramètre E dans la formulation de Pacejka) [2] tenant compte de l’allure autour du maximum. Pour faire varier ces paramètres la formulation de Pacejka introduit les « scaling factors » suivants : λµ, λκ, λc et λe. Ce sont donc ces trois puis quatre coefficients que nous avons estimés à l’aide du logiciel MFTool. Ce logiciel, simple d’utilisation, présente l’énorme avantage d’estimer l’ensemble des coefficients du modèle

si la démarche préconisée ci-dessous (cf. Figure 4) est suivie. Le critère de coût (erreur quadratique) et l’algorithme d’optimisation (Levenberg–Marquardt) sont fixés et ne peuvent être modifiés.

FIG. 4 – Phases d’identification préconisées sous

MFTool 4 Etude de faisabilité Les paramètres du modèle à estimer ayant été déterminés, nous vérifierons à l’aide de la simulation les meilleures conditions d’estimation de ces derniers à partir d’essais véhicule. 4.1 Identifiabilité L’identification du modèle ayant été traitée dans la littérature (cf. section 3.2) le problème de l’identifiabilité du modèle ne sera pas traité dans un premier temps. D’autant plus que cette étape qui est primordiale dans le cadre d’une démarche qui intègre une phase de modélisation est coûteuse à mettre en œuvre. Cependant, il important de pouvoir diagnostiquer rapidement des problèmes de convergence de l’algorithme d’optimisation pour un critère de coût donné. C’est la raison pour laquelle nous utilisons le tracé de la surface de coût en fonction des paramètres à estimer. Vu la difficulté rencontrée pour tracer une hypersurface dans un espace à quatre dimensions, nous utilisons le tracé des trois fonctions suivantes :

Log (C) =f1(λµ,λκ) Log (C) =f2(λκ,λc) Log (C) =f3 (λµ,λc)

où C est le critère de coût quadratique défini par :

(3)

Sur la surface définie par la fonction f2 (cf. Figure 5) il est constaté un minimum local en (3.5,3.5). en plus du minimum global de la fonction en (1,1). L’utilisation d’outils d’optimisation classiques est alors suffisante si l’on considère, de plus, qu’une simple modification de l’univers de discours de Sx, suffit à obtenir la Figure 6 ci-après. En ne prenant que les points de la zone linéaire de la courbe de pneumatique dans le calcul du critère de coût, soit :

Sx ∈ [0,0.4]

le minimum local de la courbe disparaît et l’on facilite ainsi l’estimation des « scaling factors ». La surface tracée

(2)

!

C =1

nb ptsF(Sx,"

0)# F

$

(Sx,")%

& '

(

) * 2

Sx=0

100

+%

& '

(

) *

(4)


en Figure 6 est la surface type que l’on souhaite avoir et que l’on a pour les autres fonctions f1 et f3, ici non tracées.

FIG. 5 – Critère de coût / λκ, λc

FIG. 6 – Critère de coût / λκ, λc calculé sur la zone

linéaire

4.2 Protocole d’essai La définition d’un protocole d’essai qui sensibilise au mieux les paramètres à estimer est un travail très important dans le processus d’identification. Il permet de maximiser le rapport, information tirées des essais / nombre d’essais réalisés. Dans le processus d’identification qui nous concerne, ce protocole est étroitement lié avec la méthode d’estimation qui a été décidée. Pour les « scaling factors » à estimer, TNO préconise d’alimenter le logiciel de fichiers d’essais contenant des sollicitations en FX pur et en Fy pur. L’expérience acquise en terme de protocole d’essai nous a permis d’identifier certains modes opératoires que nous avons voulu valider en simulation dans un premier temps. La démarche suivie est donc la suivante : A. réalisation des procédures d’essais sur MADA1

1 Modèle Avancé Dynamique Automobile. Logiciel de simulation Renault

B. recueil des entrées et sorties du pneumatique C. test d’estimation des paramètres A-Simulation des procédures d’essai sous MADA Deux procédures d’essai ont été identifiées, une en dynamique longitudinale et l’autre en transversale. En transversale nous réalisons une « mise en virage » dont les profils de vitesse et d’angle au volant sont donnés ci-dessous (cf. Figure 7).

7

!v(rad)

543 t1 2 6

Vitesse

longitudinale

V (m/s) ! volant

FIG. 7 – Profils de vitesse et d’angle au volant pour une

mise en virage

(1) Véhicule à l’arrêt 10 sec, (2) Accélération, mise en vitesse (3) Vitesse stabilisée (de base) 5 sec, (4) Phase débrayée 2 sec, (5) Braquage progressif à vitesse constante (≈ 30°/s) jusqu'à provoquer le déséquilibre du véhicule, (6) Débraquage et mise en roues libres jusqu’à arrêt total du véhicule, (7) retour aux zéros. B-Recueil des données Seule la phase 5 est utilisée pour l’estimation des paramètres. Un fichier au format tydex2 est alors généré. C-Estimation des paramètres Notre outil d’estimation nous permet de constater que, dans le cadre de la dynamique transversale, la roue arrière intérieure est sujette à des excitations couplées et ne pourra de ce fait être considérée. Dans le cadre des essais en dynamique longitudinale, nos fichiers peuvent être utilisés pour estimer aussi bien des coefficients de la formulation longitudinale pure que ceux de la formulation couplée. Les intervalles de confiance à 95% associés aux valeurs estimées du Tableau 1 ci-dessous, représentent un bon indicateur quant à la qualité de l’excitation même si certains coefficients (λκx , λκy ) semblent avoir une valeur élevée par rapport à l’univers de discours des « scaling factors ». En effet nous avons le plus souvent :

(5)

Les intervalles de confiance sont calculés à partir d’une loi de Student, d’un niveau de confiance à β % et m-n degrés de liberté soit

(6)

2 Tydex : Tyre Data Exchange

!

"i # µ ,k,c ,"j # x,y

$ij # 0,5[ ]

!

"i # µ ,k,c ,"j # x,y

$ij #) $ ij % a ,

) $ ij + a[ ]

où a = var($ij ) * t(&

2,m% n)


λ ij Valeurs Intervalles de confiance (95%)

λµx 1.0611 [1.0611,1.0611]

λκx 22.618 [22.618,22.618] Longi

λcx 1.6265 [1.6264,1.6265]

λµy 0.96793 [0.96792,0.96794]

λκy -16.333 [-16.333,-16.333]

Trans

λcy 1.4648 [1.4647,1.4649]

TAB. I – Résultats de l’estimation à partir d’essais simulés

La simulation ayant été réalisée avec un autre modèle de pneu que Pacejka 1996, il n’a pas été possible de comparer les coefficients entre eux. Il a, néanmoins, été possible d’obtenir de très bonnes superpositions entre les courbes caractéristiques. 4.3 Sensibilité aux erreurs de mesures Les résultats présentés précédemment se positionnent dans un cadre idéal où nous disposons de tous les capteurs et n’avons pas d’erreur de mesure. Cette situation n’est malheureusement pas si courante et c’est la raison pour laquelle nous avons voulu savoir s’il était possible d’estimer les « scaling factors » à partir de grandeurs (torseur d’effort de liaison roue / sol et entrées du modèle de Pacejka) estimées. Nous nous sommes, pour réaliser cette étude, inspirés des travaux de Van der Jagt [7] pour réaliser cette étude. Nous réalisons pour cela plusieurs simulations et comparons les résultats de l’estimation des « scaling factors », obtenus à partir des mesures et ceux obtenus à partir des grandeurs estimées. Le synoptique de cette démarche se trouve ci-après (cf. Figure 8).

Mesures sur véhicule

Estimation

entrées

Estimation

efforts

Pacejka

Comparaison

Optimisation

Paramètres

(condition A)

Modèle véhicule

Modèle pneu

Optimisation

Mesures (condition B)

FIG. 8 – Synoptique d’estimation à partir de mesures

issues du véhicule

Les forces aux trains et les vecteurs d’entrée du modèle de Pacejka sont estimés à partir des grandeurs suivantes issues du véhicule :

- angle au volant - accélération transversale - vitesse de lacet - vitesse longitudinale - débattement roue / caisse

Cette démarche n’a, pour l’instant, été testée que dans le cadre de la mise en virage. Les résultats sont très satisfaisants puisque l’on montre qu’avec des estimations allant parfois jusqu’à 7 % d’erreur, sauf sur la dérive qu’il nous faut mesurer, il est possible de retrouver les coefficients λµ, λκ et λc, avec une erreur inférieure à 6%. Les résultats de cette étude sont un bon point de départ pour définir la sensibilité du processus d’identification face aux incertitudes et ce, de manière plus approfondie. 5 Essais & Résultats L’étude de faisabilité ayant montré qu’il est possible d’estimer les principaux coefficients permettant de tenir compte d’un changement des conditions de surface à partir d’essais véhicule, il nous reste donc à valider cette approche par des essais réels. 5.1 Mesures La campagne d’essais s’est réalisée avec un partenaire manufacturier de pneumatique. Cette campagne a été réalisée sur une Mégane Scénic équipée de deux jeux de pneumatique distincts, hiver et été en 205/50-R16. 147 voies de mesure ont été enregistrées à une fréquence d’échantillonnage de 1khz. Parmi les voies qui nous intéressent tout particulièrement, nous retenons:

- 4 torseurs de liaison roue/sol (roues dynamométriques Kistler)

- Le vecteur vitesse à l’arrière du véhicule et au niveau des centres de roues avant (capteurs optiques Corrsys-Datron)

- Les vitesses de rotations des roues (système ABS et roues Kistler)

Notez qu’il n’y a pas de capteurs permettant de mesurer le carrossage. Les essais suivants ont pu être réalisés :

- Freinage en ligne droite et en courbe - Accélération en ligne droite - Lâcher de pied en virage - Sinus - Mise en virage

Les essais ont été planifiés de manière à commencer par les essais les moins sollicitants et terminer par les plus sollicitants ou destructeurs pour le pneumatique. Pour chaque série d’essais, nous avons respecté une phase d’échauffement des pneumatiques et un minimum de deux répétitions par essai. Comme décrit dans la section 4.2, les premiers essais exploités sont les essais de freinage en ligne droite et de mise en virage. Les essais de freinage en ligne droite ont


été réalisés à différentes intensités de décélérations et ce sur différentes surfaces :

- asphalte sec - asphalte (différent du précédent) mouillé - carrelage mouillé

Malheureusement pour des raisons de planning et de problèmes techniques, seul le pneu été a pu bénéficier d’essais sans ABS et les essais de mise en virage n’ont malheureusement pas pu être réalisés sur l’asphalt mouillé. 5.2 Résultats Une phase de prétraitement des données est souvent nécessaire avant toute estimation à partir de données issues d’essais de manière à palier aux problèmes d’ajustement de gain, offset, changement de repère etc. Le travail réalisé pour les différentes entrées et sorties du pneumatique est le suivant : Le glissement La formulation de Pacejka pour calculer le glissement est la suivante :

(7) avec

ω : vitesse de rotation de la roue (rad/sec) Re :rayon effectif de la roue estimé à partir de Fz Vx : vitesse du centre roue selon l’axe X. Il a été nécessaire de recaler la vitesse Vx donnée par le capteur Corrsys SL. En effet, les informations délivrées par la capteur sont retardées de 60 ms en moyenne de part l’introduction d’un filtre à moyenne glissante. Le gain et les offsets sont ajustés de manière à obtenir un glissement nul dans la phase débrayée et une vitesse nulle à l’arrêt. La dérive Elle est avancée de 60 ms au même titre que la vitesse. Le carrossage Cette grandeur a tout d’abord été considérée comme étant nulle pour les essais de freinage en ligne droite. Elle sera mise à la valeur du carrossage initial par la suite. Dans le cas des mises en virage cette grandeur est issue de la simulation, ce qui nous permet d’avoir une valeur approchée. L’effort vertical Ce dernier, issu d’une roue dynamométrique équipant la roue, est donné dans un repère fixé au plan de jante. Il est donc nécessaire d’effectuer le changement de repère adéquat à partir de l’angle de carrossage. Toutes ces données sont filtrées à 10hz par un filtre passe-bas de Butterworth d’ordre 8. 5.2.1 Essais de freinage en ligne droite Les coefficients sont estimés à partir des essais sans ABS et l’objectif est de les valider sur l’ensemble de la

campagne. Le tableau (cf. Tableau 2) qui suit résume les coefficients obtenus. Ces derniers sont bien corrélés avec la connaissance a priori que l’on a du contact pneu /sol.

Domaine λµ λk λc λe Initial 1 1 1 1

Sec 1.19 0.92 1.02 1 Longitudinal Mouillé 0.92 0.81 1.16 1 Sec 1.001 1.19 0.87 1 Transversal Mouillé - - - -

TAB. II – Coefficients λ i estimés En effet, lors d’une variation des conditions d’adhérence, en passant de notre surface sèche à humide, il a été nécessaire de diminuer le facteur de pic et le facteur de forme qui donne de ce fait un caractère moins progressif au pneu sous la pluie. Quant à la rigidité longitudinale son évolution du sec au mouillé est déjà plus difficilement interprétable physiquement. Le tracé des courbes caractéristiques (cf. Figure 9) obtenues à partir de ces coefficients en est une bonne illustration. La validation croisée qui a pour principe de valider les résultats obtenus sur d’autres essais de la campagne est un gage de robustesse de l’identification. Les résultats de cette dernière ne sont pas totalement au rendez-vous pour l’instant. Il est vrai qu’en estimant trois paramètres plutôt qu’un, l’erreur quadratique a été réduite de près de 30% sur sec et 20% sur enrobé mouillé. Malheureusement cela n’est valable que sur un peu plus de 60% des essais de freinage en dynamique longitudinale pure. Toutes les voies n’ont pas encore été exploitées pour expliquer pourquoi certains essais ne se prêtaient pas à cette corrélation.

FIG. 9 – Courbes caractéristiques du pneu sur différentes

surfaces

Il est cependant possible d’avancer les deux points suivants : Capteur de vitesse longitudinale Nous avons comparé la mesure du capteur de vitesse à la roue, ramené dans le repère véhicule, aux autres mesures de vitesse disponibles. Cela nous a permis de constater que la position de ce vecteur par rapport aux autres

!

" =#R

e$V

x

Vx


pouvait varier. En effet, le retard de cette mesure peut varier d’un essai à l’autre et selon que l’on soit ou non dans la phase de freinage. Il est donc possible que cela occasionne des incohérences dans le calcul du glissement. Conditions d’expérimentation Le protocole a une influence certaine sur le résultat de l’estimation comme cela a pu être démontré au cours du projet TIME [10]. Cela pourrait donc biaiser nos résultats, notamment en phase de régulation ABS, phase pendant laquelle la dynamique du pneu intervient d’avantage et où l’on s’éloigne des sollicitations rencontrées lors des essais d’apprentissage. 5.2.2 Essais de mise en virage Les coefficients estimés pour la caractérisation transversale sont résumés dans le Tableau 2. Ces coefficients n’ont cependant pas, dans l’immédiat, amélioré la corrélation calcul essais. Cela est notamment du aux problèmes rencontrés pour faire coïncider les points de fonctionnement du pneumatique en simulation avec ceux rencontrés lors des essais. Il est donc légitime de penser que le vecteur donné pour le carrossage sera en décalage par rapport au carrossage réel. Dans l’immédiat, nous utilisons les mêmes coefficients que ceux trouvés pour les essais longitudinaux. Même si ces paramètres ne sont pas optimaux ils permettent néanmoins d’améliorer les résultats comme il est possible de la constater en Figure 10.

FIG. 10 – Efforts Fx et Fy lors d’un essai de mise en

virage 6 Conclusion - Perspectives Nous avons présenté le résultat d’une méthode permettant d’améliorer la corrélation entre le calcul et les essais au niveau des mesures pneumatiques. La simulation nous a permis de diagnostiquer d’éventuels problèmes et de confirmer la faisabilité de la méthode. Il a donc été relativement aisé par la suite d’estimer trois coefficients du modèle de Pacejka λµ, λκ et λc permettant un recalage du modèle. Les caractéristiques, longitudinale et transversale du pneu, obtenues à partir d’essais sur banc, sont donc modifiées pour qu’elles soient valides sur les pistes du Centre Technique d’ Aubevoye. Néanmoins,

face aux différents problèmes rencontrés lors de la validation croisée deux points importants définissent les travaux à venir. La robustesse de l’identification face aux incertitudes. Ce point se voudra non seulement garantir un résultat par la prise en compte des incertitudes de mesures mais également définir l’instrumentation minimum qu’il est- nécessaire de mettre en place sans pour autant « trop » dégrader les résultats de l’identification. La variation des coefficients induite par les conditions d’expérimentation. De manière à minimiser ces variations nous avons jusqu’alors voulu rapprocher le plus possible les essais servant à la validation croisée, des essais permettant l’estimation des coefficients. A terme, la solution de ce problème se trouvera peut-être dans une étude d’identification du modèle en temps réel à l’aide de méthodes récursives. 7 Références [1] H. Fischeim et al, The Influence of the Track Surface

Structure on The Frictional Force Behaviour of Passenger Car Tyres in Dry and Wet Track Surface Conditions., ATZ, Vol. 10, pp. 950-962, 2001.

[2] F. Mancosu, Overview of VERT Project :prediction of full vehicle behaviour in dangerous situations, http://skid.dicea.unifi.it/verthome.html

[3] H. Olsson, K. J. Aström, C. Canudas-De-Wit, M. Gäfvert and P. Lischinsky, Friction Models and Friction Compensation. European Journal of Control, Vol. 4, pp. 176-195, 1998.

[4] H.B Pacejka, The tyre as a vehicle Component, Proceedings og XXVI FISITA Congres, Prague, 1996.

[5] A. Porcel, Contribution à la commande multivariable des systèmes complexes rapides, instables ou pseudostables. Application au contrôle de stabilité de véhicules par approche « 12 forces ». PhD thesis, Université de Haute-Alsace, 2003.

[6] T. Takahashi et al, The modeling of tire characteristics of passenger and commercial vehicles on various road surfaces, Proceedings of AVEC 2000, Ann Arbor, Michigan 2000.

[7] P. Van Der Jagt et A. W. Parsons, Road Surface Correction Of Tire Test Data, Vehicle System Dynamics, Vol. 25, pp. 147-165, 1996.

[8] D. Vetturi et al., Genetic Algorithm for Tyre Model Identification in Automative Dynamics Studies. Proceedings of 29th ISATA Symposium, 1996.

[9] J.J.M. Van Oosten et al, Determination of Magic Formula Tire Model Parameters, in Proceedings 1st International Colloquium on Tire Models for Vehicle Dynamics Analysis, VSD, Editor. Swets & Zeitlinger B V: Amsterdam / Lisse. 1993


[10] J.J.M. Van Oosten et al, EC Research Project TIME - Tire Measurements, Forces and Moments - WP 2: Analysis of parameters influencing tyre test results, VDI-Fortschritt-Berichte, Reihe 12, Nr. 362, 1998.

[11] http://www.yearstretch.com/yearstretch/shop

[12] B. Zami, Contribution à l’identification de la liaison Véhicule-Sol d’un véhicule automobile Estimation des paramètres de modèles de pneumatiques. PhD thesis, Université de Haute-Alsace, 2005.

[13] M. Sorine et J. Szymanski, A new all-Vehicle-Speed Dynamic Tire Model, Proceedings of IFAC Symposium on Control in Transportation Systems, 2000.

[14] J. Szymanski, Modèle réduit du contact pneu-sol et application à l’automobile, Techn. Rep., Renault, 1999.

[15] C. Canudas-De-Wit, P. Tsiotras, E. Velenis, M. Basset and G. Gissinger, Dynamic Friction Models for Road/Tire Longitudinal Interaction. Vehicle System Dynamics, Vol. 39, N° 3, pp. 189-226, 2003.

8 Annexe

TAB. III – Liste des principaux modèles de pneumatique et de leurs spécificités selon [5]


Modélisations représentations et observateurs robustes et à entrée inconnue pour l’estimation, le diagnostic et l’analyse du comportement dynamique des véhicules

N. K. M'Sirdi, M. Ouladsine et H. Noura

Membres de l’équipe COSI et du pôle diagnostic des systèmes, LSIS: Laboratoire des Sciences de l'Information et des Systèmes, UMR - CNRS 6168,

Dom. Universitaire St Jérôme, Av. Escadrille Normandie-Niemen 13397 MARSEILLE [email protected]

Résumé Dans cette présentation, nous montrerons que les systèmes mécatroniques complexes, présentent certaines caractéristiques utiles pour l'observation est la commande. La possibilité de représenter le système sous forme de sous systèmes interconnectés continu, discrets ou hybrides permet d'exploiter les propriétés physiques et d'améliorer l'observabilité et la contrôlabilité. Une méthodologie de modélisation sous forme cascade peut être exploitée pour l'estimation des variables d'interface. Ces informations seront utiles pour le diagnostic. Les variables d'interface conditionnent le comportement et les performances du véhicule sur la route ainsi que leurs limites en fonction de l'infrastructure. Le comportement dynamique de ce dernier est l'effet des excitations produites à la fois par la chaussée, par le véhicules et sa motorisation et provoquées par le conducteur et ses réactions. Donc trois systèmes complexes sont en présence et la commande ne s'adresse, toujours qu'au véhicule. Les verrous scientifiques qui nous intéressent concernent l'observation et la maîtrise du véhicule: -L'observabilité et l'identifiabilité d'une part, et -La contrôlabilité du véhicule dans son environnement. Mots Clef Modélisation de véhicule, Observation et commande, aide à la conduite, détection de défauts, observateurs et estimateurs en ligne..

1 Introduction

En robotique les processus considérés sont principalement des systèmes mécatroniques qui se veulent des outils de plus en plus perfectionnés et de plus en plus autonomes, au service de l’homme pour la réalisation de tâche de plus en plus complexes. Parmi ces robots (ou super – outils) on peut compter aujourd’hui l’automobile. Dans le passé, l’automobile était essentiellement composée de systèmes électriques et mécaniques jusqu'à

ce que le véhicule devienne un outil indispensable pour la mobilité de l’homme. L’exigence de performance et les contraintes de sécurité, conjugués avec les nouvelles technologies, on imposé un niveau d’automatisation plus performant, plus rigoureux et plus fiable. Ainsi les roboticiens et les automaticiens ont été de plus en plus impliqués dans le domaine. Ceci explique qu’actuellement de plus en plus de chercheurs s’intéressent aux applications dans le domaine de l’automobile.

2 Caractéristiques dynamiques des véhicules

Un véhicule est un système mécanique complexe muni de capteurs et d’actionneurs dont la modélisation et représentation des mouvements peut se faire grâce aux outils utilisés classiquement en robotique. La maîtrise de ces mouvements n’est pas une chose évidente car ce système est l’objet de sollicitations du conducteur d’une part et de l’environnement d’autre part, sachant que les échanges d’énergie et les interaction ne se font ni dans des conditions simples, ni invariantes, ni connues ni maîtrisables. Il faut ajouter au modèle mécanique complexe, les modèles des actionneurs utilisés pour la (ou les) motorisation(s) et le freinage, des modèles d’adhérence et d’interaction pneu route. De plus cet ensemble est piloté par le conducteur dont on ne peut encore percer ni le mystère des perceptions et réactions ni la méthode de conduite. Le système à maîtriser de manière fiable est sûre se compose donc comme le montre la figure ci-dessus.

La dynamique d’un véhicule est composée d’une partie mécanique (passive), elle présente donc certaines caractéristiques qui peuvent être fort utiles pour l’observation et la commande. Certaines parties actives et électromécaniques sont conçues de manière adaptée, par les constructeurs, de façon à préserver la stabilité du véhicule et sa contrôlabilité.


Perturbations

Contraintes

Véhicule

EntréeSorties Véhicules

F,τ

Infrastructure

Perturbations

Reactions

Entrées Fi, τi

Incertitudes

Conducteur

Cette dernière observation montre la possibilité de représenter le système sous forme de sous systèmes interconnectés continus, discrets ou hybrides. Cela permettrait d’exploiter les propriétés physiques de chaque partie du système et d’améliorer l’observabilité et la contrôlabilité de l’ensemble du système en mettant en évidence des variables d’états internes qui sont pertinentes pour la compréhension de l’évolution de l’état du processus.

Une méthodologie de modélisation sous forme cascade peut être exploitée tant pour la reconstruction de l’état dynamique du véhicule que pour l’estimation des variables d’interface. Ainsi nous serions en mesure de reconstruire, par des observateurs robustes des états internes et des entrées inconnues. Ces informations seront utiles pour le diagnostic.

3 La controlabilité et l’observabilité Les systèmes de contrôle de traction réduisent le glissement pendant l’accélération, pour augmenter la contrôlabilité et la manoeuvrabilité du véhicule. Cela permet d’améliorer la sécurité et la tenue de route par un meilleur transfert de couple. Grâce à l’exploitation des outils de l’automatique, l’analyse, l’estimation et l’aide au contrôle permettent d’améliorer le confort, la sécurité et l’exploitation des potentialités des véhicules récents et futurs. Plusieurs travaux ont été proposés dans ce domaine, plusieurs auteurs proposent des observations et ou une commande basé sur les modes glissants. D’autres travaux ont porté sur l’estimation des forces de contact et le développement de méthodes d’identification (moindres carré, filtre de Kalman, observateurs,…), dans le but d’évaluer les performances dynamiques de véhicules.

Le modèle du véhicule utilisé est souvent trop simplifié ou incomplet à cause, d’une part du manque de connaissances sur le processus et d’autre part pour la réalisabilité de l’observation ou la commande (en utilisant des approches connues). Les effets des suspensions et de leurs couplages sont souvent négligés et rares sont les modèles prenant en compte l’aspect stochastique du contact pneu route. Il faut noter en effet que des passages successifs d’une roue sur la même chaussée ne donneraient pas les mêmes signaux.

Les variables d’interface conditionnent le

comportement et les performances du véhicule sur la route ainsi que leurs limites en fonction de l’infrastructure. Le comportement dynamique de ce dernier est l’effet des excitations produites à la fois par la chaussée, par le véhicules et sa motorisation et provoquées par le conducteur et ses réactions. Donc trois systèmes complexes, au moins, sont en présence et la

commande ne s’adresse, toujours qu’au véhicule. Les verrous scientifiques qui nous intéressent

concernent l’observation et la maîtrise du véhicule : - L’observabilité et l’identifiabilité d’une part, et - La contrôlabilité du véhicule dans son environnement.

Les notions d’observabilité et de contrôlabilité sont définies dans le contexte ou 3 systèmes dynamiques complexes interagissent et seul l’un d’entre fait l’objet de la commande (voir la figure ci-dessus). Ceci diffère de la notion d’observabilité et de commandabilité

classique en Automatique qui s’adresserait à la dynamique du véhicule seul. Par ailleurs, ces notions sont rapportées, selon l’objectif considéré, soit du point de vue véhicule (pour définir des aides à la conduite, assistances, estimateurs et indicateurs embarqués) soit du point de vue de l’infrastructure (pour l’amélioration de sa conception et son état).

4 Observation, Contrôle et Diagnostic

La sécurité routière représente un point crucial dans la conception de véhicules et impose de plus en plus l’intégration de système d’aide à la conduite. Durant ces dernières décennies d’importantes études ont été menées dans ce cadre et un grand nombre de méthodes d’observation, de commande et de détection de situations critiques ont été développées. L'objectif consiste à définir et développer des procédures efficaces permettant d’observer la dynamique correctement et de façon robuste et de détecter suffisamment tôt certaines situations critiques et soit de réagir soit d’en avertir le conducteur à l’aide d’une alarme. Quelques méthodes d’observation robuste donnent des pistes pour améliorer les capacités d’appréhender le comportement (observateurs, estimations et diagnostic) et de commande.

Une méthodologie de détection de dysfonctionnements dans la conduite d’un véhicule peut être conçue sous une forme modulaire, à partir d’observateurs robustes couplés à des estimateurs et reconstructeurs d’informations. Les situations à détecter peuvent être : le cas d’une sortie de route, d’une défaillance de la suspension ou de la direction et d’une variation de la pression du pneu et même parfois de défaillances du conducteur. La génération de résidus


permettra d’élaborer des signaux informatifs sur des situations à risques ou situations critiques pour le véhicule routier. Ces observateurs et estimateurs sont développés à partir de modèles spécifiques (et bien orientés) du véhicule. La difficulté principale réside dans l’élaboration de modèles à partir d’un choix de capteurs appropriés suffisamment sensibles pour la détection.

La détection peut être basée sur des techniques analytiques ainsi que des tests d’hypothèses pour une meilleure fiabilité de la détection. Le système de détection est conçu sous une forme modulaire permettant ainsi d’insérer d’autres types de défauts sans avoir besoin de le reconfigurer. Le principe proposé repose sur la construction d’observateurs couplés à des estimateurs. Cet ensemble génère des résidus qui sont examinés par des tests statistiques qui permettront de transmettre des messages d’alertes à destination du conducteur, des autres véhicules ou du gestionnaire de l’infrastructure.

En résumé, les problèmes ouverts concernent, d’une part l’amélioration de l’observabilité, de l’identification et la détection de situations de conduite et, d’autre part, le développement de nouveaux systèmes pour l’information, la détection et l’aide à la conduite. Dans la conférence, nous donnerons plus de détails sur la modélisation et la représentation dynamique des véhicules en vue de la synthèse d’observateurs robustes et à entrée inconnue pour l’estimation, le diagnostic et l’analyse du comportement dynamique des véhicules. Pour la définition de ces observateurs, nous privilégierons l’approche passive et les méthodes de synthèse par modes de glissements.

Références [1] Ackermann "Robust control prevents car skidding.

IEEE Control systems magazine, V17 J, N3, pp23-31, 1997

[2] Dr. Argiris Kamoulakos, Dr Ben G. Kao, “Transient Response of a Rotating Tire under Multiple Impacts with a Road Bump using PAM-SHOCK” Conference on High Performance Computing in Automotive Design, Engineering and Manufacturing 1996

[3] E. Bakker, H. B. Pacejka and L. Linder. A new tire model with an application in vehicle dynamics studies. SAE89,V98,N6,p101-113

[4] M. Bouteldja, N.K. M'Sirdi. Modélisation et observation dynamique d'un poids lourd et estimation des forces latérales. Soumis au CIFA 2004, Douz, Tunisie.

[5] M. Burckhardt, " Fahrwerktechnik: Radschlupf-Regel systeme", Vogel Verlag, Würzburg", 1993.

[6] C.Canudas de Wit, P.Tsiotras, E.Velenis, M.Basset, G.Gissinger. Dynamic Friction Models for Road/Tire Longitudinal Interaction. Vehicle Syst. Dynamics 2003. V39, N3, pp 189-226.

[7] C. L. Clover, and J. E. Bernard, "Longitudinal Tire Dynamics," Vehicle System Dynamics, Vol. 29, pp. 231-259, 1998.

[8] Y.Delanne, G.Beurier, N.K.M'Sirdi. Tire/Road Friction Perfor-mance Models from on-site Measurements. AIPCR PIARC, VIe Symp. "SURF 2000". 01-06.B. mai 2000 pp423-431, Nantes

[9] E.D.Dickmanns and B.D.Mysliwetz., " Recursive 3-D road and relative ego-state estimation" IEEE Transaction on PAMI, 14(2):199-213, February 1992.

[10] S. Drakunov, U. Ozguner, P. Dix and B. Ashrafi. ABS control using optimum search via sliding modes. IEEE Trans. Control Systems Technology, V 3, pp 79-85, March 1995.

[11] P. F. H. Dugoff and L. Segel. An analysis of tire traction properties and their influence on vehicle dynamic performance. SAE Transaction, vol 3, pp. 1219-1243, 1970.

[12] El Hadri, G. Beurier, N. K. M'Sirdi, J.C. Cadiou et Y. Delanne. Simulation et Observateurs pour l'estimation des performances Dynamiques d'un Véhicule. CIFA2000.

[13] El Hadri, G. Beurier, J. C. Cadiou, N.K. M'Sirdi, Y. Delanne. Non-linear longitudinal tire force estimation based sliding mode observer. IFAC 2001, Dusserldorf, Germany. pp51-56.

[14] G. Gim and P. Nikravesh. Analytical model of pneumatic tyres for vehicle dynamic simulations part1: Pure slips. Int J. Vehicle Design, vol. 11, no. 6, pp. 589-618, 1990.

[15] Gérard Gissinger et al, contrôle-commande de la voiture, Hermes ; Paris(2002)

[16] Gentiane Venture. Identification des paramètres dynamiques d'une voiture. Thèse de Doctorat de l'Ecole Polytechnique de l'Université de Nantes, IRCCyN. Nantes novembre 2003.

[17] F. Gustafsson, "Slip-based tire-road friction estimation", Automatica, vol 33, no. 6, pp. 1087-1097, 1997.

[18] J.Harned, L.Johnston, G.Scharpf. Measurement of Tire Brake Forces Characteristics as Related to Wheel Slip (Antilock) Control System Design. SAE Trans. V78, pp909-925, 1969.

[19] Yi, K. Hedrick and S. C. Lee. Estimation of Tire Road

Fig. 1. Structure d’un système de détection

Generateur de Residus

Capteurs et entrées de commande

Veh

icle

- en

viro

nmen

t

Observers Estimators Observers

Estimators Observateurs Estimateurs

…..

ALARM

Block 1


Friction Using Observers Based Identifiers. Vehicle System Dynamics, 31, pp. 233-261, 1999.

[20] H.Imine, N.K.M'Sirdi, L.Laval et Y.Delanne. Observateurs à entrées inconnues par mode glissant appliqués l'estimation du profil de route. CIFA 2002, Nantes, Juillet 2002

[21] H. Imine, N. M'Sirdi, L. Laval, Y. Delanne - Sliding Mode Observers for Systems with Unknown Inputs: Application to estimate the Road Profile. ASME, Journal of Dynamic Systems, Measurement and Control en mars 2003.

[22] H. Imine, Y. Delanne, N.K. Msirdi. Road Profiles Inputs for Vehicle Dynamics Simulation, World Automotive Congress, SAE 2004, Detroit, Michigan, USA, March 8-11, 2004

[23] H. Imine, N.K. M'sirdi and Y. Delanne. Observers with unknown inputs for Estimation of the Road Profile. TMVDA 04. 3rd Int. Tyre Colloquium Tyre Models For Vehicle Dynamics Analysis August 30-31, 2004 University of Technology Vienna, Austria

[24] Imine Hocine, "Observation d'états d'un véhicule pour l'estimation du profil dans les traces de roulement", Thèse à l’Université de Versailles Saint Quentin en Yvelines, 13 decembre 2003.

[25] Isermann, R., "Diagnosis Methods for Electronic Controlled Vehicles", Vehicle System Dynamics, International Journal of Vehicle Mechanics and Mobility, Vol. Vol. 36, No. No. 2-3, (2001).

[26] H.Lee and M.Tomizuka. Adaptative vehicle traction force control for intelligent vehicle highway systems (IVHSs) IEEE Trans. on Industrial Electronics, V 50 N 1 February 2003

[27] Chia Shang Liu and Huei Peng. Road friction coefficient estimation for vehicle path prediction. Vehicle System Dynamics, V 25 supl. 1996, pp413-425.

[28] S. Mammar, L. Nouvelière, N.K. M'Sirdi. Contrôle intégré d'un Véhicule en Automatisation Basse Vitesse.CIFA2000, Lille

[29] Arnaud Miege, “Tyre model for truck ride simulations”, thèse soutenue au “Cambridge University”, dans le “Department of Engineering”, en 2002

[30] Nacer K. M'Sirdi. Observateurs robustes et estimateurs pour l'estimation de la dynamique des véhicules et du contact pneu - route. JAA. Bordeaux, 5-6 Nov 2003

[31] N.K. M'sirdi, A. Rabhi, N. Zbiri and Y. Delanne. VRIM: Vehicle Road Interaction Modelling for Estimation of Contact Forces. Accepted for TMVDA 04. 3rd Int. Tyre Colloquium Tyre Models For Vehicle Dynamics Analysis August 30-31, 2004 University of Technology Vienna, Austria

[32] Msirdi1 : Nacer K. M'Sirdi. Observateurs robustes et estimateurs pour l'estimation de la dynamique des véhicules et du contact pneu - route. JAA. Bordeaux, 5-6 Nov 2003

[33] H.B.Pacejka, I.Besseling. Magic Formula Tyre Model with Transient Properties. 2nd Int Col on Tyre Models

for Vehicle Dynamic Analysis, Berlin 1997. Swets and Zeitlinger

[34] H.Peng and M.Tomizuka (1990) " Vehicle lateral control for highway automation " In Proceeding of the American Control Conference pp 788-794 San Diego, U.S.A

[35] Idar Petersen, Wheel Slip Control in ABS Brakes using Gain Scheduled Optimal Control with Constraints, thesis submitted for the degree of doctor engineer. Department of Engineering Cybernetics, Norwegian University of Science and TechnologyTrondheim, Norway 2003.

[36] A. Rabhi, N.K. M'sirdi, N. Zbiri and Y. Delanne. Modélisation pour l'estimation de l'état et des forces d'Interaction Véhicule-Route. CIFA 2004, Douz, Tunisie.

[37] A. Rabhi, H. Imine, N. M' Sirdi and Y. Delanne. Observers With Unknown Inputs to Estimate Contact Forces and Road Profile AVCS'04 International Conference on Advances in Vehicle Control and Safety Genova -Italy, October 28-31 2004

[38] Abdelhamid Rabhi et al. Modélisation des Forces de Contact Véhicule-Chaussée. Rapport interne: LRV, UVSQ, 10, avenue de l'Europe 78140 Vélizy, FRANCE.

[39] Laura Ray. Nonlinear state and tire force estimation for advanced vehicle control. IEEE T on control systems technology, V3, N1, pp117-124, march 1995,

[40] J.Stephant, A. Charara, D.Meizel. Contact roue -sol : comparaison de modèles d'efforts. JAA 2001. Bordeaux, France.

[41] H. Shraim, M. Ouladsine, H. Noura, M. El Adel, ``The study of the influence of the pneumatic defects of the vehicles' dynamics", in: International Conference on Advances in Vehicle Control and Safety AVCS'04., 28-31 octobre 2004

[42] Jacob Svendenius, Review of Wheel Modelling and Friction Estimation, Bjorn Wittenmark, department of automatic control, Lund institute of technology Augusti 2003

[43] Takaji Umeno, Katsuhiro Asano, Hideki Ohashi, Masahiro Yonetani, Toshiharu Naitou, Takeyasu Taguchi, « Observer based estimation of parameter variations and its application to tyre pressure diagnosis » article de Science Direct, Control Engineering Practice (2001)

[44] K. UWE and L. NIELSEN, "Automotive control system",Springer(2000)

[45] Zegelaar, P.W.A., The dynamic response of tyres to brake torque unevennesses, PhD Thesis, Delft University of Technology, 1998.

[46] Zbiri, A. Rabhi, N.K. M'sirdi., Detection of critical situations for lateral vehicle control. AVCS'04 International Conference on Advances in Vehicle Control and Safety Genova -Italy, October 28-31 2004


[47] N. Zbiri, A. Rabhi, N.K. M’Sirdi «Diagnosis on the Vehicle Suspension » ACD04, Karlsruhe, October 17-18 2004.


Méthodes de l’automatique pour l’assistance et l’automatisation de la conduite

automobile

S. Mammar1,3 P. Martinet2 S. Glaser3 M. Netto3 L. Nouvelière1 B. Thuilot21 LSC, CNRS-FRE 2494

2 LASMEA3 LIVIC, LCPC-INRETS

1Université d’Évry val d’Essonne40 rue du Pelvoux CE1455, 91025, Evry, Cedex, France. [email protected]

Résumé

Cet article a pour but de donner un aperçu des recherches etdéveloppement autour de l’automatique pour l’automobile.Après un état des lieu des programmes de recherche au ni-veau mondial et des fonctions répandues sur les véhicules,le propos se concentre sur les recherches au niveau natio-nal. Deux volets sont particulièrement développés. Un pre-mier volet sera consacré à la revue des méthodes de com-mande robuste appliquées au développement d’assistanceau contrôle latéral et longitudinal des véhicules. Différentsmodes de partage des actions permettent une bonne gestiondes interactions avec le conducteur. Le deuxième volet por-tera sur l’automatisation complète de la conduite en modeautonome ou en peloton.

Mots Clef

Assistance à la conduite, Automatisation, Contrôle longi-tudinal, Contrôle latéral, Indicateur de risque.

1 IntroductionL’automatique est omniprésente dans les véhicules d’au-jourd’hui même si ce terme n’apparaît pas toujours de ma-nière explicite et que l’on parle plus souvent de fonctionsélectroniques. Ces fonctions ont investi aussi bien les sys-tèmes qui assurent le bon fonctionnement du véhicule etson intégrité que les systèmes de confort et sont en passed’atteindre 30% de la valeur d’une voiture.A ce titre, les systèmes de contrôle du chassis ont fait uneavancée significative ces vingt dernières années. Il assurentde manière efficace la tenue de route, la stabilité, la ma-noeuvrabilité et le freinage du véhicule. Les systèmes ABSsont maintenant obligatoires pour tout nouveau véhicule enEurope, les système ESP se démocratisent et un pourcen-tage grandissant de véhicules en est équipé. D’autres sys-tèmes encore trop onéreux tels que les barres d’anti-roulispilotées, la direction active ou les suspensions pilotées ontdémontré leur efficacité, mais sont réservés aux véhiculesdes gammes supérieures.Enrichis de moyens de perception de l’environnement, delocalisation ou de communication, l’utilisation des organes

de contrôle actuels peut être élargie à des applications d’as-sistance active au conducteur non seulement en situationlimite, mais aussi en prévention d’un danger grâce à uneperception anticipée de celui-ci. La fiabilité des moyensde perception et de commande ainsi que l’introductionde la coopération entre l’infrastructure et les véhicules,permettrait de voir évoluer l’aide apportée au conduc-teur vers l’automatisation de certaines tâches de conduite,voir même de l’intégralité du processus de conduite. Ons’oriente donc vers la définition d’une entité en charge dela conduite qui reçoit les informations à la fois des capteursvéhicule, du conducteur et de l’infrastructure et qui auraitpour but de réaliser l’évolution en sécurité du véhicule.Cet article est organisé de la manière suivante : les sections2 et 3 donnent un panorama des systèmes commerciauxexistants et des projets de recherche sur le domaine. Lasection 4 considère l’application d’assistance à la conduitesous ses deux aspects de contrôle latéral et longitudinal.Enfin dans la section 5, on examine, sous différents aspects,le problème de l’automatisation de la conduite d’un véhi-cule autonome et de la conduite en file associant contrôlelongitudinal et contrôle latéral.L’essentiel des résultats présentés dans cet article ont étéobtenus par plusieurs équipes de recherche dans le cadredes projets PREDIT et CNRS. Pour la partie assistance à laconduite on retrouve : le LIVIC, le LSC, le LASMEA, SU-PELEC, le LAG, l’UTC et l’INRIA. Pour la partie conduiteautomatisée, le LASMEA, l’IRISA, et l’INRIA-Sophia-Antipolis.

2 L’automatique et l’automobileLes systèmes électroniques ont révolutionné les véhiculesd’aujourd’hui. L’équipement de sécurité et de confort estdevenu un argument de vente fort pour l’ensemble desgammes. Ainsi des véhicules vendus à moins de 10K

sont équipés d’ABS avec répartiteur électronique de frei-nage, de l’aide au freinage d’urgence avec allumage au-tomatique des feux de détresse, d’ordinateur de bord etde climatisation automatique. Ces systèmes mis en avantpar les constructeurs ne doivent pas non plus faire oubliertoute l’automatique enfouie qui a en charge la gestion de


la combustion, du moteur, de l’échappement et de la trans-mission. Les systèmes de régulation de vitesse ou d’aideà la stabilité latérale (ESP, ASR,...) se démocratisent ra-pidement alors que d’autres systèmes restent l’apanage demodèles hauts de gammes ou d’une catégorie restreinte devéhicules. A ce titre, nous pouvons citer :– La répartition des forces motrices (4WD)– Le contrôle des efforts verticaux, par le pilotage des sus-

pensions ou des barres d’anti-roulis (SAS)– Le contôle actif du braquage des roues avant (AFS) ou

les quatre roues directrices (4WS)Un véhicule haut de gamme dispose aujourd’hui d’unequarantaine de capteurs, une centaine de moteurs élec-triques, et une soixantaine d’unités de contrôle. Le coût to-tal de ces systèmes mécatroniques représente 25% du prixtotal d’un véhicule.L’ensemble de ces dispositifs est tiré par la généralisationdes technologies "X-by-wire" qui consistent à remplacerles commandes électromécaniques par des commandes pu-rement électriques.Le développement de la localisation et de la cartographienumérique permet de disposer de systèmes de contrôle denavigation intelligents. Ils associent à la navigation clas-sique des dispositifs qui alertent le conducteur ou limitentautomatiquement la vitesse selon la signalisation embar-quée.A l’opposé, des systèmes actifs associant perception del’environnement peinent à sortir à cause du manque de fia-bilité, de performance et de disponibilité des capteurs. Atitre d’exemple, le régulateur de vitesse et d’interdistanceest annoncé depuis plus d’une décennie, certains modèlesde véhicules peuvent en être équipés, mais le domained’exploitation en terme de vitesse et décélération en réduitl’usage à un système de confort en environnement autorou-tier. Dans le même esprit, des systèmes de maintien de voieà base de capteur vidéo sont actuellement sur le marché auJapon.L’enjeu de la recherche est donc le développement defonction d’assistance active ayant une réelle incidence surl’amélioration de la sécurité. On voit alors que la fiabilitédes systèmes de perception et de commande en est un élé-ment essentiel. A ce prix, il sera même possible d’envisagerl’automatisation de tâches de la conduite.

3 Les recherches dans le mondeDurant les années 90, la recherche aux États-unis était cen-trée sur l’automatisation de la conduite avec un objectif an-noncé d’amélioration des performances des réseaux. Cecis’est traduit en l’occurrence par l’émergence de la conduiteautomatisée en file de véhicules communicants. Les labo-ratoires des universités de Californie (Berkeley, Stanford,Santa Barbara) et Carnegie Mellon sont les plus actifs dansce domaine. Depuis, les projets de route automatisée ontété mis en veille, les recherche se sont recentrées sur lasécurité avec le projet IVI et des applications plus cibléescomme le guidage des chasse-neige [4]. Les situations cri-tiques abordées sont

– La prévention des accidents consécutifs aux change-ments de voie.

– La prévention des collisions aux intersections.– La prévention des sorties de route.– La détection de la baisse de vigilance.

Les recherches sur les transports intelligents au Japonfont l’objet d’une coordination forte entre cinq ministères(construction, industrie, transport, intérieur et télécommu-nications) et d’associations de constructeurs (JARI) et departenaires du secteur privé (AHSRA). Le projet ASVs’emploie à la sécurisation de 7 situations de conduitesjugées les plus accidentogènes. Par ailleurs des servicesreposant sur d’importants équipements de l’infrastructuresont développés, le but ultime étant l’automatisation de laconduite [28].

Bien que bénéficiant d’une réelle avance à la fin des an-nées quatre vingt, l’Europe a accusé un certain retard aprèsl’arrêt du projet PROMETHEUS. Le Sixième PCRD faitmaintenant la part belle aux systèmes d’aide à la conduiteavec plus particulièrement le projet intégré PReVENT quiréunit 56 partenaires sur les aspects de sécurité préventive,sous l’égide d’ERTICO [1].

Au niveau national, le PREDIT joue le rôle de source d’in-citation et de regroupement des financements pour la re-cherche sur les transports et la sécurité avec l’implicationde trois ministères : transports, recherche et industrie. L’ac-tion fédératrice ARCOS2004, en est un bel exemple de co-ordination de la recherche. Cinquante huit partenaires ontpris part au projet avec pour objectif de faire progresser 4fonctions de sécurité : la gestion des interdistances, l’évi-tement des sorties de route, l’anticollision et l’alerte enamont d’un accident.

4 L’assistance à la conduiteL’objet de cette section est de couvrir les possibilités of-fertes en terme d’assistances actives aux conducteurs enutilisant des moyens de perception, de localisation ou decommunication entre les véhicules ou avec l’infrastructure.A titre d’exemple, une caméra frontale détectant les lignesblanches permet de développer une fonction d’assistanceau maintien de voie, un lidar fournit une mesure d’interdis-tance et de vitesse relative et permet d’envisager le déve-loppement d’un système de gestion des inter-distances etd’anti-collision. De même, une localisation à l’aide d’unGPS peu précis associée à une cartographie suffit pour li-miter la vitesse à l’approche d’un virage [8], [7].

Ces moyens de perception dit extéroceptifs offrent aussil’avantage de pouvoir anticiper la difficulté, on parle alorsde sécurité active préventive. L’anticipation de la difficulténécessite une bonne quantification du risque encouru, maisaussi une bonne connaissance des possibilités de partageavec les conducteurs. Car en effet, à la différence des sys-tèmes de sécurité dite interactive (ABS, ESP), la duréed’intervention du système est bien au delà du temps de ré-action du conducteur, les interactions avec les actions decelui-ci doivent donc être prises en compte au niveau de laconception de l’aide.


4.1 Le modes de partage en sécurité préven-tive

L’analyse de la coopération Homme-Machine dans le cadredu projet ARCOS a abouti à la définition de plusieursmodes de coopération de plus en plus intrusifs allant dela simple information jusqu’à l’automatisation complèted’une fonction de conduite. Six modes ont été définis– Mode instrumenté : des informations sont fournies au

conducteur ; elles peuvent être issues directement descapteurs et affichées après traitement, ou reconstruitesà partir d’observateurs.

– Mode avertissement : le traitement de l’information estplus élaboré, le diagnostic de la situation permet l’emis-sion d’une alerte lors de l’occurrence d’un événementrisqué.

– Mode limite : Les actions du conducteur sont limitéesafin d’éviter la transition vers la zone à risque.

– Mode médiatisé : Les actions du conducteur ne sont pasdirectement transmises aux organes, elles subissent untraitement préalable.

– Mode régulé : Certaines tâches de conduite sont complè-tement délégués au contrôleur.

– Mode automatisé : Dans ce cas, le conducteur est com-plètement déchargé du processus de conduite.

4.2 Les indicateurs du risque

Nous présentons ci-après les variables les plus usuelles uti-lisées pour le développement d’assistances. Ces variables,pour certaines d’entre elles, constituent aussi des gran-deurs de régulation possibles pour l’automatisation de laconduite. D’autres sont directement issues de la modélisa-tion du processus de conduite. L’exposé ci-après est limitéau cas d’un véhicule qui reste dans sa voie de circulation,on exclut donc les risques liés à la présence de véhiculessur les voies adjacentes. De même le type d’accotement,bien que très important dans la perception du risque par leconducteur, ne sera pris en compte.

Les indicateurs pour le mode latéral. Un premiergroupe d’indicateurs est directement lié à la dynamiqueproprioceptive du véhicule :– L’accélération latérale, directement obtenue à partir d’un

accéléromètre– La vitesse de lacet, combinée à la vitesse longitudinale et

à l’angle de roues est révélatrice d’un effet de survirageou de sous-virage. Ces éléments, tout comme l’accéléra-tion latérale sont disponibles en standard sur un véhiculemuni d’un ESP.

– La vitesse latérale. Cette vitesse n’est pas directementmesurable, son estimation est possible à partir de la vi-tesse de lacet, de l’accélération latérale mais aussi de lavitesse GPS.

Un deuxième groupe d’indicateurs nécessite la présence decapteurs extéroceptifs :– Le déplacement latéral du véhicule par rapport l’axe de

la voie de circulation. Celui-ci peut être pris à une cer-taine distance en avant du centre de gravité afin d’intro-duire un effect d’anticipation sur la trajectoire du véhi-

cule.– Le cap relatif, qui donne l’erreur de cap du véhicule par

rapport à celui de la route. Cet indicateur, tout comme ledéplacement latéral peuvent être facilement obtenus parun capteur vidéo monté en vision frontale.

– Le temps à sortie de voie (TLC), qui représente le tempsnécessaire, étant donnée la vitesse du véhicule, pourfranchir un des bords de la voie. Cet indicateur qui com-bine à la fois dynamique du véhicule, localisation sur lavoie et géométrie de la route est très utile, mais pas fa-cile à calculer. Il a été prouvé que les sorties de voie sontsouvent précédées par une période pendant laquelle leTLC est déjà faible. Un minimum pour le TLC se pro-duit si une correction dans l’angle de braquage a été ini-tiée, il est donc révélateur de l’activité du conducteur etde l’adéquation de ses actions.

Les indicateurs pour le mode longitudinal. Dans le casd’un véhicule isolé, donc en mode "régulation de vitesse",les deux indicateurs primaires sont : la vitesse en régimepermanent et l’accélération longitudinale. En mode suivide véhicule, le conducteur gère simultanément la vitessedu véhicule et l’interdistance. Plusieurs indicateurs entrenten jeux– L’interdistance, à comparer à l’interdistance minimale

dite de sécurité.– Le temps intervéhiculaire obtenu en divisant l’interdis-

tance par la vitesse. Un temps intervéhiculaire minimalde 2sec est actuellement imposé sur les voies rapides parla législation.

– La vitesse relative, normalement nulle.– Le temps à collision (TTC) obtenu en divisant l’interdis-

tance par la vitesse relative. Cet indicateur est à rappro-cher du TLC dans le cas du latéral.

4.3 Assistance pour le mode latéral : vers unESP perceptif

La modification de la dynamique latérale d’un véhicule sefait principalement par l’intermédiaire de la commande del’angle aux roues ou du couple sur la commande de di-rection. Dans [17], l’ensemble des modes de coopérationdécrit précédemment ont été mis en oeuvre sur un véhi-cule prototype. Le positionnement du véhicule se fait pardétection des lignes en vision frontale. La loi d’assistanceagit alors sur le couple au volant. Les aspects de coopé-ration entre l’automate et le conducteur ont été étudiéspar l’équipe Psycotec de l’IRCCyN. La figure 1 donne unaperçu de l’interface visuelle en mode instrumenté.De même, en collaboration avec le LIVIC, le laboratoired’automatique de SUPELEC a développé une approched’assistance en maintien de voie qui admet une "coopéra-tion" permanente entre le conducteur et le correcteur [19].Cette approche a démontré une réelle amélioration des per-formances en maintien de voie particulièrement en situa-tion de rejet de forces de vent latéral.Dans la suite de cette partie, nous nous intéressons au pro-blème de l’amélioration de la directibilité du véhicule cou-plé à une assistance de maintien de voie [13]. Ce travail aété mené dans le cadre du projet de recherche ARCOS.


FIG. 1 – Interface d’assistance au maintien de voie par vi-sion frontale.

ρref

Tz

δf

fw

rβ

Ly

Lψ

22

11

W00W

21

11

CC

22

12

CC

Conducteur

C3W2

Véhicule Véh.route

δc

δd

δo

'zT

'fδ

''zT

''fδ

lkG

ρrefρref^ Kρ

FIG. 2 – Architecture de contrôle.

Le système véhicule admet comme entrées de commandel’angle de braquage des pneumatiquesδf et le couple de la-cetTz qui peut être produit par un freinage différentiel. Lesentrées de perturbations sont représentées par les forces deventfw et la courbure de la routeρref . Les mesures sont lavitesse de lacetr, le déplacement latéral par rapport à l’axede la voieyL ainsi que le cap relatif avec la routeψL.

Concepts de l’assistance. La méthode utilise un schémade commande en deux boucles de régulation. Une boucleinterne assure l’amélioration de la manoeuvrabilité du vé-hicule et la boucle externe assure le maintien de voie. L’ap-proche utilise une combinaison d’angle de braquage actif etde freinage différentiel des roues. On suppose que l’anglede braquage des roues est la résultante de l’angle de bra-quage imposé par le conducteurδd et de celui calculé par lecorrecteurδc (Figure 2). Cette opération est facilement réa-lisable sur un dispositif de direction du type steer-by-wiremais peut être aussi réalisée sur une direction convention-nelle munie d’un moteur électrique et d’un différentiel.Le correcteur de la boucle interne combine à la fois unecomposante boucle ferméeC1 par bouclage de la vitessede lacetr et une composante de feedforward (préfiltrage)C2 sur l’angle de braquageδo = δd +δc. A la sortie du cor-recteur

[

C1 C2

]

, nous obtenons l’angle de braquage

des pneumatiques et le couple de lacet[

δ′

f , T′

z

]T

tel que

[δf , Tz]T

= W1

[

δ′

f , T′

z

]T

, oùW1 est un pré-filtre dyna-

mique de l’entrée. L’angle de braquageδ0, sera calculé parla boucle externe.Étant donné que la tâche de maintien de voie est un pro-

blème de rejet de perturbation, le correcteurC3 de laboucle externe assure le bouclage du déplacement latéralet du cap relatif. Il produit un angle de braquageδc =W3C3 [yL, ψL]

T qui sera additionné à l’action du conduc-teur.L’effet désiré de chaque composante de correction estcomme suit :– Le correcteur en boucle ferméeC1 doit assurer la stabi-

lité de celle-ci avec une amélioration garantie de l’amor-tissement des réponse en lacet du véhicule. Ce correcteura aussi en charge le rejet des perturbations dans l’inter-valle de temps du temps de réaction du conducteur.

– Le correcteurC2 agit en préfiltrage du signal de réfé-renceδ0. Son objectif lors de la synthèse est d’assurerle suivi robuste du modèle de référence préalablementchoisi. Le modèle de référenceT0 est choisi comme unfiltre du premier ordre de gain statiqueGrδf

(0, v) et

T0 =Grδf

(0,v)

0.15s+1 . Le temps de réponse est de l’ordre de0.5 sec. Le choix d’un modèle du premier ordre permetd’éviter les dépassements sur les réponses du véhicule.

– Du point de vue véhicule, le problème de maintien devoie requiert que le correcteur rejète l’accélération laté-ral et la vitesse de lacet engendrées par des changementdu rayon de courbure de la route. C’est le rôle du correc-teurC3.

– Finalement, un gain constantKρ est ajouté de manière àcompenser l’effet de la courbure à travers une estimationρref de celle-ci.

Une procédure de synthèse en deux étapes est adoptée.Dans la première étape, on calcule le correcteurC1 en uti-lisant une optimisation H∞ basée sur les facteurs premiers.Par la suite, le nouveau modèle de véhicule qui inclut lecorrecteurC1 est calculé et le correcteur de pré-filtrageC2

est calculé à partir d’une deuxième optimisation H∞. Laprocédure utilisée pourC1 est aussi utilisée pour le cal-cul deC3. La boucle interne est calculée en premier. Ceciassure que le système de manoeuvrabilité est toujours op-timal même si le système de maintien de voie n’est plusopérationnel suite à une dégradation de la précision de lalocalisation relative par vidéo par exemple.

Estimation et compensation de la courbure. Laconnaissance de la courbure permet d’améliorer les per-formances du maintien de voie en introduisant un facteurd’anticipation. Dans notre cas, les deux mesuresyL etψL,sont normalement suffisantes pour obtenir une estimationdeρref , sous l’hypothèse que celle-ci est constante. Un ob-servateur proportionnel integral (PI) [9] permet d’obtenirsimultanément une bonne estimation de l’état et deρref .L’estimée de la courbureρref est utilisée pour ajouter unterme de compensation de la courbure (Kρρref ). Le gainKρ est ajusté de manière à garantir le rejet total de la per-turbation dans le cas nominal.

Amélioration de la manoeuvrabilité.

Rejet de perturbation Une rafale de vent apparaît àt1 = 1 sec et disparaît àt2 = 2 sec. Le conducteur n’apas le temps de réagir, le correcteurC1 est en action, onremarque alors une forte réduction de la vitesse de lacet


(a) : vitesse de lacetr (b) : lacet / dérive

0 1 2 3 4 5−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

time (sec)

yaw

rat

e (d

eg s

−1 )

−0.2 −0.15 −0.1 −0.05 0 0.05 0.1 0.15−0.4

−0.2

0

0.2

0.4

0.6

0.8

1

1.2

1.4

sideslip angle (deg)

yaw

rat

e (d

eg s

−1 )

(c) : couple de lacetTz (d) : angle de braquageδf

0 1 2 3 4 5−8

−6

−4

−2

0

2

4

6

8

time (sec)

Yaw

torq

ue (

N.m

)

0 1 2 3 4 5−0.3

−0.25

−0.2

−0.15

−0.1

−0.05

0

0.05

time (sec)

stee

ring

angl

e (d

eg)

FIG. 3 – Rejet d’un échelon de force de vent (traitplein : contrôlé, pointillés : conventionel).

du véhicule contrôlé (figure 3). Le freinage différentiel estlui rapidement désactivé grâce à l’effet de limitation de lapondérationW22.

(a) : vitesse de lacetr (b) : angle de braquageδf

0 1 2 3 4 5−3

−2

−1

0

1

2

3

time (sec)

yaw

rat

e (d

eg.s

−1 )

0 1 2 3 4 5−0.6

−0.4

−0.2

0

0.2

0.4

0.6

0.8

time (sec)

stee

ring

angl

e (d

eg)

FIG. 4 – Changement de voie (trait plein : contrôlé, poin-tillés : conventionel, interrompus : modèle de référence).

Changement de voie Le conducteur initie un change-ment de voie par application d’un angle de braquage (Fi-gure 4-b, en pointillés), dans ce cas, les deux correcteursC1 etC2 sont en action. La figure 4, démontre que le véhi-cule contrôlé suit fidèlement le modèle de référence choisi.

Maintien de voie. Au début de la simulation, le véhiculeest sur une section rectiligne avec un déplacement latéralde 0.5m. Sans aucune assistance, le conducteur donne unangle de braquage pour ramener le véhicule au centre de lavoie (figure 5). Le dépassement est de -0.2m et le déplace-ment latéral pratiquement nul 3sec plus tard. At = 5sec, levéhicule aborde un virage de courbure 1/500m−1. Le dé-placement latéral devient de -0.3m mais est réduit à 0.1m,2sec plus tard par le conducteur. Sur la même figure, nousdistinguons aussi les réponses du véhicule (traits interrom-pus) quand le correcteur de manoeuvrabilité est activé. Cesréponses sont très similaires à celles du véhicule conven-tionnel, même si on observe une réduction des maxima.De même, les réponses en trait plein correspondent au cas

(a) : déplacement latéralyL (b) : erreur de capψL

0 2 4 6 8 10−0.4

−0.3

−0.2

−0.1

0

0.1

0.2

0.3

0.4

0.5

time (sec)

Late

ral d

ispl

acem

ent (

m)

0 2 4 6 8 10−2

−1.5

−1

−0.5

0

0.5

time (sec)

Rel

ativ

e ya

w a

ngle

(de

g)

FIG. 5 – Maintien de voie (trait plein : contrôlé avec contrô-leur de maintien de voie, pointillés : conventionel, inter-rompus : contrôlé avec contrôleur de manoeuvrabilité).

où les deux correcteurs de manoeuvrabilité et de maintiende voie sont activés. Cette fois ci, le temps de réponse su-bit une nette amélioration, puisqu’il est inférieur à la se-conde, et les déplacements par rapport à l’axe de la voiene dépassent pas 0.1m. Finalement, les figures 6-a and 6-bdonnent les valeurs de temps à sortie de voie pour chaquevéhicule. On remarque une nette amélioration des TLCpour les deux véhicules contrôlés et plus particulièrementdans les courbes.

(a) : TLC nominal (b) : TLC perturbé

0 5 10 150

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

time (sec)

Tim

e to

line

cro

ssin

g (s

ec)

0 5 10 150

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

time (sec)

Tim

e to

line

cro

ssin

g (s

ec)

FIG. 6 – Temps à sortie de voie, cas nominal et per-turbé (trait plein : contrôlé avec contrôleur de maintien devoie, pointillés : conventionel, interrompus : contrôlé aveccontrôleur de manoeuvrabilité).

Essai sur la piste de Satory. Cette section présente unecourte évaluation sur le site de Satory en utilisant le véhi-cule d’essai du LIVIC (figure 7).

5.815 5.82 5.825 5.83

x 105

1.204

1.205

1.206

1.207

1.208

1.209

1.21x 10

5

Absolute x position (m)

Abs

olut

e y

posi

tion

(m)

0 50 100 150 200 250 300−0.03

−0.02

−0.01

0

0.01

0.02

0.03

0.04

Time (sec)

Tra

ck c

urva

ture

(m

−1 )

Real curvatureEstimated curvature

FIG. 7 – Piste de Satory digitalisée. Courbure de la piste etson estimée.

La figure 7 montre la courbure de la piste et son estiméeobtenue par l’observateur PI. On remarque une bonne es-timation de la courbure y compris dans les zones de tran-sition clothoïdes. La figure 8-a donne les trajectoires du


véhicule conventionnel et du véhicule avec assistance aumaintien de voie, on remarque que la trajectoire du véhi-cule contrôlé est toujours plus proche de l’axe de la voie etplus particulièrement dans les chicanes.

(a) : trajectoire dans la chicane (b) : zoom sur la chicane

−1200 −1000 −800 −600 −400 −200 050

100

150

200

250

300

350

400

450

500


Abs

olut

e y

posi

tion

(m)

−950 −900 −850 −800 −750300

310

320

330

340

350

360

370

380

390

400


Abs

olut

e y

posi

tion

(m)

FIG. 8 – Maintien de voie sur la piste d’essai (trait plein :contrôlé, trait pointillé : conventionnel, interrompus : axede la voie).

4.4 Assistance au contrôle longitudinalLe véhicule isolé. Dans le cas d’un véhicule isolé, la vi-tesse limite donnée par la signalisation passive actuelle estsouvent inadaptée aux conditions réelles de la chaussée etdu trafic. Une assistance peut fournir au conducteur uneindication quant à sa prise de risque par rapport aux diffi-cultés de l’infrastructure qu’il va rencontrer dans un hori-zon temporel proche (adhérence, dévers, courbure,...). Pourêtre efficace, l’information concernant le risque devra êtredonnée au conducteur suffisamment à l’avance pour quecelui-ci ait le temps de réagir. Pour cela, le système d’alertepour la vitesse excessive en approche de virage calcule lavitesse prévisible du véhicule à un horizon temporel donné(variant de 1 à 3 s), en se basant sur l’hypothèse d’une ac-célération constante. Cette vitesse est ensuite comparée àdifférents profils de vitesses générés à partir de l’horizonélectronique renvoyé par une base de données cartogra-phiques. En fonction du résultat, une alerte sonore et vi-suelle est émise (ou non) en direction du conducteur. Dansun deuxième temps, si nécessaire, un algorithme basé surdes modes glissants d’ordre 2 entreprend le pilotage de lavitesse vers la vitesse limite adaptée à la situation [18].

Définition de la vitesse limite De l’étude du compor-tement du conducteur en approche de virage et dans levirage, nous avons pu définir une vitesse limite en pre-nant comme hypothèse que dans une condition normalede circulation, les valeurs des accélérations longitudinaleset latérales que le conducteur s’autorisait, sont presqueconstantes. Sur une chaussée sèche et avec de bonne condi-tion d’adhérence, cela revient à dire que l’adhérence quele conducteur mobilise en longitudinale et en latérale estconstante. En fait, les forces générées par le contact pneu-matique chaussée restent à l’intérieur d’une ellipse d’adhé-rence. Nous pouvons traduire cela par la formulation sui-vante :

F 2lon + F 2

lat

Fvert

≤ µmax2

où Flon, Flat et Fvert sont respectivement les forces lon-gitudinales, latérales et verticales au contact pneumatique

1900 1950 2000 2050 2100 2150 2200 2250 230010

12

14

16

18

20

22

24

26

Distance [m]

Spe

ed [m

.s−

1 ]

1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]

High WarningMedium WarningLow WarningNo Warning

1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


1900 1950 2000 2050 2100 2150 2200 2250 230012

14

16

18

20

22

24

26

28

Distance [m]

Spe

ed [m

.s−

1 ]


FIG. 9 – Profils de vitesses réelles et simulées. Générationd’alerte utilisant les profils de vitesses.

FIG. 10 – Interface d’affichage de vitesse excessive.

chaussée.De plus, nous faisons l’hypothèse que la trajectoire sui-vie par le véhicule correspond au milieu de la voie. En re-cherchant la mobilisation maximale d’adhérence, expriméedans l’équation précédente, nous pouvons obtenir (voir [8]pour le détail des calculs) l’expression de la vitesse critiquedans la portion circulaire du virage, ainsi qu’une équationdifférentielle définissant la vitesse limite dans les phasesd’accélération et de décélération avant et après cette por-tion. Elle est aussi fonction deϕ, θ etρ qui représentent lesdévers, pente et courbure de la route. Cette vitesse est aussifonction deλlon etλlat qui correspondent à la portion d’ac-célération, respectivement longitudinale et latérale, que leconducteur s’autorise à mobiliser. Par extension, et pour unbon contact pneumatique chaussée, c’est la portion d’adhé-rence que le conducteur s’autorise à mobiliser. La figure 9montre des profils de vitesses obtenus en enregistrant despassages sur la piste de Satory pour différents conducteursainsi que des profils simulés, générés à partir des équationsprécédentes. Ces derniers sont représentés en traits épaisetpointillés et correspondent à des coefficientsλlon et λlat

variant de0.2 à 0.5. Les profils de vitesses réelles sont re-présentés en traits fins.Les profils, ainsi générés, encadrent bien les profils réelsdans les différentes phase du virage : tout d’abord la décé-lération en amont du virage, puis la partie vitesse constante,et pour finir l’accélération en sortie de virage.

Génération d’une alerte au conducteur A partir desprofils générés précédemment, une assistance peut préve-nir le conducteur en cas de vitesse excessive. Pour cela, lesystème calcule à chaque instant la vitesse prédite à un ho-rizon temporel donnée, variant de1s à3s selon les conduc-teurs. Pour prédire la vitesse, nous faisons l’hypothèse quel’accélération est constante sur cette plage de temps. Ainsi,comme le présente la figure 9, lorsque la vitesse préditefranchit un profil de vitesse, une alerte faible, moyenne ouimportante est émise.


relative vitesse

nceInterdista

désirée nceInterdista

Crash

capteurs des Limite

Régulation devitesse

Régulation

TIV

Véhicule trop proche

FIG. 11 – Régulation de temps intervéhiculaire (TIV). Li-mites du contrôle longitudinal

FIG. 12 – Modèle des interdistances et zones d’alerte.

Le suivi de véhicule. Dans le cas du suivi de véhicule,les deux variables importantes sont l’inter-distance et lavi-tesse relative.Dans le cas de l’automatisation du mode longitudinal, l’ob-jectif de la loi de commande est d’asservir la vitesse duvéhicule suiveur sur celle du véhicule leader tout en main-tenant l’interdistance à la valeur désirée qui peut être choi-sie proportionnelle à la vitesse du véhicule ou fonction dela différence des distances d’arrêt. Les méthodes de com-mande seront détaillées dans la partie 5.Dans le cas de l’assistance au contrôle longitudinal, l’ob-jectif de la commande en partage avec le conducteurest de maintenir la trajectoire dans le plan de phase(vitesse relative, interdistance) au dessus de la courbe cor-respondant à la capacité de freinage maximale (figure 11).Dans [15] un modèle de référence des inter-distances a étédéveloppé, il associe un ressort de raideur non linéaire quiinterdit au véhicule de franchir une zone de collision pré-établie (figure 12).La prédiction des positions des véhicules leader et suiveurpermet d’avoir une quantification du risque encouru asso-cié à un système d’alerte [16].De même dans [18], une commande par modes glissantsd’ordre 2, en partage avec le conducteur permet de gérerl’ensemble des situations : d’insertion des véhicule, d’arrêtsur un obstacle et de stop-&-go.

5 La conduite automatiséeDe manière similaire à la section 4, cette section présentedifférents moyens pour réaliser une conduite autonomeque cela soit en configuration véhicule seul, ou véhiculesen convoi. Les outils et méthodes de localisation utiliséspour l’assistance à la conduite, le sont, bien sur, pour laconduite automatisée. Néanmoins, comme nous le verronsdans cette section, des approches originales peuvent êtreapportées dés lors que l’on considère le problème completde localisation/commande.Sur le plan applicatif, les véhicules autonomes peuvent êtreutilisés comme un moyen pour assurer une inter-modalitédans les systèmes de transports urbains et/ou routiers, touten prenant en compte les nuisances sonores et de pollu-

tion, et les pertes de temps. Dans cette section, nous nousconcentrerons plus sur les véhicules urbains. Les servicesde mise à disposition ainsi réalisés concernent :– la desserte : des centres villes (liaisons maison-

Tramway, Tramway-zone commerciale, Tramway-zoneculturelle (théâtre, cinéma, ...)), des centres universi-taires ou d’exposition), des zones d’activités artisanalesou industrielles, des aéroports ...

– la visite : des centres historiques, des parcs d’attraction,des parcs animaliers ...

Selon l’application de suivi de trajectoire, il peut être utileou pas, de laisser libre la commande longitudinale à l’utili-sateur ou à un superviseur. Cet aspect pratique, milite pourles techniques de modélisation permettant d’assurer un dé-couplage entre la commande latérale et la commande lon-gitudinale (i.e. système chaîné).

Les résultats qui sont présentés dans les paragraphesqui suivent, sont en relation avec les projets ROBEA-BODEGA du CNRS et PREDIT3-MOBIVIP. Ces deuxprojets regroupent entre autre, l’IRISA, L’INRIA-Sophia-Antipolis et le LASMEA.

5.1 Le contrôle latéral

Dans les projets précédemment cités, le contrôle latéral ré-sulte d’une mesure d’erreur de localisation relativement àune trajectoire de référence apprise (principalement dansl’espace capteur). Ainsi, lors d’une séquence d’appren-tissage (conduite manuelle) une série d’informations cap-teurs (notion de cartes locales constituées d’images clés)est mémorisée afin de définir une référence (mémoire sen-sorielle). Parmi les méthodes d’apprentissage (cf. Fig. 13),nous pouvons cités :– trajectoire de référence par RTK-GPS (LASMEA)– séquence d’images clés et de primitives visuelles asso-

ciées (Points3D) (LASMEA) [24], [23]– séquence de primitives visuelles des plans principaux re-

construits (INRIA Sophia-Antipolis) [25], [26]– séquence de primitives visuelles (Points de Harris)

(IRISA) [21], [20]

FIG. 13 – IRISA - LASMEA - INRIA-SOPHIA.

Les deux premières approches ont déjà été mises en œuvrepour la navigation autonome [27], [22]. L’erreur de locali-sation consiste à extraire l’écart latéraly à la trajectoire deréférence, et l’écart angulaireθ par rapport à cette mêmetrajectoire.

Le vecteur (s, y, θ) décrit l’état du véhicule (s représentantl’abscisse curviligne le long de cette trajectoire). Le mo-


dèle cinématique s’exprime sous la forme suivante :

s = v cos θ1−y c(s)

y = v sin θ˙θ = v

(

tan δL

−c(s) cos θ

1−y c(s)

)

(1)

Les objectifs de commande sont d’amener et de mainteniry et θ à 0, grace à la commande du volantδ. Par une trans-formation inversible de l’état et de la commande, le modèlenon-linéaire (1) peut être converti de manière exacte, sousforme chaînée assurant un découplage entre la commandelatérale et la commande longitudinale lors du suivi de tra-jectoire [27].

FIG. 14 – Trajectoire de référence vision - Localisation vi-sion et GPS.

La figure 14 représente la trajectoire de référence obte-nue par apprentissage en utilisant les points 3D recons-truits, ainsi que les résultats de localisation (rond) compa-rés avec ceux issus du capteur RTK-GPS (trait fin). Les per-formances obtenues en commande latérale sont de l’ordrede 2 cm en ligne droite et 10 cm en courbe pour le gui-dage par RTK-GPS (cf. Fig 15). Elles se dégradent très peulorsque l’on utilise la vision pour la navigation autonome.Des améliorations sont en cours afin de permettre de ré-duire les erreurs de localisation.

FIG. 15 – Performances : échelon et trajectoire courbe.

Le modèle (1) peut-être étendu pour prendre en comptedes phénomènes de glissements latéraux (lorsque les hy-pothèses de roulement sans glissements ne sont pas parfai-tement vérifiées), et réaliser une commande plus précise.Cet aspect a pu être validé dans le secteur agricole [10].

Les deux autres approches sont en cours d’étude dans le butd’exprimer la commande dans l’image (Rennes), et dansun espace invariant aux paramètres de la camera (Sophia-Antipolis).

5.2 Le contrôle longitudinalDans la plupart des applications de navigation autonomepour les véhicules urbains, il est intéressant de découplerla commande longitudinale de la commande latérale afinde pouvoir réaliser :– une régulation de vitesse longitudinale sur une consigne

fixe (vitesse de croisière) ou adaptée en fonction de lacourbure de la route à suivre ; dans les deux cas, c’est unsuperviseur qui fixe la vitesse de référence afin d’assurerun certain confort pour les passagers,

– une régulation de vitesse longitudinale sur une consignemanuelle de l’utilisateur.

Dans ce contexte, le contrôle longitudinal devient simpleet assimilable à une fonctionalité de type "cruise control".Dans le cas où une distance de sécurité est à garantir, ilest nécessaire d’introduire une fonction de "monitoring",comme nous le verrons dans le paragraphe suivant.

5.3 Le contrôle intégré et en fileDans le cas de la navigation autonome en convoi, il est né-cessaire d’assurer les commandes longitudinale et latérale.Les fonctionalités à réaliser sont : le suivi d’une trajectoirede référence apprise, ou bien le suivi de la trajectoire du"leader" du convoi. Par ailleurs, il est nécessaire de prendreen compte : le confort des passagers, la surveillance de l’in-tégrité et de la sécurité du convoi, et les limites propres desperformances des véhicules à commander.

FIG. 16 – Stratégies de commande.

Plusieurs stratégies peuvent être développées pour assurerle contrôle du convoi (cf. Fig.16) :– stratégie de commande locale (LCS) : basée sur un

contexte local, le convoi est commandé de proche-en-proche.

– stratégie de commande globale (GCS) : basée sur lecontexte global, le convoi est commandé en référenceau leader.

– stratégie de commande mixte (MCS) : prenant encompte les complémentarités des deux méthodes LCSet GCS, une approche mixte peut être élaborée.

Stratégie de commande locale : accrochage immatériel.Dans cette partie deux illustrations sont proposées.Dans [6], c’est le capteur RTK-GPS qui est utilisé. De plus,il existe une liaison sans fil entre les véhicules permettantde transmettre l’état courant du véhicule au véhicule sui-veur. Chaque véhicule, pouvant se localiser par rapport à


FIG. 17 – Contrôle longitudinal avec LCS.

la trajectoire de référence, est guidé latéralement en modeautonome. L’objectif de la commande longitudinale est depréserver une distance curviligne constante entre chaquevoiture et son suiveur. Le schéma sur la figure 17 présentela loi de commande. Nous pouvons noter que l’entrée decette loi est définie par l’erreur entre leièmeet le(i+ 1)me :ei

i+1 = si−si+1−d. Les résultats expérimentaux ont mon-tré une précision de guidage latéral identique à celle de laconduite autonome, et inférieure à 5 cm en guidage longi-tudinal.

Dans [2], un accrochage immatériel est réalisé par l’inter-médiaire d’une caméra PTZ et d’un algorithme de suivi vi-suel robuste [3]. La commande (longitudinale et latérale)réalisée est basée sur une localisation relative de proche enproche. Dans [5], nous avons montré que pour un nombreimportant de véhicules en convoi, cette stratégie propagedes incertitudes de localisation pouvant entraîner des oscil-lations dans le convoi (figure 18).

FIG. 18 – Accrochage immatériel par vision.

Stratégie de commande mixte. Dans le cas d’une ap-proche de commande globale pour la commande longitu-dinale, l’erreur est définie entre le1er et le (i + 1)me par :e1i+1 = (s1 − si+1) − i × d. Il semble donc, intéressantde définir l’entrée de la loi de commande en se basant surles erreurs définies par les deux approches (LCS et GCS).Une consigne adaptée peut être construite de la forme :xi = σi.e

ii+1 + (1 − σi).e

1i+1. La figure 19 illustre le nou-

veau schéma de commande.

FIG. 19 – Commande longitudinale avec MCS.

L’étape suivante consiste à définirσi. Pour cela, nous défi-nissons la distance de sécuritéds comme la distance curvi-ligne minimale qui doit toujours être observée entre 2 vé-hicules. Il s’avère que si l’écart est proche de cette limite,la régulation est mauvaise et la distance de sécurité peut nepas être respectée. Ainsi, l’approche locale de proche-en-proche LCS doit prévaloir sur l’approche référencée abso-lue (σi doit être choisi proche de 0). À l’opposé, cette der-nière doit être prédominante quand la sécurité est assurée(σi choisi proche de 1). De ces commentaires, quandei

i+1

est proche de−d + ds, σi doit être près de 0 ; et quandl’écart est près ded, σi proche de 1.

Enfin, afin de prendre en compte les aspects confort dupassager, intégrité du convoi, et les limites des véhicules,une fonction monitoring a été proposée en agissant direc-tement sur la commande en vitesse longitudinale. Dans lesynoptique de la figure 20,aconf représente une accéléra-tion confort,aurg une décélération d’urgence,ai+1 etvi+1

l’accélération et la vitesse du véhicule courant.

FIG. 20 – Fonction de monitoring.

6 ConclusionNous avons présenté dans cet article un panorama des re-cherches sur les assistance à la conduite et l’automatisationdes véhicules. Les recherches sont nombreuses et les résul-tats obtenus dans différents cas d’application sont très pro-metteurs. Mais les constructeurs automobiles demeurentprudent dans l’introduction de fonctions de sécurité pré-ventive ou interactive car, en plus des problèmes de res-ponsabilité, les aspects de partage et de couplage avec leconducteur sont loin d’être maîtrisés. Des études méthodo-logiques sur la coopération Homme-Machines sont encorenécessaires pour pouvoir affiner ces aspects. L’automati-sation touche de manière concrète les véhicules agricoleset les engins de chantier. L’audace des constructeurs japo-nais et la réglementation dans ce pays ont permis la com-mercialisation de systèmes de maintien de voie et de ges-tion des inter-distances. Quoi qu’il en soit tout laisse pen-ser que l’automatisation des véhicules concernera dans un


premier temps les véhicules urbains à faibles vitesses. Uneapplication à court terme concernerait l’automatisation desvéhicules pendant les périodes de congestion et toujoursà faibles vitesses. Le système devra être dans ce cas suffi-samment flexible pour permettre des enclenchements et desreprises en main rapides. Les fortes contraintes de coûtsdans l’industrie automobile imposera toujours l’utilisationde capteurs peu chers. Il y a donc tout à gagner de la modé-lisation, de la fusion de données et des nouveaux systèmesde localisation et de mapping pour améliorer la qualité del’information.

Références[1] E. Bastiaensen and P. Mengel, PReVENTive and Ac-

tive Safety Applications (PReVENT), MST/MEMSFor Safety and Security -VDI/VDE/IT, 2004.

[2] S. Benhimane, E. Malis, J.R. Azinheira, Vision-basedControl for Car Platooning using Homography De-composition,IEEE-ICRA’05, Barcelonna, 2005.

[3] S. Benhimane, E. Malis, Real-time image-based tra-cking of planes using efficient second-order minimi-zation,IEEE/RSJ-IROS’04, Sendai, 2004.

[4] R. Bishop, Intelligent Vehicles R&D : An Updateon Selected Projects in the U.S. and Europe,JapanAHSRA Consortium, 2003.

[5] J. Bom, B. Thuilot, F. Marmoiton, P. Martinet, A Glo-bal Control Strategy for Urban Vehicles Platooningrelying on Nonlinear Decoupling Laws,IEEE/RSJ-IROS’05, Alberta, 2005.

[6] J. Bom, B. Thuilot, F. Marmoiton, P. Martinet, Non-linear control for urban vehicles platooning relyingupon a unique kinematic GPS,IEEE-ICRA’05, Bar-celonna, 2005.

[7] El Badaoui, M. El Najjar, Ph. Bonnifait, IntelligentVehicle Absolute Localisation using GIS Informa-tion. 16th IFAC World Congress, Prague, 2005.

[8] S. Glaser and V. Aguilera, Vehicle-Infrastructure-Driver Speed Profle : Towards the Next Generationof Curve Warning Systems,Intelligent Transporta-tion Systems and Services, 10th Conf., Madrid, 2003.

[9] D. Koenig and S. Mammar, Design of Proportional-Integral Observer for Unknown Input Descriptor Sys-tems,IEEE Trans. on Aut. Cont., vol 47, pp. 2057-2062, 2002.

[10] R. Lenain, B. Thuilot, C. Cariou, P. Martinet, Mo-del Predictive Control of vehicle in presence of sli-ding : Application to farm vehicles path tracking,IEEE, ICRA’05, Barcelonna, 2005.

[11] E. Malis, Improving vision-based control using ef-ficient second-order minimization techniques,IEEE-ICRA’04, News Orleans, 2004.

[12] S. Mammar and D. Koenig, Vehicle Handling impro-vement by Active Steering,Vehicle System DynamicsJournal, vol 38, No 3, pp. 211-242, 2002.

[13] S. Mammar, T. Raharijaona, S. Glaser, G. Duc, Late-ral driving assistance using robust control and embed-ded driver-vehicle-road model,Vehicle System Dyna-mics, vol 41 Supplement, pp. 311-320, 2004.

[14] S. Mammar, S. Glaser, M. Netto et J.-M. Blosse-ville, Time to line crossing and vehicle dynamics forlane departure avoidance,7th IEEE-ITS, Washington,D.C., 2004.

[15] J.J. Martinez-Molina, C. Canudas de Wit, ModelReference Control Approach for Safe LongitudinalControl,ACC’04, Boston, 2004.

[16] J.J. Martinez-Molina, C. Canudas de Wit, A WarningCollision System based on an Inter-distance Refe-rence Model,16th IFAC W. C., Prague, 2005.

[17] M. Netto, R. Labayrade, S.-S. Ieng, B. Lusetti, J.-M.Blosseville et S. Mammar, Different Modes on Sha-red Lateral Control,10th ITS World Congress, Ma-drid, 2003.

[18] L. Nouvelière, S. Mammar, Experimental longitudi-nal control of vehicle using a second order slidingmode technique,ACC’03, 2003.

[19] T. Raharijaona, G. Duc, S. Mammar, Application dela synthèse LPV à l’assistance au contrôle latéral d’unvéhicule routier,CIFA ’04, Douz, 2004.

[20] A. Remazeilles, F. Chaumette, P. Gros, Contrôle desmouvements d’un robot à l’aide d’une mémoire vi-suelle, RFIA’04, Toulouse, 2004.

[21] A. Remazeilles, Navigation à partir d’une mémoired’images,Thèse de l’Université de Rennes 1, 2004.

[22] E. Royer, J. Bom, M. Dhome, B. Thuilot, M.Lhuillier, F. Marmoiton, Outdoor autonomous navi-gation using monocular vision,IEEE/RSJ IROS’05,Alberta, 2005.

[23] E. Royer, M. Lhuillier, M. Dhome, T. Chateau, Lo-calization in urban environments : monocular vi-sion compared to a differential GPS sensor, textitCV-PR’05, San Diego, 2005.

[24] E. Royer, M. Lhuillier, M. Dhome, T. Chateau, To-wards an alternative GPS sensor in dense urban en-vironment from visual memory,Proceedings of the15th British Machine Vision Conference, BMVC’04,London, 2004.

[25] N. Simond, P. Rives, Homography from a VanishingPoint in Urban Scenes,IEEE/RSJ-IROS’03, Las Ve-gas, 2003.

[26] N. Simond, P. Rives, Détection robuste du plan de laroute en milieu urbain, RFIA’04, Toulouse, 2004.

[27] B. Thuilot, J. Bom, F. Marmoiton, P. Martinet, Ac-curate automatic guidance of an urban electric ve-hicle relying on a kinematic GPS sensor,Fifth IFAC-IAV’04, Lisbon, 2004.

[28] S. Tsugawa, Cooperative Driving with Autono-mous Vehicles and Inter-Vehicle Communicationsand Demo 2000, Intelligent Vehicles, Tokyo, 2001.


LA DERIVATION NON ENTIERE EN ISOLATION VIBRATOIRE : APPLICATION AU CONTROLE GLOBAL

DE LA SUSPENSION DE VEHICULE

Xavier MOREAU, Pascal SERRIER et Alain OUSTALOUP

Equipe CRONE - LAPS - UMR 5131 CNRS - ENSEIRB - Université Bordeaux 1 351, cours de la Libération - 33 405 - Talence Cedex - FRANCE

Tel. 33 (0) 540 002 417 - Fax. 33 (0) 540 006 644 - E-mail : [email protected]

1 – Généralisation de l’ordre de dérivation 1.1 – Intégration non entière Résumé 1.1.1 - Définition Si le concept et le formalisme mathématique de la

dérivation non entière (réelle ou complexe) sont issus des travaux de mathématiciens célèbres tels que Laplace, Liouville, Abel, Riemann et Cauchy, remontant ainsi au début du XIXème siècle, sa synthèse et ses applications dans les sciences physiques et les sciences pour l'ingénieur relèvent des contributions scientifiques de la seconde moitié du XXème siècle et du début du XXIème siècle [Dug 94].

Inspirée de la formule de Cauchy, la définition de Rie-mann-Liouville de l'intégrale d'ordre m d’une fonction f(t), notée Imf(t) avec m > 0, a été établie au XIXème siè-cle sous la forme :

( )( ) ( )

( ) τττ

dftm

tfIt

t mmt

Γ1

10

0 ∫ −

∆

−= , (1)

avec t > t0, R0 ∈t , et où Γ(m) est la fonction Gamma définie par :

+∈ RmLes travaux qui font l'objet de cet article s'inscrivent dans le cadre de ces contributions scientifiques, le contexte d'étude étant plus particulièrement celui de la dérivation non entière en isolation vibratoire et ses ap-plications dans le secteur de l’automobile. Plus précisé-ment, après une introduction générale pour situer le contexte, la deuxième partie est d’abord consacrée aux définitions et aux interprétations de la dérivation non entière, puis à la synthèse d’un dérivateur d’ordre non entier borné en fréquence. La troisième partie traite plus particulièrement de la dérivation non entière en isolation vibratoire. Le schéma fonctionnel établi à partir des équations d’un modèle à un degré de liberté met en évi-dence qu’une suspension joue le même rôle que le ré-gulateur d’une boucle de commande. Ainsi, compte tenu de ce constat, la conception d’une suspension peut être développée en utilisant les méthodes de synthèse des commandes robustes comme par exemple la commande CRONE et ses trois générations qui ont donné lieu à la suspension CRONE. Enfin, la dernière partie est consa-crée au Contrôle Global de la Suspension (CGS) d’un véhicule où l’objectif est de réguler les trois degrés de liberté de la caisse (Pompage, Tangage et Roulis : PTR) autour de la position d’équilibre statique (PTR = 0 : ob-jectif de confort des passagers) ainsi que la Répartition Anti-Devers (RAD : objectif de correction de la trajec-toire du véhicule par action sur la suspension). Cette stratégie s’inscrit dans un cadre plus large, à savoir le Contrôle Globale du Châssis (CGC) où l’objectif est de coordonner les actions des organes des différentes fonc-tions du châssis (direction, freinage et suspension) afin d’augmenter la sécurité active du véhicule.

. (2) ( ) Γ

0 1∫

∞ −−∆= dxxem mx

1.1.2 – Interprétation

Dans le cadre d’une approche système où u(t) désigne l’entrée et y(t) la sortie, l’intégrale d’ordre m de u(t), notée y(t) = Imu(t), soit :

( )( ) ( )

( ) τττ

dutm

tyt

t m Γ

1

10

∫ −

∆

−= , (3)

peut être interprétée comme le produit de convolution entre la réponse impulsionnelle h(t) du système et son entrée u(t), soit :

. (4) ( ) ( ) ( ) ( ) ( )tuthduthtyt

*

0 =−= ∫

∆τττ

La transformée de Laplace H(s) qui n’est autre que la fonction de transfert du système est donnée par :

( ) ( ) ( ) ( ) mm stm

TLthTLsH 1Γ

11 =

== − . (5)

La figure 1 présente les réponses fréquentielles et im-pulsionnelles de l’intégrateur généralisé pour des ordres compris entre 0 et 2. 1.2 – Dérivation non entière

1.2.1 – Définition

La définition de Riemann-Liouville de l'intégrale d'or-dre m d’une fonction f(t), notée Imf(t) avec m > 0, éten-due à des ordres négatifs, soit :

( ) (tfDtfI mt

mt 00

=− ) , (6) est en générale divergente. La manière la plus simple pour définir une dérivée d’ordre m > 0 (intégrale



d’ordre négatif) consiste à dériver à l’ordre entier n, avec n = Ent[m] + 1, l’intégrale d’ordre n-m > 0, soit :

10-1

100

101

-40

-20

0

20

40

Gai

n (d

B)

-180

-135

-90

-45

0

45

90

135

180

frequency ω /ω d

Phas

e (

deg

)

10-1

100

101

1.5 1 0.5 0 -0.5-1 -1.5

( ) ( )( )

( ) ( )tfDdtdtfDtfD mn

t

nnnm

tmt

−−∆

+−∆

==

000 , (7)

( ) ( )ou encore, sachant que ( ) ( )tfItfD mnt

mnt

−−− =00

,

( )( )

( ) ( ) ( ) ( ) τττ

dftmndt

dtfDt

t mn

nmt ∫ −−

∆

−−

=

10

0 Γ1 , (8)

où n = Ent[m] + 1. A titre d’exemple : Figure 2 – Diagrammes de Bode d’un dérivateur généralisé

( )( )

( )tfIdtdtfD tt

25.01

75.000

=

∆ . (9)

1.2.3 – Dérivateur généralisé borné en fréquence

Aussi bien dans le cadre de la caractérisation que dans celui de la synthèse de comportements d’ordre non en-tier, ces derniers se situent souvent sur un intervalle fré-quentiel borné. Ainsi, une troncature à la fois du côté des basses et des hautes fréquences consiste à limiter à un intervalle fréquentiel le transfert de différentiation (s/ωd)m, ce qui revient à lui substituer le transfert de dif-férentiation borné en fréquence : 10

-210

-110

010

110

2

-50

0

50

Gai

n (d

B)

10-2

10-1

100

101

102

-180

-135

-90

-45

0

Frequency (rad/s)

Pha

se (

deg)

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

0.5

1

1.5

2

2.5

3

3.5

4

4.5

5

Time (s)

y(t)

0.25

0.5

0.75

1

1.25

1.5

1.75

2

m

h

bs

s

DsD

+

+=

ω

ω

1

1)( 0 , (11)

avec ( ) ( ) ℜ∈== 0021 ,/ DDet m

dbdhb ωωωωω . (12) La figure 3 présente les diagrammes asymptotiques de Bode d’un dérivateur généralisé borné en fréquence.

10-1

100

101

-40

-20

0

20

40

Gai

n (d

B)

-180

-135-90

-45

0

45

90

135180

frequency ω /ω d

Phas

e (

deg

.)

m = -1.5

m = 1.5

ωb ωh

10-1

100

101

Figure 3 – Diagrammes asymptotiques de Bode d’un dériva-

teur généralisé borné en fréquence pour m = 1.5 et - 1.5 Figure 1 - Réponses fréquentielles et impulsionnelles de l’intégrateur généralisé pour des ordres compris entre 0 et 2

1.2.4 – Synthèse fondée sur la récursivité fréquentielle d’un dérivateur généralisé borné en fréquence

1.2.2 – Dérivateur généralisé

La synthèse repose sur une distribution récursive de N zéros et pôles réels, soit [Ous 96]:

Dans le cadre d’une approche systémique, un dérivateur généralisé est défini par un transfert de la forme

)(lim)( sDsD NN ∞→= , (13)

( )m

d

ssD

=∆

ω , (10)

avec ∏=

+

+=

N

i

i

iN s

s

DsD0

'

01

1)(

ω

ω , (14) où et ωRm ∈ d est appelée fréquence transitionnelle. Ainsi, pour des ordres strictement positifs la relation (10) définit un dérivateur d’ordre non entier et pour des ordres strictement négatifs un intégrateur d’ordre non entier. où les relations de passage entre les paramètres de la

forme idéale D(s) et ceux de la forme réelle DN(s) sont données par : La figure 2 présente les diagrammes de Bode d’un déri-

vateur généralisé.


2 – La dérivation non entière en isolation vibratoire

( ) ( )

.11'

'11

'1

,1'

,1,'1

,,1,

1

>=+=+>+

>===

=−=

=

αηω

ω

ω

ωη

ω

ω

αω

ωω

ηωωηω

ηααηαηω

ωηα

i

i

i

ieti

i

i

ihNb

mmN

b

h

(15)

2.1 – Principe de l’isolation vibratoire

Lors d’une étude de principe, un modèle à un degré de liberté est très souvent utilisé car sa simplicité permet de formaliser facilement l'objectif et la problématique de l'isolation vibratoire (Figure 6). Ce modèle est constitué d’une masse suspendue M (modélisant les effets inertiels du dispositif à isoler supposé indéformable) et d’une suspension dont la loi de comportement est plus ou moins complexe selon la solution (active, pilotée ou passive). z1(t) représente le déplacement vertical de la masse suspendue défini par rapport à la position d’équilibre statique et z10(t) = z1(t) – z0(t) le débattement de la suspension. Les sources de vibrations, quant à elles, ont principalement deux origines : les déplacements z0(t) du support ou de la fondation qui résultent de l’environnement vibratoire dans lequel le dispositif est placé et/ou les efforts f0(t) générés par le dispositif lui-même. L’exemple d’un moteur thermique d’un véhicule est significatif de cette configuration puisque le moteur est une source de vibrations fonctionnant lui-même dans un environnement vibratoire qui est le résultat d’une combinaison des irrégularités du sol et de la vitesse d’avancement du véhicule [Mit 88].

La figure 4 présente les diagrammes de Bode de la forme idéale d’un dérivateur généralisé borné en fré-quence ainsi que ceux de la forme réelle correspon-dante.

Figure 4 – Diagrammes de Bode de la forme idéale d’un déri-vateur généralisé borné en fréquence ainsi que ceux de la

forme réelle correspondante

Dispositif à isoler

Dispositif de

suspension

Support

f0(t) z1(t)

z0(t)

M

1.2.5 – Réalisation technologique d’un dérivateur gé-néralisé borné en fréquence

Quelle que soit la technologie retenue (électrique, mé-canique, hydropneumatique,…), une des solutions tech-nologiques envisageables est l’utilisation d’arrangements de cellules résistives et capacitives (cellules RC). Par exemple, dans le cadre de l’isolation vibratoire, l’utilisation de la technologie hydropneuma-tique conduit principalement à deux arrangements (fi-gure 5) :

Figure 6 - Modèle général à 1 degré de liberté

- un arrangement parallèle de cellules RC en série ; Un certain nombre de travaux [Ram 01] ont montré, à partir d’un modèle à un degré de liberté (Figure 6), qu’une suspension développant une force u(t) fonction de son débattement , soit )(10 tz

- un arrangement en cascade de cellules RC en gamma.

C 0

C 1

C 2

C i

C N

R

R1

R2

Ri

N

Arrangement parallèlede cellules RC en série

C 0

C 1

C 2

C i

C N

R1

R2

R i

RN

Arrangement en cascadede cellules RC en gamma

)()()( 10 sZsCsU −= , (16) où C(s) désigne la fonction de transfert force–débatte-ment de la suspension, réalise naturellement une régula-tion du débattement autour de la position d’équilibre statique. En effet, l’application du principe fondamental de la dynamique conduit à une équation différentielle de la forme : )()()( 01 tutftzM +=&& . (17) Sous l’hypothèse de conditions initiales nulles, la transformée de Laplace de l’équation (17) s’écrit, en tenant compte de la relation (16) : Figure 5 – Réseaux hydropneumatiques pour la réalisation

d’un dérivateur généralisé borné en fréquence , (18) )()()()( 10012 sZsCsFsZsM −=

d’où l’on tire l’expression de Z1(s), soit :


2.4 – Exemple d’illustration [ )()()(1)( 10021 sZsCsF

sMsZ −= ] . (19)

L’exemple d’illustration est un banc hydraulique qui permet d’étudier le régime libre d’une masse M reliée mécaniquement à un vérin hydraulique simple effet (Figure 8). La masse minimale de 75 kg peut être augmentée grâce à la présence de masses additionnelles sous forme de disques en fonte. Ainsi, M peut varier de 75 à 150 kg.

L’expression du débattement est alors définie par :

)()()( 0110 sZsZsZ −=

[ )()()()(1)( 0100210 sZsZsCsFsM

sZ −−= ] , (20)

expression de la forme : , (21) [ ] )()()()()()( 010010 sZsZsCsFsGsZ −−=

160 bar

accumulateurpompe

limiteurde pression

réservoir

M

Vérin simple effet

Distributeur3/2

Distributeurproportionnel

Capteur de position

(LVDT)

z0(t)

z1(t) f0(t)

q(t)

i(t)

C0 C1 C2 C3 C5C4

C0 C1

R1 R2 R3 R5R4

R1

en posant 21)(sM

sG = . (22)

La figure 7 présente le schéma fonctionnel associé à la relation (21).

Z10(s) C(s) G(s) U(s)

Z0(s)

Z1(s)

+ + -+

-

F0(s)

Figure 8 – Schéma hydraulique du banc d’essai permettant d’étudier le régime libre d’une masse suspendue M pour des

valeurs comprises entre 75 et 150 kg Figure 7 - Schéma fonctionnel du modèle à 1ddl présenté figure 6 Ce vérin de suspension est connecté à un circuit

hydraulique composé de deux parties. La première est constituée d’un groupe électropompe équipé d’un conjoncteur-dijoncteur et d’un distributeur proportion-nel. Son rôle est de maintenir à une hauteur constante la masse M quelle que soit sa valeur et ce grâce à la présence d’une boucle de régulation. La seconde comporte un distributeur 3/2 (3 orifices, 2 positions) permettant de sélectionner soit un arrangement parallèle de deux cellules dont une RC (N = 1 pour une suspension traditionnelle hydropneumatique), soit un arrangement parallèle de six cellules dont cinq RC (N = 5 pour la suspension CRONE hydropneumatique).

2.2 – Méthode originale de conception d’une suspen-sion

Le schéma fonctionnel de la figure 7 montre clairement que la suspension a le même rôle que le régulateur C(s) d’une boucle de commande. Les sollicitations en déplacement z0(t) et en effort f0(t) apparaissent comme des perturbations, respectivement en sortie et en entrée du procédé G(s) qui se résume dans cette approche monovariable à un double intégrateur dont la fréquence transitionnelle dépend de la masse suspendue. La fonction de transfert en boucle ouverte β(s) a alors pour expression : )()()( sGsCs =β . (23) Le schéma de commande associé au dispositif

expérimental est présenté figure 9. La boucle externe qui régule la position d’équilibre statique à une valeur égale à la moitié de la course du vérin de suspension, présente une rapidité identique à celle du régulateur de hauteur d’une suspension hydropneumatique, rapidité caractérisée par une fréquence au gain unité en boucle ouverte de 0.1 rad/s. Quant à la boucle interne déjà présentée au paragraphe 2.1, elle présente une rapidité identique à celle du mode de pompage de la masse suspendue d’un véhicule de tourisme équipé d’une suspension hydropneumatique, rapidité caractérisée par une fréquence au gain unité en boucle ouverte de 6 rad/s. Ces deux boucles sont donc dynamiquement découplées, c’est la raison pour laquelle seule la boucle interne est étudiée dans la suite de ce document.

Ainsi, la démarche de conception du dispositif de sus-pension peut exploiter les outils et les méthodes moder-nes d’analyse et de synthèse développés en commande robuste, en particulier en commande CRONE.

2.3 – Commande CRONE et suspension CRONE

L’utilisation de la méthode de synthèse de la commande CRONE pour concevoir une suspension, appelée alors suspension CRONE, conduit à une expression du trans-fert force-débattement C(s) qui n’est autre que celle du transfert D(s) d’un dérivateur d’ordre non entier borné en fréquence [Ous 95], soit :

m

h

bs

s

DsDsC

+

+==

ω

ω

1

1)()( 0 , (24)

sSv

1εh(s) Q(s) U(s) Z1(s)

Z0(s) = 0

Z10(s)+

F0(s)

+

-- +

-Uh(s)Référencede hauteur +

( )sH D( )sR

+

Bruit de mesure

Régulateurde hauteur

Distributeurproportionnel

capteur

vérin Masse suspendue

2

1sM

( )sHc

I (s)

Amplitension-courant

Traditionnel

AK

D5(s)

D1(s)

Distributeur3/2

CRONE

où D0 désigne le gain statique, m l’ordre de dérivation compris entre 0 et 1, ωb et ωh les fréquences transition-nelles basse et haute. D0, m, ωb et ωh constituent dans l’approche CRONE les paramètres de synthèse de haut niveau. Le lecteur intéressé trouvera dans [Ram 01] tous les détails de la méthode de synthèse de la suspension CRONE.

Figure 9 – Schéma de commande associé au dispositif

expérimental présenté figure 8


En remplaçant dans la relation (25) Pe(s) par son expression (30) et Qe(s) par son expression (31), on obtient l’expression du transfert force-débattement DN(s), soit :

2.4.1 – Relations entre les paramètres physiques et la distribution récursive de pôles et de zéros

L’impédance hydraulique d’entrée de chacun des arrangements parallèles est caractérisée par une expression de la forme :

∑= +

+

= N

ii

i

e

e

sCR

sCsQsP

10 1

11

)()( , (25)

( )∑

= ++

== N

ii

i

v

e

evN

sCR

sC

sSsQsPsSsD

10

22

11)(

)( , (32)

ou encore, en divisant le dénominateur par , sSv2

où Pe(s) et Qe(s) désignent la pression et le débit à l’entrée de l’arrangement, Ri et Ci la résistance et la capacité de la cellule de rang i, capacité dont l’expression est obtenue en linéarisant la caractéristique pression-volume de l’accumulateur autour d’un point d’équilibre défini par la pression statique Ps et le volume Vsi occupé par le gaz, soit :

( )∑

= ++

= N

i

i

vvi

v

N

CSsSRS

CsD

12

220 1

1 , (33)

expression de la forme

si

s

VsiVPsPi V

PVP

Cγ=

∂∂

−===

1 , (26) ( )

∑= +

+

= N

i ii

N

ksbk

sD

10

111 , (34)

γ étant le coefficient thermodynamique qui caractérise la transformation du gaz (γ = 1 pour une transformation isotherme, γ = 1.4 pour une transformation adiabatique). Sachant que le produit entre la pression et le volume de gaz est constant (PV = cste), le volume Vsi peut être exprimé en fonction de la pression de gonflage P0i et du volume V0i de l’accumulateur de rang i (volume initial occupé par le gaz avant montage), soit :

en posant ivii

vi

v RSbetCSk

CSk 2

2

0

2

0 , === . (35)

k0 et ki sont homogènes à des raideurs exprimées en N/m et bi à un coefficient de frottement visqueux exprimé en Ns/m, d’où le schéma mécanique présenté figure 10 équivalent à l’arrangement hydraulique.

is

isi V

PPV 0

0= , (27)

k 0k 1 k 2 k 3 k 5

b 1 b 2 b 3 b 5

k 4

b 4

d’où l’expression de la capacité Ci :

200

s

iii P

VPCγ

= . (28) Figure 10 – Schéma mécanique équivalent à l’arrangement

hydraulique La résistance Ri, quant à elle, est dimensionnée pour que l’écoulement soit laminaire, d’où son expression :

Finalement, DN(s) peut se mettre sous la forme : 4

128

Ri

Rii d

lR µπ

= , (29) ( )

∑= +

+

= N

i zi

iN

sb

k

sD

10

/111

ω

, (36)

où µ représente la viscosité dynamique du fluide hydraulique, lRi et dRi respectivement la longueur et le diamètre de la résistance. en posant Les deux expressions (28) et (29) définissent les relations entre les paramètres physiques hydro-pneumatiques et les paramètres technologiques.

iizi bk /=ω . (37) Afin d’établir les relations entre les paramètres mécaniques ki et bi (ou hydropneumatiques Ci et Ri) et la distribution récursive des fréquences transitionnelles ωi et ωi

’, l’inverse de la relation (34), soit : Par ailleurs, la pression Pe(s) à l’entrée de l’arrangement n’est autre que la pression dans le vérin (si les pertes de charges dans la canalisation de raccordement et dans le distributeur 3/2 sont négligeables). C’est la raison pour laquelle la pression Pe(s) est liée à l’effort U(s) développé par le vérin sur la masse M par une relation de la forme :

( ) ∑=

−

++=

N

i zi

iN s

bk

sD10

1 /11ω

, (38)

v

e SsUsP )()( = , (30)

est interprété comme étant la décomposition en éléments simples de l’inverse de la relation (14), soit :

∑∏∏===

−

++=

+

+=

N

i i

iN

i i

iN

i

i

iN s

ADs

s

DsD

1'

1

'

01'

0

1 1

1

11)(

ωωω

ω

ω , (39) où Sv désigne la section du vérin. De plus, en dehors des phases de fonctionnement du correcteur de hauteur, le débit Qe(s) à l’entrée de l’arrangement est lié au débattement Z10(s) du vérin par une relation de la forme : . (31) )()( 10 sZsSsQ ve =


avec ( )

( )

−

−

=

∏

∏∏

≠=

=

=N

ill

il

N

lilN

l l

li D

A

1

'

1

'

1

'

0

1

ωω

ωω

ωω . (40)

L’identification membre à membre des relations (38) et (39) permet de déterminer les paramètres mécaniques k0, bi et ki, soit :

iiii

N

ii

i

i bketA

bDk '

1'00

1, ωωω

=== ∏=

, (41)

ainsi que les paramètres hydropneumatiques C0, Ri et Ci, soit compte tenu des relations (35) :

2

2

0

2

0 ,v

ii

i

vi

v

SbRet

kSC

kSC === . (42)

Enfin, les paramètres technologiques tels que la pression de gonflage P0i et le volume V0i de chaque accumulateur, le diamètre dRi et la longueur lRi de chaque résistance, sont déduits des relations (28) et (29) en prenant en compte les contraintes technologiques associées à chaque composant.

2.4.2 – Performances

Remarque importante

La pression statique Ps dont dépend chacune des capacités (relation (28)) peut s’exprimer en fonction du poids Mg et de la section Sv du vérin, soit :

v

s SgM

P = . (43)

En remplaçant dans la relation (28) Ps par son expression (43), on constate que les capacités Ci, et donc les raideurs ki, dépendent notamment du carré de la masse suspendue M, soit :

( )

( )ii

iiiv

i VPMgket

MgVPSC

00

2

200

2γ

γ== . (44)

Ainsi, les variations ou incertitudes de la masse suspendue M affectent, non seulement le procédé G(s), mais aussi la forme réelle DN(s) du régulateur compte tenu des relations entre les paramètres physiques et les paramètres de DN(s). Ce résultat conduit à une problématique nouvelle en matière de commande dans la mesure où les incertitudes du régulateur sont toujours considérées comme négligeables devant celles du procédé, problématique renforcée dans ce cas particulier lié à la technologie hydropneumatique par le couplage entre les incertitudes du procédé et celles du régulateur. Le lecteur intéressé trouvera dans [Ser 04] les détails de la méthode développée pour la prise en compte des particularités liées à la technologie hydropneumatique lors de la synthèse d’un dérivateur d’ordre non entier borné en fréquence. Il est notamment démontré que les paramètres récursifs α et η sont indépendants des variations de la masse M. Ainsi le comportement asymptotique d’ordre non entier de DN(jω), caractérisé pour le diagramme de gain par une pente de m20dB/dec et pour le diagramme de phase par un blocage de phase

de mπ/2, n’est pas modifié ; seule la plage fréquentielle où ce comportement asymptotique existe est translatée vers les hautes fréquences quand la masse augmente (et réciproquement vers les basses fréquences quand elle diminue). De plus, il est démontré que la fréquence au gain unité en boucle ouverte reste insensible aux variations de M. Ces deux résultats se traduisent alors sur la dynamique en boucle fermée, non seulement par la robustesse du degré de stabilité (propriété intrinsèque à l’approche CRONE), mais aussi par la robustesse de la rapidité (propriété intrinsèque à la technologie hydropneumatique). Les performances présentées dans la suite de ce paragraphe illustrent ces propriétés remarquables.

A partir des spécifications [Serrier, 04], à savoir :

- pour la rapidité, une fréquence au gain unité en boucle ouverte ωu de 6 rad/s ;

- pour le degré de stabilité, une marge de phase MΦ de 45° ;

- pour les incertitudes, , [ ]kgkgM 150;75∈les quatre paramètres de synthèse de haut niveau de la forme idéale D(s) pour le chargement minimal M = 75 kg sont calculés conformément aux relations définies dans [Ous 95], soit :

. (45) mNDetsrad

sradm

h

b

/349/90,/1.0,5.0

0 ====

ωω

Ensuite, grâce aux relations entre les quatre paramètres de synthèse de haut niveau et les 2N paramètres de la forme réelle, les fréquences transitionnelles de la distribution récursive sont calculées toujours pour le chargement minimal avec N = 5, soit :

./05.65,/440.32

,/432.16,/3265.8

,/215.4,/1350.2

,/081.1,/5477.0

,/2774.0,/1405.0

,975.1

5'5

4'4

3'3

2'2

1'1

sradsrad

sradsrad

sradsrad

sradsrad

sradsrad

==

==

==

==

==

==

ωω

ωω

ωω

ωω

ωω

ηα

(46)

Puis, compte tenu des relations (41) issues de la décomposition en éléments simples, les paramètres physiques sont calculés, soit :

(47)

./547,/74917,/919,/6497,/7241,/6813,/1443,/7221,/1114,/578

,/46810

55

44

33

22

11

0

mNsbmNkmNsbmNkmNsbmNkmNsbmNkmNsbmNk

mNk

==========

=

Enfin, sachant que la section Sv du vérin étant de 3.14 cm2, les paramètres technologiques sont déduits à partir des relations (28) et (29), soit : - pour les accumulateurs (choix dans un catalogue fournisseur pour les volumes V0i):


(48)

,75,5

,75,10

,100,15

,400,8

,750,13

,75,7

30505

30404

30303

30202

30101

30000

cmVbarP

cmVbarP

cmVbarP

cmVbarP

cmVbarP

cmVbarP

==

==

==

==

==

==

- pour les résistances :

.5.15,5.4,25.16,4,87.17,5.3

,6.17,3,23,3

55

44

33

22

11

mmlmmdmmlmmdmmlmmd

mmlmmdmmlmmd

RR

RR

RR

RR

RR

==========

(49)

Dans le cadre d’une étude comparative, les paramètres de l’arrangement à deux cellules (dont une RC, soit N = 1 pour la suspension traditionnelle) sont calculés à partir des mêmes spécifications que précédemment. Ainsi, pour la masse minimale de 75 kg, les deux systèmes présentent la même dynamique. Dans la mesure où N = 1, l’expression du transfert D1(s) se résume à celui d’un régulateur à avance de phase, soit :

+

+=

2

101

1

1)(

ω

ωs

s

DsD , (50) 10

avec ω1 < ω2. Les trois paramètres ω1, ω2 et D0 sont déterminés conformément à la méthode classique de calcul d’un régulateur à avance de phase dans l’espace des fréquences, soit pour le chargement minimal :

. (51) mNDet

sradsrad/1118

/5.14,/485.2

0

21

=== ωω

De la même manière que précédemment, on en déduit : - les paramètres physiques, soit :

(52) ./543,/3501

,/5186

11

0

mNsbmNkmNk

===

- les paramètres technologiques, soit :

(53) .45.23,5

,400,5.10

,75,5.11

11

30101

30000

mmlmmdcmVbarP

cmVbarP

RR ====

==

Mag

nit

Les figures 11 à 13 présentent les réponses fréquentielles obtenues avec la suspension traditionnelle et la suspension CRONE pour les deux valeurs extrêmes de la masse suspendue M (en bleu M = 75 kg, en vert M = 150 kg). L’observation des diagrammes de Bode (Figure 11) des transferts D1(s) et D5(s) met en évidence l’influence d’une augmentation de la masse M sur chacun des ces transferts. En effet, dans les deux cas, le gain statique D0 augmente et les fréquences transitionnelles translatent vers les hautes fréquences sans que le maximum d’avance de phase ne soit modifié. Ainsi, la

longueur du gabarit fréquentiel qui caractérise la commande CRONE de deuxième génération [Ous 95] est dimensionnée pour que la fréquence au gain unité en boucle ouverte ωu appartienne à ce comportement asymptotique d’ordre non entier quelles que soient les valeurs de la masse M comprises entre 75 et 150 kg. Ce résultat est illustré par les diagrammes de Bode (Figure 12) et les lieux de Black-Nichols (Figure 13) de la boucle ouverte dans le cas de la suspension CRONE. De plus, au voisinage de ωu (diagrammes de gain Figure 12) pour les deux valeurs extrêmes de M, on observe que les variations de gain du régulateur (la suspension) sont compensées par les variations de gain du procédé, d’où une fréquence au gain unité en boucle ouverte ωu insensible aux variations de M. Ainsi, l’insensibilité de ωu assure la robustesse de la rapidité (propriété intrinsèque à la technologie hydropneumatique) et la constance de la marge de phase MΦ assure la robustesse du degré de stabilité (propriété intrinsèque à l’approche CRONE) vis-à-vis des variations de la masse M. Ces propriétés sont illustrées figure 14 où sont représentées les réponses temporelles obtenues avec la suspension traditionnelle (a) et la suspension CRONE (b) pour les deux valeurs extrêmes de la masse suspendue M (en bleu M = 75 kg, en vert M = 150 kg).

Frequency (rad/sec)

Phas

e (d

eg);

Mag

nitu

de (d

B)

50

60

70

80

90

0

10-2 10-1 100 101 102 103 1040

15

30

45

60

75

90

(a)

Frequency (rad/sec)

Phas

e (d

eg);

ude

(dB

)

50

60

70

80

90

100

10-2 10-1 100 101 102 103 1040

15

30

45

60

75

90

(b)

Figure 11 – Diagrammes de Bode de D1(jω) (a) et D5(jω) (b) pour M = 75 kg (en bleu) et M = 150 kg (en vert)


Frequency (rad/sec)

Phas

e (d

eg);

Mag

nitu

de (d

B)

-100

-50

0

50

100

10-2 10-1 100 101 102 103 104-180

-160

-140

-120

-100

(a)

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Time (s)

Am

plitu

de (d

m)

(a)

Frequency (rad/sec)

Phas

e (d

eg);

Mag

nitu

de (d

B)

-100

-50

0

50

100

10-2 10-1 100 101 102 103 104-180

-165

-150

-135

-120

-105

-90

(b) 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5

-0.6

-0.4

-0.2

0

0.2

0.4

0.6

0.8

1

Time (s)

Am

plitu

de (d

m)

(b)

Figure 14 – Réponses temporelles obtenues avec les suspen-sions traditionnelle (a) et CRONE (b) Figure 12 – Diagrammes de Bode de β(jω) avec D1(jω) (a) et

D5(jω) (b) pour M = 75 kg (en bleu) et M = 150 kg (en vert) pour M = 75 kg (en bleu) et M = 150 kg (en vert) 3 - La suspension de véhicule automobile : élément de confort et de tenue de route

Open-Loop Phase (deg)

Ope

n-L

oop

Gai

n (d

B)

-270 -225 -180 -135 -90 -45 0-100

-80

-60

-40

-20

0

20

40

60

80

100

0 dB1 dB

3 dB6 dB

(a)

Open-Loop Phase (deg)

Ope

n-L

oop

Gai

n (d

B)

-270 -225 -180 -135 -90 -45 0-100

-80

-60

-40

-20

0

20

40

60

80

100

0 dB1 dB

3 dB6 dB

(b)

3.1 - Origines de l’inconfort

Le confort de l'occupant d'un véhicule résulte de la combinaison de plusieurs facteurs caractérisant l'environnement physique dans l'habitacle (bruit, dimensions, température, vibrations, etc) [Ver 88]. L'effet de ces facteurs sur chaque individu dépend des caractéristiques propres de ce dernier tant au plan physique (anthropométrie, capacités sensorielles et fonctionnelles) que socioculturel (tolérance, motivation). Cependant, si l'inconfort a des origines diverses et complexes, l'étude du comportement dynamique du corps humain permet de définir les performances que doit présenter une suspension en matière de confort. En effet, le corps humain est constitué d'un certain nombre de masses, réunies par des tissus élastiques et amortissants, qui peuvent être sollicités par les vibrations du véhicule [Mit 88] et entrer en résonance [Bon 88]. Le transfert entre le thorax et le bassin présente une première résonance dans la bande de 3 à 5 Hz et une deuxième, moins prononcée, vers 8-10 Hz. La tête possède aussi deux modes de vibration privilégiés dont le plus important se situe dans la zone de 4 à 6 Hz et l'autre vers 20 à 30 Hz. Les fréquences de résonance des masses corporelles internes, les reins, les viscères etc, se situent également dans la bande de fréquences de 4 à 8 Hz. C'est la raison pour laquelle un sujet assis sur un siège présente un maximum de sensibilité entre 4 et 8

Figure 13 – Lieux de Nichols de β(jω) avec D1(jω) (a) et D5(jω) (b) pour M = 75 kg (en bleu) et M = 150 kg (en vert)


Hz selon la direction verticale. A cette bande de fréquences de grande sensibilité du corps humain s'ajoute un intervalle de 0 à 0.8 Hz où un sujet assis sur un siège excité par la base peut être sujet à la cinétose appelée plus familièrement mal de mer. Il existe toutefois une dispersion entre les comportements dynamiques des individus [Don 88]. Cette dispersion est non seulement due aux différences de morphologies mais aussi aux attitudes plus ou moins détendues et des postures qu'ils adoptent sur le siège. La posture du sujet joue un rôle particulièrement important quant à la réponse dynamique du corps humain.

3.2 - La tenue de route

La tenue de route peut être définie comme l'aptitude que possède un véhicule à suivre plus ou moins facilement la trajectoire imposée par son conducteur. Elle dépend essentiellement : - de la position du centre de gravité du véhicule ; - de la position du centre de poussée ; - de la direction et de la géométrie des trains avant et arrière ; - des suspensions ; - de l'adhérence des pneumatiques en fonction de l’état de la route [Dah 79], [Dod 73]. Le pneumatique représente le seul et unique lien du véhicule avec le sol. Il doit supporter la charge du véhicule, transmettre les forces motrices, maintenir la stabilité de la trajectoire, assurer le freinage en adhérant à la route et être un élément de suspension. Des travaux ont montré qu'en première approche l'adhérence est proportionnelle à la force de contact du pneumatique sur le sol [Mic 89]. Cette force de contact varie autour d'une valeur moyenne qui correspond à la répartition statique de la masse du véhicule. Un bilan des forces agissant sur l'axe de la roue montre l'influence, non seulement du pneumatique, mais aussi de la suspension sur la variation de la force de contact [Hro 88].

3.3 - Fonction d’une suspension de véhicule

La conception d'une suspension de véhicule nécessite donc la prise en compte de deux phénomènes : - le confort, lié à la physiologie du corps humain ; - la tenue de route, caractérisée par l'aptitude que possède le véhicule à suivre une trajectoire imposée par son conducteur. La fonction de la suspension est alors d'assurer une bonne isolation vibratoire de l'habitacle vis-à-vis des sollicitations de la route, une bonne tenue de caisse face aux sollicitations du conducteur (en virage, au freinage et à l’accélération) et de maintenir un niveau d'adhérence au sol suffisamment important pour garder le contrôle du véhicule en toute sécurité [Aut 95]. L'analyse du comportement dynamique du véhicule conduit à définir trois domaines de fréquences [Elo 88] : - les basses fréquences où se situent les fréquences propres des mouvements de la caisse (pompage, tangage et roulis). Elles sont comprises généralement entre 0.8 et 1.6 Hz. Pour des valeurs plus faibles, la suspension est dite moelleuse et les passagers risquent d'être sujet au mal de mer, pour des valeurs plus élevées, la suspension est dite sèche ;

- les moyennes fréquences de 2 à 10 Hz qui concernent tous les mouvements du passager sur le siège ; - enfin, les hautes fréquences de 10 à 50 Hz où se situent le battement de roue et le "hachis" moteur (10 à 20 Hz) [Mit 88], ainsi que les modes longitudinaux des trains de suspension (20 à 50 Hz). Ce domaine constitue une zone limitrophe des fréquences acoustiques. 4 – La suspension CRONE de véhicule au-tomobile 4.1 - Architecture

La figure 15.a présente l’architecture de la suspension CRONE de véhicule automobile. Cette architecture se décompose en deux grandes parties. La première, appelée Suspension CRONE Hydractive (SCH), est un réseau hydraulique constitué de cellules RC et de valves Tout Ou Rien (TOR) permettant d’isoler certaines parties du réseau. Cette suspension hydractive possède trois modes de fonctionnement [Alt 03] : - un mode confort caractérisé par un comportement

CRONE où tout le réseau hydraulique intervient. Ce mode est sélectionné par le superviseur lorsqu’il n’y a pas de sollicitations conducteur (ligne droite à vitesse constante), favorisant ainsi l’isolation vibratoire face aux sollicitations de la route ;

- un mode intermédiaire où une partie du réseau est isolé ;

- un mode ferme où une seule cellule RC est conservée (la plus dissipative) pour favoriser la tenue de route et la sécurité.

La seconde partie, appelée Suspension CRONE Active Basse Fréquence (SCABF), est composée d’un généra-teur de débit qui associé au réseau hydraulique permet de générer des efforts de manière active pour : - réguler la hauteur du véhicule autour d’une position

de référence (feedback) ; - tenir la caisse sous sollicitations conducteur par

anticipation (feedforward). Pour cette situation, il est à noter que la suspension CRONE hydractive com-mute sur le mode intermédiaire ou le mode ferme.

4.2 – Stratégie de commande

La figure 15.b présente le schéma de commande de la suspension CRONE. On y retrouve la boucle interne avec la suspension CRONE hydractive (SCH) dont le mode est sélectionné en fonction des sollicitations du conducteur. Ces dernières sont détectées à partir de me-sures au niveau du volant (position et vitesse volant) et au niveau des pédales (enfoncement pédale frein et ac-célérateur). En mode confort CRONE la bande passante de cette boucle est de l’ordre de 1 Hz. Quant à la boucle externe, le signal de commande de la servovalve du gé-nérateur de débit (dont la bande passante est d’environ de 10 Hz) est la superposition du signal uFB(t) issu du régulateur CRONE de hauteur et du signal uFF(t) issu du feedforward élaboré à partir des mesures volant et pé-dales. La bande passante de cette boucle est de l’ordre de 0.1 Hz.


Suspens ion CR ONE Active Basse Fréquence

SCABF

Suspension CR ONE Hydractive

SCH

160 bar

accumulateurpompe

réservoircaisse

Masse suspendue

Vérin desuspension

bras desuspension

Servovalve(BP 10 Hz)

débit

m2limiteur

de pression

C0 C1 C2C3

R1 R2 R3

Valves TOR

U(s) Z2(s)

Z1(s)

Zds(s)+

F0(s)

-+

-

Masse suspendue

22

1sm

SCH

Sollicitationsconducteur

Sollicitationsroute

sSv

1εsd(s) Q(s) +

-+

UFF(s)

UFB(s)Référencede hauteur

+ ( )sHsv( )sR

+

Bruit de mesure

RégulateurCRONE

servovalvecapteur vérin

( )sHc

Feedforwar d

(a)

(b)

z1(t)

z2(t)f0(t)

Figure 15 – Architecture de la suspension CRONE (a) et schéma de commande (b)

A l’échelle du véhicule, il y a quatre moyens d’action (les quatre vérins de suspension) pour seulement trois degrés de liberté pour la caisse (Pompage, Tangage et Roulis : PTR) ; le système est donc sur-actionné. C’est la raison pour laquelle une quatrième condition est in-troduite en ce qui concerne le tau de Répartition Anti-Dévers (RAD). Ce dernier est défini par le rapport du couple anti-roulis développé par l’essieu avant au cou-ple anti-roulis total (somme de la contribution de l’essieu avant et de l’essieu arrière). La valeur de la RAD est caractéristique du comportement survireur (0 < RAD < 0.5) ou sous-vireur (0.5 < RAD < 1) du véhi-cule, ce dernier étant considéré comme neutre pour une valeur de 0.5. La stratégie de Contrôle Global de Suspension (CGS) consiste donc à maintenir le pompage, le tangage et le roulis au voisinage de zéro (PTR = 0 : objectif de confort) et à contrôler la RAD (objectif de tenue de route et de sécurité). Cette stratégie de CGS s’inscrit dans un cadre plus gé-néral de Contrôle Global du Châssis (CGC) où l’objectif est de coordonner les actions des organes des différentes fonctions du châssis (direction, freinage et suspension) afin d’augmenter la sécurité active du véhicule.

4 – Conclusion Les performances du banc d’essais présenté dans ce document permettent de mettre en évidence l’intérêt de la dérivation non entière en isolation vibratoire. Les performances obtenues sont remarquables, notamment lorsque le dérivateur d’ordre non entier borné en fréquence qui caractérise la suspension CRONE, est réalisé en technologie hydropneumatique à partir d’une méthode de synthèse fondée sur la récursivité fréquentielle. En effet, l’association de l’approche CRONE pour la méthode de synthèse et de la technologie hydropneumatique pour la réalisation permet d’obtenir, non seulement la robustesse du degré de stabilité, mais aussi la robustesse de la rapidité vis-à-vis des variations de la masse du dispositif à isoler. Le principal domaine d’application est celui des suspensions automobiles. Ainsi, la suspension CRONE passive multisphère qui a obtenu en 1995 le Trophée AFCET récompensant une collaboration Université-

Industrie exemplaire, et la suspension CRONE Hydractive [Alt 03], en cours de développement, sont issues de ce concept développé dans le cadre d’une collaboration contractuelle avec la DRIA de PSA Peugeot Citroën. Il est à noter que la suspension CRONE Hydractive qui présente trois modes de fonctionnement est à l’origine de la définition d’une nouvelle classe de systèmes, à savoir les Systèmes Dynamiques Hybrides Non Entiers (SDHNE). Références bibliographiques [Alt 03] O. Altet, C. Nouillant, X. Moreau and A. Ousta-

loup : « Hydractive CRONE suspension as hybrid system », International Journal of Hybrid System, Vol. 3, n°2 and 3, pp. 165-188, 2003.

[Aut 95] F. Autran, F. Bessière, J. Lévine et P. Rouchon : « La fonction suspension, du passif à l’actif : l’approche Valéo » ; Proc. EEA-CNRS workshop « Automatique et Automobile », Bordeaux, Juin 1995.

[Bon 88] G. Bonnardel : "Confort vibratoire du siège du conducteur" ; Journal de l'Ingénieur de l'Automobile, SIA 88075, pp. 54-58, octobre 1988.

[Dah 79] T. Dahlberg : "Optimization Criteria for Vehicles Travelling on a Randomly Profiled Road : a Survey" ; Vehicle System Dynamics, Vol. 8, pp. 239-252, 1979.

[Dod 73] C.J. Dodds and J.D.Robson : "The Description of Road Surface Roughness" ; Journal of Sound and Vibration, Vol. 31, n°2, pp. 175-183, 1973.

[Don 88] P. Donati et P. Boulanger : "Propositions pour l'établissement d'un code d'essai en vibration des sièges suspendus destinés aux tracteurs routiers" ; Journal de l'Ingénieur de l'Automobile, SIA 88090, pp. 137-139, octobre 1988.

[Dug 94] S. Dugowson « Les différentielles métaphysiques : histoire et philosophie de la généralisation de l’ordre de dérivation » Doctorat de l’Université Paris Nord, 16 décembre 1994.

[Elo 88] X. Eloy : "Caractérisation du confort sur siège dans un véhicule roulant" ; Journal de l'Ingénieur de l'Automobile, SIA 88089, pp. 129-135, octobre 1988.

[Hro 88] D. Hrovat : "Influence of Unsprung Weight Vehicle Ride Quality" ; Journal of Sound and Vibration, Vol.124, n°3, pp.497-516, 1988.

[Mic 89] Rapport interne Michelin : "Caractéristiques des pneumatiques et mesures d'adhérence" ; 1989.

[Mit 88] M. Mitchke : "Les vibrations du moteur et son influence sur la voiture particulière" ; Journal de la Société des Ingénieurs de l'Automobile, n° 88086, pp. 109-118, octobre 1988.

[Ous 95] A. Oustaloup : « La dérivation non entière : théorie, synthèse et applications » ; Edition Hermès, Paris, 1995.

[Ram 01] C. Ramus-Serment : « Synthèse d'un isolateur vi-bratoire d'ordre non entier fondée sur une architecture arborescente d'éléments viscoélastiques quasi-identiques », Thèse de Doctorat soutenue le 10 Juillet 2001 à l'Université Bordeaux 1.

[Ser 04] P. Serrier : « Synthèse fondée sur la récursivité fré-quentielle d’un dérivateur d’ordre non entier borné en fréquence réalisé en technologie hydropneumatique – Application à la suspension CRONE Hydractive », Mémoire de stage MASTER EEA Recherche, Ecole Doctorale des Sciences Physiques et de l’Ingénieur de l’Université Bordeaux 1, 2004.

[Ver 88] J.P. Verriest : "Le confort postural du conducteur : étude expérimentale et modélisation" ; Journal de l'Ingénieur de l'Automobile, SIA 88088, pp. 122-128, octobre 1988.


Le simulateur BirthSIM :Pour l’apprentissage du geste obstétrique sans risques

R. Moreau O. Olaby M.T. Pham X. Brun T. Redarce

Laboratoire d’Automatique Industrielle, INSA de Lyon

LAI, INSA de Lyon20 avenue Albert Einstein69621 Villeurbanne Cedex

[email protected] [email protected]

Résumé

La naissance représente pour chaque être humain une desjournées les plus dangereuses. Naître en sécurité néces-site d’être entouré par des professionnels qui ont acquisun apprentissage rigoureux des procédures diagnostiqueset thérapeutiques. Actuellement, l’apprentissage des sagesfemmes et des obstétriciens est réalisé principalement ensalle d’accouchement.Lors d’accouchements difficiles, l’uti-lisation d’instruments obstétricaux (forceps, spatules ou ven-touses) est nécessaire. Or, l’utilisation de ces instrumentsaugmente les risques de lésions pour la mère et le bébé.Dans la pratique, seule l’expérience permet de réduire cesrisques. L’intérêt d’un simulateur d’accouchementest d’of-frir la possibilité au corps médical de s’entraîner, de seconfronter à des situations rares, de comparer différentestechniques d’utilisation d’instruments obstétricaux ou d’envalider de nouvelles.

1 Introduction

L’accouchement est l’action de mettre au monde un enfant.Suite à la perte des eaux et aux contractions utérines, l’ac-couchement se déroule en trois phases : la dilatation du colde l’utérus, l’expulsion et la délivrance. Nous nous intéres-sons surtout à la partie expulsion [1]. Lors d’un accouche-ment eutocique, c’est à dire sans complications, la mère etl’équipe médicale arrive à sortir le fœtus sans les instru-ments obstétricaux. Cependant, dans certains cas, ces ins-truments sont nécessaires. En France, en 2003, 11,2 % desnaissances ont nécessité à des extractions instrumentales.Une étude menée dans la région Rhône-Alpes a montréqu’une formation non satisfaisante ou un manque d’expé-rience dans une manipulation instrumentale réalisée en ur-gence a conduit à des complications dans 3,2 % des nais-sances en extraction instrumentale [3].

2 Le simulateur BirthSIMD’une manière générale, la qualité d’un simulateur en mé-decine repose principalement sur trois aspects à savoir l’in-terface mécanique, l’interface de visualisation et la bouclede retour de la commande. Le simulateur BirthSIM ex-ploite pleinement ces différents points [2, 4]. Le poster pré-sentera ces différents aspects :

– Une partie mécanique composée de mannequins an-thropomorphes automatisés (bassin maternel, tête fœ-tale et muscles pelviens).

– Une partie électropneumatique composée d’un action-neur pneumatique qui permet de reproduire les diffé-rents efforts mis en jeu (contractions utérines, pous-sées volontaires) et d’un système rotatif asservi à unmoteur pour positionner la tête fœtale dans une pré-sentation donnée.

– Une interface de visualisation permettant de connaîtrela localisation précise de la tête fœtale et des instru-ments obstétricaux à l’intérieur du bassin maternel.

2.1 La Partie mécaniqueLes mannequins anthropomorphes qui composent la par-tie mécanique du simulateur BirthSIM reproduisent fidèle-ment le bassin d’une mère et la tête fœtale. En effet, pourpermettre à l’équipe médicale de réaliser leur diagnostic,les principaux repères anatomiques (épines sciatiques, coc-cyx et sacrum) sont représentés sur le bassin maternel. Demême une tête en silicone a été moulée sur la base d’uncrâne construit par prototypage rapide à partir de coupesscanners préalablement fournies par un hôpital. Cette têtepossède également les principaux repères anatomiques (fon-tanelles, sutures).

2.2 La Partie électro pneumatiqueLe simulateur BirthSIM utilise deux actionneurs asservisen position qui permettent à l’utilisateur de choisir à songré une présentation (niveau et variété). Le niveau corres-


pond à la position de la tête fœtale par rapport aux épinessciatiques du bassin et la variété à l’orientation de la têteà l’intétieur du canal pelvien. Le simulateur utilise la clas-sification définie par l’American College of Obstetrics andGynecology (ACOG). Un vérin linéaire (respectivement unsystème rotatif) assure la mise en position de la tête fœtaleau niveau (respectivement à la variété) désiré. Ainsi il estpossible de reproduire la plupart des accouchements avecle fœtus en présentation céphalique. Une fois les forcepsmis en place correctement, une tâche délicate de l’accou-chement instrumentale attend l’obstétricien : il doit com-pléter les efforts de la mère pour franchir le seuil de ré-sistance nécessaire pour expulser son fœtus hors de sonutérus. En effet lors d’un accouchement plusieurs effortsentrent en jeu. Ainsi il faut prendre en compte la résis-tance des muscles pelviens qui tendent à retenir le fœtusdans le bassin maternel mais aussi les contractions uté-rines produites par la mère involontairement. A ces effortss’ajoutent les poussées volontaires de la mère pour fairesortir son bébé et les efforts de traction de l’obstétricien.L’équipe médicale doit aider la mère à synchroniser ses ef-forts de poussée avec ses contractions utérines. Outre sonrôle de positionnement de la tête, le vérin commandé pardeux servodistributeurs pneumatiques permet également dereproduire en temps réel l’ensemble de ces efforts sur le si-mulateur.

2.3 L’Interface de visualisation

L’instrumentation des forceps et de la tête fœtale avec descapteurs miniaturisés à six degrés de liberté permet de con-naître leur localisation dans l’espace. A partir de ces don-nées, le médecin ou la sage femme peut réaliser un diag-nostic sur la présentation de la tête fœtale. Ce diagnostic,appelé toucher vaginal, est primordial pour la suite de l’ac-couchement. En effet il permet de déterminer s’il est né-cessaire d’utiliser ou non des instruments obstétricaux (for-ceps, ventouse ou spatule) et la manière de les utiliser le caséchéant. Un aspect original du simulateur BirthSIM est deproposer un outil de planification et une méthode d’analysedes gestes obstétriques à l’aide d’une interface de visuali-sation. Grâce à cet outil, une visualisation en temps réel oua posteriorides trajectoires de forceps peut être obtenue.Il est donc possible d’analyser les gestes obstétriques réali-sés par plusieurs médecins afin de comparer des techniquesdifférentes ou encore d’en extraire un geste de référence.Ce geste de référence peut alors être enseigné à de jeunesobstétriciens pour leur proposer une nouvelle forme de for-mation avant d’éxécuter ce geste en salle d’accouchement.Il s’agit donc ici d’une nouvelle méthode d’apprentissagede l’utilisation des forceps.

3 Conclusions et perpectivesLe simulateur BirthSIM est en cours de développementpour répondre aux besoins des obstétriciens. Ce simulateurpropose certaines fonctionnalités qui ont été validés ex-périmentalement comme le diagnostic du toucher vaginal

et l’analyse de la trajectoire de pose du forceps. D’autresfonctionnalités sont en cours de validation. Le premier pointconcerne l’actionneur pneumatique qui reproduit les effortsau niveau de la tête fœtale. Deux pistes de recherches sontactuellement suivies : la commande en position ou en effortd’un vérin piloté par deux servodistributeurs et la synthèsed’une interface permettant de simuler les muscles pelviens.Le second point concerne l’apprentissage du geste obsté-trique de référence par l’outil de visualisation. Ainsi le si-mulateur BirthSIM propose une nouvelle forme d’appren-tissage du geste obstétrique pour un accouchement sansrisques. Et enfin, afin de compléter le simulateur et de larendre plus réaliste, une ambiance de salle d’accouchementpour immerger plus profondément l’équipe médicale (am-biance sonore, stress, etc.) sera développée.

Références[1] Mavel A. Dictionnaire de gynécologie et d’obsté-

trique : termes usuels d’hier et d’aujourd’hui. Arnette,1990. ISBN 2-7184-0495-7.

[2] Dupuis O., Dittmar A., Delhomme G., Redarce T., Bé-temps M., and Silveira R. Simulateur fonctionnel ana-tomique d’accouchement. Brevet : 0309569, 01 aug2003.

[3] Dupuis O., Silveira S., Redarce T., Dittmar A., andRudigoz R.-C. Extraction instrumentale en 2002 ausein du réseau AURORE : incidence et complicationnéonatales graves - Operative vaginal delivery rate andneonatal associated complications in 2002 in the AU-RORE hospital network.Gynécologie Obstétrique etFertilité, 31(11):920–926, 2003.

[4] Silveira R., Pham M.T., Redarce T., Bétemps M., andDupuis O. A new mechanical birth simulator : Birth-SIM. In International Conference on Intelligent Ro-bots and Systems - IROS’04, pages 3948–3954,Sendai,Japan, 2004. IEEE/RSJ.


Architecture de contrôle pour la gestion Contextuelle de tâches sur les AUV

A. El Jalaoui, D. Andreu, B. Jouvencel

LIRMM, 161 rue Ada, 34392 Montpellier cedex 5 email: eljalaoui, andreu, [email protected]

Résumé Un AUV se compose principalement d’un système informatique embarqué et d’un ensemble de capteurs et d’actionneurs. La nature des tâches à effectuer diffère d’une mission à une autre, voire d’une phase de mission à une autre. Une grande importance est alors accordée au pouvoir d’adaptation, face aux évolutions technologiques et applicatives. On présentera une méthode de conception d’une architecture de commande pour l’AUV Taipan en cours de développement au LIRMM. Cette architecture mixte comporte trois niveaux, un superviseur global, des superviseurs locaux et enfin un ensemble de modules de gestion des moyens d’action et de perception. Cette architecture tente de satisfaire certains critères de conception tels que la modularité, l’évolutivité et la réactivité. Mots clef AUV, Architecture de contrôle, Approche contextuelle, systèmes embarqués. 1 Introduction Le besoin d'opérer dans des eaux de plus en plus profondes et de réduire les coûts, amène les recherches à se concentrer sur l'élaboration de véhicules autonomes capables de se déplacer seuls et de mener à bien des tâches qui nécessitent encore récemment l'assistance de l'opérateur humain. Ce besoin d'autonomie dans un milieu en constante évolution requiert de la part du véhicule une certaine capacité à pouvoir, à chaque instant, évaluer son état et l'état de son environnement, les combiner avec la mission qu'il lui a été confié et prendre une décision cohérente. Les architectures de contrôle développées pour ces véhicules deviennent vite complexes et requièrent une méthodologie de conception. On trouve trois principales catégories d’architectures [2]:

• les architectures réactives sont composées de plusieurs modules. Chaque module génère une commande dépendante directement d'un vecteur d'entrées fournies par un ensemble de capteurs. Les différentes commande générées par ces modules sont alors sommée après pondération. La complexité de ce type d'architecture réside dans le réglage des coefficients de pondération permettant de laisser s'exprimer chacune des fonctionnalités tout en s'assurant que le système converge globalement vers l'objectif désiré. • les architectures hiérarchisées sont construites sur plusieurs niveaux, généralement trois: le niveau haut où sont effectués les prises de décision, le

niveau intermédiaire qui s'occupe du contrôle et de la supervision et le niveau bas qui génère les commandes à appliquer. La récupération des informations externes ainsi que la propagation des décisions du niveau haut nécessite de traverser les niveaux inférieurs ce qui confère à ce type d'architecture une réactivité réduite. • les architectures mixtes sont à la fois hiérarchisées et réactives. Cela leurs permet alors d'accomplir les objectifs désirés tout en réagissant rapidement aux situations imprévues qui peuvent survenir au cours de la mission.

Trois principaux critères sont généralement utilisés pour évaluer la qualité d'une architecture:

• Modularité: Un logiciel complexe doit pouvoir être subdivisé en plusieurs modules qui pourront être conçus, implémentés et testés séparément. • Evolutivité: Le logiciel doit pouvoir être facilement adapté lorsque les applications ou l'équipement embarqué (capteurs par exemple) sont amenés à changer. • Robustesse: Le véhicule doit être capable de mener à bien une séquence d'objectifs dans un milieu de grande incertitude et de pouvoir rapidement répondre à un événement imprévu.

Ce travail va essayer de présenter une nouvelle méthodologie de conception des architectures de contrôle des AUV. L'étude se basera sur le cas de l'AUV Taipan. De taille réduite et conçu pour opérer dans des eaux peu profondes, Taipan mesure 1.8 m de long, 20 cm de diamètre et pèse environ 51 Kg. (voir [3] pour plus de détail). L'architecture issue de cette étude est une architecture mixte composée de trois niveaux. Un superviseur global, plusieurs superviseurs locaux (un pour chaque mode: autonome, téléopération, coopération) et un ensembles de modules gérant l'instrumentation. Chaque niveau manipule des objets (au sens objets informatiques) correspondant à son niveau d'abstraction. Trois types d'objets sont utilisés dans cette architecture. Le superviseur global reçoit de la part de l'opérateur un ensemble d'objets objectif définissant la mission à exécuter. Ensuite il transmet au superviseur local concerné une séquence de sous-objectifs. Ce dernier envoie des ordres aux modules de gestion de l'instrumentation afin de réaliser les sous-objectifs en cours. 2 Architecture de contrôle 2.1 Superviseur global Le superviseur global (SG) reçoit de la part de l'opérateur (ou d’un gestionnaire de mission) un fichier


contenant une mission à exécuter. Une mission est une succession d'objectifs que le système doit atteindre durant la navigation. Les objectifs peuvent être un déplacement ou d'autres actions à effectuer à un endroit géographique précis (bathymétrie par exemple). Ces objectifs peuvent être atteints successivement ou en parallèle selon leur nature. Les informations relatives à leur ordonnancement sont spécifiées par l'utilisateur avant le départ de la mission. Cela permet au superviseur global d'ordonnancer (séquencer) correctement les objectifs qui vont constituer au final une mission. Le superviseur global s'assure que les objectifs qui vont être exécutés en même temps ne vont pas utiliser la même ressource. Par exemple le superviseur global empêchera les objectifs remontée en surface et inspecter pipeline d'être lancés simultanément parce qu'ils utilisent le même ensemble de ressources propulseur, gouvernes. Plus précisément cet ensemble de ressources est appelé macro-ressource. D'autre part, l'objectif inspection pipeline et l'objectif cartographie utilisent respectivement la macro-ressource propulseur, gouvernes et la ressource sonars latéraux ce qui les autorise à s'exécuter en même temps. La gestion des ressources au niveau du superviseur global évite que des ordres contradictoires ne soient envoyés aux actionneurs (par le biais des modules d'action). Pour accomplir un objectif, l'AUV passe par plusieurs étapes. Ces différentes étapes requièrent l'utilisation de différentes lois de commande comme par exemple dans les étapes: plonger, inspecter pipeline, .... Ainsi nous sommes amenés à décomposer un objectif en plusieurs entités plus simples. Ces entités que l'on a appelées sous-objectifs ne requièrent, durant tout le temps de leur exécution, qu'une seule et même loi de commande. Par exemple l'objectif inspecter pipeline sera décomposé en la séquence: plonger, aller à, chercher pipeline, suivre pipeline. Finalement, le superviseur global envoie au superviseur local concerné les sous-objectifs à exécuter. Ce dernier, après la réalisation de chaque sous-objectif, lui retournera un rapport d'exécution. 2.2 Superviseur local Un superviseur local est dédié au contrôle d'une ressource dans un mode donné. En ce qui concerne Taipan, nous avons seulement une ressource (le véhicule lui-même) qui a trois modes de fonctionnement:

• mode autonome: exécute les sous-objectifs issus du superviseur global. • mode téléopération: téléopération bas niveau du véhicule par l'opérateur (utilisable à l'heure actuelle seulement lorsque l'AUV est en surface). • mode coopération: commande l'AUV pour le positionner dans une flottille de véhicule.

Nous nous intéresserons ici qu'au mode autonome. Comme cela avait été évoqué précédemment, le superviseur local reçoit des sous-objectifs à exécuter

(par exemple plonger, aller à). Pour exécuter un sous-objectif, nous avons besoin de collecter un ensemble de données capteurs et d'envoyer un ensemble de commandes aux actionneurs. Le dialogue avec les capteurs et les actionneurs est assuré par des modules bas niveau que le superviseur local active selon le sous-objectif à exécuter. 2.3 Modules de gestion de l'instrumentation On trouve deux sortes d'instruments sur un AUV, les capteurs et les actionneurs. Les premiers sont gérés par les Modules de Perception (MP) et les seconds par les Modules d'Action (MA). Tous ces modules ainsi que les différents instruments, utilisent un bus commun pour échanger leurs données. Un MP est construit pour chaque type de données (appelé variable) requise dans l'architecture (par exemple la position x,y,z,θ,φ,ψ). Il est souvent nécessaire d'utiliser des données provenant de plusieurs capteurs afin de calculer ou estimer précisément une variable. Ainsi un MP peut gérer plusieurs capteurs. Deux sortes de traitement sont à la charge d'un MP; le premier est relatif à la configuration des capteurs (mise sous/hors tension, changement de mode), le second est le traitement des données du ou des capteur(s). Les MA, qui contiennent dans la plupart des cas des lois de commandes, permettent de calculer les commandes à envoyer aux actionneurs. Tous ces modules sont activés et configurés par le superviseur local. Ainsi pour récupérer la position du véhicule, le superviseur local envoie un ordre au MP correspondant et pour atteindre une position, il envoie un ordre au MA gérant le propulseur et les gouvernes. Les MP et les MA fonctionnent de façon périodique. Les variables issues des MP (estimées ou mesurées) sont échangées entre les modules bas niveau par l'intermédiaire d'un bus commun. 3 Conclusion Le travail présenté, s’intègre dans le domaine des architectures logicielles de contrôle pour la robotique. Une architecture de contrôle, développée pour les AUV (Autonomous Underwater Vehicle) est proposée et tente de répondre à certains critères de conception, tels que la modularité, l’évolutivité et la robustesse. Références [1] J.D. Carbou, D. Andreu, P. Fraisse, “Events as a

key of an autonomous robot controller”, 15th IFAC World Congress (IFAC'b 02), Barcelone, Espagne, 21-26, juillet 2002.

[2] P. Ridao, M. Carreras, J. Batlle, J. Ama, “O²ca²: A new hybrid control for a low cost auv”, Proceedings of the Control Application in Marine Systems, 2001.

[3] J. Vaganay, B. Jouvencel, P. Lepinay and R. Zapata, “Taipan an AUV for very shallow water applications”, World Automation Congres, 1998.


Réguler le flux optique latéral

pour naviguer dans un corridor

Julien SERRES, Franck RUFFIER et Nicolas FRANCESCHINILaboratoire Mouvement et Perception, Equipe Biorobotique,

CNRS/Univ. de la Méditerranée31, chemin Joseph Aiguier, 13402 Marseille Cedex 20, FRANCE

serres, ruffier, [email protected]

RésuméNous avons conçu un pilote automatique (LORA: LateralOptic flow Regulation Autopilot) qui s'inspire de la vision desinsectes ailés. LORA est basé sur une régulation de fluxoptique latéral. En simulation, un aéroglisseur miniatureéquipé de LORA réalise automatiquement, soit un suivi deparoi, soit un centrage entre les deux murs d'un corridor.L'aéroglisseur est un « aéronef » dont la stabilité est assuréeen tangage et roulis mais qui conserve trois degrés de liberté(translations X et Y, et rotation en lacet Ψ), représentantainsi un véhicule holonome dans le plan. Le robot navigue àvitesse relativement élevée (1m/s) sur la base d'une bouclevisuomotrice simple mettant en oeuvre un système visuelminimaliste (seulement 4 pixels). Un tel système denavigation, basé sur des capteurs non-émissifs, est apte àéquiper des micro-aéronefs dont l'avionique embarquée nereprésenterait que quelques grammes.

Mots ClefPilote Automatique, Micro-aéronef, Vision, Navigation

Urbaine, Flux Optique, Aéroglisseur, Bionique, Biorobotique.

1 IntroductionUne démarche classique en robotique mobile estd'équiper les robots avec des capteurs actifs (sonars,télémètres IR ou laser), ou de caméras permettant decartographier le monde pour planifier leur trajectoire -ce qui peut conduire à un traitement intensif desinformations visuelles. Les insectes ailés naviguent à desvitesses pouvant atteindre 800 longueurs de corps parseconde et fonctionnent autrement. Ils extraient de leurmouvement relatif des indices visuels leur permettant denaviguer agilement et d'éviter les obstacles enenvironnement inconnu [5]. Un indice essentiel est leflux optique, c'est-à-dire la vitesse angulaire dedéfilement de l'image projetée sur la rétine.Une démarche biorobotique, initiée voici plus de 20 ans

dans notre laboratoire, vise à reconstruire des agentsartificiels, terrestres ou aériens, exploitant des mesuresde flux optique [3,8,12].Le capteur de flux optique utilisé s'inspire des neuronesdétecteurs de mouvement (DEM) de la mouche [4]. Leprincipe de navigation proposé ici diffère sensiblementde la stratégie initialement proposée par Kirchner etSrinivasan en 1989, qui stipulait que les abeillesréussissent à naviguer dans un corridor en égalisant lesdeux flux optiques latéraux [5]. Cette même stratégie aété, par la suite, programmée sur plusieurs robotsmobiles guidés visuellement [2,9,11], ou simulée sur desagents volants [6,7], avec pour effet de centrer l'agentdans un corridor ou un canyon urbain. En cherchant àéquilibrer les flux optiques latéraux, ces agents avaientpour inconvénient de s'engouffrer dans toute ouvertureapparaissant le long d'un mur, car celle-ci présentaitévidemment un flux optique nul. Des auteurs ont alorsproposé de commuter sur un mode suivi de paroilorsque ce cas de figure se présentait [9,11]. Ici, nousproposons un nouveau schéma de contrôle [10], quiévite à l'appareil de s'engouffrer dans toute ouverturelatérale et ne requérant aucune commutation entreplusieurs modes de navigation.

2 Boucle visuomotrice LORALe point clé du pilote automatique LORA est unerégulation du flux optique latéral (Fig.1). Les fluxoptiques latéraux (ωR et ωL) sont mesurés par deuxcapteurs non-émissifs (DEMs) orientés symétriquementde part et d'autre du robot. Un critère de maximum desflux optiques (droit et gauche) sélectionne le mur le plusproche, c'est-à-dire celui qui génére le flux optique leplus élevé (ωOFR ou ωOFL). Cette valeur maximale estcomparée à une consigne de flux optique ωSET, et la

Figure 1. Le pilote automatique LORA possède deux entrées (la vitesse sol V et la vitesse de rotation en lacet ). Le correcteur de flux optique Cω(s)est incorporé dans une boucle de régulation du flux optique latéral. Les capteurs (DEMs) mesurent les flux optiques droit et gauche (ωR et ωL). Cω(s)commande la vitesse de rotation en lacet de l'aéroglisseur. Les murs de droite (Ordonnée mur de droite yR) et de gauche (Ordonnée mur de gauche yL)sont considérés comme des perturbations vis-à-vis de la boucle de régulation visuomotrice.

Ψ&


direction d'évitement d'obstacle résulte du signe de ladifférence entre les flux optiques latéraux, droit etgauche. Cette fonction signe sélectionne doncautomatiquement le mur à suivre. Une caractéristique dupilote automatique LORA est qu'il n'estime ni ladistance aux murs (DL et DR), ni la vitesse sol de l'agentV, mais seulement le quotient entre vitesse sol (projetéesuivant l'axe X) et distance au mur, à l'instar du piloteautomatique OCTAVE conçu pour le suivi de terraind'un aéronef [8]. LORA interprète toute augmentationde flux optique latéral comme une décroissance de ladistance au mur (DL ou DR). L'aéroglisseur équipé deLORA réagit aux variations de flux optique latéral enagissant sur sa vitesse de rotation en lacet . En régimepermanent, le flux optique maximal mesuré sur les deuxmurs est égal à la consigne de flux optique ωSET.Le principe d'un DEM utilisé comme capteur de fluxoptique a été décrit précédement [1,8,12]. Un correcteurà avance de phase Cω(s) améliore la stabilité de laboucle visuomotrice. La dynamique de lacet del'aéroglisseur GΨ(s) est modélisée par un filtre passe-basdu premier ordre de constante de temps 0.5s.

3 Résultats de simulationToutes les simulations sont programmées sur un PCstandard équipé de MATLABTM/SIMULINK.La figure 2 montre l'effet d'une absence locale decontraste sur l'un des deux murs. Cette zone noncontrastée simule une porte ouverte, ou une jonction enT. Incapable de mesurer le flux optique sur 4md'ouverture le long du côté droit, l'aéroglisseur voit satrajectoire peu affectée car il se met à suivreautomatiquement le mur texturé opposé. Sur latrajectoire 1, l'aéroglisseur présente un comportement decentrage (centring response [5]). Le long de la zone noncontrastée, l'aéroglisseur suit le mur de gauche,maintenant automatiquement une distance de sécuritéd'environ 0.5m par rapport à ce mur (pour ωSET=120°/set V=1m/s). La trajectoire 2, par contre, montre l'effetd'une zone non contrastée lorsque les flux optiquesmesurés (ωOFR et ωOFL) sont inférieurs à la consigne deflux optique ωSET. Initialement, l'aéroglisseur suit le murde droite et LORA génére une distance de sécuritéd'environ 0.35m par rapport à ce mur (pour ωSET=170°/set V=1m/s). Lorsque l'aéroglisseur rencontre l'ouverture(à X=4m), sa trajectoire est d'abord peu affectée (entreX=4m et X=4.5m), parce que le capteur maintient lamesure du flux optique droit ωOFR bloquée pendant 0.5s,

faute de nouvelle mesure de flux optique (ωOFR ou ωOFL).Ce délai passé, l'aéroglisseur devenu aveugle à droite, semet à suivre le mur de gauche, par suite du changementde signe de l'erreur ε (Fig.1).

4 ConclusionNos résultats de simulation montrent que le piloteautomatique LORA permet à un aéroglisseur denaviguer automatiquement dans un corridor [10]. Toutesles tâches de navigation sont réalisées avec une même etunique boucle visuelle, qui est une boucle de régulationdu flux optique latéral. LORA permet de naviguer àvitesse relativement élevée (1m/s), avec un systèmevisuel minimaliste (seulement deux DEMs, chaqueDEM utilisant deux pixels). Parmi les développements àvenir de ce travail, la vision contrôlera également lavitesse sol, actuellement commandée en boucle ouverte.LORA est en cours de mise en oeuvre sur unaéroglisseur miniature. Le but de ces recherches est deconcevoir un pilote automatique minimaliste pourmicro-aéronef, qui lui permettrait de naviguer dans desenvironnements difficiles tels que les canyons urbains etles intérieurs de bâtiments.

Bibliographie[1] Blanes, C.. 1986. DEA de Neurosciences, Univ. Aix-Marseille II.[2] Coombs, D. And K. Roberts. 1992. Intelligent Robots and

Computer Vision XI, SPIE, vol. 1825, 714-721.[3] Franceschini, N.; J.M. Pichon and C. Blanes. 1992. Phil. Trans.

R. Soc. Lond. B, vol. 337, 283-294.[4] Franceschini, N.; A. Riehle and A. Le Nestour. 1989. In Facets of

Vision, D.G. Stavenga, R.C. Hardie, Springer, Berlin, 360-390.[5] Kirchner, W.H. and M.V. Srinivasan. 1989.

Naturwissenschaften, no. 76: 281-282.[6] Muratet, L.; S. Doncieux; Y. Briere and J-A. Meyer. 2005.

Robotics and Autonomous System, vol. 50, Issue 4, 195-209.[7] Neumann, T.R. and H.H. Bülthoff. 2001. In Proceedings of the

6th European Conf. on Artificial Life ECAL 2001. Eds. J.Kelemen and P. Sosik, vol. 2159 of LNCS/LNAI, 627-636.

[8] Ruffier, F. and N. Franceschini. 2005. Robotics and AutonomousSystems, vol. 50, Issue 4, 177-194.

[9] Santos-Victor, J.; G. Sandini; F. Curotto and S. Garibaldi. 1995.Int. J. of Computers Vision, no. 14, 159-177 (March).

[10] Serres, J.; F. Ruffier and N. Franceschini. 2005. In Proceedingsof Int. Mediterranean Modeling Multiconference (Marseilles,France, Oct. 20-22). Accepted.

[11] Weber, K.; S. Venkatesh and M.V. Srinivasan. 1997. In FromLiving Eyes to Seeing Machines. Srinivasan and S. Venkatesh,Eds. Oxford University Press, 226-248.

[12] Viollet, S. and N. Franceschini. 1999. In Proceedings of SPIEConf. on Sensor Fusion and Decentralized Control on Robotics II,Boston, U.S.A., 144-155.

Figure 2. Effet d'une zone non contrastée sur deux trajectoires simulées avec une même vitesse sol (1m/s). Les deux murs sont recouverts demotifs avec une large plage de fréquences spatiales (de 0.069 c/° à 0.87 c/° le long de la ligne médiane Y=0.5m) et une large gamme decontrastes (de 3.2% à 18.6%). Sur la trajectoire 1 (ωSET = 120°/s), l'aéroglisseur se centre. Sa trajectoire est à peine affectée par une zone noncontrastée le long du mur de droite. Sur la trajectoire 2 (ωSET = 170°/s), l'aéroglisseur se met à suivre le mur de gauche.

Ψ&


Gestion des problèmes d’occultation et de collision durantune tâche

référencée vision

David FOLIO1∗ sous la direction de Viviane CADENAT1

1 LAAS/CNRS, 7 avenue du Colonel ROCHE, 31077 Toulouse Cedex 4

[email protected]@laas.fr

La réalisation de tâches référencées vision suppose que lesindices visuels nécessaires sont disponibles à tout instant :ils ne doivent donc jamais être occultés ni perdus. La plu-part des travaux s’intéressant à la gestion des occultationsou la visibilité du motif visuel ont été menés dans le cadrede la robotique de manipulation[Wunsch : 97, Marchand : 98,

Mezouar : 02, Comport : 04]. Nous nous intéressons ici à unproblème similaire pour la robotique mobile. Il s’agit deréaliser une tâche de navigation guidée par la vision dansun environnement encombré d’obstacles susceptibles d’oc-culter la caméra ou/et de présenter un danger pour un robotmobile. Le robot considéré (figure 1) comprend une basemobile de type char équipée d’une caméra montée sur uneplatine commandable en site et d’une ceinture de seize cap-teurs ultrasons. Les techniques proposées sont basées sur leformalisme des fonctions de tâche[Samson : 91] et se situentdans le prolongement de travaux menés au LAAS/CNRS[Cadenat : 99, Cadenat : 01]. La stratégie de commande en-visagée ici consiste à synthétiser différents correcteursquisont ensuite combinés en fonction de l’environnement pourdéfinir la loi de commande à appliquer au robot.

Ultrasons

Hub firewire

PC portable

ethernet

platine

mobilebase

Emetteurcamera

YC

ZP

YP

XP

ZC

YM

ZM

XM

Super Scout

XC

FIG. 1 – Le robot.

∗Soutenu par le Fond Social Européen

Nous présentons deux approches permettant de répondreau problème de la navigation référencée vision en envi-ronnement encombré. Dans la première, nous introdui-sons deux correcteurs, l’un assurant l’asservissement vi-suel, l’autre permettant de gérer à la fois les problèmesd’occultation et de collision. Le premier correcteur, syn-thétisé sur la base du formalisme des fonctions de tâches[Chaumette : 98], permet de réaliser la tâche référencée vi-sion nominale en l’absence de contrainte. Le second cor-recteur permet de gérer les occultations tout enminimisantle risque de collision. La synthèse de ce correcteur reposesur le formalisme des tâches redondantes[Samson : 91].Les occultations sont alors gérées par le biais d’une fonc-tion de tâche redondante, l’évitement d’obstacles étant as-suré au mieux avec les degrés de liberté laissés librespar cette tâche. La synthèse de la loi de commande glo-bale est basée sur le lissage du basculement entre lesdeux correcteurs à l’aide d’une combinaison convexe dé-pendant des risques d’occultation et de collision. L’ap-proche proposée a été simulée sous Matlab et est actuel-lement en cours d’intégration sur nos robots. La tâchechoisie consiste à positionner la caméra embarquée faceà une cible dans un environnement encombré de deux obs-tacles. La position de ces derniers et de la cible ainsi quela configuration initiale du robot ont été choisies de ma-nière à provoquer des situations de collisions et d’occul-tations. Les figures 2.a et 2.b présentent respectivementla trajectoire effectuée par le robot et l’évolution des dif-férentes distances au cours de la tâche de navigation.Ainsi que le montrent ces figures, les résultats obtenussont satisfaisants puisque la tâche est correctement réalisée.Toutefois, l’évitement d’obstacles étant réalisé au mieux,la non collision ne peut être garantie et le robot peut ainsiêtre amené à passer dans un voisinage très proche des obs-tacles (cf. figure 2.a). C’est pourquoi, nous avons déve-loppé une seconde méthode permettant d’améliorer la qua-lité du contournement.

Le principe de la seconde méthode est le même que pré-cédemment, l’asservissement visuel est toujours défini dela même manière grâce au formalisme des fonctions de


d’occultationRisque

Rsique de collision

d0

d0

Mur 1

Mur 2

FIG. 2.a –

0 5 10 15 20 25 30 35 40 45 500

0.2

0.4

0.6

0.8

1Distance obstacle

t (s)

d evit (

m)

0 5 10 15 20 25 30 35 40 45 500

50

100

150

200

250

300Distance image

t (s)d oc

c (px

)

FIG. 2.b –

FIG. 2 – Trajectoire du robot et évolution des distances

tâches. En revanche, la tâche d’évitement d’occultation,bien que toujours déterminée à partir du formalisme destâches redondantes, n’intègre plus de composante dédiée àla non collision. Ainsi, si la tâche redondante à réaliser enpriorité est toujours conçue pour garantir la visibilité desindices visuels, la tâche secondaire est maintenant définiede façon à continuer à converger vers le motif de référence.Il est donc nécessaire de synthétiser un troisième correc-teur permettant d’assurer la non collision, tout en gérant lesoccultations au mieux. Encore une fois, nous nous sommesici appuyés sur le formalisme des tâches redondantes. Nousavons ainsi défini la tâche redondante à effectuer en prio-rité pour garantir la non collision et la tâche secondaire demanière à minimiser les problèmes d’occultations. La stra-tégie globale de commande consiste alors à choisir le cor-recteur à appliquer au robot en fonction des risques d’oc-cultations et de collisions évalués à partir des données vi-suelles et ultrasoniques. Le basculement entre les différentscorrecteurs est lissé, comme précédemment, par une com-binaison convexe. Cette approche a été validée sous Mat-lab. Afin de faciliter la comparaison des deux méthodes,nous avons choisi de simuler la même tâche robotique dansun environnement identique. Les résultats obtenus sont re-groupés sur les figures 3.a et 3.b. La première présente latrajectoire effectuée par le robot, la seconde détaille l’évo-lution des distances à l’objet occultant (dans l’image) età l’obstacle (dans la scène). Encore une fois, ces figuresmontrent que la tâche est parfaitement réalisée avec, dansce dernier cas, un évitement de meilleure qualité grâce ànotre stratégie de commande à trois correcteurs.

0 0.5 1 1.5 2 2.5 3 3.5 4

−3

−2.5

−2

−1.5

−1

−0.5

0

0.5

x (m)

Evolution du robot

Cible

y (m

)

d0

d0Risque

d’occultationRisque de collision

Mur 2

Mur 1

FIG. 3.a –

0 20 40 60 80 100 120 1400

0.4

0.60.7

1Distance obstacle

t (s)

d evit (

m)

0 20 40 60 80 100 120 1400

407080

160

320Distance image

t (s)

d occ (

px)

FIG. 3.b –FIG. 3 – Trajectoire du robot et évolution des distances

Ces travaux ont donné des résultats intéressants et ou-vert des perspectives prometteuses. Actuellement, nous ex-périmentons les deux lois de commande proposées surles robots du LAAS/CNRS. Par la suite, nous envisa-geons d’améliorer l’enchaînement des différentes tâches,en gérant les transitions dynamiquement comme dans[Souères : 03, Mansard : 04]. Enfin, nous souhaitons aussiprolonger ces travaux en cherchant non plus à éviter lesoccultations mais au contraire à les tolérer pour mieux lesgérer.

Références[Cadenat : 99] V. Cadenat. Commande référencée multi-

capteurs pour la navigation d’un robot mobile.PhD thesis, Univ. of Toulouse III, France, De-cember 1999.

[Cadenat : 01] V. Cadenat, P. Souères & M. Courdesses.Using system redundancy to perform a sensor-based navigation task amidst obstacles. Inter-national Journal of Robotics and Automation,2001.

[Chaumette : 98] F. Chaumette.De la perception à l’action :l’asservissement visuel ; de l’action à la per-ception : la vision active. Habilitation à dirigerles recherches, Université de Rennes 1, IRISA,1998.

[Comport : 04] A. I. Comport, E. Marchand & F. Chaumette.Robust model-based tracking for robot vision.In IROS04, Sendai, Japan, October 2004.

[Mansard : 04] N. Mansard & F. Chaumette.Tasks sequencingfor visual servoing. In IROS’04, Sendai, Japan,September 2004.

[Marchand : 98] E. Marchand & G.D. Hager.Dynamic SensorPlanning in Visual Servoing. In ICRA’98, Leu-ven, Belgium, May 1998.

[Mezouar : 02] Y. Mezouar & F. Chaumette.Avoiding self-occlusions and preserving visibility by pathplanning in the image. Robotics and Autono-mous Systems, November 2002.

[Samson : 91] C. Samson, B. Espiau & M. Le Borgne. Robotcontrol : the task function approach. OxfordUniversity Press, Oxford, 1991.

[Souères : 03] P. Souères & V. Cadenat.Dynamical sequenceof multi-sensor based tasks for mobile robotsnavigation. In SYROCO’03, Wroclaw, Poland,September 2003.

[Wunsch : 97] P. Wunsch & G. Hirzinger.Real-Time visualtracking of 3D objects with dynamic hand-ling of occlusion. In ICRA’97, Albuberque,Mexico, April 1997.


Une architecture décisionnelle pour l’interaction homme-robot

A. Clodic, V. Montreuil, R. Alami, R. ChatilaLAAS-CNRS

7, Avenue du Colonel Roche31077 Toulouse, FRANCE

[email protected]

FIG. 1 – Le robot Rackham à la Cité de l’espace

RésuméNous décrivons ici l’architecture décisionnelle que nousavons défini pour la prise en compte de l’interactionhomme-robot. Le cadre de notre expérimentation est uneexposition intitulée Mission Biospace à la Cité de l’Espacede Toulouse.

Mots ClefArchitecture décisionnelle, Interaction homme-robot,Théorie de l’intention jointe, Robot guide.

1 IntroductionNos travaux portent sur la supervision d’un robot mobileen environnement humain et plus particulièrement sur laprise en compte de l’interaction homme-robot au niveaudécisionnel. Pour étudier l’interaction homme-robot, nousavons du trouver un terrain d’expérimentation, en dehorsdu laboratoire et de ses roboticiens qui savent commentfonctionne "leur" robot. Pour tester et valider nos dévelop-pements nous avons décidé d’amener régulièrement notrerobot Rackham à la Cité de l’espace à Toulouse (environdeux semaines tous les trois mois). Au sein de l’exposi-tion mission Biospace, Rackham, Fig. 1, a fait office de“guide” sans intermédiaire 1 et cela pendant plusieurs cen-taines d’heures depuis mai 2004. Le projet est conduit demanière à intégrer de nouvelles fonctionalités et capacitésdécisionnelles à chacune des visites du robot, basées surles données collectées lors des expérimentations et sur nosobservations des interactions entre le public et le robot (cf[3]).

1Lors de ses séjours à la Cité de l’espace, le robot est sous la respon-sabilité d’un animateur et il fonctionne sans notre intervention.

Sensors

requests and ordersTranslations of

RobotHuman

Observations

Interface

Requests, orders

Current stateResults

Task

FIG. 2 – Description générale d’une interaction homme-robot

2 Contexte

Dans notre contexte, comme indiqué Fig. 2, l’homme etle robot constitue un système où deux agents partagent unespace commun et échangent des informations à traversdifférentes modalités. L’interaction peut intervenir soit surune requête explicite de l’homme, soit parce que le robotl’a estimé utile. Dans les deux cas le robot doit accom-plir/satisfaire un but. Une notion importante dans le cas del’interaction est la notion d’engagement issue de la théoriede l’intention jointe (cf [1],[2]). Elle définit : l’établisse-ment d’un but commun (deux agents décident ensemble deréaliser un but et ils s’engagent dans ce sens), la réalisationdu but (dans ce cadre chacun des agents doit maintenir sonengagement tout en évoluant vers la conclusion du but) etla terminaison du but (les agents doivent se prévenir mu-tuellement de la terminaison du but).

Dans le cadre de l’interaction homme-robot, nous voyonsque cette définition a ses limites par exemple comment êtresûr pour le robot d’être prévenu si l’homme décide d’aban-donner son but. Ainsi notre système doit couvrir : l’éta-blissement d’un but commun, la définition incrémentale etjointe du plan permettant de parvenir à ce but (possible-ment en collaboration avec l’homme), ainsi que l’établis-sement d’une connection entre l’humain et le robot per-mettant au robot de suivre l’état d’avancement du but del’humain, de monitorer son engagement et possiblement del’influencer ou de remédier à son manque.


IAA1 IAA2 IAAn

IAAs Manager

ObserverT1 IAA1

ObserverT1 IAA2

TaskDelegate

T1

TaskDelegate

Tm

ObserverTm IAAk Observer

Tm IAAn

ObserverT2 IAA2

Data aboutrobot actionsand context

Human

Sensory dataabouthumans

T2

Data about humans

updatesdataIAA2

IAAsUpdatesIAAData

Robot Supervision Kernel

Actions

Agenda

state

and sensorscontrols

Reports on active goalsGactive,Gsuspended

Sensory data

about objectsand

environment

DelegateTask

Updates Task needs

Actuators

FIG. 3 – Cadre décisionnel pour l’interaction homme-robot

3 Cadre

Dans ce but nous avons défini le cadre décisionnel suivant(cf Fig. 3 et [4] pour une description plus détaillée) :

– Pour gérer les buts de haut-niveau du robot, nous avonsdéfini un Agenda chargé d’indiquer quels buts doiventêtre crées, suspendu ou abandonné. L’Agenda doit éga-lement maintenir une liste des buts actifs et suspendus.

– Les humains rencontrés par le robot sont représentés auniveau du robot par des agents d’interaction (IAAs). UnIAA est créé dynamiquement et maintenu par l’IAA ma-nager qui va en fonction des tâches réalisées ou non parl’agent et ses observations le faire évoluer (ainsi un agentse désengageant systématiquement verra son intérêt seréduire du point de vue du robot).

– L’ensemble des buts actifs nécessite l’exécution d’un en-semble de tâches en interaction avec l’homme. Chaquetâche correspondant à un but actif ou suspendu est repré-sentée par une entité appelé Task Delegate qui se chargede surveiller la progression vers l’accomplissement dubut du robot mais également du ou des IAA concernés etévalue le niveau d’engagement de la personne associé.Ce control est réalisé à l’aide d’un ensemble d’observa-teurs.

– Le dernier élément est le noyau de supervision du ro-bot. Il est chargé de réaliser la selection des tâches, leuraffinement et leur execution. Il maintient une vision co-hérente de toutes les tâches effectués par le robot. C’estl’unique entité qui peut envoyer des requetes au niveaufonctionnel.

4 ConclusionNotre effort porte aujourd’hui sur l’intégration et la valida-tion du système décisionnel ainsi défini.

Références[1] H. J. Levesque, P. R. Cohen, and J. H. T. Nunes. “On

acting together.” In Proceedings of the Eighth NationalConference on Artificial Intelligence (AAAI-90), pages94-99, 1990.

[2] M. Tambe, "Agent Architectures for Flexible, PracticalTeamwork," Proceedings of the National Conferenceon Artificial Intelligence (AAAI), 1997.

[3] A. Clodic, S. Fleury, R. Alami, M. Herrb, R. Chatila,"Supervision and Interaction : Analysis from an Auto-nomous Tour-guide Robot Deployment," InternationalConference on Advanced Robotic (ICAR), 2005.

[4] A. Clodic, V. Montreuil, R. Alami, R. Chatila, "A De-cisional Framework for Autonomous Robots Interac-ting with Humans," 14th IEEE International Workshopon Robot and Human Interactive Communication (RO-MAN), 2005.


Reconstruction 3D d’objets sous-marins par asservissement visuel

V. BRANDOU1,2, E. MALIS1, P. RIVES1, A.G. ALLAIS2, M. PERRIER2

1 INRIA Sophia-Antipolis2 IFREMER Centre de Méditerranée, La Seyne-sur-Mer

2004 route des luciolesBP 330 06902 Sophia-Antipolis

[email protected]

Résumé

L’objectif est de proposer une méthodologie complète dereconstruction 3D d’objets sous-marins à des fins de me-sures quantitatives. Afin de faciliter le calcul de la re-construction 3D, nous utilisons un asservissement visuelà l’aide d’un système de stéréovision permettant d’obtenirdifférentes vues de l’objet à intervalles réguliers selon unetrajectoire prédéfinie.

1 IntroductionNos recherches menées dans le cadre du projet européenEXOCET/D1, sont nées du besoin d’avoir des outils adap-tés pour l’exploitation des images de scènes sous-marines,en appliquant les techniques de vision par ordinateur. Notrebut est de développer une méthodologie pour effectuer unereconstruction 3D de structures sous-marines, permettantde réaliser des mesures quantitatives tridimensionnelles.Dans cette optique, nous avons mené des actions de re-cherche portant sur l’utilisation de techniques d’asservis-sement visuel afin d’améliorer la reconstruction d’objets3D. La technique développée permet de réaliser des trajec-toires optimales en vue de réaliser une reconstruction pré-cise. Nous utilisons un asservissement visuel à l’aide d’unsystème de stéréovision monté au bout du bras instrumentéd’un robot. La géométrie de la tête stéréo contraint la tra-jectoire suivie par les caméras.

2 Trajectoires contraintes par la géo-métrie de la tête stéréo

L’asservissement visuel utilisé consiste à capturer uneimage de référence avec la première caméra, puis àcommander la seconde caméra par rapport à cette imageafin qu’elle converge vers la position d’où a été prisel’image de référence. L’angle et la distance entre les ca-méras contraignent la trajectoire décrite par la tête stéréo.Nous avons montré que fixer la géométrie entre les deuxcaméras, revient à déplacer l’origine du repère associé à

1Référence FP6-GOCE-CT-2003-505342

chacune des deux caméras sur la surface d’un cylindre.La démonstration consiste à intégrer des déplacementsinfinitésimaux pour obtenir un déplacement discret. SoitT ∈ SE(3)2 la matrice de transformation entre la positiondes deux caméras, où R est la matrice de rotation (3×3), ett le vecteur de translation (3×1).

T =

(R t0 1

)T ∈ SE(3) (1)

T peut toujours s’écrire :

T = eA A ∈ se(3)3 (2)

avecA =

([ω]× ν

0 0

)(3)

où ω est le vecteur de dimension (3×1) de vitesse de rota-tion, vérifiant ||ω|| < π , et ν est un vecteur de dimension(3×1) de vitesse de translation ; [ω]× est la matrice antisy-métrique associée au vecteur ω.On a :

x(t) = [ω]×x(t) + ν (4)

où x(t) représente un déplacement infinitésimal des coor-données x de l’origine du repère sur la trajectoire en fonc-tion du temps t normalisé entre 0 et 1.On a montré que l’intégrale de cette équation peut s’écriresous la forme générale des équations paramétriques d’uncylindre :

x(t) = x0 + cos(θ)u + sin(θ)v + wt (5)

avec θ = ||ωt||.Les trois vecteurs u, v et w sont unitaires et forment un tri-èdre direct. Ils sont fonction, ainsi que x0, des différentescomposantes de ν et ω. L’axe du cylindre défini par la géo-métrie de la tête stéréo, de vecteur unitaire w, passe par lepoint x0.A partir de ces résultats, on déduit quelle sera la trajectoire

2Groupe spécial euclidien de dimension trois3Algèbre de Lie associé au groupe de Lie SE(3)


théorique suivie par les caméras en fonction de la géomé-trie de la tête stéréo. Par conséquent, il est possible de choi-sir la géométrie de la tête stéréo en fonction de la forme, duvolume, et de l’orientation de l’objet sous-marin que l’onsouhaite reconstruire.

3 Approche d’asservissement visuelretenue

Nous utilisons la méthode d’asservissement visuel propo-sée dans [2], car les paramètres intrinsèques des camérasconstituant la paire stéréo sont différents.On désire asservir la caméra gauche sur la position initialede la caméra droite. En utilisant [1], on extrait des pointsd’intérêts dans les images des deux caméras de la paire sté-réo. Une fois les n points appariés, on note p∗

i les pointsprovenant de la caméra droite, et pi les points provenant dela caméra gauche. Les points pi sont suivis dans l’imagetout au long de l’asservissement par [3]. On construit lespoints q∗

i et qi, appartenant à l’espace Q invariant aux pa-ramètres intrinsèques des caméras [2], en projetant les co-ordonnées des points p∗

i = (u∗i , v

∗i , 1) et pi = (ui, vi, 1).

Ces nouveaux points sont alors contenus dans deux vec-teurs : s∗ = (q∗

1,q∗2, . . . ,q∗

n) et s = (q1,q2, . . . ,qn).La caméra a convergé sur la position de référence lorsques = s∗. La dérivée du vecteur s s’écrit :

s = Lv (6)

où L est la matrice d’intéraction (3n×6), et le vecteur v(6×1) représente la vitesse Cartésienne de la caméra. Lafonction de tâche calculée est :

e = L+(s− s∗) (7)

où L+ est une approximation de la pseudo-inverse de L.La commande utilisée est :

v = −λe, où λ > 0 (8)

4 ExpérimentationLes expérimentations ont été menées à l’INRIA sur le robotAnis (Fig.1), et également à IFREMER sur le bras TAO (lesdeux bras ont 6 d.d.l.). Les Figures 1 représente une expé-rimentation réalisée en prenant un écart de 20 cm entre lescaméras, et un angle de 15 degrés sur la caméra droite. Lesimages sont acquises à une fréquence de 25 images/sec.La cible 3D est représentée par trois cibles planes avec desvecteurs normaux différents, placées à environ 1,3 m descaméras. La Figure 2 représente la convergence exponen-tielle de la fonction de tâche vers zéro sur deux asservis-sements successifs. Les expérimentations menées ces der-niers mois ont confirmé et validé nos résultats de simula-tion.

5 ConclusionCette nouvelle méthode permet l’acquisition d’imagesprises à intervalles réguliers le long d’une trajectoire pré-

définie, afin de faciliter le calcul de la reconstruction 3Dd’un objet quelconque.

6 RemerciementJe tiens à remercier tout particulièrement Selim BENHI-MANE pour son aide sur les expérimentations.

FIG. 1 – Expérimentation avec le robot Anis de l’INRIA

1000 2000 3000 4000 5000 6000 7000−0.16

−0.14

−0.12

−0.1

−0.08

−0.06

−0.04

−0.02

0

eνx

eνy

eνz

1000 2000 3000 4000 5000 6000 7000−0.1

−0.05

0

0.05

0.1

0.15

0.2

0.25

eωx

eωy

eωz

FIG. 2 – Fonction de tâche : eν et eω

Références[1] D.G. Lowe Distinctive Image Features from Scale-Invariant

Keypoints, International Journal of Computer Vision, 60, 2(2004), pp. 91-110.

[2] E. Malis, A Unified Approach to Model-based and Model-free Visual Servoing, European Conference on Computer Vi-sion, vol 4, pp. 433-447, Copenhagen, Denmark, May 2002.

[3] S. Benhimane, E. Malis. Real-time image-based tracking ofplanes using efficient second-order minimization, IEEE/RSJInternational Conference on Intelligent Robots and Systems,vol. 1, pp. 943-948, Sendai, Japan, October 2004.


CoSARC : Une approche globale pour le développement de contrôleurs de robots

R. PassamaLIRMM Départements Robotique et Informatique161 rue Ada, 34392 Montpellier cedex 5, France

[email protected] : D. Andreu, C. Dony, T.Libourel

1 IntroductionComme tous les systèmes logiciels actuels, les contrôleursde robots évoluent et deviennent de plus en plus com-plexes. Cette complexité s’exprime de différentes façons :plus d’autonomies décisionnelle et opérationnelle sont re-quises ; plus de capteurs et d’actionneurs sont embarquésafin d’élargir les potentialités des robots ; plus de traite-ments et de commandes de natures diverses sont utilisésetc. Ce constat entraîne une difficulté toujours accrue auniveau de la conception et du développement de tels sys-tèmes d’autant plus que la demande exige qualité et réuti-lisabilité.

Le besoin en termes de méthodes et outils adaptés estévident, comme en témoigne l’intensité actuelle des re-cherches sur ce sujet. Dans ce contexte, le but de nos tra-vaux est d’intégrer les avancées du génie logiciel à com-posants [1] aux méthodes de conception et de développe-ment des contrôleurs logiciels de robots [3] [4]. Pour réali-ser ceci, nos travaux pluridisciplinaires ont consisté à étu-dier les propositions académiques et industrielles autour dedeux domaines de recherche principaux. Le premier est legénie logiciel à objets et composants, qui fournit depuisplusieurs années des méthodes et outils informatiques vi-sant à améliorer la qualité et la réutilisabilité du code et desspécifications des logiciels. Le deuxième domaine abordéest celui des architectures de contrôle mixtes en robotique,dont l’étude a fait émerger, entre autres, le concept de dé-composition des architectures logicielles des contrôleursen couches hiérarchisées, chaque couche étant responsabled’un niveau de délibération et de réaction dans l’architec-ture.

2 la méthodologie COSARCNous proposons à partir de ces études une méthodologiede développement de contrôleurs logiciels de robots, nom-mée CoSARC (acronyme anglais pour Component-basedSoftware Architecture of Robot Controllers). Cette métho-dologie s’appuie sur une architecture de contrôle génériques’inspirant de celles proposées dans la littérature. Cette ar-chitecture sert de patron au développeur d’architectures decontrôle auquel nous proposons un langage de modélisa-tion et de programmation à composants pour effectuer lecycle complet de développement.

2.1 Architecture générique

L’architecture générique proposée s’inspire des travauxmenés sur la conception d’architectures de contrôle mixtes.Elle décrit une solution, générique et adaptable, de structu-ration des architectures des contrôleurs logiciel de robots.Elle propose un découpage (en entités) qui favorise la lisi-bilité des architectures logicielles tant pendant le dévelop-pement qu’à l’exécution et la réutilisation des composantsà partir desquelles elles sont décrites. Cette architecture gé-nérique repose sur le concept deRessource. UneRessourceest une entité responsable du contrôle d’une partie identi-fiée de la partie opérative d’un robot, qui peut être contrôléede façon indépendante et dans différents modes de fonc-tionnement. Par exemple pour un robot manipulateur mo-bile, nous pouvons identifier troisRessources: le manipu-lateur (contrôle indépendant du bras mécanique), le mobile(contrôle indépendant du véhicule) et le manipulateur mo-bile (contrôle du bras mécanique et du véhicule couplés,prenant en compte tous leurs degrés de liberté).

ChaqueRessourceest décomposée en un ensemble decomposants en interactions (i.e. uneRessourceest doncconsidérée comme une architecture) : un ensemble deCommandeschargées de générer des données actionneursà partir de données capteurs (réalisation d’un asservis-sement) ; un ensemble dePerceptionschargées de gé-nérer des données de haut niveau d’abstraction à par-tir de données capteurs ; un ensemble deGénérateursd’évènementschargés de générer des événements diffusésvers les niveaux supérieurs de l’architecture ; un ensembled’Actionsreprésentant les actions atomiques qu’est capablede contrôler la Ressource, responsables de la commuta-tion et de la reconfiguration desCommandesvia des évé-nements diffusés par certainsGénérateurs d’événements;un ensemble deModes qui représentent les modes defonctionnement d’uneRessource(téléopération, autono-mie, coopération), chaqueMode s’appuyant sur un en-semble d’Actionset deGénérateurs d’événementsafin deréaliser les ordres provenant des niveaux supérieurs ; ununiqueSuperviseur de Ressourcequi est chargé de la com-mutation desModesau sein d’uneRessourceen fonctiondes ordres provenant de la couche supérieure.

L’architecture d’un contrôleur, quant à elle, est com-posée d’un ensemble deRessources(sous-architectures),


d’un ensemble deContrôleurs d’entrées/sortiesrespon-sables de l’échantillonnage des données capteurs et del’affectation des données de commande aux actionneurs(ainsi qu’éventuellement d’autres traitements sur ces don-nées), ainsi qu’unSuperviseur Globalqui se charge d’ac-tiver/désactiver lesRessourcesen fonction d’ordres prove-nant d’un opérateur humain. LeSuperviseur Globalest àl’heure actuelle le niveau de supervision le plus haut dansl’architecture, il traduit les ordres provenant d’un opérateurhumain en une série d’ordres qu’il envoie auxRessources,et qui peuvent être exécutés en parallèle ou en séquence enfonction de la nature même de ces ordres.

A partir du patron proposé par cette architecture générique,les développeurs peuvent conduire l’analyse de toute archi-tecture de contrôle de robot. Ils ont cependant alors besoinde formalismes et / ou langages pour modéliser et implan-ter cette architecture.

2.2 Langage à ComposantsLe langage CoSARC est un formalisme de modélisation etun langage de programmation de haut niveau dédié à cetteproblématique. Il a été défini à partir de propositions déjàexistantes au niveau des langages et modèles à composantsen intégrant les besoins spécifiques liés au développementdes contrôleurs logiciels de robots. Il propose aux dévelop-peurs de manipuler différentes catégories de composants.

Lescomposants de représentationsont introduits pour re-présenter les connaissances que le robot possède sur sonenvironnement, sa partie opérative, sa mission etc. Ils se-ront utilisés pour représenter les entités à partir desquellesles décisions seront prises par lescomposants de contrôle.

Lescomposants de Contrôlesont introduits pour représen-ter les entités responsables des activités à partir desquellesest décidé de la réaction que le robot doit appliquer afin deréaliser sa mission, à différents niveaux d’abstraction. Ilsseront utilisés pour représenter les différentes entités pré-sentes dans l’architecture générique. Leur comportementréactif asynchrone est décrit par le biais des réseaux de Pe-tri à Objets [2].

Les connections entrecomposants de contrôlesont réifiéesà travers des composants appelésconnecteursqui encap-sulent les protocoles d’interaction. Le protocole défini parunconnecteurest décrit par un réseaux de Petri à Objets cequi permet de donner une sémantique formelle à la compo-sition descomposants de Contrôle.

Enfin l’architecture globale d’un contrôleur, ou des sous-architectures comme celles relatives à chaqueRessource,est encapsulée dans un composant appeléconfiguration,ce qui permet de rendre réutilisable des assemblages com-plexes decomposants de contrôle.

Après conception d’uneconfiguration, le développeur peutdécrire son déploiement via un ensemble de structurespropres au langage CoSARC, qui permettent de représen-ter les noeuds de l’architecture matérielle du contrôleur, deréaliser le déploiement descomposants de contrôleau sein

de processus système en effectuant, de plus, l’ordonnance-ment des processus déployés chaque noeud.

3 ConclusionLa méthodologie proposée présente divers avantages. Toutd’abord l’objectif de réutilisabilité visé est atteint : toutcomposant est réutilisable et notamment lesconnecteursréutilisables indépendamment descomposants de contrôleeux-mêmes. L’intégration des réseaux de Petri à Objetsdonne une sémantique formelle à la composition descom-posants de contrôlevia desconnecteurs. Ainsi, le réseauxde Petri global de l’architecture d’un contrôleur peut êtrereconstitué à partir des réseaux de Petri descomposants decontrôleet desconnecteurs. Ceci donne au développeur lapossibilité de détecter, dès la phase de modélisation, desaberrations (e.g. interblocages).

Le langage proposé contribue également à la traçabilité descomposants pendant leur cycle de développement (modéli-sation et programmation) via la notion de raffinement. Ledéveloppeur modélise les caractéristiques structurelles etcomportementales de chaque composant puis raffine le mo-dèle en écrivant le code de chaque opération. Finalementdes mécanismes de compilation permettent de traduire au-tomatiquement l’ensemble des informations collectées afinde générer des composants exécutables au sein d’un en-vironnement d’exécution spécifique. A titre d’exemple, lelangage CoSARc propose de traduire les réseaux de Petrià Objets dans un format exécutable par un joueur intégréà cet environnement (ce qui résoud, entre autre, la difficiletâche de traduction des réseaux de Petri à Objets en code).

Notre équipe aborde actuellement, après la proposition dela méthodologie et du langage sous-jacent, la phase de va-lidation et d’opérationalisation. Nous effectuons la concep-tion et le développement d’un contrôleur de robot mobileentièrement basé autour de l’approche CoSARC. A pluslong terme, nous développons l’atelier de génie logiciel etle middleware temps-réel au dessus duquel s’exécutent lescomposants écrits dans le langage CoSARC.

Références[1] C. Szyperski,Component Software : Beyond Object

Oriented Programming,Addison-Wesley, 1999.

[2] C. Sibertin-Blanc, High Level Petri Nets with DataStructure,Proceedings of the 6th european workshopon Application and Theory of Petri Nets, Espoo, Fin-land, 1985.

[3] J. D. Carbou, D. Andreu, P. Fraisse, Contrôle de ro-bots autonomes basé sur les réseaux de Petri hybrides,Conférence sur la modélisation des systèmes réactifs(MSR’01), Toulouse, France, 2001.

[4] F. Ingrand, Architectures Logicielles pour la Robo-tique Autonome,Journées Nationales de la Rechercheen Robotique JNRR’03,Clermont-Ferrand, France,Octobre 2003.


Une Interface Tactile Portable à Bas Coût pour le Handicap Visuel

Ramiro Velázquez1, Jérôme Szewczyk1, Moustapha Hafez2 et Edwige Pissaloux1

1 Laboratoire de Robotique de Paris, CNRS FRE 2507 – Université Paris 6

2 CEA/LIST/SRSI

1, 2 18 Route du Panorama, BP 61, 92265 Fontenay aux Roses, France [email protected]

Résumé

Depuis des décennies, les interfaces à stimulation tactile ont été utilisées principalement pour la transmission de l’information aux déficients visuels. Mais leurs vraies possibilités ont été relevées seulement récemment lorsque le sens du toucher est devenu l’une des modalités d’interaction avec les ordinateurs : réalité virtuelle, robotique, télémanipulation, jeux et divertissements ; depuis peu, la réhabilitation (pour le traitement des maladies cognitives et comportementales) envisage leur utilisation à des fins thérapeutiques.

Les systèmes de lecture utilisant le code Braille sont les outils à stimulation tactile les plus populaires. Ces interfaces sont souvent basées sur la technologie piézoélectrique, très chère (leur coût varie entre 3000 et 16000€). Par ailleurs, l’affichage de l’information graphique 2D est pratiquement impossible à cause de l’encombrement des actionneurs piézoélectriques. Seule l’interface DMD-120060 de la société allemande Metec, qui propose une interface de 159 x 59 actionneurs (pour 56000€), permet de le faire, mais elle exige un balayage cartésien de la surface et impose donc une charge cognitive importante. En outre, la portabilité des interfaces de Braille est limitée (systèmes de 1 kg de dimensions : 12 x 32 x 4 cm).

Plusieurs équipes de recherche ont développé des prototypes d’interface à stimulation tactile en cherchant une mise en oeuvre plus efficace, tant au niveau de l’encombrement et des performances temporelles que du coût. Elles explorent les différentes technologies d’actionnement : électromagnétique (Harvard, CEA), piézoélectrique (U. of Exeter, McGuill), pneumatique (Berkeley), les alliages à mémoire de forme (U. of Hull, U. of Tokyo), les gels polymères (Carnegie Mellon) et les fluides électro-rhéologiques (U. of Newcastle).

Les alliages à mémoire de forme (AMF) offrent plusieurs caractéristiques remarquables pour des applications des micro-actionneurs ou des structures actives : la dimension compacte, le rapport poids/puissance développée, l’activation propre et silencieuse, et la haute résistance à l’opération cyclique.

Aussi, un actionneur tactile (taxel) basé sur la technologie des AMF a été conçu et prototypé comme élément de base d’une surface Braille. Cet actionneur

allie la simplicité de sa conception, la facilité d’implantation et d’actionnement performant (le poids : 150 mg ; la force de traction développée de 320 mN à 1,5 Hz dans un environnement à convection forcée simple) et à très bas coût (moins de 5€).

Ce taxel est à la base d’une surface Braille à bas coût, légère et portable, en cours de prototypage au LRP/Université Paris 6. Le prototype (Fig. 1) est composé de 64 taxels en AMF, tous intégrés dans un système de 60 g, de dimensions compactes (4,5 x 4,5 x 4,5 cm) et de faible encombrement.

FIG. 1 – Interface tactile portable basée sur des micro-

actionneurs en alliages à mémoire de forme (AMF).

Cette interface à stimulation tactile permettra non seulement l’affichage classique de l’information texte-graphique 2D, mais aussi (grâce aux dimensions, au poids et à son faible coût (200€)) son intégration dans les outils à retour tactile (outil de rééducation des déficiences cognitives (maladie d’Alzheimer) et de perception de l’espace, d’assistance aux gestes médicaux, de réalité virtuelle/augmentée/diminuée), ou dans des aides à la navigation pour les déficients visuels (en association avec un système de vision). Mots Clefs : Interface tactile, actionneur tactile (taxel), alliages à mémoire de forme (AMF).


Laboratoire de Robotique de ParisUniversité Pierre et Marie Curie – CNRS

L.R.P

Conception et Réalisation d’un Prototype d’Interface Conception et Réalisation d’un Prototype d’Interface Tactile d’Aide à l’Exploration de l’Environnement 3DTactile d’Aide à l’Exploration de l’Environnement 3D

-- Projet Lunettes Intelligentes Projet Lunettes Intelligentes --

LRP – 18, route du Panorama – BP 61 – 92 265 Fontenay-aux-Roses – Francehttp://www.robot.jussieu.fr - velazquez, [email protected]

Contexte de la RechercheObjectifs :

Compréhension des interactions entre la vision, le toucher et la locomotion au niveau de la perception humaineConception et réalisation d’un prototype d'aide aux déplacements indépendants et en sécurité des déficients visuels dans l’environnement 3D (carte d’obstacles statiques et dynamiques)Concevoir et construire une interface tactile qui restitue l’information sur l’environnement 3D pour la transmettre à l’utilisateur final

Système d’acquisition

d’images

Analyseur de scènes (Algorithmes de vision) Interface tactile

Collaborations et contacts

CEA/LISTCollège de France

R. Velázquez (Doctorant) E. Pissaloux (Directeur de thèse)

J. Szewczyk et M. Hafez (Co-encadrants)

Avantages des actionneurs AMF

Conception et réalisation simpleHaut niveau d’intégration PortabilitéBon rapport force/poids du matériauPrix raisonnable

Projet : Lunettes Intelligentes

Prot

otyp

ePr

inci

pe d

’opé

ratio

nC

once

pt

Interface tactile de 8 x 8 actionneurs (taxels)

Technologie des alliages àmémoire de forme (AMF)

Configuration « push-pull »ou antagoniste


Sélection et contrôle de modes de déplacement pour un robot mobile autonomeen environnements naturels

T. PeynotLAAS-CNRS

7, av. du Colonel Roche31077 Toulouse Cedex 4 - France

[email protected]

RésuméCette article présente une approche pour effectuer lecontrôle autonome du comportement d’un robot mobile enenvironnement naturel, doté de différentes capacités de na-vigation et de locomotion. Une sélection du mode le mieuxadapté à la situation courante est effectuée grâce à un sys-tème de type Markov sur la base de deux types de données :des informations a priori (carte qualitative) et des donnéesissues d’une surveillance des modes par des moniteurs pro-babilistes.

Mots ClefNavigation, Locomotion, Robots mobiles en environne-ment naturel, Chaîne de Markov, Moniteurs probabilistes.

1 IntroductionParmi les différents problèmes posés par la navigation d’unrobot en environnement naturel non structuré, ceux poséspar le choix dún mode de déplacement adapté et par lecontrôle de son exécution ont encore été très peu abor-dés. Les difficultés sont multiples : la variabilité des situa-tions rencontrées est très grande, la perception que le robota de son environnement est souvent incertaine et impré-cise, et enfin le robot manque bien souvent dínformationspertinentes sur son comportement actuel. Le LAAS-CNRSa développé ces dernières années diverses fonctionnali-tés permettant de doter les robots d’extérieur de capacitésdáutonomie, en particulier dans les domaines de la naviga-tion, de la perception de lénvironnement, de la générationde trajectoire et de la localisation. Ces fonctionnalités, as-sociées à des modes de locomotion, peuvent permettre deconstituer divers modes de déplacement, permettant au ro-bot d´évoluer efficacement dans des environnements trèsdivers.Lóbjectif de ces travaux est de développer un systèmedonnant au robot la capacité de choisir en ligne le meilleurmode de déplacement (de la perception à la locomotion)suivant la situation présente. Ce choix est tout dábord ef-fectué a priori puis adapté a posteriori grâce à une obser-vation et une surveillance des différents processus impli-qués. Pour cela, il est nécessaire de mettre au point desméthodes d’évaluation du comportement du robot mobile

lors de phases de déplacement et de se servir de ces éva-luations pour choisir en ligne le meilleur mode de dépla-cement (lorsque le robot dispose de plusieurs possibilités).Nous avons choisi de traiter ce problème en utilisant unformalisme probabiliste en raison du caractère incertaindes données perçues par le robot et de la disponibilité deméthodes de classification probabiliste de terrain, spéciale-ment dans notre laboratoire.

2 PrincipeNous proposons donc un système probabiliste de sélectionet contrôle des modes de déplacement les mieux adaptés àla situation courante.

2.1 Les modes de déplacementNous distinguons deux catégories de modes (Fig. 1) :– Les modes de Navigation concernent la modélisation de

l’environnement et le choix de la trajectoire ou de la mé-thode de mouvement. Ceux qui sont exploités dans nosexpérimentations au LAAS-CNRS sont : un mode de na-vigation pour terrains plats, utilisant un mouvement ré-actif basé sur des données laser ; et un mode dédié à lanavigation en terrain accidenté, dans lequel un planifi-cateur local évalue la difficulté des trajectoires possiblesgrâce à une fonction de placement sur un modèle numé-rique de terrain [2], construit grâce à la stéréovision.

– Une fois ce mode de navigation choisi, le mode de Lo-comotion à sélectionner concerne la manière d’exécuterle mouvement choisi. Ce mode peut être par exemple unniveau de vitesse pour le robot, ou, pour un robot dispo-sant d’un chassis articulé, l’utilisation du péristaltisme 1

plutôt que le simple roulement.

2.2 Sélection des modesLe choix en ligne du mode le mieux adapté à la situationcourante repose sur deux types d’information :– des données dites a priori sous la forme de probabilités

partielles fournies par un système de classification baye-sienne du terrain suivant le meilleur mode (à partir dedonnées issues de la stéréo-vision) [2], ou bien par un

1dans ce mode le robot “rampe" comme une chenille [1]


FIG. 1 – Les deux niveaux de modes (Navigation et Loco-motion) et des moniteurs associés.

FIG. 2 – Chaîne de Markov pour la sélection en ligne demodes de locomotion

opérateur qui prend la décision d’après les images vi-sualisées.

– des données issues de moniteurs probabilistes fournis-sant des informations sur le comportement du robot, ousur l’adéquation des conditions avec le mode utilisé ac-tuellement. Nos travaux mettent l’accent sur cette partie.

Ces deux types de données alimentent une chaîne de typeMarkov [5] (Fig. 2) dans laquelle les états sont les modesdisponibles et les probabilités de transition d’un mode à unautre sont générées à l’issue d’une combinaison des pro-babilités fournies par les moniteurs [4] et de la prise encompte dún coût associé au changement de mode corres-pondant (pour éviter les basculements de modes prématu-rés ou trop fréquents).Ainsi, la probabilité que le mode mk soit le mode le mieuxadapté à l’instant t est :

p(mk|Ot) = ηt p(Ot|mk)K−1∑i=0

pik p(mi|Ot−1) (1)

où :• Ot sont les observations réalisées jusqu´à l’instant t.• pik est la probabilité de la transition du mode i au modek. Plus précisément, pik = qik costik, où qik est une tran-siton de probabilité fournie par le monitoring en ligne etcostik est un coût associé au changement de mode de i à k.• K est le nombre de modes.• p(Ot|mk) est la probabilité que lóbservation Ot soitfaite sachant que le rover est dans le mode mk. Cette infor-mation est fournie par lánalyse du terrain (classification apriori).• ηt est un coefficient de normalisation.

Le mode sélectionné sera celui qui a la meilleure probabi-lité p(mk|Ot).

2.3 MoniteursPour mettre à jour les probabilités de transition, nous uti-lisons des moniteurs de mode. Ces moniteurs ont deuxmissions : vérifier la bonne adéquation du contexte cou-rant au mode utilisé, et évaluer la qualité du comportementdu mode actuel. Un exemple dún tel moniteur probabi-liste concernant les modes de locomotion est l´évaluateurdéfficacité de la locomotion (voir [3]), méthode de détec-tion des situations de glissements et particulièrement lesplus graves : les fautes de locomotion (le robot návanceplus alors que ses roues continuent à tourner).D’autres moniteurs ont été développés ou sont en cours dedéveloppement, tels que la détection de terrain non plat(pour des modes de déplacement nécessitant un terrainplat), ou bien l’exploitation de la comparaison entre confi-gurations et attitudes prévues et celles mesurées en ligne.

3 Conclusion et perspectivesDes résultats préliminaires encourageants ont été obtenus àpartir de données issues de deux types de robots du LAAS-CNRS, l’un disposant de diverses capacités de locomotion(le Marsokhod rover Lama) et l’autre pouvant exploiter dif-férents modes de navigation (un ATRV de iRobot nomméDala). Les perspectives de ce travail concernent essentiel-lement deux points :– le développement de moniteurs probabilistes supplé-

mentaires actuellement en cours d’étude : en effet, plusleur nombre sera important, meilleures seront l’évalua-tion et la sélection des modes.

– la validation expérimentale du système complet (seule-ment testé partiellement ou hors ligne pour le moment),sur différentes plates-formes.

Références[1] G. Andrade, F. Ben Amar, P. Bidaud, and R. Cha-

tila. Modeling robot-soil interaction for planetary rovermotion control. In IROS, 1998.

[2] S. Lacroix et al. Autonomous rover navigation on unk-nown terrains : Functions and integration. Internatio-nal Journal of Robotics Research, 2002.

[3] T. Peynot and S. Lacroix. Enhanced locomotioncontrol for a planetary rover. In IEEE/RSJ Interna-tional Conference on Intelligent Robots and Systems,2003.

[4] T. Peynot and S. Lacroix. A probabilistic framework tomonitor a multi-mode outdoor robot. In IEEE/RSJ In-ternational Conference on Intelligent Robots and Sys-tems, 2005.

[5] V. Verma, R. Simmons, and J. Fernandez. Probabilis-tic models for monitoring and fault diagnosis. In JointWorkshop on Technical Challenge for Dependable Ro-bots in Human Environments, 2002.


Robot médical pour l’implantologie dentaire : identification d’un axe

Richard CHAUMONT1,2, Eric VASSELIN1, Marc GORKA1, Dimitri LEFEBVRE1

1GREAH - Université du Havre - 25, rue Philippe LEBON - BP 540 - 76058 LE HAVRE Cedex 2Dental View - 11, allée des cascades - BP63154 - 95278 VILLEPINTE

[email protected] ; [email protected]

1. Introduction La robotique a trouvé un nouveau type d’application dans le milieu chirurgical où elle participe à l’assistance du chirurgien offrant au patient une chirurgie moins traumatisante et a minima - invasif. Notre travail a pour ambition de proposer in fine, un robot médical dédié à l’implantologie dentaire. La pose d’un implant dentaire est actuellement la seule technique permettant de restaurer la dentition d’un patient de manière quasi définitive. Particulièrement sensible, elle nécessite une grande précision. L'implant dentaire assure un confort au patient et peut amener une réduction globale des coûts en raison de sa longévité et des absences de complication inhérentes aux prothèses classiques. Dans les cas difficiles, les chirurgiens dentistes sont confrontés à un geste complexe. Aujourd’hui, la difficulté est d’améliorer les techniques de pose en tenant compte des contraintes biomécaniques et prothétiques induites par le respect de critères esthétique, phonétique et masticatoire. En particulier, les problèmes à résoudre sont les suivants [1] : • Comment ajuster la position de l’implant en s’écartant

le moins possible de l’axe prothétique pour que les forces qui s’appliqueront sur la prothèse soient dirigées selon l’axe de " fixture "?

• Comment optimiser le positionnement relatif de deux implants adjacents ?

• Comment optimiser la position de l’implant en fonction de la densité osseuse ?

• Comment rendre l’opération moins invasive ? Une réponse est la chirurgie guidée par l’image. Cette solution se base sur un système de navigation optique de positionnement absolu permettant de connaître la position en temps réel de l’outil du chirurgien par rapport au patient. L’opération est planifiée à partir des données scanner, ou d’images radiographiques pour les cas cliniques simples. La technique consiste à initialiser le recalage entre les données images patient et un nuage de points obtenu en balayant des points singuliers sur la mâchoire du patient avec une sonde ultra son. La mâchoire du patient est ensuite suivie en temps réel grâce au système de navigation.

2. Descriptif du système Le rôle de la machine de navigation chirurgicale est de guider le chirurgien par l’image et de le contraindre mécaniquement à respecter l’orientation de la fraise tel que définie en planification préopératoire. A l’aide d’un

système de stéréovision, la position et l’orientation du patient et du robot sont connues par rapport aux structures anatomiques du patient.

Le robot médical fait partie de la famille des robots semi-actifs. Le praticien actionne le bras robotisé comme un instrument. Durant l’intervention, le robot asservi l’orientation de la fraise pendant la phase de perçage.

Ce robot est doté de six degrés de liberté. Un porteur passif de type scara comportant une translation verticale et deux rotations horizontales et un poignet comportant 3 degrés de liberté concourants équipés de trois servomoteurs, de manière à asservir l’orientation de perçage pendant l’opération. Les consignes angulaires ad hoc sont déterminées en inversant le modèle géométrique idéal du poignet du robot.

3. Identification d’un axe [2] La modélisation géométrique a permis de déterminer les consignes qui permettent d’obtenir l’orientation de l’outil définie lors de la planification. Dans ce paragraphe nous allons décrire la modélisation dynamique d’un axe du robot. Le schéma bloc de l’ensemble moto-reducteur et de l’électronique de commande est représenté par la fig.3.

FIG.1 - Robot semi actif

ContrôleurPI

Electronique PWM :

60kHz

Contrôleur

PID

H(p)

- -+ + Ω(p)

Consigne position

θ (p)

Ic(p) Signal de commande

I(p)

ε1 ε0

1/50p

FIG.3 - Schéma bloc d’un axe

Image tomographique (CT scan)

xp

zp

ypPatient

xs

ys

zs

Stéréovision

Marqueurs passifs de localisation robot

xct

zct

yct

Poignet du robot Marqueurs passifs

de localisation patient

FIG.2 - Repères du système


3.1. Identification électromécanique L’identification est réalisée en boucle fermée. La sortie est la vitesse et l’entrée le courant. La fig.4 représente le protocole d’identification. Il est réalisé à vide sans couple perturbateur parasite. L’axe du robot a été placé de telle sorte que le moment d’inertie est constant quel que soit la position angulaire. La courbe bleue (en haut) est le courant en mA et la courbe verte (en bas) la vitesse angulaire en qc/ms (quater-count par milli-seconde).

L’analyse de la réponse temporelle de la fig.4 nous montre une dissymétrie du courant générant l’accélération par rapport au courant générant la décélération. Le processus est non linéaire. La fig.5 représente la caractéristique entrée sortie du processus. Elle montre la présence d’une zone morte et d’un hystérésis. La fonction de transfert électromécanique Ω(p) / I(p) est représentée sur la fig.9.

3.2. Identification électronique La fonction de transfert identifiée a pour sortie le courant et pour entrée la consigne. Elle représente, la partie électronique du système qui se compose du variateur et de son correcteur. L’identification est réalisée en boucle fermée. La fig.6 représente le protocole d’identification. Il est réalisé à vide sans couple perturbateur parasite. La courbe bleue est la consigne du courant et la courbe verte le courant. Une étude exhaustive de l’électronique de commande nous a montré que la fonction de transfert I(p) / IC(p) est un second ordre surtensif avec un zéro stable.

3.3. Comparaison modèle - processus Pour valider le modèle nous lui appliquons le même signal de consigne en courant issu des enregistrements des protocoles d’identification que nous avons effectués.

La fig.7 nous montre la consigne de courant, en magenta, générée par la carte de contrôle commande et la vitesse réelle en bleu ciel. La courbe jaune est la réponse en vitesse du modèle complet, la distance modèle processus est acceptable compte tenu de la non linéarité du processus. La fig.8 montre respectivement la position obtenue par le modèle complet, la position réelle en bleu ciel et la position modèle en jaune. Elles sont confondues, le modèle mathématique complet, fig.9, que nous avons défini est fidèle et peut être validé.

4. Perspectives des travaux de recherche La démarche mise en œuvre pour l’identification de l’axe étudié pourra être appliquée de façon générique sur les autres axes et ainsi on pourra simuler le comportement dynamique du robot et mettre au point une commande de niveau 2 la plus performante et la plus sure possible. D’autre part, nos travaux porteront sur les points suivants : • Etude de la précision, calibration du poignet, • Découplage position / orientation de l’outil,

minimisation des mouvements de l’outil, • Gestion de l’environnement, gestion des collisions,

ergonomie. Ce robot médical est un système semi-actif et invasif. Par conséquent, une analyse exhaustive de la sûreté de fonctionnement sera mise en œuvre pour définir les sécurités à mettre en œuvre au niveau matériel électrique, mécanique et logiciel. Ensuite des simulations et des expérimentations cliniques seront réalisées.

Annexe Les auteurs remercient le Docteur DERYCKE, chirurgien dentiste implantologue, PDG de DENTAL VIEW.

Références [1] DUTREUIL JULIEN. Modélisation 3D et robotique médicale pour la chirurgie. Thèse de sciences, Ecole des Mines de Paris, septembre 2001. [2] RICHALET JACQUES. Pratique de l’identification. Edition Hermes, 1998.

FIG.4 - Allure du protocole FIG.5 - Hystérésis du système

FIG.7 – Réponse en vitesse. FIG.8 –Réponse en position

²

Tpk

+1I(p) Ω(p)In(p)

12

)1(

020

2

++

+

ωξ

ωpp

TpKIc(p)

Fig.9 – Modèle complet d’un axe

FIG 6 – Allure du protocole


5e journées nationales de la recherche en robotique

Documents