mise en page 1fred.landragin.free.fr/publi/20_belial_extraits.pdfl’humeur massacrante du...

Comment parle un robot - intérieur.qxp_Mise en page 1 17/02/2020 12:33

COMMENT PARLEUN ROBOT ?LES MACHINES À LANGAGEDANS LA SCIENCE-FICTION

Comment parle un robot - intérieur.qxp_Mise en page 1 17/02/2020 12:33 Page 3

FRÉDÉRIC LANDRAGIN

COMMENT PARLEUN ROBOT ?

LES MACHINES À LANGAGE

DANS LA SCIENCE-FICTION


© 2020, Frédéric Landragin© 2020, le Bélial’, pour la présente édition

Couverture et illustrations © 2020, Cedric Bucaille | Agence & Pourquoi Pas ?

Collection « Parallaxe » dirigée par Roland Lehoucq

Merci à Joachim Albertini pour la relecture

Si vous voulez être tenu au courant de nos publications,écrire aux auteurs, illustrateurs, ou recevoir un

bon de commande complet, deux adresses :

Le Bélial’50 rue du Clos

77670 Saint MammèsFrance

ou

www.belial.fr

venez discuter avec nous sur http://forums.belial.fr

Dans la collection « Parallaxe »aux éditions du Bélial’

• La science fait son cinéma, de Roland Lehoucq et J.-Sébastien Steyer• Comment parler à un alien ?, de Frédéric Landragin• Station Metropolis direction Coruscant, d’Alain Musset


SOMMAIRE

AVANT-PROPOS ......................................................................................... 15

INTRODUCTION ....................................................................................... 19Le langage et l’intelligence artificielle (IA) ............................................... 23Le traitement automatique des langues (TAL) ........................................ 32Un peu d’organisation ............................................................................. 40

CHAPITRE 1 : LES FACETTES DE L’INTELLIGENCE ARTIFICIELLE PARLANTE ... 45Intelligence et pensée : Barrière mentale de Poul Anderson ...................... 48Évaluer l’intelligence à l’aide du langage : le QI, le QE, mais quid des IA ? 52L’IA en SF et en réalité : Skynet versus DART ........................................ 56Les systèmes experts : «Un Logique nommé Joe» de Murray Leinster ....... 58L’apprentissage artificiel : « Demande infos ! » dans Short Circuit ........... 61Les agents conversationnels animés : Tron de Steven Lisberger ............... 65Langage, TAL et IA .................................................................................. 69

CHAPITRE 2: LES FACETTES DU TRAITEMENT AUTOMATIQUE DES LANGUES 73Définitions et discussions préalables ........................................................ 76L’analyse lexicale et morphosyntaxique : Premier Contactde Denis Villeneuve .............................................................................. 83L’analyse syntaxique : le masque dans L’Enchâssement de Ian Watson....... 89Les analyses sémantiques : « Un Monde de talents » de Philip K. Dick .... 95La détection des entités nommées : Herxingenmosiken ......................... 104La détection des actes de langage : La Machine ultimed’Alfred E. Van Vogt ............................................................................ 108Le traitement automatique au-delà de la phrase ..................................... 111La fouille de textes .................................................................................. 118

CHAPITRE 3 : LA MACHINE QUI COMPREND TOUT CE QU’ON LUI DIT ..... 123La reconnaissance de la parole : Vision aveugle de Peter Watts................. 125


Langage et émotions : A.I. Intelligence artificielle de Steven Spielberg ..... 132Langage et cognition : HAL dans 2001, l’Odyssée de l’espace ................... 137L’inférence linguistique : « Comprends » de Ted Chiang ...................... 141La machine omnisciente : Person of Interest de Jonathan Nolan .............. 144

CHAPITRE 4 : LE TRADUCTEUR AUTOMATIQUE UNIVERSEL ...................... 149Comment communiquer ? Le babel fish de Douglas Adams .................. 152Dispositif ou procédé ? ........................................................................... 154La traduction automatique, c’est avant tout de la linguistique ............... 157De la linguistique à la statistique ............................................................ 161Réalités et enjeux actuels de la traduction automatique ......................... 166Ce qu’un traducteur automatique peut et ne peut pas faire .................... 168Une machine peut-elle concevoir une interlingua ? ................................ 171Le traducteur automatique universel, c’est de la magie ! ......................... 172

CHAPITRE 5 : LE DIALOGUE ENTRE HUMAINS ET MACHINES .................... 175Les différents modes de communication entre humains et machines ..... 178HAL de 2001 et Samantha de Her, deux IA qui ont de la voix .............. 182Les machines parlantes envahissent la SF ............................................... 184Le test de Turing : L’Âge de diamant de Neal Stephenson ....................... 186La synthèse vocale : Révolte sur la Lune de Robert Heinlein ................... 192Le dialogue humain-machine, domaine fédérateur du TAL ................... 194Où sont les principales difficultés ? ........................................................ 200

ANTICIPONS ! .......................................................................................... 203Quel avenir pour le TAL ? ...................................................................... 206Quel avenir pour l’IA ? ........................................................................... 211

NOTES ..................................................................................................... 219

BIBLIOGRAPHIE ....................................................................................... 231

INDEX DES NOTIONS ............................................................................... 247


À la mémoire d’Isabelle Tellier (1968-2018), inoubliablePandora curieuse de tout, professeure de linguistique infor-matique toujours prête à discuter de films de science-fictionet de médiation scientifique.

Merci à Yannis Haralambous pour ses relectures attentives,ses suggestions minutieuses, et pour avoir porté à mon atten-tion plusieurs nouvelles ou romans qui manquaient à macollection. Merci à mes collègues du laboratoire Lattice,notamment à Thierry Poibeau pour nos échanges stimulantssur la traduction automatique et l’apprentissage artificiel.Enfin et surtout, merci à Roland Lehoucq, Olivier Girard etErwann Perchoc pour m’avoir fait confiance, encouragé etaccompagné tout au long de ce travail enrichissant.


AVANT-PROPOS

LE TERMINATOR MODÈLE T-800 a trouvé refuge dans sonantre, où il entrepose ses armes et répare les mécanismes

endommagés de son bras ou son œil. Les lambeaux de peauhumaine qu’il a arrachés de son squelette métallique pour-rissent de jour en jour, et de mauvaises odeurs s’en dégagent.Assis sur le lit, il feuillette l’agenda trouvé au domicile deSarah Connor, pour identifier des indices lui permettantd’atteindre celle-ci. À travers la porte, il entend soudain unhomme d’entretien qui frappe plusieurs fois et demande :« Eh mec ! Qu’est-ce que c’est qui pue comme ça ? Un chatcrevé ? » Pas question d’ignorer cette intervention. En vuesubjective, la caméra montre les informations provenant del’intelligence artificielle (IA) qui pilote le Terminator. Appa-raît l’indication « réponses possibles » et un menu déroulantavec six choix : « oui/non », « et alors ? », « dégage », « mercide revenir plus tard », « va te faire foutre, connard » et « vate faire foutre ». Le système choisit l’avant-dernière réponse,qui apparaît en surbrillance et qui est prononcée aussitôt. Ah,l’humeur massacrante du Terminator… L’homme d’entretienricane doucement et s’éloigne sans insister — heureusementpour lui.

Cette scène du film Terminator (James Cameron, 1984) estl’une des rares à montrer à l’écran les étapes de raisonnementd’une machine parlante. Elle nous permet d’illustrer de manièresimple quelques aspects linguistiques et communicatifs de ceraisonnement. Ainsi, l’intervention de l’homme d’entretien

15


(on parle d’énoncé) est la succession d’un appellatif et de deuxquestions, la dernière — « un chat crevé ? » – étant fermée,c’est-à-dire amenant comme réponse soit « oui » soit « non ».D’où le premier choix, linguistiquement littéral : « oui/non ».Mais répondre oui ou non ne suffirait probablement pas àsatisfaire le curieux : l’IA le sait et c’est pourquoi les autresréponses apportent un contenu, sans pour autant révéler lasource de l’odeur nauséabonde — comme le ferait par exem-ple « ne vous en faites pas, mon brave, c’est la chair que j’aiarrachée de mon squelette qui se putréfie ». La réponse-type« merci de revenir plus tard » permettrait au Terminator derester tranquille encore un moment. L’injure va dans le mêmesens, mais de manière plus définitive : c’est donc l’énoncé quisera synthétisé oralement. Le registre de langue est vulgaire,aux antipodes de celui du droïde de protocole C-3PO dansLa Guerre des étoiles (George Lucas, 1977), mais on peut sou-ligner que l’IA fait un choix pertinent, car compatible avecla tranquillité recherchée.

Une IA parlante fonctionne-t-elle comme Terminator ? Lesrobots de compagnie, les enceintes connectées et les chatbotssur Internet suivent-ils ces étapes de raisonnement linguis-tique ? Comment une machine peut-elle déterminer parelle-même une liste de réponses possibles ? Comment le lan-gage humain peut-il être traité et manipulé automatiquement?Les IA et robots parlants de la science-fiction (SF) sont-ilsréalistes ? Les chercheurs en linguistique et en IA sont-ils ouseront-ils bientôt en mesure de concevoir le logiciel qui pilotele Terminator, ou celui de C-3PO, capable d’après Le Retourdu Jedi (Richard Marquand, 1983) de pratiquer six millionsde formes de communication ? Si oui, en faisant appel àquelles techniques ?

Ce livre répondra à ces questions et vous fournira lesconnaissances élémentaires de ce domaine scientifique inti-tulé le traitement automatique des langues (TAL). Nous



étudierons ainsi plusieurs types de machine à langage que l’onrencontre fréquemment en SF et qui existent parfois dans laréalité. Nous explorerons le monde fascinant de l’informa-tique linguistique, de la traduction automatique, du dialoguehumain-machine — dialogue en langage naturel entre unemachine et son utilisateur humain — ainsi que des IA capa-bles de comprendre, synthétiser, résumer et produire dulangage aussi bien que les humains. Pour notre plus grandconfort, ou peut-être notre plus grand malheur, allez savoir !

AVANT-PROPOS


INTRODUCTION


PEU DE DOMAINES SCIENTIFIQUES suscitent autant de peurset d’interrogations que l’IA. Au fil des semaines, les arti-

cles alarmants se succèdent dans la presse internationale, demême que les comparaisons avec Terminator, les pétitions etles tentatives d’explication de chercheurs, chargés de rendrecompréhensibles les évolutions de l’IA depuis l’époque dessystèmes experts — logiciels qui remplacent un expert humainpour une tâche très précise — jusqu’à celle de l’apprentissageartificiel, technique parfois considérée comme l’avenir desmachines et la fin de l’humanité. Pensez donc : une machinecapable d’apprendre de nouvelles connaissances et de nou-veaux comportements pourrait progresser indéfiniment, alorsque la fatigue et la dégénérescence auront raison des pauvreshumains que nous sommes. Et que dire de la SF ! Avec lanotion de singularité technologique, sorte de point de non-retour de la supériorité (quantitative) de l’IA sur l’humain,Vernor Vinge (1944-) a tourmenté le lectorat depuis la fin desannées 1980. Le cinéma s’en est fait l’écho, avec une imagerieforte qui a nourri une nouvelle génération de romanciers etscénaristes. Robots et IA sont désormais communs en SF, aupoint que certains auteurs n’osent même plus envisager leurmonde futuriste sans IA hyper-évoluée.

Pourtant, si les avancées scientifiques majeures se succèdent,on peine toujours à rapprocher Pepper (SoftBank Robotics)— ou son prédécesseur Nao, ou Asimo (Honda), ou mêmeAtlas (Boston Dynamics) — de Terminator. Car ces robotsréels ne fonctionnent correctement que dans des conditionstrès précises, bien en deçà des capacités de compréhensiondu monde et d’évolution autonome de Terminator. Commec’est le langage qui nous intéresse, citons aussi Siri (Apple),

21


Cortana (Microsoft), Alexa (Amazon) ou encore GoogleHome, et laissons de côté les aspects robotiques — autono-mie et biomécanique. Or on ne peut que constater que Siriet Pepper n’ont pas vraiment le sens de la répartie de Termi-nator, ni les capacités de compréhension et de dialogue deC-3PO. Les voies empruntées par la science et la SF diver-gent-elles ? Pourquoi les robots de la SF parlent-ils sansdifficulté depuis longtemps, alors que les robots de la sciencesemblent tout juste capables d’aligner des phrases prédéfinies,recrachées telles quelles ? L’informatisation de la linguistiqueest-il un problème si complexe ?

Depuis l’arrivée des premiers ordinateurs dans les années1950, modéliser le langage est devenu un enjeu de taille, unesorte de quête du Graal que l’on suit pas à pas, effort aprèseffort. La linguistique s’est rapprochée de l’informatique etdes possibilités de calcul des ordinateurs, au point de consti-tuer un nouveau domaine. Celui-ci s’est appelé linguistiquecomputationnelle, ou ingénierie linguistique, a construit sesfondations sur le problème de la traduction automatique, eta œuvré pour le web sémantique, à savoir l’organisation desdonnées pour autoriser leur traitement par des machines,afin d’aider les utilisateurs à créer de nouvelles connaissances.Les spécialistes désignent ce domaine sous le nom de « trai-tement automatique des langues » et l’abrègent en TAL. Peuconnu du grand public, il s’agit d’un domaine de rechercheet de développement très actif, ainsi que d’une industrie quienglobe le marché de la traduction automatique comme celuides chatbots, et qui entretient des liens forts avec le domainebien plus médiatisé de l’IA.

Quelles sont les relations entre linguistique, TAL et IA ?Pourquoi la SF met-elle en avant l’IA, parfois la linguistique (1),mais quasiment jamais le TAL ? Celui-ci est-il implicite dansles histoires de robots parlants et dans les interventions detraducteurs automatiques, par exemple lors d’un premier


22


contact avec des extraterrestres ? C’est ce que nous verronstout au long de ce livre, en nous appuyant sur de nombreusesillustrations tirées de la SF.

Le langage et l’intelligence artificielle (IA)Concevoir une IA douée de langage peut se faire de deux

manières opposées. Appelons Terminator-A et C-3PO-A lesincarnations de la première manière, Terminator-B et C-3PO-B celles de la seconde.

L’intelligence de Terminator-A fonctionne à base de règles,comme « si je vois une personne appelée Sarah Connor, alorsje tire » et « si quelqu’un me dérange dans mon antre, alors jel’en dissuade, quitte à lui faire peur». Ces règles de comporte-ment œuvrent à un haut niveau d’abstraction et se développenten une multitude de règles plus précises, comme « siquelqu’un me pose une question, alors je coupe court à sacuriosité ». Avec cette dernière règle, Terminator-A n’est pasbavard — tout le contraire de C-3PO-A, chez qui la règlecorrespondante ressemblerait plutôt à « si quelqu’un me poseune question, alors je m’efforce de satisfaire sa curiosité, etj’en rajoute avec un commentaire soulignant l’étendue demes compétences ». C’est ainsi que quand Luke lui demandes’il comprend le langage des Ewoks, C-3PO-A répond : « Ohoui, Maître Luke, n’oubliez pas que je connais six millions deformes de communication. » Ce sont aussi des règles qui per-mettent à Terminator-A d’identifier six réponses possibles àl’homme d’entretien, et ce sont encore d’autres règles qui enévaluent la pertinence, aboutissant à retenir « va te faire fou-tre, connard ».

L’intelligence de Terminator-B se base sur des probabilités.Au moment de sa conception, on lui a fait ingérer des milliersde dialogues humain-machine. Dans la plupart d’entre eux,la machine ne répond pas, rembarre voire insulte l’humain.En apprenant automatiquement à partir de ces multiples

INTRODUCTION

23


exemples, Terminator-B en a déduit ses propres règles defonctionnement, qui ne sont pas exprimables explicitementcomme celles de Terminator-A, mais œuvrent par croisementde probabilités. Face à une situation donnée — celle avecl’homme d’entretien, par exemple —, plusieurs réponses sontidentifiées à partir des exemples appris, et ce sont des proba-bilités qui permettent à Terminator-B de choisir « va te fairefoutre, connard ». Pour concevoir C-3PO-B, on a procédéde même, mais en lui faisant ingérer des milliers de dialogueshumain-machine impliquant une machine bavarde et van-tarde, plutôt que concise et brutale.

Explorons maintenant les facettes techniques de ces deuxmanières de concevoir une IA parlante. Nous donneronsainsi les définitions de base de l’IA, et nous enchaîneronsavec celles du TAL.

En 1988-1989 paraît L’Intelligence artificielle et le langage (2),ouvrage scientifique en deux volumes écrit par le spécialistede TAL et d’IA Gérard Sabah (1948- ). Le premier tomeexplore la représentation des connaissances dans une machine,le second les algorithmes — procédés informatiques tels quedes instructions exécutées à la suite l’une de l’autre — utilespour doter un logiciel de capacités de compréhension auto-matique et de dialogue humain-machine. Les techniquesexplorées, c’est-à-dire les types d’algorithmes et les façonsd’encoder des connaissances, sont celles qui permettraient deconcevoir Terminator-A et C-3PO-A… mais toutes propor-tions gardées : dans les films, les machines se débrouillent trèsbien face à des centaines de situations complexes, affinentleurs stratégies et corrigent leurs erreurs d’appréciation. Dansla réalité, des résultats ne sont envisageables que dans unmicro-monde complètement décortiqué et minutieusementdécrit, avec des conditions de fonctionnement contrôlées etrestreintes. Car même dans un contexte réduit, il faut pro-grammer des milliers et des milliers de règles pour espérer


24


obtenir une machine ayant un comportement intéressant.Plusieurs techniques étudiées par Gérard Sabah et les cher-cheurs de cette époque sont toujours utilisées aujourd’hui :sans les reprendre exactement, Siri ou Pepper en exploitent lesgrands principes.

L’ensemble est représentatif de la première approche del’IA, dite symbolique, qui consiste à modéliser tout ce qui atrait au langage sous la forme de règles explicites, écrites pardes programmeurs avec l’aide de linguistes. Le traitementd’une phrase comme « les robots parleront » active ainsi desrègles sur les combinaisons possibles entre un déterminant etun nom pour former un groupe nominal, sur le fait que « les»signale un pluriel, que déterminant, nom et verbe doivents’accorder en genre et en nombre, et sur la connaissance qu’ungroupe nominal (GN) placé devant un verbe intransitif à lavoie active (V) conduit à une phrase grammaticalement com-plète (P) — ce que l’on note « GN + V = P ».

On le voit, beaucoup de notions issues de la grammaire dufrançais sont exploitées. En effet, pour que le système — oulogiciel, ou programme informatique — puisse traiter ungrand nombre de phrases, on doit le doter de connaissancesexhaustives sur les différents types de phrases, les règles d’ac-cord, l’ordre des mots et ainsi de suite. Un système conçu pourla langue française doit connaître le lexique du français, etdonc la liste des déterminants, des noms communs, des verbes,adjectifs, adverbes… Il doit connaître les mots avec toutesleurs orthographes et prononciations possibles : « parle »,«parlons », «parlez », «parlent », «parleront » et bien d’autrespour le verbe «parler ». Il doit savoir à quelle notion linguis-tique se rapporte chaque forme : mode, temps, personne,nombre… Il doit savoir comment se construit une phrase,comment reconnaître son sujet, son verbe ou son complé-ment d’objet direct.

INTRODUCTION

25


Toutes les règles de grammaire enseignées à l’école primairesont à considérer ! Et bien plus si le système a un objectif decompréhension automatique : pour comprendre « les robotsparleront », il faut introduire des connaissances sur le sens desmots — leur sémantique — et le sens des phrases. Un «robot»est un être animé et peut donc effectuer une action commeparler, répondre, dialoguer, se taire, tomber en panne. S’ils’agit de Pepper ou Nao, il peut aussi se déplacer, tomber, serattraper, s’endommager.

Et ce n’est pas tout : une compréhension fine nécessite deprendre en compte le contexte — objet d’étude de la prag-matique. Le groupe nominal « les robots » désigne-t-il tous lesrobots, ou seulement ceux dont il a été question plus tôt dansle dialogue ? Que peut-on déduire de « les robots parleront » ?Cela sous-entend-il que « les robots ne parlent pas » ? Le sys-tème confronté à cette phrase doit-il inférer (déduire)quelque chose et réagir en conséquence ? Vous le constatez :le traitement d’une simple phrase peut poser de nombreusesquestions.

L’approche symbolique de l’IA consiste à anticiper dès laconception le plus grand nombre de ces questions. Celles quiconcernent la grammaire du français relèvent du TAL, cellesqui concernent le raisonnement et le choix d’une réaction ouréponse adaptée relèvent plutôt de l’IA. Dans tous les cas,règles et connaissances sont déclarées en utilisant des symboles,comme dans «GN + V = P », et les traitements consistent enmanipulations de symboles.

Continuons avec la deuxième manière de concevoir uneIA parlante. En 1999 paraît Foundations of Statistical NaturalLanguage Processing (3), un ouvrage scientifique qui décritl’utilisation de méthodes statistiques pour le TAL. De fait,l’IA comme le TAL s’intéressent de plus en plus aux alterna-tives aux méthodes symboliques. Ces alternatives constituentla deuxième approche de l’IA, actuellement prédominante,


26


en attendant — peut-être ! – un éventuel retour vers l’ap-proche symbolique ou l’exploration de méthodes hybrides.

Cette deuxième approche de l’IA est dite numérique : elleconsiste à numériser les données et connaissances, pour quecelles-ci puissent faire l’objet de calculs mathématiques. Unesous-partie de cette approche, appelée probabiliste, traite lesdonnées statistiquement : elle manipule des probabilités —par exemple celle qu’un pronom précède un verbe plutôt quelui succède — qui introduisent des approximations (alors quel’approche symbolique fonctionne de manière exacte).

Mieux : les mots de la langue eux-mêmes sont transformésen données numériques (par exemple en vecteurs, c’est-à-direen listes de nombres), ce qui permet de les traiter avec desoutils mathématiques et de leur appliquer un éventail extrê-mement riche d’algorithmes. Et notamment, des algorithmespour apprendre, comme pour Terminator-B et C-3PO-B.

La machine apprend ainsi par elle-même, à partir d’exem-ples qu’on lui fournit. On parle d’apprentissage machine— apprentissage artificiel se dit machine learning en anglais —pour le différencier de l’apprentissage humain, car ces deuxapprentissages ne sont pas similaires. Il suffit à un enfant devoir un dessin d’éléphant pour « apprendre » ce qu’est un élé-phant. Au contraire, des centaines de photos d’éléphants sontnécessaires pour qu’une machine « apprenne » à en reconnaî-tre un. Plusieurs techniques ont été imaginées pour cela,depuis des méthodes très mathématiques jusqu’au succèsrécent des réseaux neuronaux artificiels dans plusieurs domainesde l’IA : reconnaissance de caractères écrits, vision artificielle,aide à la conduite automobile, météorologie, jeu de go… Unréseau neuronal artificiel est une architecture informatiqueinspirée du fonctionnement du cerveau humain : elle com-porte des neurones artificiels et des connexions entre neurones.Pour que le système ne soit pas trop gourmand en temps decalcul, le neurone doit rester simple : facile à programmer,

INTRODUCTION

27


rapide à exécuter. De fait, il s’agit d’une fonction mathéma-tique basique, parmi les plus simples que l’on peut étudierau lycée (4).

Cette approche, appelée connexionniste, est une variantede l’approche numérique. Sa puissance vient de la nature etdu nombre de connexions entre neurones : la simplicité duneurone est compensée par la quantité et par des mécanismesbien choisis. Gardons-nous cependant de rapprocher la quan-tité de neurones artificiels ou de mémoire informatiqueexploitée par un réseau neuronal, du nombre de neurones d’uncerveau humain (cent milliards) : même si les chiffres tendentà se rapprocher, même si les ordinateurs dépassent un jourles humains, un réseau neuronal reste un algorithme utilisépour apprendre (et qui apprend certes plutôt bien). Néan-moins, aucun comportement totalement original ne vasoudainement émerger chez la machine.

Surtout, l’IA connexionniste repose sur un besoin impor-tant, celui de données. Pour apprendre, un système doit lesexplorer, si possible en très grande quantité. L’apprentissagene consiste pas à retenir toutes ces données (sinon c’est bête-ment « par cœur » !) mais à établir des rapprochements et àen déduire des règles. Le modèle appris permet ainsi de trai-ter des cas qui ne font pas partie des données d’apprentissage— appelées aussi données d’entraînement. Par exemple, unmodèle prédira que « les robots parleront » est une phrasegrammaticalement complète si les données d’entraînementcomprenaient les phrases « le robot parle très mal », « le repré-sentant parle toute la journée» et « les représentants parleront».Mieux : en fonction des cas observés dans les données d’en-traînement et de leur fréquence d’apparition, le systèmeaccordera à « les robots parleront » une probabilité plus oumoins élevée de constituer une phrase grammaticalementcomplète.


28


L’intérêt, c’est qu’on n’a plus à programmer de logiciel, ni derègle comme «GN+V= P» : il suffit de disposer d’exemplesen grand nombre et de lancer un processus d’apprentissagepour obtenir un modèle tout prêt, doté de ses propres règles.La médaille possède cependant son revers : lancer ce proces-sus sur des exemples de mauvaise qualité, voire biaisés,conduit à élaborer un système au comportement biaisé.Microsoft l’a douloureusement constaté en mars 2016,quand son chatbot Tay, capable d’apprendre en dialoguantavec des humains, a été activé sur le web : des utilisateursmalins l’ont nourri de nombreux exemples misogynes etracistes. En toute logique, Tay s’est mise à produire desphrases misogynes et racistes, dès sa première journée de pré-sence sur les réseaux sociaux ! L’opinion internationale en aété choquée, Microsoft a déconnecté Tay, mais aucun spécia-liste d’IA ou de TAL n’a été vraiment surpris du résultat.

Nous avons mentionné plus haut que tout opposait lesdeux approches de l’IA. Effectivement, les concepteurs desystèmes symboliques programment, tandis que ceux de sys-tèmes numériques accumulent et adaptent des données. Eninformatique, on raisonne souvent avec une entrée et unesortie : la première correspond à la situation détectée par lerobot, la seconde au comportement de celui-ci, déclenché parle programme en fonction de l’entrée. Les deux approchesdiffèrent sur la gestion des entrées et sorties : la machine sym-bolique prend un programme (connu) et une entrée(inconnue) pour en faire une sortie, tandis que la machinenumérique commence par prendre des entrées et des sortiesconnues pour en faire un programme (le modèle), utiliséensuite pour produire une sortie à partir d’une entrée inconnue.

Qui plus est, les avantages de l’une correspondent auxinconvénients de l’autre. L’avantage principal de l’approchesymbolique est le traitement 100 % correct des cas prévuslors de la conception : forcément, c’est pour eux que les règles

INTRODUCTION

29


ont été conçues ! Mais ses limites apparaissent dès que l’onsouhaite traiter un cas non prévu : le système génère unemauvaise réponse, voire aucune réponse du tout, ou un aga-çant « je ne comprends pas ce que vous dites ». L’approchesymbolique manque ainsi de robustesse face aux changementset à l’hétérogénéité.

Il s’agit justement des avantages de l’approche numérique :les cas initialement prévus, donc présents dans les données,ne seront peut-être pas traités correctement à 100 %, maisl’approche s’avère bien plus solide — robuste – face aux don-nées irrégulières et à l’hétérogénéité, ce qui étend son champd’action. L’inconvénient est que les règles déterminées par lesystème sont lisibles seulement par lui-même et doivent doncêtre acceptées telles quelles, sans modification possible (il fau-drait alors relancer un apprentissage), tandis que les règles del’approche symbolique peuvent être lues, évaluées, critiquéeset corrigées.

Pour rendre compte de ce problème de lisibilité, on parlepour l’approche symbolique de boîte transparente — car onpeut « voir » les règles — et, pour l’apprentissage artificiel, deboîte noire — on ne voit rien à l’intérieur : le fonctionnementdu système est opaque. L’écrivain Peter Watts (1958- ) grossità peine le trait dans Starfish, paru en 1999 avec une annexequi montre que la documentation de l’auteur date de 1992,soit largement avant l’avènement de l’apprentissage artificiel.L’extrait suivant évoque des « gels » intelligents, sortes d’IAdu futur : « Ça donne le frisson, ces gels. Vous savez qu’il y en aun qui a asphyxié des gens à Londres il y a quelques années ? […]Il y gérait le métro, états de service impeccables, jusqu’à ce qu’unjour il oublie de démarrer les ventilateurs au moment où il étaitcensé le faire. La rame entre dans la station à quinze mètres sousterre, tout le monde sort, pas d’air, boum […] Ces trucs-làaccroissent leurs connaissances par apprentissage […] tout lemonde pensait qu’il avait appris à lier la ventilation à un signal


30


évident. Genre chaleur corporelle, mouvement, niveau de CO2ou je ne sais quoi. On a découvert qu’il se basait en fait sur l’ob-servation d’une horloge murale. L’arrivée de la rame correspondaitavec un sous-ensemble prévisible de configurations sur l’affichagenumérique, si bien qu’il lançait les ventilateurs chaque fois qu’ilrepérait une de ces configurations. » La conclusion de l’extraitest éloquente : il a suffi que l’horloge soit vandalisée pour quela catastrophe survienne. Si l’on avait pu lire dans le système,on aurait tout de suite constaté qu’il y avait un problème.Notons que des chercheurs en IA s’intéressent depuis peu àrendre les boîtes noires plus transparentes, avec le courantgrandissant de l’IA explicable, qui cherche à explorer et à ren-dre analysables les calculs faits par le système.

Là où les deux approches se rejoignent, c’est dans la quan-tité de travail à accomplir : travail d’écriture de règles pourl’approche symbolique, travail de préparation de donnéesd’entraînement pour l’approche numérique.

L’IA avoue ici ses faiblesses : ni Terminator ni C-3PO nesont actuellement réalisables, que ce soit en version A ou enversion B, car on les voit dans les films capables de réagir etde se comporter intelligemment dans un trop grand nombrede situations. Si Pepper, Nao, Siri et Cortana fonctionnent,c’est parce que leur comportement se limite d’emblée à dessituations bien précises, clairement délimitées. Pepper et Naosont incapables de réagir face à une situation non prévue,comme fuir en cas de danger — notion qu’ils ne connaissentpas et ne sauraient de toute façon pas reconnaître. Siri et Cor-tana transmettent ce qu’on leur dit à un moteur de recherche,mais ne sont pas capables de commenter les dernières actua-lités comme vous le faites en famille ou à la pause-café.L’écrivain Léo Henry l’a compris : «Le langage tel qu’il est prati-qué par les humains est un système trop complexe à modéliser pourque les machines les plus perfectionnées soient capables de le maî-triser. Mais réduisez-en le champ, limitez toutes les interactions

INTRODUCTION

31


par des règles précises, circonscrivez la créativité dans un espaceet un temps déterminé, et les robots pourront vous donner l’illu-sion qu’ils s’expriment » (5).

Contrairement à ce que l’on pourrait croire, l’enjeu n’estpas qu’une question de combinatoire : il ne suffit pas de mul-tiplier les efforts pour passer d’un ensemble limité de situationsà un ensemble de taille satisfaisante — ce que l’on appelle lepassage à l’échelle. Beaucoup de jeunes chercheurs prêts à selancer dans de tels efforts se sont cassé les dents face à l’ac-croissement spectaculaire de la combinatoire et de la com-plexité. Car plus on considère de mots de la langue, plus onprend en compte de concepts relatifs au monde. Et plus onconsidère de concepts, plus on doit prendre en compte lesliens entre concepts, les conditions et contextes dans lesquelsils prennent sens (un lambeau de chair se met à pourrir aubout d’un certain temps) et qui entraînent des conséquences(puanteur, ce qui se détecte et peut inciter quelqu’un à émet-tre une remarque). L’ontologie est le nom donné à l’ensemblestructuré des concepts ainsi considérés et de leurs relations.Le raisonnement logique est ce qui permet d’inférer sens etconséquences. Il s’agit de deux exemples d’applications del’IA qui en incarnent les déconvenues historiques : pendantdes dizaines d’années, on a espéré aboutir un jour à uneontologie générale, incluant tous les concepts de notremonde, et concevoir un système d’inférence universel… avantd’admettre la démesure de ces objectifs. Qu’elle suive uneapproche symbolique ou numérique, l’IA fait des miraclesdans des domaines aux contours bien définis, pas dans lasimulation de l’intelligence humaine dans sa globalité.

Le traitement automatique des langues (TAL)Le TAL, qui relie la linguistique à l’informatique, fait partie

de l’IA et connaît l’approche symbolique aussi bien que l’ap-proche numérique, avec un net penchant pour cette dernière


32


depuis le début des années 2010. L’apprentissage artificiel estactuellement décliné selon toutes les techniques imaginables,en incluant le cas particulier de l’apprentissage profond —le fameux deep learning qui popularise l’IA auprès du grandpublic et qui est un type spécial de réseau neuronal artificielorganisé en couches (plus il y a de couches, plus c’est pro-fond). Les données d’entraînement consistent en collectionsde textes ou d’enregistrements vocaux : on les appelle corpus,et on parle donc de corpus d’apprentissage (ou corpus d’en-traînement).

Pour que la machine apprenne utilement plutôt qu’enaveugle, ces corpus sont annotés : il ne s’agit pas seulement dephrases mises bout à bout comme dans un livre, mais dephrases enrichies d’analyses. Dans un corpus, « les robotsparleront» ressemble plutôt à « les[article] robots[nom] parle-ront[verbe] », « les robots[sujet] parleront[verbe] », ou encoreà « les robots[agent] parleront[action] ». Les annotations sontajoutées à la main, par des annotateurs linguistes qui passentdes milliers d’heures à constituer des corpus riches d’infor-mations linguistiques. La machine se sert de ces informationspour apprendre : avec un corpus constitué d’extraits tels que« les[article] robots[nom] parleront[verbe] », elle apprend àreconnaître automatiquement les articles, noms et verbes ;avec des exemples comme « les robots[sujet] parleront[verbe]»,elle apprend à identifier les fonctions grammaticales. Aprèsapprentissage, une machine devient capable d’annoter auto-matiquement et, en quelque sorte, prend la place des anno-tateurs linguistes. On voit ici ce qui constitue les tâches duTAL : il ne s’agit pas de comprendre exactement ce que Ter-minator ou C-3PO a bien voulu dire (trop compliqué !),mais de se focaliser sur des aspects très précis, très locaux, dufonctionnement de la langue.

Dans les films, ces tâches sont totalement invisibles : on n’envoit ni les étapes ni les résultats, même dans la vue subjective

INTRODUCTION

33


de l’IA qui pilote le Terminator. Il s’agit pourtant des briquesqui permettent à l’IA de fonctionner. Lorsque le Terminatorentend «Qu’est-ce que c’est qui pue comme ça ? », il faut bienqu’il identifie les mots constituant cette phrase, qu’il trouveoù est le verbe, quel est son sujet et ainsi de suite. L’interpré-tation du langage fait appel à de nombreux processus souventignorés par la SF, mais qui constituent le cœur du domaine derecherche qu’est le TAL. Il en est de même pour la productiondu langage : dans l’IA du Terminator, on voit apparaître lesréponses possibles telles quelles, c’est-à-dire déjà construites,alors que les processus de TAL comportent une étape dechoix du verbe, de choix d’une forme injonctive, puis dechoix d’une formulation parmi plusieurs possibles. Cesétapes peuvent sembler trop détaillées, revenant à couper lescheveux en quatre. Elles sont cependant nécessaires à laconception d’un robot parlant digne de ce nom.

Si l’IA montre ses limites avec l’ontologie et le raisonne-ment logique, le TAL montre les siennes avec ses applicationshistoriques, à savoir la traduction automatique et le dialoguehumain-machine. La première est l’objectif déclaré des pre-miers travaux en linguistique informatique et correspond àla naissance du TAL dans les années 1950, nous y revien-drons en détail dans le chapitre 4. En SF, C-3PO en est lechampion incontesté, avec sa capacité à traduire six millionsde formes de communication. La seconde a fait l’objet defantasmes depuis plusieurs siècles, est à l’origine du test por-tant le nom du mathématicien Alan Turing (1912-1954), eta fait l’objet de logiciels dès les années 1960 — le chapitre 5se penchera sur le sujet. En SF, les champions ne se comptentplus : ils incluent non seulement Terminator et C-3PO, maisaussi les robots d’Isaac Asimov (1920-1992), dont le fameuxR. Daneel Olivaw, HAL de 2001, l’Odyssée de l’espace (StanleyKubrick, 1968) et toutes les machines parlantes qui s’inspirentde ces exemples marquants.


34


Nous l’avons vu, la réalité n’arrive pas à rejoindre la SF :aucun robot ou agent conversationnel n’est encore capablede dialoguer avec l’éloquence de C-3PO, ni de raconter unehistoire comme le fait le T-800 de Terminator 2 : Le Jugementdernier (James Cameron, 1991) quand il résume l’intrigue dupremier volet de la série. Quant à la traduction automatique,elle permet d’obtenir un premier brouillon plus ou moinssatisfaisant, mais nécessite toujours une relecture attentive, carles erreurs grammaticales et les contresens restent nombreux,même avec les dernières versions de DeepL (deepl.com) etGoogle Traduction (translate.google.fr).

Si l’on parcourt l’histoire du TAL, on prend la mesure desefforts effectués, pour ces deux applications comme pour lesautres — c’est-à-dire la transcription automatique de la parole(qui aide les systèmes vocaux à traiter le langage, car deschaînes de caractères s’avèrent bien plus pratiques à manipu-ler que des sons) ; la génération automatique de textes (quiaide les journaux comme Le Monde à écrire les milliers d’ar-ticles détaillant ville par ville les résultats des élections can-tonales) ; la synthèse vocale (qui permet de créer des voix etde leur faire prononcer n’importe quel message — tout lecontraire de la SNCF qui fait appel depuis plus de 30 ans àSimone Hérault) ; la fouille de textes, qui consiste à chercherdes informations dans de grands corpus, qu’il s’agisse de motsclés, de références vers d’autres documents, ou de portions detextes pour la détection de plagiat (comme Compilatio.net).Citons encore la correction orthographique dans votre traite-ment de texte, le filtrage des mails pour vous éviter la lecturede spams, le sous-titrage automatique de vidéos, l’indexationde documents pour en repérer les mots clés et faciliter le travaildes moteurs de recherche, Google en tête. Rien qu’à la lecturede cette liste, vous constatez aisément en quoi le TAL est fon-damental dans la société numérique d’aujourd’hui. En fait,

INTRODUCTION

35


vous connaissez le TAL sans connaître forcément son nom,ses techniques et son histoire.

Comme l’IA, le TAL a commencé par explorer, au cours desannées 1950, des méthodes symboliques, et par décrire leslangues à l’aide de formalismes — modélisations mathéma-tiques — qui ouvrent le chemin vers d’éventuelles implémen-tations informatiques. Le linguiste Noam Chomsky (1928- )a le premier mis en avant les aspects formels dans l’analysedes langues, et a proposé plusieurs formalismes pour repré-senter et manipuler la grammaire d’une langue (6). Vousapprenez la grammaire à l’école ; Chomsky l’a formalisée demanière à en permettre un traitement automatique. Il a sug-géré des règles pour générer des phrases correctes dans unelangue donnée, ainsi que des règles de transformation pourpasser par exemple d’une phrase à la voix active vers unephrase équivalente à la voix passive. Chomsky et d’autreschercheurs de cette époque ont commencé à explorer le pas-sage vers l’algorithmique. Plusieurs techniques ont été déve-loppées, en commençant par des automates finis — modèleà base d’états et de transitions entre états, utilisé pour recon-naître des suites de mots — et des transducteurs — modèlebasé sur un automate, mais capable de générer des mots ensortie, et donc non seulement de reconnaître mais aussi detransformer des suites de mots. Ces techniques, communesà plusieurs domaines de l’informatique, permettent de traiterdes phrases, ne serait-ce que pour dire si elles sont bien for-mées ou non. Dans un même ordre d’idée, des techniques deréécriture de graphes — encore un modèle, composé cette foisde nœuds reliés en réseau — ont également été appliquéesau TAL (7).

C’est ainsi que Chomsky a lancé une révolution scientifiquedans les années 1950. Le nom à retenir pour la révolution desannées 1960 est celui de Richard Montague (1930-1971),mathématicien à l’origine de recherches en logique et en phi-


36


losophie du langage, qui ont mis en évidence les aspectslogiques des langues (8). Montague a été le premier à explorerune approche logique de la sémantique, creusant ainsi laquestion du sens, là où Chomsky restait surtout au niveaude la syntaxe, c’est-à-dire de la façon dont les mots se combi-nent pour former des phrases. Mais, de même que Chomskyn’a pas fourni les recettes pour implémenter un système detraitement automatique de phrases, Montague n’a pas implé-menté de système de compréhension automatique clé en main.Comme le décrit le Panorama de l’intelligence artificielle (9),« il y a de fait un gouffre entre ces théories et un calcul effectif dusens d’un texte ou d’un discours.» Le TAL bénéficie de ces théo-ries, mais les informaticiens qui implémentent les premierssystèmes n’obtiennent rien d’autre que des programmes-jouets, capables de traiter un sous-ensemble ridiculementrestreint de phénomènes linguistiques.

La révolution scientifique des années 1970 réside peut-êtredans la prise en compte des intentions sous-jacentes et desstructures qui sous-tendent les textes — ou discours, pourreprendre le terme utilisé en linguistique. Par exemple, undîner au restaurant suit des étapes prévisibles, qui constituentce que l’on appelle un script : lecture du menu, choix de plats,commande, service et ainsi de suite. Traiter automatiquementla narration d’un dîner peut bénéficier d’un guidage par desconnaissances de haut niveau, qui n’ont plus rien de linguis-tique mais relèvent du fonctionnement du monde. Dans unmicro-monde bien décrit, un système de compréhensionautomatique s’en sort à peu près, pas dans un monde sans scripts. Avec l’essor de l’informatique et de langages de pro-grammation comme Prolog (dont le nom signifie « program-mation en logique »), les années 1970 voient apparaître detels systèmes de TAL.

Les années 1980 représentent une révolution pour le dia-logue humain-machine : pour la première fois, la langue est

INTRODUCTION

37


envisagée comme une modalité de communication parmid’autres, comme la modalité de gestuelle. Parmi les élémentsde gestuelle on trouve le geste de désignation — ou geste depointage. Or les ordinateurs, depuis les inventions de Dou-glas Engelbart (1925-2013), ont désormais une souris, quipermet justement de pointer. Se succèdent alors des systèmescapables de traiter plusieurs modalités — on les appelle mul-timodaux —, en premier lieu la parole et le geste de pointage.Plutôt que de produire des commandes vocales telles que« mets l’icône du navigateur Internet en haut à gauche dubureau», l’utilisateur peut dire «mets ça ici » tout en cliquantsur l’icône puis à l’endroit désiré (cet exemple trivial a deséquivalents plus pertinents dans des environnements virtuels).De nouvelles capacités de compréhension sont explorées et denouvelles théories linguistiques sont exploitées, par exemplecelles portant sur l’interprétation des pronoms et adverbesdémonstratifs « ce », « ceci », « celui-ci », « ici », « là », « là-bas ».Les années 1980 sont aussi la décennie des avancées signifi-catives sur les architectures des programmes informatiquescomplexes, avec l’essor des approches à base d’agents logi-ciels, c’est-à-dire de composants se comportant comme desmodules capables de communiquer les uns avec les autrespour résoudre collectivement un problème.

Ces recherches auront des répercussions sur les architecturesdes systèmes de TAL, car un agent «syntaxe» peut communi-quer avec un agent « sémantique» et un agent «pragmatique»pour traiter une phrase : quand l’agent « sémantique» aboutità trois interprétations possibles, les autres agents peuvent l’aiderà sélectionner la bonne interprétation. Les années 1990 voientainsi le succès du modèle BDI (belief, desire, intention), danslequel chaque agent est doté de croyances, de désirs et d’inten-tions. Ces agents sont qualifiés d’intelligents et les recherchesmettent en avant l’intérêt pour un système de dialoguehumain-machine de raisonner en termes de BDI. En parallèle,


38


on assiste à la multiplication des campagnes d’évaluationinternationales, mettant plusieurs équipes de chercheurs encompétition sur les mêmes données et avec la même tâche deTAL à résoudre — Message understanding conferences (MUC),par exemple. Les données (annotées) sont publiques et lesannées 1990 correspondent aussi à l’essor des démarchesouvertes, avec des ressources et des systèmes mis à dispositionlibrement sur le web, favorisant le partage des connaissanceset la reproductibilité des travaux. Se développent égalementles agents conversationnels animés (ACA), autrement dit destêtes parlantes — ou objets animés, à l’image de Clippy, letrombone de Microsoft Office — qui personnifient les sys-tèmes de dialogue : sur l’écran apparaît la tête d’un personnage(ou avatar), à qui vous parlez et qui vous répond. Commepour la multimodalité, l’enjeu est d’explorer les gestes, expres-sions et comportements de la tête parlante. Pas question quel’avatar reste figé : il faut au contraire qu’il transmette visuel-lement son attention, son engagement dans le dialogue, sacapacité à incarner un interlocuteur valable et… intelligent !

Les années 2000 balayent les approches symboliques etassoient progressivement les techniques d’apprentissage arti-ficiel pour le TAL, qui s’orienteront dans les années 2010vers les réseaux neuronaux artificiels. Les recherches se mul-tiplient dans de nombreuses directions et les démonstrateursaussi bien que les produits finis envahissent conférences,salons et autres médias. Google Traduction date de 2005,Nao de 2007, Siri de 2011, Pepper et Cortana de 2014 : ledébut du XXIe siècle voit la multiplication et la diffusion dessystèmes opérationnels.

Mais alors, que fait un chercheur spécialiste de TAL ? Cequi est sûr, c’est qu’il ne fabrique pas un robot parlant toutseul dans son garage. Ni une machine capable de comprendretous ses mails, d’y répondre par elle-même et d’en résumerl’essentiel le soir venu. Encore moins une application vouée

INTRODUCTION

39


à prendre la place d’un professeur des écoles, d’un journalistepolitique ou d’un présentateur météo.

Dans son travail quotidien, un spécialiste de TAL tented’ajouter à un analyseur syntaxique la prise en compte d’uncas particulier auparavant ignoré, d’améliorer les performancesd’un système d’apprentissage focalisé sur les fonctions gram-maticales, d’adapter un système de détection des entités nom-mées (noms propres, dates, lieux…) conçu pour des texteslégislatifs au traitement de textes médicaux, de contribuer àla constitution d’une nouvelle ressource linguistique — uncorpus où les pronoms démonstratifs sont annotés avec dif-férents rôles sémantiques, par exemple —, ou encore de pré-parer un système pour une participation à une campagneinternationale. Les tâches sont généralement ponctuelles etprécises. On trouve dans la campagne SemEval 2019 (Seman-tic Evaluation) une tâche de détection automatique, dans unensemble de messages Twitter en anglais et en espagnol, desposts qui expriment de la haine envers les migrants ou lesfemmes. Le corpus est fourni : à vous de programmer le sys-tème qui se trompera le moins.

La conception d’un robot parlant requiert toutes cestâches ! Pour être généraliste comme le sont C-3PO et Ter-minator, ce robot doit traiter tous les cas syntaxiques qu’unhumain est capable de traiter, il doit comprendre aussi biendes textes législatifs que médicaux, il doit interpréter correc-tement les pronoms démonstratifs et repérer quand on luiparle avec haine. Ces quelques exemples pris parmi une mul-titude d’autres montrent à quel point l’enjeu est énorme.

Un peu d’organisationAprès cette introduction à l’IA et au TAL, vous aurez com-

pris que l’une comme l’autre se structurent en une multitudede tâches. Les techniques sont partagées, mais les données debase du TAL sont linguistiques, alors que celles de l’IA sont


40


plus variées et incluent par exemple des images, avec desapplications comme la reconnaissance de visages ou le repéragede panneaux de signalisation pour une voiture autonome. Sil’on revient à la scène où le Terminator envoie baladerl’homme d’entretien, notons que l’IA intervient pour l’ap-préhension de la situation et des risques encourus, pour ladécision de répondre à l’homme d’entretien (plutôt que derester muet), et que le TAL opère plutôt pour la compréhen-sion de l’intervention de l’homme d’entretien, la déterminationde l’intention sous-jacente (curiosité) et la formulation d’uneréponse.

Ce livre traite essentiellement de TAL, et fera quelquesincursions en IA et en linguistique. C’est son but et son ori-ginalité, et nous chercherons à illustrer la plupart des notionset des caractéristiques par un exemple tiré d’une œuvre deSF. Nous verrons que certains auteurs de SF connaissent bienles facettes de l’IA, parfois du TAL, et que d’autres simpli-fient ou se trompent — au bénéfice du récit, du dépaysementou du message véhiculé (du genre : « attention, les robotsvont bientôt nous surpasser et nous détruire ! »). Le récitprime sur la plausibilité scientifique : ici, le but n’est doncpas de critiquer, mais de profiter des premiers pas accomplispar certains auteurs pour aller plus loin et entrer de plain-pied dans le monde du TAL. Un autre but de cet ouvrage estde montrer en quoi une meilleure connaissance du TAL vousaidera à prendre du recul par rapport à ce que vous lisez etvoyez au cinéma, et à développer votre esprit critique face àdes notions ambiguës et controversées comme la singularitétechnologique de Vernor Vinge.

Comme le livre s’intéresse notamment à l’IA parlante, nouscommencerons par explorer les facettes de cette discipline, encomplément des définitions de cette introduction. C’est lerôle du chapitre 1, qui présentera les principales tâches etidées de l’IA, avec des illustrations issues de la SF.

INTRODUCTION

41


Le chapitre 2 fera de même pour le TAL, plus précisémentcelui concerné par le traitement de l’écrit, en donnant desdéfinitions, des exemples d’applications emblématiques, et enmontrant ce que font actuellement la majorité des chercheurs.Ce chapitre nécessite une lecture attentive, mais l’effortfourni vous permettra d’acquérir une bonne connaissance desfondamentaux du TAL — et si la technique vous rebute,n’hésitez pas à le passer. Sa structure reprend les dimensionsd’analyse du langage qui font l’objet du chapitre 4 du livreComment parler à un alien ? (cf. note 1). La lecture de ce der-nier n’est cependant pas indispensable — juste conseillée !

Le chapitre 3 abordera le TAL du côté de l’oral, en détail-lant toutes les difficultés se présentant lorsque l’on cherche àconcevoir une machine capable de comprendre la parole.Linguistique et techniques informatiques se confronteront etvous permettront de mieux comprendre les facettes de l’IAreliées au langage.

Il sera alors temps d’explorer la première application his-torique du TAL, la traduction automatique, que nous avonsmentionnée dans cette introduction et dont nous découvrironsl’histoire et les difficultés techniques dans le chapitre 4. Cesera l’occasion de revenir sur l’apparition de cette applicationen SF, incarnée parfois sous le nom de traducteur automa-tique universel.

Nous enchaînerons avec l’application emblématique duTAL et de l’IA qui fait écho au titre du livre : le dialoguehumain-machine. Le chapitre 5 sera l’occasion de comparerles réalisations réelles aux mises en scène de la SF, et de mieuxcomprendre ce que signifie le fameux test de Turing, popula-risé en SF entre autres par Le Problème de Turing de l’écrivainHarry Harrison (1925-2012) et du chercheur en IA MarvinMinsky (1927-2016).

Nous pourrons alors conclure en spéculant sur l’avenir duTAL et de l’IA parlante en SF.


42


Maintenant que vous avez lu cette introduction, vousconnaissez les notions de base et vous pouvez lire les chapi-tres dans l’ordre qui vous plaît, chacun d’eux ne s’appuyantque modérément sur le contenu des précédents. Le chapitre 1et une partie de la conclusion reprennent et mettent largementà jour un article paru dans le numéro 85 de la revue Bifrost(2017), de même que le chapitre 4 s’inspire d’un article duBifrost 81 (2016) et le chapitre 5 d’un article du Bifrost 76(2014). Le reste est inédit.

INTRODUCTION


mise en page 1fred.landragin.free.fr/publi/20_belial_extraits.pdfl’humeur massacrante du...

Documents