l'intelligence artificielle au service de la documentation ... · d'entrée de la gauche...

12
L' intelligence artificielle au service de la documentation clinique

Upload: votu

Post on 15-Sep-2018

217 views

Category:

Documents


0 download

TRANSCRIPT

2

Amplifier l'intelligence humaine.

Les médecins choisissent d'embrasser une carrière médicale dans le but de prendre soin des patients, c'est-à-dire d'aider les personnes à rester en bonne santé et de guérir celles qui sont malades. Élément essentiel des soins apportés aux patients, la documentation clinique peut vite devenir une charge fastidieuse qui accapare le temps, l'énergie et l'attention des médecins, au détriment des patients. C'est pourquoi nous concentrons tous nos efforts pour créer des technologies qui facilitent et accélèrent la création de documents par les médecins, tout en améliorant la qualité des soins et la satisfaction des patients, afin de garantir aux uns comme aux autres une expérience optimale.

Dans cet e-Book, nos experts vous expliquent comment nous développons des technologies basées sur l'intelligence artificielle et l'apprentissage automatique qui reproduisent le fonctionnement du cerveau humain, et quels en seront les impacts sur le secteur de la santé.

33

Table des matières

Combien de réseaux neuronaux faut-il pour parvenir à un apprentissage automatique optimal ? . . . . . . . . . . . . . . . . . . . . . . . . . . 4

Au plus profond du « Deep Learning » . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

L’avenir du secteur de la santé : comment l’intelligence ambiante clinique améliorera la qualité des soins . . . . . . . . . . . . . . . . . . . .11

4

Combien de réseaux neuronaux faut-il pour parvenir à un apprentissage automatique optimal ?Par Nils Lenke, Directeur de la division Recherche Entreprise, Nuance Communications

Les réseaux neuronaux profonds sont au cœur de l'apprentissage automatique depuis quelques années, monopolisant l'actualité et les discussions dans les milieux spécialisés comme dans les médias. Cela étant, les réseaux neuronaux n'en sont encore qu'à leurs balbutiements et ne cessent d'évoluer au fil des approches variées.

Les réseaux neuronaux profonds « standard » sont unidirectionnels, c'est-à-dire que l'information circule dans un seul sens, de la couche d'entrée vers la couche de sortie, à travers les couches cachées. Dans le jargon de l'apprentissage automatique, on dit que ces réseaux neuronaux profonds sont « dirigés vers l'avant ». On obtient donc les meilleurs résultats possibles lorsque toutes les informations nécessaires à l'apprentissage sont disponibles simultanément . Prenons l'exemple de la reconnaissance d'image : l'image globale étant immédiatement disponible, le réseau peut l'interpréter d'un seul coup d'œil, ou plutôt ici en une seule opération de traitement .

Afin de faciliter la communication entre l'homme et la technologie, les équipes de Nuance appliquent les réseaux neuronaux profonds aux processus avancés de reconnaissance vocale et de compréhension du langage naturel .

L'un des défis majeurs du langage réside dans le fait que, contrairement à la vision, un discours se déroule dans le temps, un énoncé pouvant durer plusieurs secondes. Et ce qui s'est passé quelques minutes ou quelques secondes avant (le contexte) permet de clarifier ce qui est en train de se produire. Techniquement parlant, bien sûr, il suffit d'attendre la fin d'un énoncé pour que ce dernier puisse être traité globalement par un réseau neuronal profond et permettre ainsi à un réseau dirigé vers l'avant d'accéder à toutes les informations utiles pour exécuter la reconnaissance d'une seule traite. Le problème c'est qu'il est impossible de procéder ainsi avec les systèmes de conversation, tels que les assistants personnels. En effet, le processus de reconnaissance vocale impliquant des calculs extrêmement complexes, les moteurs se mettent à l'ouvrage dès le début d'un énoncé et s'efforcent de suivre le rythme du locuteur afin de lui répondre dès qu'il a terminé de parler, comme dans une conversation ordinaire.

Le moteur de reconnaissance vocale analyse le discours de façon fragmentée. De ce fait, pour établir le contexte, Nuance utilise une variante spécifique des réseaux neuronaux profonds, appelés réseaux neuronaux récurrents.

Leurs neurones reçoivent non seulement des données d'entrée de la gauche (comme illustré ci-dessous), mais ils ont également accès à leur propre état antérieur (voire même, dans certaines variantes, à l'état antérieur d'autres neurones, comme l'illustre le graphique suivant). Ces boucles rétroactives forment une sorte de mémoire .

Afin d'illustrer ce concept, penchons-nous sur la modélisation linguistique : les modèles linguistiques prédisent le mot suivant en s'inspirant des derniers mots cités (dans l'idéal, le nombre de mots ne doit pas être défini, il doit rester variable). Par exemple, si je vous dis : « Liberté, Égalité », vous pensez tout logiquement au mot « Fraternité ». Nous avons découvert que les modèles linguistiques basés sur les réseaux neuronaux récurrents offrent de bien meilleurs résultats que les modèles linguistiques traditionnels.

Examinons à présent la compréhension du langage naturel (CLN), qui associe les mots reconnus à leur signification par le biais de la reconnaissance vocale.

L'une des sous-tâches consiste à identifier les « entités nommées ». Ainsi, dans une requête du style : « Y a-t-il des places dans un parking souterrain proche de la gare de Lyon ? », les deux groupes de mots affichés en italiques sont les entités nommées. Nous allons dans

5

un premier temps étiqueter les mots de l'énoncé afin de préciser s'ils appartiennent ou non à ces entités. Il y a encore dix ou vingt ans, une telle tâche aurait pu être réalisée à l'aide des modèles de Markov cachés (MMC) utilisés dans la reconnaissance vocale avant l'apparition des réseaux neuronaux profonds. Mais, un autre modèle mathématique a émergé depuis, particulièrement efficace en matière d'étiquetage — dans notre cas, l'association d'une séquence d'éléments à un ensemble d'étiquettes .

Ce modèle s'appelle « champs aléatoires conditionnels » (ou CRF pour Conditional Random Fields). Contrairement à la tâche de reconnaissance vocale que nous avons examinée pour la compréhension du langage naturel, nous pouvons nous permettre ici d'attendre la fin de l'énoncé. Le fait de pouvoir analyser simultanément tous les mots de l'énoncé compense le bref délai requis par le traitement CLN, qui est extrêmement rapide comparé au processus de reconnaissance vocale automatique. Les champs aléatoires conditionnels surpassent aisément les MMC sur des tâches telles que la reconnaissance d'entités nommées .

Toutefois, leur inconvénient est qu'il faut leur indiquer manuellement ce qu'ils doivent rechercher dans les données d'entrée (la séquence de mots). Doivent-ils uniquement prendre en compte la valeur nominale des mots, ou bien également leur catégorie grammaticale ? Doivent-ils considérer les mots avoisinants et, si oui, sur quelle étendue ? Il s'avère que les réseaux neuronaux offrent de bonnes performances pour effectuer cette sélection. Ils ont évolué pour apprendre par eux-mêmes à identifier les caractéristiques importantes.

Alors, pourquoi ne pas combiner les champs aléatoires conditionnels et les réseaux neuronaux ? Et bien c'est exactement ce que l'équipe CLN de Nuance a fait.

Dans ce modèle, appelé « NeuroCRF », les réseaux neuronaux prennent en charge l'induction des caractéristiques, tandis que les champs aléatoires conditionnels se chargent du « reste ».

Nous avons constaté que les réseaux neuronaux récurrents, avec leur mémoire intégrée, fonctionnent particulièrement bien avec les champs aléatoires conditionnels. Cela s'explique par le fait qu'ils sont capables de « mémoriser » un contexte de longueur variable, quand d'autres réseaux neuronaux exigeraient la définition arbitraire d'un contexte plus ou moins étendu. Il suffit en plus de quelques astuces et optimisations intelligentes pour obtenir des modèles 10 % plus précis que les champs aléatoires conditionnels déjà performants par eux-mêmes. (Deux confrères, Marc-Antoine Rondeau et Yi Su, ont abordé ce sujet [beaucoup] plus en détail lors de l'atelier ASRU (Automatic Speech Recognition and Understanding) qui s'est tenu en décembre 2015 : « Recent Improvements to NeuroCRFs for Named Entity Recognition » (Dernières améliorations apportées aux NeuroCRF pour la reconnaissance des entités nommées), acte ASRU 2015, p. 390 à 396.)

Ce qu'il faut retenirTout d'abord, même s'il est vrai que les modèles d'apprentissage automatique (et tout particulièrement les réseaux neuronaux profonds) sont performants sur de nombreuses tâches, cela ne signifie pas pour autant qu'il existe un type de réseau neuronal profond optimal pour toutes les situations . C'est pourquoi le travail de recherche pour trouver le meilleur moyen d'optimiser chaque tâche est extrêmement fastidieux.

Ensuite, en tant qu'utilisateur final, vous n'avez aucun moyen de savoir quelle technologie se cache derrière le système vocal utilisé. Une fois que vous aurez appelé plusieurs systèmes de reconnaissance vocale automatique et de compréhension du langage naturel, vous aurez sans doute parlé aux différentes générations technologiques. La seule différence que vous aurez pu noter, en revanche, c'est la précision et la puissance que ces systèmes ont développé au fil du temps. Et, à l'ère de l'apprentissage automatique où toujours plus de données sont transformées en « vaste base de connaissances », cela n'est pas près de s'arrêter.

66

Au plus profond du « Deep Learning »Par Nils Lenke, Directeur de la division Recherche Entreprise, Nuance Communications

Les métaphores sont omniprésentes, dans la culture populaire comme dans la science. Prenez « Elvis, le Roi du rock'n'roll ». Le rock'n'roll n'est pas à proprement parler un royaume, pourtant, lorsque nous entendons parler de « roi », nous nous représentons mentalement une horde de fans acclamant leur idole. Intéressons-nous à présent au « Deep Learning » (l'apprentissage profond), une expression aux multiples métaphores. Existe-t-il vraiment des machines suffisamment complexes pour démontrer de réelles capacités d'apprentissage, comme celles des humains ?

7Comment quelque chose d'aussi abstrait que l'apprentissage peut-il être « profond » (ou « superficiel ») ? Voici quelques-unes des questions que j'explore dans ce billet.

Tandis que les films tels que « Ex Machina », « Her » et « Imitation Game » s'enchaînent au cinéma, le « Deep Learning » suscite parallèlement beaucoup d'engouement. Par curiosité, j'ai recherché les champs d'application du Deep Learning dans un célèbre moteur de recherche. Parmi les centaines de résultats obtenus, voici les domaines d'application possibles du « Deep Learning » : « interprétation d'images satellitaires à des fins commerciales », « différenciation de l'état pathologique dans des données collectées dans un contexte naturel », « compréhension des critiques de films », « interprétation des émotions à l'aide de capteurs physiologiques », « langage naturel » et — probablement mon préféré — « l'imbroglio des relations humaines » (je ne dois pas être le seul à penser que les deux phénomènes sont liés). Le Deep Learning peut s'appliquer de toute évidence à tous ces domaines extrêmement variés. Mais il nous faut dans un premier temps savoir d'où vient le concept d'apprentissage profond. Que signifie-t-il ? Pour commencer, je pense que ce concept est lié aux métaphores.

Aujourd'hui, nous allons nous plonger dans le sujet et voir comment les métaphores peuvent devenir de puissants outils pour ouvrir nos esprits à de nouvelles perspectives, tout en nous entraînant vers des conceptions déformées.

Dans un discours élaboré, les métaphores ne sont pas des éléments décoratifs, mais un instrument économique qui permet d'économiser des mots et des efforts en recyclant d'anciens mots dans un nouveau contexte.

Les métaphores sont partout, j'en ai d'ailleurs moi-même facilement utilisé sept (indiquées en italiques) dans ma dernière phrase. Pour résumer, une métaphore applique des mots et des concepts appartenant à un certain champ pour parler d'un champ totalement différent. Au lieu de dire « Elvis est le Roi du rock'n'roll », on pourrait dire « l'artiste majeur » ou n'importe quelle périphrase véhiculant ce sens. Toutefois, la première solution serait maladroite et la seconde trop longue. Et nous serions face au même dilemme pour désigner Michael Jackson, le « Roi de la pop ». Dans un discours élaboré, les métaphores ne sont pas des éléments décoratifs, mais un instrument économique qui permet d'économiser des mots et des efforts en recyclant d'anciens mots dans un nouveau contexte englobant toutes les associations sous-jacentes.

1ère partie : la notion de « Learning » (apprentissage) dans le concept de « Deep Learning »Si l'on se fie à la définition du dictionnaire Larousse en ligne, l'« apprentissage » est « l'ensemble des processus de mémorisation mis en œuvre par l'homme ou l'animal pour élaborer ou modifier les schémas comportementaux spécifiques sous l'influence de son environnement et de son expérience ». Le simple fait d'associer le mot « apprentissage » à des substances ou des systèmes de notre « Internet des objets » relève déjà de la métaphore puisqu'on applique un concept reposant sur la conscience — faculté dont sont dépourvues ces entités. Peut-être avez-vous déjà entendu parler des « alliages à mémoire de forme ». Les objets réalisés à partir de ces métaux possèdent une propriété intéressante : une fois chauffés, ils ont la capacité de retrouver leur forme initiale. Il est tentant de décrire ce comportement en termes métaphoriques (ce qui aide également à le conceptualiser). Wikipédia emploie cette méthode pour décrire les alliages à mémoire de forme, indiquant opportunément l'emploi de métaphores à l'aide de guillemets :

L'alliage est capable après « apprentissage » d'avoir deux positions stables, l'une au-dessus d'une température dite critique et l'autre en dessous. En d'autres termes, un alliage à mémoire de forme « mémorise » sa forme basse température, mais, une fois chauffé, retrouve sa forme haute température en « oubliant » instantanément la première.

Personne ne prend cette définition au pied de la lettre et suppose que les atomes de métal possèdent des mini-cerveaux capables d'« apprendre » et de « mémoriser » quoi que ce soit. Mais qu'en est-il des programmes informatiques spécialisés dans l'« apprentissage automatique » ? S'agit-il également dans leur cas d'un « apprentissage » purement métaphorique ? Ou sont-ils suffisamment sophistiqués pour apprendre véritablement, à l'instar des humains ? Et pourquoi ne rejetons-nous pas de facto cette dernière idée, comme nous le faisons pour l'alliage à mémoire de forme ?

L'explication vient notamment du fait que les ordinateurs sont beaucoup plus complexes et que peu de personnes savent comment ils fonctionnent réellement. Dès leur apparition, les ordinateurs ont inspiré les métaphores en tous genres, les médias les considérant dès les années 50 comme de véritables « cerveaux électroniques ». Puis, la science-fiction, qui ne se souciait guère de la « faisabilité technique » ou de tout autre détail ennuyeux, nous submergea de machines et de robots « intelligents » qui s'enracinèrent rapidement dans l'imaginaire populaire. C'est là qu'ils croisèrent les concepts de « vie artificielle » profondément ancrés dans la culture occidentale, du golem d'argile et de l'homoncule des alchimistes du Moyen-âge jusqu'au monstre du Frankenstein de Mary Shelley.

Afin de savoir si l'apprentissage automatique apprend réellement ou juste « apprend », voici une petite introduction sur le sujet.

Sandra_Logut
Highlight
conomique
Sandra_Logut
Note
enlever economique, redondant avec le reste de la phrase
Sandra_Logut
Highlight
indiquées en italiques
Sandra_Logut
Note
il n'y a plus le texte en italique, comme sur la version ENG

8Commençons par étudier un modèle mathématique qui fut au cœur d'une multitude de systèmes d'apprentissage automatique pendant de nombreuses années : les modèles de Markov cachés, ou MMC.

L'image ci-dessus ne semble pas spécialement complexe. Elle se compose d'états (x) et des transitions possibles entre ces derniers (a), qui sont associées à certaines probabilités et mappages (b) vers des états d'entrée (y). Le modèle « apprend » les probabilités en s'« entraînant » sur plusieurs échantillons de ce que les modèles sont supposés représenter, par exemple des mots ou leurs composants acoustiques, appelés phonèmes. Je pense que nous pouvons nous accorder sur le fait que le terme « apprentissage » est ici purement métaphorique, étant donné que ces modèles ne sont pas très différents des atomes d'alliage à mémoire de forme mentionnés plus haut.

Toutefois, il y a quelques années, les MMC ont été remplacés par un autre modèle d'apprentissage automatique qui s'est imposé dans les années 90 et qui, après avoir presque totalement disparu peu de temps après, fait aujourd'hui son grand retour en force (nous verrons pourquoi un peu plus loin). Le nom de ce modèle, « réseau neuronal », pose d'emblée problème. Comme on peut le voir dans la figure ci-dessous, ce modèle se compose de couches de nœuds « inspirées » des neurones du cerveau humain : les données entrent par les flèches de gauche, à l'instar des influx (électriques) que reçoivent les neurones via leurs dendrites, puis, après calculs, les résultats sortent par la droite (et servent alors d'entrées pour la couche suivante), de la même manière que l'influx transite le long de l'axone d'un neurone.

Les calculs qui s'effectuent au cœur du « neurone » sont généralement plutôt simples, du type extraire le maximum des entrées ou les additionner. Afin de pouvoir exploiter ces calculs dans le cadre d'une tâche d'apprentissage

automatique (la reconnaissance d'une image, par exemple), chaque nœud d'entrée est affecté à un pixel d'une image — en noir et blanc, par exemple — et chaque nœud de sortie a une catégorie d'objet à reconnaître (« arbre », « vache » ou autre). Par la suite, comme pour les MMC, il faut entraîner le modèle avec des images et les résultats connus (l'image montre une vache), en paramétrant les nœuds d'entrée et de sortie sur les valeurs appropriées. Il suffit ensuite d'appliquer la méthode dite de « rétropropagation » qui effectue les calculs de droite à gauche (lors de l'exécution, le modèle fonctionne de gauche à droite, c'est-à-dire des entrées vers les sorties), en ajustant les probabilités associées aux arcs, de sorte que toute entrée de cette nature déclenchera automatiquement la sortie appropriée lors du calcul de gauche à droite.

Comme vous le constatez, le modèle global n'est pas beaucoup plus complexe que les MMC, ou tout du moins pas suffisamment pour que l'on en vienne à admettre que les réseaux neuronaux sont capables de penser ou d'apprendre. Certes, les modèles réels comportent davantage de nœuds (plusieurs milliers), mais les différences avec les neurones du cerveau humain sont fondamentales : ce dernier possède un nombre bien supérieur de neurones, fonctionne de façon analogique et combine des influx électriques, des substances chimiques et même des éléments génétiques. Et nous ne savons toujours pas comment se forme la conscience. D'après moi, tout comme les MMC, les réseaux neuronaux sont encore très loin de reproduire le fonctionnement du cerveau humain. Mais, en raison de leur dénomination (malheureusement les autres appellations telles que « perceptron » qui fait penser à « perception » ne sont guère mieux), le modèle véhicule une lourde connotation métaphorique comme celles que nous avons vues plus haut : n'est-il pas naturel qu'un « cerveau électronique » basé sur des « neurones » artificiels soit capable d'« apprendre » ?

2ème partie : la notion de « Deep » (profond) dans le concept de « Deep Learning »Nous n'avons pas encore parlé du terme « Deep » (profond) utilisé dans le concept de « Deep Learning ». Textuellement, ce terme est associé à des relations spatiales. L'eau peut être profonde, spécialement dans les lacs et les mers. Les autres utilisations sont presque toutes métaphoriques, comme avec le « rouge profond » et le « bleu profond » qui désignent simplement des couleurs intenses et/ou des variantes plus foncées. Et les combinaisons avec le terme « pensée » sont on ne peut plus répandues. Vous avez les « penseurs profonds », les « réflexions profondes » et les « esprits profonds ».

Dans le « Guide du voyageur galactique » de Douglas Adams, le super-ordinateur « Pensées profondes » fournit au bout de 7,5 millions d'années la réponse (le nombre 42) à la seule question à laquelle il peut répondre. Un étudiant et futur employé d'IBM reprit ensuite ce nom pour son programme d'échecs qui devint célèbre en 1996 après avoir battu le champion du monde Gary Kasparov. Puis le département marketing d'IBM le renomma « Deep Blue » — on voit bien ici le chemin métaphorique parcouru de « deep sea » (eau profonde) à « deep blue »

9(bleu profond, comme la mer et le logo d'IBM) jusqu'à « deep thinking » (pensée profonde), avec seulement deux mots. En réalité, il n'y a pas grand chose de « profond » dans un programme d'échecs : l'algorithme est assez « léger » et de force brute. Le succès de Deep Blue repose sur sa puissance de calcul phénoménale et ses processeurs qui lui permirent de calculer un maximum de coups possibles et d'évaluer au mieux les positions. Quoi qu'il en soit, le terme « Deep » était désormais bien ancré. (À ce propos, « Deep Fritz » est un programme d'échecs concurrent, toujours commercialisé aujourd'hui.) DeepQA fut une autre incursion dans l'univers du « deep » : basé sur l'extraction de contenu de textes et d'ontologies issus en grande partie de Wikipédia, ce logiciel permit au superordinateur Watson de remporter le jeu télévisé américain Jeopardy face aux meilleurs concurrents humains.

Les bases furent posées il y a quelques années, lorsque des chercheurs spécialisés dans le langage automatique décidèrent d'étendre à plusieurs couches la couche cachée intermédiaire et « superficielle » d'un réseau neuronal, afin de rendre les nœuds plus complexes. Ils baptisèrent le résultat obtenu « deep neural networks » (réseaux neuronaux profonds) ou « deep belief networks » (réseaux de convictions profonds). Difficile pour un novice de ne pas associer ces réseaux aux métaphores habituelles et les connecter au « deep thinking » (pensée profonde) et à l'intelligence artificielle.

Voilà, je pense que nous avons suffisamment disséqué et démystifié le sujet pour nous rendre compte que nous sommes face à une approche mathématique de modélisation peu différente des MMC. Et, par conséquent, malgré leur nom, ces systèmes ne peuvent « apprendre » que d'une manière métaphorique. Cela signifie-t-il pour autant que nous devrions revoir notre jugement à la baisse ? Non, bien au contraire !

Tout d'abord, Nuance exploite les réseaux neuronaux profonds pour améliorer la précision (et réduire les taux d'erreur) de son moteur phare de reconnaissance vocale automatique — la technologie sur laquelle reposent nos solutions dans le cloud et Dragon® NaturallySpeaking, qui en est aujourd'hui à sa 13ème génération. Au cours des vingt dernières années, les taux d'erreur n'ont cessé de diminuer, version après version. Il aurait été difficile de parvenir à ce résultat avec les MMC, car ces derniers, maintes fois optimisés au fil des décennies, offraient une marge de manœuvre de plus en plus restreinte.

Les réseaux neuronaux profonds ont le plus fortement contribué aux innovations technolo-giques dont ont bénéficié nos produits ces dernières années.

Non seulement les réseaux neuronaux profonds réduisent d'emblée les taux d'erreur, mais, en raison de leurs énormes possibilités de développement (variété de topologies, nombre de couches et de nœuds, structure et mode d'apprentissage des nœuds, etc.), ils offrent également un avenir des plus prometteurs . Par ailleurs, en matière de synthèse vocale, les réseaux neuronaux profonds optimisent le mappage des caractéristiques linguistiques du texte à synthétiser vers les paramètres acoustiques du discours cible, telle la prosodie. Dans le domaine de la biométrie vocale, ils contribuent à améliorer l'authentification du locuteur. En tenant compte de tous ces éléments, il n'est pas exagéré de dire que les réseaux neuronaux profonds ont le plus fortement contribué aux innovations technologiques dont ont bénéficié nos produits ces dernières années.

Lorsque j'ai affirmé que les réseaux neuronaux profonds n'étaient pas complexes (en ce sens qu'il est difficile d'imaginer qu'une conscience et qu'une véritable intelligence puissent s'y cacher), je ne voulais pas dire qu'ils étaient faciles à développer ou à faire fonctionner. Là encore, c'est tout le contraire. Comme nous l'avons déjà mentionné, les réseaux neuronaux étaient déjà utilisés dans les années 90, mais deux problèmes freinèrent alors leur développement.

Premièrement, leur apprentissage sur de grands volumes de données et avec un nombre important de nœuds et de couches s'avérait extrêmement fastidieux sur les ordinateurs de l'époque. Deuxièmement, l'apprentissage pouvait générer un modèle qui, bien que supérieur aux modèles similaires « dans le voisinage », n'en demeurait pas moins bien inférieur à d'autres configurations au niveau de l'espace de recherche global. Que le résultat de l'apprentissage définisse un tel « optimum local » ou identifie réellement « l'optimum global » dépendait de facteurs aléatoires intervenant lors des phases initiales du processus d'apprentissage.

Sep 08Mar 09

Sep 09Mar 10

Sep 10Mar 11

Sep 11Mar 12

Sep 12Mar 13

Sep 13Mar 14

Août 14Fév 15

25 %

15 %

5 %

Tau

x d

e co

rrec

tio

n

– Réduction continue d'environ 18 %/an du taux d'erreur de mots pour la reconnaissance vocale automatique sur serveur : combinaison d'algorithmes, de données et de calculs

– Le « Deep Learning » (réseaux neuronaux profonds) joue un rôle majeur dans les performances accrues de la reconnaissance vocale automatique et de l'extraction de contenu.

Taux de correction

Sandra_Logut
Highlight
d'erreur
Sandra_Logut
Note
taux de correction

10

Les réseaux neuronaux profonds connurent un essor prodigieux lorsque les deux problèmes furent résolus par des pionniers comme Geoffrey Hinton et Yoshua Bengio. Si l'évolution de l'infrastructure matérielle les aida sûrement à résoudre la première difficulté, ce sont des idées ingénieuses pour mieux paralléliser le travail et exploiter les processeurs graphiques (des puces spécifiques développées à l'origine pour l'infographie) qui les menèrent au succès. Bien avant, le problème des minimas locaux fut résolu par l'introduction du concept de pré-apprentissage, une étape de traitement servant à prédéfinir le modèle dans un état plus enclin et plus rapide à fournir un optimum global qu'en partant de zéro.

Et maintenant ?L'avantage, c'est que non seulement ces problèmes ont été résolus et que les réseaux neuronaux fonctionnent désormais globalement, mais ils ont aussi ouvert de nouveaux champs de recherche très prometteurs pour l'avenir. Portés par l'industrie des jeux vidéo, les processeurs graphiques ont vu leur puissance décupler, pour le plus grand bénéfice des réseaux neuronaux profonds. L'accélération des délais d'apprentissage n'est pas seulement importante pour les applications pratiques, cela fait aussi progresser indirectement les algorithmes. Il y a encore quelques années, l'apprentissage des réseaux neuronaux profonds sur des fichiers de données volumineux demandait des semaines, voire des mois, ce qui rendait les expérimentations extrêmement coûteuses et ralentissait les progrès. Aujourd'hui, il suffit de quelques jours ou même de quelques heures pour réaliser ces apprentissages, ce qui permet de tester rapidement les nouvelles idées .

Malgré tous ces progrès, je reconnais comme de nombreux chercheurs qu'il reste encore beaucoup à faire. Par exemple, l'utilisation des processeurs graphiques tout au long de l'apprentissage d'un réseau neuronal profond représente un défi, en raison de la nature imbriquée du réseau . Comme les données de sortie d'un « neurone » dépendent potentiellement d'une multitude d'autres neurones ainsi que des données d'entrée, et que l'apprentissage n'est pas une tâche purement locale (et donc facilement parallélisable), une grande quantité de données doit être transférée entre les nœuds de calcul, d'où la perte possible du gain de temps offert par les processeurs graphiques. Comment parviendrons-nous à résoudre ce problème ? Par ailleurs, lorsque les réseaux neuronaux profonds ont pris les rênes de la reconnaissance vocale, le modèle indépendant du locuteur s'entraînait sur une grande quantité de données qui reflétait presque toutes les variétés de dialectes et styles d'élocutions individuels possibles. Le problème, c'est que la plupart des systèmes pratiques utilisent une deuxième méthode d'apprentissage dépendante du locuteur qui adapte le modèle de base à un locuteur donné. Selon le temps et la quantité d'échantillons vocaux disponibles pour procéder à l'apprentissage, différentes méthodes ont été employées. Et ces dernières, développées pour des modèles de base MMC, doivent désormais être adaptées aux réseaux neuronaux profonds .

Et la liste des défis à relever est encore longue...

Clairement, il reste encore un long chemin à parcourir et des découvertes passionnantes à faire en matière de réseaux neuronaux profonds, sans nous laisser emporter par les métaphores autour du « Deep Learning ».

Sources :– deep-learning-reduces-ASR-error-rate © artificial-neural-

network CC BY Wikipedia– hidden-markov-model CC BY Wikipedia

11

L'avenir du secteur de la santé : comment l'intelligence ambiante clinique améliorera la qualité des soinsPar Joe Petro, Vice-président, Recherche et développement, Nuance Communications

Chaque jour, les utilisateurs recourent à la technologie pour rester connectés et accéder aux informations et aux contenus de leur choix. Malgré tous les avantages qu'elle offre au secteur de la santé, la technologie peut constituer une réelle contrainte lorsqu'elle oblige les médecins à réaliser des tâches dont ils sont peu coutumiers. La technologie doit être au service des médecins et de leurs flux de travail, et non l'inverse. Le futur, tel que nous l'envisageons, est un futur dans lequel l'amplification de l'intelligence humaine et l'exploitation des capacités existantes permettront de créer une intelligence ambiante clinique qui contribuera à réduire le temps que passent les médecins sur des tâches laborieuses comme la documentation clinique afin d'accroître celui qu'ils consacrent à leurs patients.

Aujourd'hui, il est tout naturel de se demander ce que le futur nous réserve en matière de santé. Qu'il s'agisse de 2017 ou des années suivantes, il apparaît clairement que les avancées technologiques majeures apportent et continueront d'apporter de réelles améliorations dans le domaine de la santé .

L'un de nos objectifs est d'améliorer l'expérience des médecins et de leurs patients. Les dossiers patients informatisés et les technologies similaires commencent à porter leurs fruits, mais l'utilisation de ces plateformes force les médecins à passer davantage de temps sur la documentation clinique et complique leurs flux de travail, au risque de les mener à l'épuisement professionnel . Nous devons étudier les solutions qui permettront aux médecins de revenir à l'essence même de leur métier, à savoir prodiguer des soins . C'est ainsi que nous améliorerons la qualité des soins dispensés aux patients .

Chez Nuance, notre vision est simple : amplifier l'intelligence humaine et exploiter les capacités existantes pour créer une intelligence ambiante clinique capable d'anticiper et d'assister les humains (en l'occurrence les médecins), en laissant la technologie opérer discrètement en toile de fond. Ce type d'intelligence facilitera le processus documentaire et optimisera l'expérience individuelle des médecins et des patients en matière de santé, ce qui leur permettra d'interagir et d'éviter les interruptions de flux de travail. Nous pensons que la prise de décisions intelligentes et éclairées en exploitant la technologie et le contenu pour amplifier l'intelligence humaine fera évoluer l'exercice de la pratique médicale et améliorera les résultats à la fois pour les patients et les systèmes de santé.

Ce n'est qu'en épargnant aux médecins un travail fastidieux et complexe, et en développant les capacités considérables dont ils disposent déjà, que nous atteindrons notre but qui est de permettre aux médecins de revenir à l'essentiel : prendre soin de leurs patients.

12«  Le futur, tel que nous l'envisageons, est un

futur dans lequel l'amplification de l'intelligence humaine et l'exploitation des capacités existantes permettront de créer une intelligence ambiante clinique qui contribuera à réduire le temps que passent les médecins sur des tâches laborieuses comme la documentation clinique afin d'accroître celui qu'ils consacrent à leurs patients. »

Joe Petro, Vice-président Recherche et développement, Nuance

Rendez-vous sur www.nuance.fr/for-healthcare pour accéder aux ressources, tendances et informations sur le lien entre des médecins satisfaits, des établissements performants et de meilleurs résultats pour les patients .

À propos de Nuance Communications, Inc.Nuance Communications, Inc. est leader sur les marchés des solutions de reconnaissance et de synthèse vocales destinées aux professionnels et aux particuliers. Les technologies, applications et services Nuance optimisent le travail des utilisateurs en révolutionnant la manière dont ils interagissent avec leurs périphériques et systèmes. Chaque jour, des millions d’utilisateurs et des milliers d’entreprises bénéficient des applications primées de Nuance. Pour plus d'informations, rendez-vous sur www.nuance.fr/sante. Restons connectés sur le blog santé, What’s next,  Twitter et Facebook .

Copyright © 2017 Nuance Communications, Inc. Tous droits réservés. Nuance et le logo Nuance sont des marques et/ou des marques déposées de Nuance Communications, Inc. ou de ses filiales aux États-Unis et/ou dans d'autres pays. Les autres marques et noms de produits sont des marques commerciales ou des marques commerciales déposées de leur propriétaire respectif.

HC_4144_FRE, FEB 2017