deft2019 intro - limsi · corpus 718 cas cliniques indexés (mots-clés) avec discussion [grabar et...

38
DeFT 2019 Recherche et extraction d'information dans des cas cliniques Natalia Grabar (STL, CNRS, Université de Lille) Cyril Grouin (LIMSI, CNRS, Université Paris Saclay) Thierry Hamon (Université Paris 13, LIMSI, CNRS, Université Paris Saclay) Vincent Claveau (IRISA, CNRS)

Upload: others

Post on 25-Aug-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

DeFT 2019Recherche et extraction dinformation

dans des cas cliniquesNatalia Grabar (STL CNRS Universiteacute de Lille)

Cyril Grouin (LIMSI CNRS Universiteacute Paris Saclay)Thierry Hamon (Universiteacute Paris 13 LIMSI CNRS Universiteacute Paris Saclay)

Vincent Claveau (IRISA CNRS)

Introduction

IntroductionAnalyse de cas cliniques reacutedigeacutes en franccedilais

Tacircches recherche dinformation et extraction dinformation DEFT 2012 DEFT 2016 identification de mots-cleacutes DEFT 2013 appariement recetteingreacutedients

Premiegravere fois sur des donneacutees cliniques en franccedilais

Calendrier

Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora

Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai

Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes

Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs

Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps

Participants 5 eacutequipes acadeacutemiques

LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de

Ziguinchor 127480127475 Seacuteneacutegal

2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris

1 eacutequipe mixte SynapseIRIT 1041639 Toulouse

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 2: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Introduction

IntroductionAnalyse de cas cliniques reacutedigeacutes en franccedilais

Tacircches recherche dinformation et extraction dinformation DEFT 2012 DEFT 2016 identification de mots-cleacutes DEFT 2013 appariement recetteingreacutedients

Premiegravere fois sur des donneacutees cliniques en franccedilais

Calendrier

Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora

Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai

Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes

Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs

Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps

Participants 5 eacutequipes acadeacutemiques

LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de

Ziguinchor 127480127475 Seacuteneacutegal

2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris

1 eacutequipe mixte SynapseIRIT 1041639 Toulouse

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 3: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

IntroductionAnalyse de cas cliniques reacutedigeacutes en franccedilais

Tacircches recherche dinformation et extraction dinformation DEFT 2012 DEFT 2016 identification de mots-cleacutes DEFT 2013 appariement recetteingreacutedients

Premiegravere fois sur des donneacutees cliniques en franccedilais

Calendrier

Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora

Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai

Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes

Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs

Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps

Participants 5 eacutequipes acadeacutemiques

LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de

Ziguinchor 127480127475 Seacuteneacutegal

2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris

1 eacutequipe mixte SynapseIRIT 1041639 Toulouse

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 4: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Calendrier

Communication deacutecembre 2018avril 2019 1041639 AIM ARIA EGC Info-IC LN MadICS 1041642 BioNLP Corpora

Accegraves aux donneacutees dentraicircnement (licence) 18 feacutevrier Accegraves aux donneacutees de test (3 jours) 915 mai

Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes

Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs

Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps

Participants 5 eacutequipes acadeacutemiques

LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de

Ziguinchor 127480127475 Seacuteneacutegal

2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris

1 eacutequipe mixte SynapseIRIT 1041639 Toulouse

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 5: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Licence Obligation de soumission de reacutesultats et drsquoun article deacutecrivant les meacutethodes

Interdiction drsquoappartenir agrave lrsquoun des trois laboratoires organisateurs

Interdiction de redistribution des donneacutees y compris dans le laboratoire sans limite de temps

Participants 5 eacutequipes acadeacutemiques

LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de

Ziguinchor 127480127475 Seacuteneacutegal

2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris

1 eacutequipe mixte SynapseIRIT 1041639 Toulouse

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 6: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Participants 5 eacutequipes acadeacutemiques

LGI2PMines Alegraves 1041639 Nicircmes LIMICSINRA (LAI) 1041639 Paris LIPNSTIH 1041639 Paris TALN-LS2N 1041639 Nantes Universiteacute Assane Seck de

Ziguinchor 127480127475 Seacuteneacutegal

2 eacutequipes industrielles EDF Lab 1041639 Palaiseau Qwant 1041639 Paris

1 eacutequipe mixte SynapseIRIT 1041639 Toulouse

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 7: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Corpus

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 8: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Corpus

718 cas cliniques 1041639 indexeacutes (mots-cleacutes) avec discussion [Grabar et al 2019]

speacutecialiteacutes cardiologie gastro-enteacuterologie obsteacutetrique oncologie pneumologie urologie peacuteriode [2000ndash2018] parus

en revue Pharmactuel Progregraves en Urologie Revue des Maladies Respiratoires etc ou sur des sites speacutecialiseacutes Association Franccedilaise drsquoUrologie Institut Marocain de

lrsquoInformation Scientifique etc

provenant drsquoun corpus annoteacute plus vaste [Grabar et al 2018]

Quelques publications rassemblent plusieurs cas cliniques Deacutecoupage des documents

Cas clinique autant de fichiers que de cas Mots-cleacutes dupliqueacutes pour chaque cas (mecircme liste de mots-cleacutes en plusieurs exemplaires) Discussion dupliqueacutee pour chaque cas (mecircme discussion en plusieurs exemplaires)

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 9: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Corpus

Double annotation indeacutependante puis consensus sur 4 cateacutegories (informations deacutemographiques et cliniques geacuteneacuterales)

acircge valeur + uniteacute genre indice textuel permettant dinfeacuterer le genre parmi deux cateacutegories

(femme homme) issue phrase ou portion de phrase permettant dinfeacuterer lissue parmi cinq

cateacutegories (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves) origine phrase ou portion de phrase preacutecisant lorigine de la consultation

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 10: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Corpus Gueacuterison le problegraveme clinique deacutecrit est traiteacute et la personne gueacuterie

Le recul eacutetait de deux ans sans reacutecidive locale ni incident notable

Ameacutelioration lrsquoeacutetat clinique est ameacutelioreacute sans conclure agrave une gueacuterison Les suites ont eacuteteacute simples

Stable eacutetat clinique stationnaire choix impossible ameacuteliorationdeacuteteacuterioration La patiente preacutesente toujours une constipation opiniacirctre terminale eacutequilibreacutee sous traitement

meacutedical

Deacuteteacuterioration deacutegradation de lrsquoeacutetat clinique Un mois plus tard le patient a eacuteteacute hospitaliseacute pour toxoplasmose ceacutereacutebrale et pneumocytose

pulmonaire actuellement en cours de traitement

Deacutecegraves si le deacutecegraves concerne directement le cas clinique deacutecrit Le patient est deacuteceacutedeacute au 6egraveme mois apregraves lrsquointervention

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 11: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

CorpusAnnotation et normalisation (genre issue) pour produire la reacutefeacuterence de la tacircche drsquoextraction drsquoinformations

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 12: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

CorpusAccords inter-annotateurs ainsi qursquoentre annotateur et consensus (F-mesure)

Excellent accord (acircge) tregraves bon (origine genre) faible (issue) Oublis frontiegraveres interpreacutetation entre issues proches

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 13: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircches

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 14: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 1 indexation de cas cliniques Cas dusage indexerdeacutecrire un cas meacutedical Entreacutee cas clinique avec discussion correspondante liste des mots-cleacutes

utiliseacutes sur lrsquoensemble du corpus + nombre de mots-cleacutes attendus Sortie mots-cleacutes pour chaque couple cas cliniquediscussion classeacutes par

ordre de pertinence deacutecroissant Evaluation MAP (mean average precision) + R-preacutecision (secondaire)

Mot-cleacute Cas clinique et discussion Sous-corpus

ageacuteneacutesie 1136550700txt 2300836250txt Entraicircnement

ageacuteneacutesie deacutefeacuterentielle 1139700160txt 2354143280txt Test

ageacuteneacutesie reacutenaleInutiliseacutes dans la tacircche drsquoindexation en 2019

ageacuteneacutesie reacutenale unilateacuterale

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 15: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 2 similariteacute seacutemantique cas discussions Cas dusage trouver lexpertise pour un cas meacutedical Entreacutee cas cliniques + discussions correspondant

Remarque une mecircme discussion peut srsquoappliquer agrave plusieurs cas cliniques

Sortie appariement cas cliniquediscussion Evaluation preacutecision

Remarque les fichiers de discussion sont deacutedoublonneacutes Il suffit qursquoun fichier de la liste de discussion doublons soit trouveacute pour une eacutevaluation favorable

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 16: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 3 extraction drsquoinformation Cas dusage deacutecrire finement le patient pour raisonnement eacutepideacutemio Acircge de la personne dont le cas est deacutecrit au moment du dernier eacuteleacutement

clinique rapporteacute normaliseacute sous la forme drsquoun entier 0 pour un nourrisson de moins drsquoun an 1 pour un enfant de moins de deux ans 20 pour un patient drsquoune vingtaine drsquoanneacutees

Genre de la personne (feacuteminin masculin) Origine ou motif de la consultation pour le dernier eacuteveacutenement clinique ayant

motiveacute la consultation Pathologies signes ou symptocircmes ldquoune tumeacutefaction lombaire droite feacutebrile avec frissonsrdquo Circonstances drsquoun accident ldquoun AVP motordquo ldquopense avoir eacuteteacute violeacuteerdquo

Issue (gueacuterison ameacutelioration stable deacuteteacuterioration deacutecegraves)

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 17: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Reacutesultats

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 18: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

ReacutesultatsBaseline

techniques simplesconnues ne neacutecessitant pas de donneacutees externes approches par regravegles ou apprentissage (non neuronal)

Significativiteacute

T-test paireacute avec p=005

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 19: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 1 indexation des cas cliniques

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 20: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 1 indexation des cas cliniquessignificatif

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 21: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Commentaires tacircche 1Significativiteacute

LGI2P ≻ les autres Synapse ⊁ baseline Synapse ≻ LS2N

Approches

approches RI classique diffeacuterentes pondeacuterations plongements de mots classification (NB gradient boostinghellip)

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 22: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 2 similariteacute seacutemantique casdiscussionssignificatif

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 23: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Commentaires tacircche 2Significativiteacute

reacutesultats serreacutes mais EDF Lab run2 ≻ les autres pas significatifs EDF Lab (run 3) vs LGI2P (run 1) LGI2P (run 1) vs LGI2P

(run 2) LGI2P (run 2) vs LGI2P (run 3) LGI2P (run 3) vs EDF Lab (run 1)

Approches

repreacutesentations vectorielles (word2vec LSI) modegraveles de langues CNN appariement optimal par algorithme hongrois

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 24: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 3 extraction drsquoinformations

genre

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 25: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 3 extraction drsquoinformations

genre

significatifsignificatif

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 26: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 3 extraction drsquoinformations

acircge

significatif non significatif

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 27: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 3 extraction drsquoinformations

issuesignificatif

non significatif

significatif

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 28: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Tacircche 3 extraction drsquoinformations

origine

significatif

non significatif

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 29: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Commentaires tacircche 3Significativiteacute

toutes informations LAI (run 2) et Qwant ≻ EDF Lab (run 2) genre LAI ( run2) ≻ Qwant origine (accuracy) Qwant et LAI ≻ baselines

Approches

classification (genre origine) vs eacutetiquetage (acircge issue) par regravegles ou lexiques (genre origine) par apprentissage (CRF RNN-CRF)

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 30: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Conclusions

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 31: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

ParticipationSuccegraves en nombre de participants

Approches

reacutesultats assez serreacuteshellip mais des diffeacuterences significatives peu de donneacutes pour les meacutethodes neuronales mais des reacutesultats

inteacuteressants quelques bugs dans certains runs

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 32: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

FuturSuites directes

analyse des cas derreurs compleacutementariteacute des approches combinaison des approches

Cas cliniques

deacuteveloppement du corpus annotation du corpus nouvelles tacircches dextraction dinformation

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 33: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

FuturDEFT 2020 Mecircmes tacircches sur une autre partie du corpus eacutevolution des meacutethodes Cateacutegories EI proches des enjeux cliniques [Grouin et al LOUHI 2019]

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 34: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

FuturFutures eacuteditions de DeFT

Souhaits de tacircches

Ideacutees de corpus

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)

Page 35: DEFT2019 intro - LIMSI · Corpus 718 cas cliniques indexés (mots-clés) avec discussion [Grabar et al., 2019] spécialités : cardiologie, gastro-entérologie, obstétrique, oncologie,

Remerciements Participants inteacuterecirct pour les tacircches proposeacutees meacutethodes deacuteveloppeacutees Projet CLEAR (ANR-17-CE19-0016-01) LabEx COMIN LABS (ANR-10-LABX-07-01)