seminaire recherche uppa 2016

66
Gilles Hubert Maître de conférences – HDR Université Paul Saba<er IRIT/IRIS Séminaire UPPA 25 avril 2016 Plan 1. Ac<vités de recherche 2. RI contextuelle RI séman<que Prise en compte de l’u<lisateur RI géographique Sugges<on contextuelle 3. Explora<on de masses de données Scientométrie Sugges<on d’expert

Upload: gilles-hubert

Post on 12-Apr-2017

95 views

Category:

Science


0 download

TRANSCRIPT

GillesHubertMaîtredeconférences–HDR

UniversitéPaulSaba<erIRIT/IRIS

SéminaireUPPA25avril2016

Plan 1.  Ac<vitésderecherche

2.  RIcontextuelle•  RIséman<que•  Priseencomptedel’u<lisateur•  RIgéographique•  Sugges<oncontextuelle•  …

3.  Explora<ondemassesdedonnées•  Scientométrie•  Sugges<ond’expert

Ac<vitésderecherche G.HubertThéma<ques

2 2

Recherched’informa<on(RI)etExplora<ondemassesdedonnées

RIContextuelle

Informa<on

Système

U<lisateur

Matériel OLAP Scientométrie

Explora<ondemassesdedonnées

Axe 1 Axe 2

3

Axe1:RIcontextuelle

1.  Principes

2.  RIséman<que 3.  Priseencomptedel’u<lisateur

4.  RIgéographique

5.  Sugges<oncontextuelle

6.  RIflux

G.Hubert

Recherched’informa<onProcessusdeRIenU

Requête

Représenta<onrequête

Représenta<ondocument

DocumentDocument

Document

Appariement

Indexa<on Indexa<on

Listededocumentses<més

per<nents

4

Évalua<onenRI:exempleTRECText Retrieval Conference (TREC)

Organisé par le NIST (USA) depuis1992 Basé sur le paradigme de Cranfield pour l’évaluation de systèmes de RI

Un ensemble de documents (Collection) Un ensemble de besoins d’information (Topics/Queries) Un ensemble de jugements de pertinence (Qrels)

Différentes tâches « tracks »: AdHoc, Robust, Web…

Mesures d’évaluation

5

relevant, retrieved (True positive)

irrelevant, retrieved (False positive)

relevant, not retrieved (False negative)

irrelevant, not retrieved (True negative)

A

C

B

D

Document collection

System output: retrieved documents

Information need: relevant documents

precision =A

A + B

recall =A

A + C

AP (Average Precision), MAP (Mean Average Precision), P@5 (Precision at 5 retrieved documents) …

TRECPrincipes des campagnes

6

52 November 2007/Vol. 50, No. 11 COMMUNICATIONS OF THE ACM

was the subject of an entire bookInformation Retrieval Experiment,edited by Karen Spärck Jones ofCambridge University [4]. Begin-ning in 1992, the Text REtrievalConference (TREC, trec.nist.gov/) [6] has represented a mod-ern manifestation of the Cranfieldmethodology, attesting to thepower of experimentation. Thestate of the art in retrieval systemeffectiveness has doubled sinceTREC began, and most commer-cial retrieval systems, includingmany Web search engines, featuretechnology originally developedthrough TREC.

The fundamental goal of aretrieval system is to help its usersfind information contained inlarge stores of free text. Naturallanguage is rich and complex, butresearchers and authors easilyexpress the same concept inwidely different ways. Algorithmsmust be efficient in light of howmuch text must be searched. Thesituation is further complicated bythe fact that different informa-tion-seeking tasks are best sup-ported in different ways, anddifferent individual users have dif-ferent opinions as to what infor-mation must be retrieved.

The core of the Cranfieldmethodology is to abstract awayfrom the details of particular tasks and users to abenchmark task called a “test collection.” A test col-lection consists of three components: a set of docu-ments; a set of information need statements called“topics”; and relevance judgments, a mapping ofwhich documents should be retrieved for which top-ics. The abstracted retrieval task is to rank the docu-ment set for each topic such that relevant documentsare ranked above nonrelevant documents. The Cran-

field methodology facilitates research by providing aconvenient paradigm for comparing retrieval tech-nologies in a laboratory setting. The methodology isuseful since the ability to perform the abstract taskwell is necessary (though not sufficient) to support arange of information-seeking tasks.

The original Cranfield experiments created a testcollection of 1,400 documents and a set of 225requests. Many retrieval experiments have been run inthe years following the Cranfield tests (several othertest collections were also built), but by 1990 there wasgrowing dissatisfaction with the methodology. Whilesome research groups did use the same test collec-tions, there was no concerted effort to work with thesame data, use the same evaluation measures, or com-pare results across systems to consolidate findings.The available test collections contained so few docu-ments that operators of commercial retrieval systemswere unconvinced that the techniques developedthrough test collections would scale to their muchlarger and growing document sets. Some experi-menters even questioned whether test collections hadoutlived their usefulness.

In 1991, the National Institute of Standards andTechnology (NIST, www.nist.gov) was asked by theDefense Advanced Research Projects Agency

A VARIETY OF COLLECTIONS HAS BEEN CONSTRUCTED, including for languages other than English, media other than text, andtasks that range from answer finding to text categorization.

Voorhees fig 1 (11/07)

retrievalalgorithm 1

retrievalalgorithm 2

retrievalalgorithm k

ranked resultsset 1

ranked resultsset 2

ranked resultsset k

document set

top X top X top X

human assessors

informationneeds

(”topics”)

documentpools

TR

EC

participants

. . .

...

relevancejudgments

evaluationscores

ranked resultsset

Processing in a typicalTREC track. Organizersrelease document and

topic sets to partici-pants who use theirretrieval systems to

rank the documents foreach topic. Ranked

results are returned toNIST where pools are

created for humanassessors. The

assessors judge eachdocument in a pool to

produce relevance judgments, which canthen be used to scorethe output of both theparticipant result sets

and any subsequentresults created through

the same topic and document sets.

(Voorhees,2007)

Recherched’informa<oncontextuelleNo<ondecontexteenRI

CommentprendreencomptelecontextedansleprocessusdeRI?Q1 : Retrouver des éléments correspondant au contexte Q2 : Retrouver le contexte correspondant aux éléments

Informa<on

U<lisateurs

MatérielOu<lslogiciels

7

RIContextuellePriseencompteducontextedanslecasQ1

Requête

Représenta<onrequête

Représenta<ondocument

DocumentDocument

Document

Appariement

Indexa<on Indexa<on

Listededocumentses<mésper<nents

Listededocumentses<mésper<nents

Re-ordonancement

Contexte

8

9

Axe1:RIcontextuelle

1.  Principes

2.  RIséman<que 3.  Priseencomptedel’u<lisateur

4.  Sugges<oncontextuelle

5.  RIgéographique

6.  RIflux

7.  NouveauxmodèlesdeRI

G.Hubert

RIcontextuelle G.HubertThéma<que:RIséman<queProbléma<que

Insuffisances de l’approche « sacs de mots » en RI pour des domaines spécifiques (ex. diagnostic automobile)

Ques<on=«Fuméenoireaudémarraged’unevoiturediesel»Requête«sacsdemots»={fumée,noire,démarrage,voiture,diesel}

Approche:Exploita<ondesreprésenta<onsdudomaineHiérarchies de concepts

Requête={C53 (fumée noire), C85 (au démarrage), C41(voiture diesel)} Ontologies de domaine

Requête=C41(voiture diesel) C53 (fumée noire) C85 (au démarrage)

ProjetsEuropéens IRAIA, e-Stage, WS-Talk ANR DynamO

10

affecter survenir

Cadre:représenta<onsdudomaine

Probléma<quesétudiéesIndexation, interrogation suivant des hiérarchies de concepts Indexation, interrogation sémantique suivant des ontologies

Con<bu<onsHiérarchies de concepts

ModèledeRIpourl’indexa<onetlarecherched’informa<onparconceptsettextelibre

Ontologies Modèled’indexa<onséman<quedynamiqueetmesuredesimilaritéséman<que

11 11

hiérarchiesdeconcepts ontologies

C4: Social indicators in industry C5: Productivity indices

C41: Number of employees C3 C1 C2

C11

C12

RIséman<que G.Hubert

12

RIséman<que

Contribu<on:exploita<ondeshiérarchiesdeconcepts

Modèle de RI Unitéd’informa<on:UIi=(li,{(c1,w1),…,(cj,wj)})Besoind’informa<on:BIk={(cm,wm),…,(cn,wn)}

Indexation suivant des hiérarchies de concepts

BI=termesdécrivantledocument,UI=termesdécrivantleconceptAppariement

12

G.Hubert

… The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. …..

C4: Social indicators in industry C5: Productivity indices

C41: Number of employees C42:Volume of work done

C51: Productivity by employee

ScoreIC(D64,C41)=0,85

ScoreIC(D64,C51)=0,20

D64

),(),(),(),( ikiUICc

kBIik UIBIrecouvUIcimpBIcimpUIBIScore ⋅⎟⎠

⎞⎜⎝

⎛⋅= ∑

CNCDN

i i

CiDiIC cff

fCDScore

,

,,),( ϕ⋅⎟⎟

⎞⎜⎜⎝

⎛⋅= ∑

D document C concept

Dif , Fréquence du terme ti dans D Cif , Fréquence du terme ti dans C

icf Nombre total de concepts contenant ti CDN , Nombre de termes communs à D et C

CN Nombre de termes distincts dans C ϕ Réel positif ≥ 1

13

Contribu<on:exploita<ondeshiérarchiesdeconceptsRecherche combinant concepts et texte libre

13

… The proportion of M&C employees working in communication service companies and in the retail trade will increase slightly; the relative number of employees involved in the production of M&C technology will remain virtually constant. …..

C4: Social indicators in industry C5: Productivity indices

C41: Number of employees C42: Volume of work done

C51: Productivity by employee

«Analyses according to age»

… This exploratory study focuses on a sample of West Midlands-based businesses that are located within the area known as the Central Technology Belt and examines the effect of the age and size of businesses (measured in number of employees) on their managerial capability. …..

+

CombinaisonderésultatsCombSUM(FoxetShaw,1994)

Document11Document88….

QC

QT

D64

D88

ScoreRC(QC,D64)=0,55

ScoreRC(QC,D88)=0,75

ScoreTL(QT,D88)=0,65

ScoreTL(QT,D64)=0,15

RIséman<que G.Hubert

14

Contribu<on:exploita<ondesontologiesModèle d’indexation sémantique dynamique

Mesure de similarité sémantique : ProxiGénéa Similaritéentregraphesd’annota<onsSimilaritéentreconcepts

14

RIséman<que G.Hubert

15

Axe1:RIcontextuelle

1.  Principes

2.  RIséman<que 3.  Priseencomptedel’u<lisateur

4.  RIgéographique

5.  Sugges<oncontextuelle

6.  RIflux

G.Hubert

RIcontextuelle G.HubertThéma<que:Priseencomptedel’u<lisateurProbléma<que

Rela<onsentreélémentsdecontexteetsystème?

Approche:Cadred’évalua<ond’interfacesderes<tu<on

Probléma<queInsuffisances de l’expression des besoins par mots-clés

Ques<on=«I’mlookingforfundingofresearchprojectsintheDigitalLibrarydomain»Requête«sacsdemots»={research,project,funding,digital,library}

Approche1:Naviga<onApproche2:Exploita<ondesopérateursderequêtesdisponiblesdanslesmoteursderecherche

Guillemets,opérateursd’obliga<on(+),opérateursdepondéra<on(^),opérateursbooléens,opérateursdeproximité…

Requête={project, +research, funding^4, "digital library"} 16

Probléma<que:rela<onsentreélémentsdecontexteetsystème?Contribu<on:évalua<ondel’adéqua<ond’interfacederes<tu<on(IRI)àunscénariodeRI

Caractérisation des scénarios de RI Triplet<U<lisateur,Système,Tâche>Critèresrela<fsàl’u<lisateur,

•  ausystèmeetàlatâche

Définition d’un cadre d’évaluation Critèresd’évalua<onJeuxd’essaiRésultatsd’évalua<onExploita<ondesrésultats

17 17

VSEJeuxd’essai

Résultats d’évaluation

Arbre de décisionArbre de décisionArbre de décision

Résultats d’évaluation

VSE

Priseencomptedel’u<lisateur G.Hubert

18

Valida<onPrototype de plateforme d’évaluation VSE

18

Priseencomptedel’u<lisateur G.Hubert

Probléma<que:Expressiondubesoind’informa<onApprocheparnaviga<on

Formulation de requête en navigant dans un graphe de termes Graphe issus des requêtes précédemment soumises par les utilisateurs

19 19

Priseencomptedel’u<lisateur G.Hubert

Approche:Exploita<ondesopérateursderequêtesdisponiblesdanslesmoteursderecherche

Question = « I’m looking for funding of research projects in the Digital Library domain » Requête « sacs de mots » = {research, project, funding, digital, library} Guillemets,opérateursd’obliga<on(+),opérateursdepondéra<on(^),opérateursbooléens,opérateursdeproximité…

Requête={project, +research, funding^4, "digital library »}

ÉtudesopérateursU<lisa<onenbaisse,caractéris<quesméconnus,pasd’améliora<onobservée

Ques<onsderechercheL’u<lisa<ond’opérateursdanslesrequêtesaméliore-t-ellelesrésultats?

Quelsgainspossibles?Maîtrisablesparlesu<lisateurs?

JCase1:Cequelesconcepteursespèreraient

20

Priseencomptedel’u<lisateur G.Hubert

n  Effetsdesopérateurssurl’efficacité(effec<veness)

21

Usagedesopérateurs

¨  EastmanandJansen(2003):étudesurdesrequêtesavecopérateurs

n  U<lisateursréels:AOL,GoogleetMSNSearchn  Requêtesavecopérateurs:AND,OR,MUSTAPPEARetPHRASEM Pasd’améliora<onsignifica<veP@10M Étudesur20%desrequêtes(experts,besoinscomplexes)

Priseencomptedel’u<lisateur G.Hubert

¨  Qu’enest-ildes80%derequêtesrestants?!n  U<lisateursclassiquesn  Requêtesclassiques(sansopérateurs)

20%

80%

22

Méthodologie

Regularquery V1:Queryvariantwithoperators

ü ü ü ü ü

ü ü

<

V3V2

V4VN. . .

Priseencomptedel’u<lisateur G.Hubert

23

Expérimenta<onsn  Collec<onsdeteststandards

¨  TREC-7¨  TREC-8

n  Operateurs¨  Mustappear(+)¨  Termboos<ng(^N)

n  Généra<ondevariantes¨  Mustappear‘+’only¨  Boost‘^’onlywithweights^10,^20,^30,^40,and^50¨  Both‘+’and‘^’

n  Moteurderecherche¨  Terrieravecdifférentsmodèles:BM25,DFR_BM25,InL2,PL2,TF_IDF

Variant# QueryvariantsgeneratedwithpreOpsandpostOps

1 encryp<on equipment export

2 encryp<on +equipment +export… … … …

124 encryp<on +equipment export^10… … … …

338 encryp<on^30 equipment^40 export^50

Priseencomptedel’u<lisateur G.Hubert

24

ConclusionsetPerspec<vesn  Gainspossiblesaveclesopérateurs

q  TREC-7:+35,1%q  TREC-8:+24,3%

⇒ Lesu<lisateursdevraientu<liserdesopérateursplussouvent

⇒ Reformula<onautoma<quederequête?

n  Q2:Lesu<lisateursparviennent-ilsàformulerdesrequêtesavecopérateursquiconduisentàungain?

n  Requêtesavecdesdimensionsspa<o-temporelles?

Priseencomptedel’u<lisateur G.Hubert

25

Axe1:RIcontextuelle

1.  Principes

2.  RIséman<que 3.  Priseencomptedel’u<lisateur

4.  Sugges<oncontextuelle

5.  RIgéographique 6.  RIflux

G.Hubert

TRECContextualSugges<onTrack2012

26

Greatsummer!!!

WheretogoaroundhereonthisSundaya�ernoon?

TRECContextualSugges<onTrack2012Trouverdesélémentscorrespondantaucontexte(Q1)Éléments=Sugges<ons

Lieux à visiter (shops, restaurants, parks…) autour de l’utilisateur (5 heures en voiture max.)

Collec<on=OpenWeb(Websites)Contexte=

Données spatiotemporelles

Préférences utilisateur

27

<contextnumber=”1”><city>Portland</city><state>Oregon</state><lat>45.5</lat><long>-122.7</long><day>weekday</day><<me>evening</<me><season>fall</season></context>

<examplenumber=”1”><<tle>DogfishHeadAlehouse</<tle><descrip<on>Cra�BrewedAlesandtastywoodgrilledfood</descrip<on><url>h�p://www.dogfishalehouse.com/</url></example><examplenumber=”2”><<tle>TheFlamingPit</<tle><descrip<on>TheFlamingPitRestaurantandPianoLounge,homeofTyroneDeMonke.</descrip<on><url>h�p://www.flamingpitrestaurant.com/</url></example>

<profilenumber=”1”><examplenumber=”1”ini<al=”1”final=”1”/><examplenumber=”2”ini<al=”0”final=”-1”/></profile>

TRECContextualSugges<onTrack2012Deuxsous-tâches

S1 : Suggestions correspondant aux données spatio-temporelles Listedesugges<onspourchaquecontexte

S2 : S1 + préférences utilisateur Listedesugges<onspourchaqueprofil(u<lisateur)etchaquecontexte

Suggestion = Titre + Description + Url

2 “runs” maximum Notre participation

Team:G.Cabanac&G.Hubert(IRIT–Univ.ofToulouse)2 runs soumis pour la sous-tâche S2

<context2012groupid=”waterloo”runid=”watcs12a”><sugges<onprofile=”1”context=”1”rank=”1”><<tle>DeschutesBreweryPortlandPublicHouse</<tle><descrip<on>DeschutesBrewery’sdis<nctNorthwestbrewpubinPortland’sPearlDistricthasbecomeaconvivialgatheringspotofbeerandfoodloverssinceit’s2008opening.</descrip<on><url>h�p://www.deschutesbrewery.com</url></sugges<on>etc.</context2012>

28

TRECContextualSugges<onTrack2012:Notreapproche

SRIcontextuel2012

Inputdata Internalprocess

Externalresource

Intermediatedata

Database

Contexti Placeselec<on GooglePlacesAPI

Placesets

Placequery

Contextuallistofplaces

Placedescrip<onenrichment

Contextuallistof

detailedplaces

Bing Google

Useri

Contextprocessing

Outputdata

Personaliza<on

Personalizedsugges<ons

Examples

Profilei Preferencedefini<on

Posi<ve

preferencesi

Nega<ve

preferencesi

Preferenceprocessing

29

TRECContextualSugges<onTrack2012:Notreapproche

Donnéesspa<o-temporelles

Préférencesu<lisateurApproche Gros grain : iritSplit3CPv1

Fusiondesdescrip<onsdesexemplesavecini<aletfinal=1->Pref+(P)Fusiondesdescrip<onsdesexemplesavecini<alandfinal=-1->Pref-(P)score(P,r)=cosine(Pref+(P),R)−cosine(Pref−(P),R)

Approche Grain fin : iritSplit3CPv2 Exemplededescrip<onavecini<aletfinal=1->Pref+l(P)Exemplededescrip<onavecini<aletfinal=-1->Pref-m(P)score(P,r)=max(cosine(Pref+l(P),r))−max(cosine(Pref−m(P),r))

30

TRECContextualSugges<onTrack2012:RésultatsÉvalua<ons

Pour chaque profil et chaque contexte Différentes dimensions : W (Website), G (Geographical), T (Temporal), and D (Description), et combinaisons (WGT et GT) Deux mesures : P@5 et MRR (Mean Reciprocal Rank)

31

iritSplit3CPv1

iritSplit3CPv2

TRECContextualSugges<onTrack2012:RésultatsP@5

32

TRECContextualSugges<onTrack2012:RésultatsMRR

33

TRECContextualSugges<onTrack2013

34

Wheretogoaroundhere?

TRECContextualSugges<onTrack2013Contexte=

Données spatiales seulement

Préférences utilisateur

{"1":{"lat":"40.71427","city":"NewYorkCity","state":"NY","long":"-74.00597”},…}

{"1":{"url":h�p://www.freshrestaurants.ca,"descrip<on":"Ourveganmenuboastsanarrayofexo<cstarters,mul<-layeredsalads,fillingwraps,highproteinburgersandoursignatureFreshbowls.”,"<tle":"FreshonBloor”},“2":{"url":h�p://www.flamingpitrestaurant.com/,"descrip<on":"TheFlamingPitRestaurantandPianoLounge,homeofTyroneDeMonke.”,"<tle":"TheFlamingPit”},…}

{"1":[{"a�rac<on_id":1,"website":1,"descrip<on":0},...],"2":[{"a�rac<on_id":1,"website":4,"descrip<on":3},…],”3":[{"a�rac<on_id":1,"website":-1,"descrip<on":2},…],…}

35

TRECContextualSugges<onTrack2013Deuxsous-tâches

Open Web Mêmeques<on:Suggérerdesélémentscorrespondantaucontexte(Q1)Lieuxàvisiter(restaurants…)autourdel’u<lisateur(5heuresenvoiture)Collec<on=OpenWeb(Websites)

ClueWeb ClueWeb12(mêmeques<onqueOpenWeb)ClueWeb12Contextualsugges<onsubcollec<on

Ensembles de documents ClueWeb12 par contexte Question: Personalisation par profil utilisateur

2«runs»maximumNotrepar<cipa<on

Team: G. Cabanac, G. Hubert & K. Pinel-Sauvagnat (IRIT – Univ. of Toulouse) C. Sallaberry (LIUPPA – Univ. of Pau)

D. Palacio (GeoComp – Univ. of Zurich) 1 « run » Open Web 1 « run » ClueWeb (Sous-collection Contextual suggestion)

36

TRECContextualSugges<onTrack2013:Notreapproche

SRIContextuel2013

Useri&

Personalized&sugges0ons&

Preference&processing&

Ranking&

Retrieval&

Place&filtering&&&descrip0on&enrichment&

list&of&places&

1&

2&

3&

4&

Categories&of&interesti&

Nega0ve&preferencesi&

Posi0ve&preferencesi&

Examples&

Profilei&

L,&T,&W&

T&

B&

Contexti&

Input&data& Output&data& Process&Intermediate&data&

Personalized&sugges0ons&

Preference&processing&

Useri&

Ranking&&&refinement&

Context&processing&

Place&filtering&&&descrip0on&enrichment&

Contextual&list&of&places&

1&

2&

3&

4&

Contexti&

Categories&of&interesti&

Nega0ve&preferencesi&

Posi0ve&preferencesi&

Examples&

Profilei&

Predefined&categories&

L,&T,&W&

GP&

GN,&Y,&P,&GG,&B&

a)& b)&

W:&WordNet& GP:&Google&Places& Y:&Yahoo!&BOSS&Geo& B:&Bing&T:&Terrier& P:&PostGis&GN:&Geonames& GG:&Gisgraphy&L:&Lucene&

37 OpenWeb ClueWeb

Exempledesugges<onen2012

Title:OakleyPubandGrill

Descrip<onOakleyPubandGrill-LocatedinOakleySquare,Cincinna<,Ohio.Localpubwithpleasantatmoshpereandgreatfood.Voted#1BestBurgerinCincinna<.Outdoor...PUBandGRILLOAKLEYOAKLEYOakleyPubandGrill~3924IsabellaAvenue~Cincinna<,Ohio45209OnOakleySquare~(513)531-2500www.oakleypub.comUsedwithpermission…

URL:h�p://oakleypubandgrill.com/

38

Exempledesugges<onen2013

Title:Cel<cMistPub

Descrip<on:Placetypes:bar,establishment.Thisplaceisabout.3KmWestfromhere(2minbycarwithnotraffic).Address:117South7thStreet,Springfield.Thereare11POIsaround:2Hotels,3Libraries,3Parks,1PostOffice,2Religious.Snippet:LocatedinSpringfield,ILtheCel<cMistisyourhomeawayfromhomewithover16importedbeersontapandafriendlystaffreadytoserveyou…

URL:h�p://www.cel<cmistpub.com/

39

RésultatsfinalsOpenWeb

40

Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScoreUDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.59551 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.55882 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016

Table 1: P@5, TBG, and MRR rankings for all open web runs.

Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScorebaselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569

Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.

RésultatsfinalsClueWeb

41

Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScoreUDInfoCS1 1 0.5094 1 (-) 2.4474 1 (-) 0.6320UDInfoCS2 2 0.4969 2 (-) 2.4310 2 (-) 0.6300simpleScore 3 0.4332 4 (Down 1) 1.8374 4 (Down 1) 0.5871complexScore 4 0.4152 5 (Down 1) 1.8226 6 (Down 2) 0.5777DuTH B 5 0.4090 3 (Up 2) 1.8508 3 (Up 2) 0.59551 6 0.3857 8 (Down 2) 1.5329 7 (Down 1) 0.55882 7 0.3731 7 (-) 1.5843 5 (Up 2) 0.5785udel run D 8 0.3659 9 (Down 1) 1.5243 8 (-) 0.5544isirun 9 0.3650 6 (Up 3) 1.6278 9 (-) 0.5165udel run SD 10 0.3354 16 (Down 6) 1.2882 10 (-) 0.5061york13cr2 11 0.3309 12 (Down 1) 1.3483 15 (Down 4) 0.4637DuTH A 12 0.3283 14 (Down 2) 1.3109 12 (-) 0.4836york13cr1 13 0.3274 15 (Down 2) 1.2970 14 (Down 1) 0.4743UAmsTF30WU 14 0.3121 17 (Down 3) 1.1905 13 (Up 1) 0.4803IRIT.OpenWeb 15 0.3112 10 (Up 5) 1.4638 11 (Up 4) 0.4915CIRG IRDISCOA 16 0.3013 18 (Down 2) 1.1681 16 (-) 0.4567CIRG IRDISCOB 17 0.2906 20 (Down 3) 1.1183 19 (Down 2) 0.4212uncsils param 18 0.2780 13 (Up 5) 1.3115 18 (-) 0.4271uogTrCFP 19 0.2753 11 (Up 8) 1.3568 17 (Up 2) 0.4327ming 1 20 0.2601 22 (Down 2) 1.0495 22 (Down 2) 0.3816uncsils base 21 0.2565 19 (Up 2) 1.1374 20 (Up 1) 0.4136ming 2 22 0.2493 23 (Down 1) 0.9673 23 (Down 1) 0.3473uogTrCFX 23 0.2332 21 (Up 2) 1.0894 21 (Up 2) 0.4022run01 24 0.1650 24 (-) 0.7359 24 (-) 0.2994baselineA 25 0.1372 25 (-) 0.5234 25 (-) 0.2316csui02 26 0.0565 26 (-) 0.1785 26 (-) 0.1200csui01 27 0.0565 27 (-) 0.1765 27 (-) 0.1016

Table 1: P@5, TBG, and MRR rankings for all open web runs.

Run P@5 Rank P@5 Score TBG Rank TBG Score MRR Rank MRR ScorebaselineB 1 0.1417 1 (-) 0.4797 1 (-) 0.2452BOW V17 2 0.1022 3 (Down 1) 0.3389 3 (Down 1) 0.1877BOW V18 3 0.1004 2 (Up 1) 0.3514 2 (Up 1) 0.1971IRIT.ClueWeb 4 0.0798 4 (-) 0.3279 4 (-) 0.1346RUN1 5 0.0628 5 (-) 0.2069 5 (-) 0.1265RUN2 6 0.0565 6 (-) 0.2020 6 (-) 0.1223IBCosTop1 7 0.0448 7 (-) 0.1029 7 (-) 0.0569

Table 2: P@5, TBG, and MRR rankings for all ClueWeb12 runs.

AnalysedesrésultatsPremièreédi<on(2012)

Tous les participants ont découvert les principes de la tâche Pires évaluations : Descriptions des suggestions

Secondeédi<on(2013)OpenWeb

Focaliséesurlesdescrip<onsdessugges<onsChangementsdanslesjugementsdeper<nence

ClueWeb Incompréhensiondesdirec<vesoupasassezdeprécisions

TravauxfutursTravailler sur les limites des outils/services en ligne Gérer des collections plus volumineuses : ClueWeb12 (870 millions de pages, ~27TB)

Nextedi<onofTRECContextualSugges<onTrack2014Contexts outside USA

FutureworkExperiment framework variants on 2013 data Replace limited online tools/services Process larger collection: ClueWeb12 (870 millions pages, ~27TB)

42

43

Axe1:RIcontextuelle

1.  Principes

2.  RIséman<que 3.  Priseencomptedel’u<lisateur

4.  Sugges<oncontextuelle

5.  RIgéographique

6.  RIflux

G.Hubert

RIcontextuelle G.HubertThéma<que:RIgéographiqueProblème

Limites de l’approche « sacs de mots » pour l’information géographique Besoin=«ConcertautourdeMarseilleauprintemps2012»Requête«sacsdemots»={Concert,Marseille,printemps,2012}

ApprochePrise en compte des 3 dimensions de l’information géographique : thématique, spatiale, temporelle

Requête=«ConcertautourdeMarseilleprintemps2012»

Contribu<onsModèle de RI géographique Cadres d’évaluations

SRIG SREN

44 44

45

SRIgéographiquen  3dimensionsàtraiter

¨  Théma<que,spa<al,temporel

n  1indexpardimension¨  Théma<que sacdemots,racinisa<on,modèlevectoriel…¨  Spa<al détec<ond’en<tésspa<ales,englobant/englobé…¨  Temporel détec<ond’expressionstemporelles…

n  Étatdel’art:Interroga<onparfiltragessuccessifs¨  parexemple,prioritéauthéma<quepuisfiltragesurlesautresdimensions

n  Probléma<que:performancesdesSRIgéo.vsSRIthéma<que?

n  Hypothèse:SRIgéographiquemeilleurqueSRIthéma<que

RIgéographique G.Hubert

46

ÉvaluerunsystèmedeRIn  Système=efficiency+effecCveness

n  Évalua<ondel’effecCveness

tempsdecalcul volumedestockage qualité

Li�ératureRIgéo. Li�ératureRIthém.

thématique

Trec,Clef…

Bucheretal.(2005)GeoClef

spatial

temporel

TempEval

Cadred’évalua<on

proposé

RIgéographique G.Hubert

47

Cadred’évalua<onpourles3dimensionsn  ExtensionducadreTREC

¨  Collec<ondetestn  ≥25Topicsn  Corpusn  Qrelsgraduelsn  +Ressourcesgéographiques

¨  ÀproposdesQrels…n  per<nence(doc,topic)∈{0;1;2;3;4}n  Principe:«plusilyadedimensionssa<sfaites,mieuxc’est»

¨  Mesuresurqrelsgraduels:NormalizedDiscountedCumula<veGain

traitantdes3dimensions

aucunedimension

3dimensionstopic:«thermalismeàGavarnie»doc:thermalisme+BobnéàGavarnie

3dimensions+global=

topicsa<sfaitJ

RIgéographique G.Hubert

48

Étudedecas:lacollec<onMIDR_2010n  Obten<ondesqrels:12volontaires(merci!)

31topics

5645documents=

passages

Qrelsjugementdeper<nence

{0;1;2;3;4}

Cartepourrepérage

RIgéographique G.Hubert

49

Étudedecas:lesystèmePIVn  Indexa<on:unindexpardimension

¨  Théma<que=SRITerrierSpa<al=carroyagesTemporel=carroyages

n  Interroga<on¨  Res<tu<onpourchaqueindex¨  CombinaisondesrésultatsavecCombMNZ[Fox&Shaw,1993;Lee1997]

CombMNZ

RIgéographique G.Hubert

50

Analysedesdonnéesrecueilliesn  Évalua<ond’unSRI

¨  ListeRésultats×QrelsNDCG(topic)

n  Résultat:SRIgéographiqueestleplusperformant

trec_eval

Hypothèseü

RIgéographique G.Hubert

51

Perspec<ves

n  Analysesplusfinesparrequête

n  Collec<onsenanglais

n  Généralisa<onàd’autresdimensions:confiance,fraîcheur…

n  Per<nencegraduellepardimension

n  Mesuredel’apportdechaquedimension

RIgéographique G.Hubert

RIcontextuelle G.HubertThéma<que:RIfluxProblèmes

Identification de données « utiles/intéressantes » pour un utilisateur Volume instantané de données Obsolescence des données

ApprocheFiltrage contextuel des tweets

Contribu<onsModèle de RI contextuelle pour les flux Participation à TREC Microblog 2015 Projet FUI ACOVAS

52 52

TRECMicroblog2015Filtrage temps-réel

Supervisiondesfluxdesmessagespostésdanslesréseauxsociauxtraitantunsujetpar<culier

Synthèsedufluxd’informa<onpubliéedanslesréseauxsociaux;

Obteniruneinforma<onactualiséeaufildetemps.

53 53

RIflux G.Hubert

ApprocheFiltrage temps-réel

Plusieurs niveaux de filtrage Contenu textuel Caractéristiques externes : hashtag, mention, image, url…

Acceptation par étape sur le contenu

Système de score par caractéristique ⇒ score global par Tweet

Acceptation finale par profil(s)

Contrainte Exécution < 1 min

54 54

RIflux G.Hubert

ApprocheTraitement du contenu textuel

Traitementsclassiques(Non-English,stopwords,casse,tokenisa<on,racinisa<on)2étapes~2seuils(scoredesimilarité)/définisparexpérience:

Contenu // titre Contenu // titre + description

Système de score Caractéris<quesdecontenuCaractéris<quesd’en<tésCaractéris<quesu<lisateur

Scores de caractéristiques Seuils fixés par des expériences préalables Score global de similarité par tweet

55 55

RIflux G.Hubert

Siok

Siok

56

●  Tempsderéponse○  <9secondesSGA○  <7minutesSGB

●  Varia<ondesseuils

●  Efficacité(effec<veness)

RIflux G.Hubert

Approche/Résultats

57

ScénarioA ScénarioB

…. ….

RIflux G.Hubert

RésultatsofficielsTRECMicroblog2015

58

Perspec<ves

n  Ajustementautoma<quedesseuils

n  Besoinsd’informa<oncomplexes

n  Intégra<onautresdimensionscontextuelles(spa<ale…)

n  Obsolescencedesdonnées

RIflux G.Hubert

59

Axe2:Explora<ondemassesdedonnées

1.  Vued’ensemble

2.  Sugges<ond’experts

Explora<ondemassesdedonnées G.HubertProbléma<ques

Limites OLAP Commentcomparerdesdonnéesdeniveauxdegranularitésdifférents?

Limites des approches bibliométriques et scientométriques habituelles en Sociologie des Sciences Questions

Commentévoluentlescollabora<onsdeschercheursaucoursdeleurcarrière?Quelsexpertspourrenouveleruncomitédeprogramme?

ApprocheExtensions OLAP Extraction d’informations bibliographiques (DBLP) Analyse de réseaux de co-signature

Contr<bu<onsNouvel opérateur OLAP - Blend Méthode d’analyse bibliométrique (Projet ANR RésoCit) Modèle de suggestion d’experts

60 60

61

Axe2:Explora<ondemassesdedonnées

1.  Vued’ensemble

2.  Sugges<ond’experts

Modèledesugges<ond’expertsApproche

Modélisation d’espace de recherche : graphe hétérogène

Trois types de nœuds

62 62

Conférencedonnée

Ar<cles

Experts

Quatre types de liens Lienentreconférenceetunar<clepublié

Liendecita<on

Lienentrel’ar<cleetl’auteur

Lienentreconférenceetpar<cipa<onàunCP

Sugges<ond’expert G.Hubert

Approche

Proximité entre conférence et expert-candidat basée sur tous les chemins entre eux

Trois types de nœuds

63 63

1.AE:Expertcommeauteurexterne-3typesdesegment

2.AI:Expertcommeauteurinterne-2typesdesegment

3.CP:Expertcommeauteurexterne-3typesdesegment

Sugges<ond’expert G.Hubert

Approche

Force des quatre types de lien Laforceduliendecita<ond’ar<cledcitantcitedcité:

Laforcedulienentreconférenceetsonar<clesd:

Laforcedulienentrel’ar<cledetsonauteurc:

Laforceduliendepar<cipa<ondel’expertcaucomitédeprogramme:

64 64

Sugges<ond’expert G.Hubert

ApprocheForce des chemins : somme des forces normalisées des liens qui constituent le chemin

Cheminauteurexterne(AE)

Cheminauteurinterne(AI)

CheminmembreCP(CP)

Force des chemins : somme des forces normalisées des liens qui

65 65

Sugges<ond’expert G.Hubert

66

Perspec<ves

n  Intégrerd’autresinforma<ons

q  Affilia<ons,localisa<ons,co-signaturesconférencesextérieurs…

n  Temporalitédesdonnées

q  Périodesdevaliditédesthéma<ques,affilia<ons…

n  Sugges<onmul<-critère

q  Défini<ond’uncomitérépondantàunensembledecritères

n  Évalua<on

q  JugementsdeprésidentsdeCP

Sugges<ond’expert G.Hubert