la recommandation d'articles scientifiques dans une bibliothèque numérique

30
La recommandation d'articles scientifiques dans une bibliothèque numérique Recommending Journal Articles in a Scientific Digital Library Andre Vellino [email protected] Institute canadien de l'information scientifique et technique David Zeber [email protected] Département de statistiques université de Cornell

Upload: andre-vellino

Post on 21-Jun-2015

1.781 views

Category:

Technology


0 download

DESCRIPTION

"Recommending Journal Articles in a Scientific Digital Library"

TRANSCRIPT

Page 1: La recommandation d'articles scientifiques dans une bibliothèque numérique

La recommandation d'articles scientifiques dans une bibliothèque numérique

Recommending Journal Articles in a Scientific Digital Library

Andre [email protected]

Institute canadien de l'information scientifique et technique

David [email protected]

Département de statistiques université de Cornell

Page 2: La recommandation d'articles scientifiques dans une bibliothèque numérique

2

Apercu de l’exposé

• Motivation

• Qu'est-ce qu'un système de recommandation?

• Problèmes pour les systèmes de recommandations d’articles

• Solutions proposées: – Un système hybride comprenant:

(a) du filtrage collaboratif (CF) et

(b) du filtrage basé sur l’analyse de texte (CBF)

– Utilisation de PageRank sur le réseau de citations– Recommandation basé sur des préférences multidimensionnels– Une interface utilisateur centrée sur les explications

• Travaux à venir

Page 3: La recommandation d'articles scientifiques dans une bibliothèque numérique

3

Motivation

• Motivations du projet de recherche– Contribuer au outils de découverte de la connaissance.– Faire évoluer la technologie de la recommandation automatique

dans le domaine des bibliothèques numériques.

• Critère de succès– Aider l'innovation scientifique canadienne en créant un outil

pratique de recommandation automatique pour une bibliothèque nationale.

Page 4: La recommandation d'articles scientifiques dans une bibliothèque numérique

4

L'apport d'un système de recommandation pour une bibliothèque scientifique

Pour le chercheur scientifique :Ajouter une fonction supplémentaire à un portail de recherche– Rencontre fortuite de documents pertinents

Pour la bibliothèque en ligne :Fidéliser davantage les utilisateurs en créant des services dynamiques et personnalisés – Par exemple : alertes par courriel basées sur le profil de l'utilisateur, et

l'usage collectif

Pour les auteurs :– Pour un article donné (avec des citations) trouver des articles

supplémentaires qui devraient être cités par celui-ci.

Pour les maisons d'édition :– Pour un article à évaluer, recommander des évaluateurs

Page 5: La recommandation d'articles scientifiques dans une bibliothèque numérique

5

Qu'est-ce qu'un "système de recommandation”?

• Un logiciel qui prévoit les éléments d'information susceptibles d'intéresser l'utilisateur, en fonction :– du contenu des éléments à recommander– du profil de l'utilisateur– du comportement collectif des utilisateurs

• Les éléments d'information peuvent comprendre…– des marchandises : films, musique, livres– du texte : actualités, blogs, pages web, et

des articles dans des revues scientifiques

Page 6: La recommandation d'articles scientifiques dans une bibliothèque numérique

6

Taxonomie des systèmes de recommandation

Filtrage du contenu des éléments• Recherche par l’analyse du texte intégrale• Recherche par similitude de profils explicites (par exemple en

utilisant les taxonomie sémantiques)

Filtrage collaboratif• Usage des utilisateurs (avec profil de préférences)

– « User-based » (utilisateurs semblable)– « Item-based » (éléments semblable)

• Algorithmes– « Memory-based » (compare chaque usager chaque fois)– « Model-based » (construit un model probabiliste)

Page 7: La recommandation d'articles scientifiques dans une bibliothèque numérique

7

Moteur de recherche vu comme un système de recommandation

Page 8: La recommandation d'articles scientifiques dans une bibliothèque numérique

8

“Pages similaires”: recommandations en fonction du texte intégral

Page 9: La recommandation d'articles scientifiques dans une bibliothèque numérique

9

Le système d‘Amazon

Page 10: La recommandation d'articles scientifiques dans une bibliothèque numérique

10

Item Based

User Ratings

Explanations

Page 11: La recommandation d'articles scientifiques dans une bibliothèque numérique

11

Sociétés commerciales qui exploitent la technologie de recommandation automatique

Page 12: La recommandation d'articles scientifiques dans une bibliothèque numérique

12

• L’utilisateur indique ses préférences (ou commande un article)

• Le système de recommandation calcule les corrélations parmi :– les utilisateurs (selon leurs profil de préférences)– les articles (selon les préférences attribuées par les utilisateurs)

• Le système prévoit les préférences que l’utilisateur aurait attribué aux articles pour lesquels il n’y a pas encore d’attribution et lui présente les premier « N » éléments

Les étapes-types de la recommandation par filtrage collaboratif

Page 13: La recommandation d'articles scientifiques dans une bibliothèque numérique

13

How Collaborative Filtering Works

• User-Based CF– Given user A find all the other users {U} that have the most

“similar” item-rating patterns– For each item I not yet rated by A, predict the likely rating A will

assign to I given the ratings for I given by {U}– Present the Top-N ordered list of items {I} to the user

• Item-Based CF– Given user A and the set of items {I} to which A has given

ratings, find all the other items {O} that are “similar” to {I}– Present the Top-N ordered list of items {O} to the user

Page 14: La recommandation d'articles scientifiques dans une bibliothèque numérique

14

User-BasedCollaborative Filtering

5

2

Alien

?44Ted

5345Alice

434Carol

51Bob

RanX-MenBabeFargo

• Goal: predict the rating Ted will give the movie “Ran”• Step 1 – eliminate the user-profiles of users who didn’t rate “Ran”• Step 2 – find Ted’s “K-nearest neighbours” who rated “Ran” and at

least 2 other movies (Alice)• R(Ted,Ran) ~= 5.

5

Page 15: La recommandation d'articles scientifiques dans une bibliothèque numérique

15

Item-Based Collaborative Filtering

5

2

Alien

?44Ted

5345Alice

434Carol

51Bob

RanX-MenBabeFargo

• Goal: predict the rating Ted will give the movie “Ran”• Step 1 – find the other items rated by Ted that are “nearest

neighbours” to “Ran”• Step 2 – predict the likely rating “Ran” based on Ted’s ratings for

Ran’s nearest neighbours • R(Ted,Ran) ~= 4.

4

Page 16: La recommandation d'articles scientifiques dans une bibliothèque numérique

16

Find “Nearest Neighbour” and Predict Rating

• Find Nearest Neighbours (e.g. cosine similarity)

• Predict Rating (item i for user u)– Weighted average of user’s ratings on N similar users

Page 17: La recommandation d'articles scientifiques dans une bibliothèque numérique

17

Typical Issues with CF Recommenders

• Data Sparsity– Ratio of Users / Items is low (~ 1:10)– Number of Ratings per User is low– Ratings matrix sparsity ~ 95%

• Cold Start Problem– First-time users get poor or no recommendations because CF

matrix has no entries• Rating Items

– CF recommender must be trained (explicitly or implicitly) by providing ratings to items

• Principle of Induction– People who exhibited similar behaviour in the past will tend to

exhibit similar behaviour in the future.

Page 18: La recommandation d'articles scientifiques dans une bibliothèque numérique

18

Specific Issues for Collaborative Filtering in Science Digital Libraries

• Data Sparsity– More Articles & Fewer Users (10x) – Fewer Item / Ratings (~ 99% sparsity)

• Rating Articles– Explicit ratings are more difficult to obtain

• DL users have less need to “express themselves” by explicitly rating items than movie watchers

– Implicit ratings depend on UI features of DL• No reliable method for inferring ratings from browsing and

query behaviour

• Principle of Induction not necessarily true in DL context– Interest drift– Context shifts

Page 19: La recommandation d'articles scientifiques dans une bibliothèque numérique

19

• Suivre les traces de TechLens+, c.à.d.– Développement d’une implantation “Fusion Mixed Hybrid” :

CF(filtrage collaboratif) + CBF (filtrage par analyse de texte)– Initialiser un système collaboratif avec des préférences

déduites d’une matrice de citations– Intégrer une fonction pour expliquer des recommandations

• Avec des extensions – Ajouter une valeur “PageRank” aux citations– Déterminer les modes de recherches pour l’utilisateur – Identifier les préférences implicites provenant des clics du

navigateur– Ajouter de multiples dimensions de préférences

Stratégie de recherchea l’ICIST

Page 20: La recommandation d'articles scientifiques dans une bibliothèque numérique

20

Recommender Citation Seeding

• Articles either cite or don’t cite other articles• Some articles that are cited are not in collection• Users’ “article collection profile” citations

TechLens approach to Cold Start / Data Sparsity problem

Page 21: La recommandation d'articles scientifiques dans une bibliothèque numérique

21

Apply PageRank to Citation Matrix

• PageRank algorithm applied to citations

• d – damping factor = 0.85

• PR() – PageRank score of article • B() – articles that that cite • N – number of citations for article

47.5

135

87.5

47.5

47.5

87.5

87.5

Aurel Constantinescu “Ranking Full-Text Articles using Citation Based Methods” Master’s Thesis, University of Ottawa

Page 22: La recommandation d'articles scientifiques dans une bibliothèque numérique

22

PageRank-weighted Citation matrix

• Apply Page Rank on Citations– Use citation data (as in TechLens+)– Apply PageRank to weight the citation-based “ratings”

• Done before but only at the Journal level (http://www.eigenfactor.org/)

0.30.2

0.60.30.5

0.50.7

0.60.2

0.40.5

0.4

p6p1 p5p2 p4p3

u2

p1

u1

p2

p4

p3

articles

citationsp7 p8

= constantusers

Page 23: La recommandation d'articles scientifiques dans une bibliothèque numérique

23

User Project Profiles &IR Modes

Project Profiles• Explicit User-defined Projects

– Subject-matter expertise (Novice / Knowledgeable / Expert)

• Defined by a document collection that characterizes the project:– By content - the feature vectors (bag of words) from that collection– By CF similarity from “citations” list for the user

IR Modes• Users of DLs have a broad range of IR goals, such as

– seeking answers to highly specific scientific questions– developing literature surveys– establishing prior art for patent claims

• “innovation” / “information” / “authority”

Page 24: La recommandation d'articles scientifiques dans une bibliothèque numérique

24

Génération implicite de profils contextuels

Termes

Texte Intégral

Auteur

Mots clés

Revue

Résumé

Projet

Mode

Clics du navigateur

État de l’utilisateur

Page 25: La recommandation d'articles scientifiques dans une bibliothèque numérique

25

Matrice de préférences multidimensionnels

Tom

Alice

Bob

Carol

p1

p2

p3

p4 p5p6

InnovationInformation

Autorité

0.3

0.6

0.3

0.7

0.4

0.7

0.2

G. Adomavicious, R. Sankaranarayanan, S. Sen, A. Tuzhilin, ACM Transactions on Information Systems 2005Incorporating Contextual Information in Recommender Systems Using a Multidimensional Approach

0.7

0.2

0.5

Page 26: La recommandation d'articles scientifiques dans une bibliothèque numérique

26

Scaling Strategy: Distributed Recommenders

• Multiple ratings matrices decomposed by subject area

• Merge separate recommendations by subject

• Reduces matrix sparsity

• Improves accuracy of recommendations

Distributed Collaborative Filtering with Domain Specialization S. Berkovsky, T.Kuflik, and F. Ricci Proceedings of RecSys2007

Page 27: La recommandation d'articles scientifiques dans une bibliothèque numérique

27

L'interface utilisateur pour naviguer dans l’espace des recommandations

• Inspiration pour l’interface de navigation incrémentale– Carte topographique des grappes de documents “Carrot2”

• Explications des recommandations– Assurer la transparence accroître la confiance des

utilisateurs en la machine– Profitez des explications pour permettre aux utilisateurs de

• visualiser les recommandation par type de cause • filtrer les recommandations indésirables

Page 28: La recommandation d'articles scientifiques dans une bibliothèque numérique

28

Carrot2 Cluster maps

2D projection of RecommendedItem-User Similarity

ExplanationClusters

Dimensionality weighting slider

Page 29: La recommandation d'articles scientifiques dans une bibliothèque numérique

29

Travaux à venir

• Étudier l’effet de PageRank sur la qualité des recommandations• Analyser :

– des profils contextuels

– des recommandations distribuées et multidimensionnelles

• Étudier de l’impact produit par des informations supplémentaires – Indice Hirsch pour évaluer les auteurs

– Évaluation d’articles sur des sites spécialisés tel que “Faculty of 1000”

• Affiner le filtrage basé sur le texte intégrale à partir d’une analyse sémantique

Page 30: La recommandation d'articles scientifiques dans une bibliothèque numérique

Merci!Questions?

http://lab.cisti-icist.nrc-cnrc.gc.ca/synthese/