dans l'esprit du pagerank: regards croisés sur les algorithmes,

29
"Dans l'esprit du Pagerank : regards croisés sur les algorithmes" #CafeLecture - Atelier de lecture transdisciplinaire - Learning Centre SophiaTech Fabien Gandon (Directeur de recherche, Wimmics (Inria-I3S))

Upload: fabien-gandon

Post on 11-Feb-2017

733 views

Category:

Internet


3 download

TRANSCRIPT

"Dans l'esprit du Pagerank :regards croisés sur les algorithmes"

#CafeLecture - Atelier de lecture transdisciplinaire - Learning Centre SophiaTech

Fabien Gandon (Directeur de recherche, Wimmics (Inria-I3S))

« Dans l'esprit du PagerankUne enquête sur l'algorithme de Google »Dominique Cardon, Réseaux 2013/1 (n° 177), p. 63-95. DOI 10.3917/res.177.0063

« A quoi rêvent les algorithmesNos vies à l'heure des big data »Dominique Cardon, 01/10/2015, Coédition Seuil-La République des idées

+

L’article dans ses grandes lignes(I) Principes & Origines du PageRank en Sociométrie et Scientométrie

• Citation = Vote → Lien = Vote

• Métriques sur les formes relationnelles du social(centralité propre, proba stationnaire) Ax=x

• « Google Juice » ou « jus de liens » pour un vote pondéré

• Hypothèse d’extériorité, de neutralité et d’honnêteté

L’article dans ses grandes lignes(II) Paradoxe: évidement omniprésent mais nécessairement ignoré

• Agrégation organique d’une « sagesse des foules »

• Séparation (fantasmée) des algorithmes: PageRank & Adwords

• « Faites comme si on n’était pas là » / « Nous sommes incontournables »

• SEO, bombing, fermes de liens, génération de textes, etc.

• Aucune action éditoriale directe/ Ajustements des algorithmes (!!!)

L’article dans ses grandes lignes(III) Limites: autorité/popularité, autres graphes (sociaux), ininterprétable

vous-êtes ici [livre]

Google est créateur de WebTisse des liens, de la toile et ajoute des pages (résultats de recherche)

Plus on est visible, plus on est lié

Sur le Web l’analyse modifie l’objet

Pas uniquement structurel• « Anchor texts » utilisés dans l’indexation

• Knowledge graphs : retour du contenu structuré, contrôlé (édité)

• Liens, nœuds et réseaux de plus en plus typés

analyse des recherchesintégrer les retours des utilisateurs

Click = Vote

https://www.google.fr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=1&cad=rja&uact=8&ved=0ahUKEwj4-4bNhLbMAhUGAcAKHZNTC_AQFggcMAA&url=http%3A%2F%2Ffabien.info%2F&usg=AFQjCNHkapoAUI7E0ZtCeS36ZuMo1DPyyg&sig2=_t7Zc1mRalqL8RLFc4mxCw

Google observe le Web et les surfeursindirections systématiques

« Vote » : Lien = Vote• Différences de pratiques entre communautés

• Incomparabilité des pratiques entres domaines, cultures, communautés

• Question de l’uniformisation des traitements de « Lien-Vote »

• Changements dans l’intentionnalité du lien• Très explicite au début (1990) lorsqu’il est manuel et spontané

• Très différent avec son automatisation (suggestion, génération, liage, triche, etc.)

• Différence d’intention explicite :Vote-Lien // Signal != trace ex. I like != Click // Data-Sublata [Latour]

• Vote d’un échantillon biaisé, non représentatif• Web = "seulement" 3 milliards de d’utilisateurs et pas n’import lesquels

• Les « traces et signaux » ne capturent que les connectésles autres ne laissent pas de traces et donc ne sont pas comptés

• Limite de représentativité

Sources :Internet World Stats et Google Transparency Report - 2013Boris Beaude et Ogier Maitre - Chôros - EPFL

Boris Beaude et Ogier Maitre - L'ubiquité fracturée - 2014

« La donnée brute n’existe pas » [Livre]elle a un contexte, modèle, format, précision, etc.

• La donnée est le nouveau pétrole• Relativité de la valeur

(pas de cours de la donnée)

• Pas extraite en pleine mer (elle appartient souvent à quelqu’un)

• Pas une ressource naturelle(obtenue artificiellement)

• Infiniment renouvelable(copie = instruction de base)

• L’absence de modèle n’améliore pas forcément les biais(implicites, incontrôlés, etc.)

Statistique vs. Exact

algorithmes à cœur ouvert

Pagerank / h-Index: importer principes et critiques• La « recherche d’information » / « recherche scientifique »

• Interprétations difficiles / erronées des métriques(c.f. « Les dérives de l’évaluation de la recherche » Y. Gingras)

• Domination arbitraire d’une métrique, d’un classement, etc.

Il faut, varier les métriques & documenter leur interprétation, leur principe et leurs limites.

intermédiarité proximité propre degré harmonique Katz

(source: Wikipedia)(PageRank)

Tension entre adhésion et manipulationBesoin de comprendre pour interpréter, légitimer, faire confiance, … utiliser

vs. Possibilité offerte de manipuler, biaiser, détourner,… rendre inutilisable

• Asymétrie de l’information:• Manque de compréhension, conscience, etc. [Livre]

ex. agriculteurs, « tracteurs numériques »& constructeur propriétaire données

// « les données » vs. « les obtenues »ou « data » vs. « sublata » [B. Latour]

• Suprématie de ceux qui peuvent créer, attirer,provoquer du lien (href, like, #tag)// campagnes de com., jeux concours, etc.// les riches deviennent plus riches

• Absence d’alternatives

• Limite de l’approche CNIL« un fichier= un usage fixé » // Gilles Babinet

“people who use Maccomputers spend as muchas 30% more on hotels”

surveiller la surveillance• « Diffusion d’une culture statistique »…

une culture du numérique

• Documenter les algorithmes:• entrées, sources, capteurs, etc.

• modèles, formats, représentations, etc.

• algo & paramétrage, méthodes, traitements, etc.

• pilotes, collecteurs, commanditaires, programmeurs, etc.

• sorties, forme, destinataires, réutilisations, etc.

• objectifs visés ( principe)

• Audit des algorithmes, expertises de contrôle, responsabilité.

• CCNum & Conseil d’Etatobligation de loyauté des plateformes envers les utilisateurs. [Livre]

• Vers une conception individualisée de la vie privée et non une définition uniforme [Livre]

Potentiel imprévisible de la donnéeune autre raison de connaitre l’objectif

• Do You Smile with Your Nose? Stylistic Variation in Twitter EmoticonsTyler Schnoebelen, WWW2015

• Feutres sous les meubles = conducteur prudent// objectif d’optimisation (assurances) objectif de solidarité (mutualités)

:-) :)

lire ou ne pas lire…les termes et conditions des applications

32 241 words18 301 words15 352 words 36 275 words19 972 words11 195 words

http://conversation.which.co.uk/technology/length-of-website-terms-and-conditions/

< < < < <

… documenter l’objectif mais de façon accessible

limites de l’observable

Dérives parfois invisibles• Encourager des comportements individuels non voulus

• Perceptibles: addiction vs. publicité ciblée, endoctrinement vs. bulle de filtrage, etc.

• « faut-il proposer des cigarettes à un fumeur qui veut arrêter de fumer? » [Livre]

• Imperceptibles: recommandation de livres vs. Bibliothérapie

• Renforcer des structures sociales non souhaitées• Discrimination (ex. société raciste et offres d’emploi [Livre][Latanya Sweeney])

• Inégalités, Hiérarchies, etc. le tout invisible

• Un sous-système et non un système isolé• L’hypothèse de l’isolé ne tient pas

• Autres boucles de rétroaction (ex. médias classiques)

A court terme nous risquons moins la suprématie d’une IA qu’une amplification aveugle des biais sociaux ou un renforcement irréfléchi des comportements individuels par une gouvernementalité algorithmique aveugle.

Gouvernementalité algorithmique

Antoinette Rouvroy

• l’abandon d’« échelle », d’« étalon », de hiérarchie, au profitd’une normativité immanente et évolutive en temps réel

• double statistique du monde qui semble faire table rasedes anciennes hiérarchies

• l’évitement des confrontations avec les individus ;occasions de subjectivation raréfiées.

« Une pensée du devenir et des processus d’individuation par la relation réclame nécessairement du « disparate » - une hétérogénéité des ordres de grandeur, une multiplicité des régimes d’existence - que la gouvernementalité algorithmique ne cesse précisément d’étouffer en clôturant le réel (numérisé) sur lui-même »

« Le probable préempte le possible » [Livre]

• En nous réduisant à nos traces on nous réduit à un passé visible et surtout…on nous coupe d’un futur possible.

• Suprématie de l’observable vs.besoin de réintégrer la projection, le modèle.« La carte et le paysage »

• Impact sociétal du déploiement d’un algorithme sur le Web• Dimension éthique, morale, etc.

• Se doter d’un projet social, politique, moral, etc.

au-delà du PageRank• Google et tant d’autres…

PageRank, EdgeRank,…

• Multiplication des graphes sur le Web(liens de pages, réseaux sociaux,données liées, workflows, logs, etc.)

• Besoin d’autres formes d’intelligencesau-delà du raisonnement logique, de l’apprentissage statistique, etc.

• In fine, un appel à la transdisciplinarité.

#uca