inf l11 langage et informatique 1 cours 7 – moteurs de recherche : détection de la langue

24
INF L11 INF L11 Langage et informatique 1 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue Cours 7 – Moteurs de recherche : Détection de la langue

Upload: marceline-bour

Post on 04-Apr-2015

107 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

INF L11INF L11Langage et informatique 1Langage et informatique 1

Cours 7 – Moteurs de recherche : Détection de la langueCours 7 – Moteurs de recherche : Détection de la langue

Page 2: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

ProblèmeProblème

Google (robots)Google (robots) détecter détecter

automatiquement la automatiquement la langue des langue des documents pour documents pour indexer indexer correctementcorrectement

Autre applicationAutre application traitement de textetraitement de texte

Page 3: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

StatégieStatégie

Codage des caractèresCodage des caractères Critères statistiquesCritères statistiques

Fréquence des lettresFréquence des lettres Fréquence des bigrammes, trigrammesFréquence des bigrammes, trigrammes Fréquence des motsFréquence des mots

Page 4: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

- I - - I - Codage des Codage des

caractères caractères

Page 5: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Code ASCIICode ASCII Débuts de l’informatiqueDébuts de l’informatique

Codage sur 7 bitsCodage sur 7 bits

Maximum 127 caract.Maximum 127 caract. 32 caract. spéciaux32 caract. spéciaux

00000000000001000001000000110000100000010100001100000111...

Page 6: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Windows (occidental)Windows (occidental)

Extension de Extension de l’ASCIIl’ASCII 8 bits8 bits 256 caractères256 caractères

Page 7: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Windows Europe Windows Europe CentraleCentrale

Page 8: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Windows GrecWindows Grec

Page 9: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

UnicodeUnicode

LienLien Consortium Consortium UnicodeUnicode Article Unicode sur Article Unicode sur WikipediaWikipedia

Permet de représenter tous les Permet de représenter tous les caractères des toutes les langues du caractères des toutes les langues du mondemonde à l’heure actuelle (Unicode 4.0.0 = à l’heure actuelle (Unicode 4.0.0 =

96382 caract.)96382 caract.) Nécessite (pour l’instant) 21 bitsNécessite (pour l’instant) 21 bits

Page 10: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

UTF-8UTF-8

Codage « économique » pour Codage « économique » pour UnicodeUnicode Certains caractères sur un octet (8 bits)Certains caractères sur un octet (8 bits) D’autres sur 2 octets (voire plus)D’autres sur 2 octets (voire plus)

ExempleExemple En français, le « En français, le « éé » est codé sur deux » est codé sur deux

octetsoctets si logiciel mal régré, il apparaît comme « si logiciel mal régré, il apparaît comme «

éé » »

Page 11: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

- II - - II - Critères statistiquesCritères statistiques

Page 12: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue
Page 13: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

FrançaisFrançais

0%

2%

4%

6%

8%

10%

12%

14%

16%

e s a i t n r u l o d c p m é v q f b g h j à x y è ê z w ç ù k î œ ï ë

Page 14: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

AnglaisAnglais

0%

2%

4%

6%

8%

10%

12%

14%

e t a o i n s h r d l c u m w f g y p b v k j x q z

Page 15: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

-15% -10% -5% 0% 5% 10% 15%

aàbcçdeéèêëf

ghiîïjkl

mno

œpqrst

uùv

wxyz

Anglais Français

Page 16: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Différentes languesDifférentes langues

Ordre des lettresOrdre des lettres

françaisfrançais esaitnrulodcpmévqfbghjàxyèêzwesaitnrulodcpmévqfbghjàxyèêzwçùkîœïëçùkîœïë

anglaisanglais etaoinshrdlcumwfgypbvkjxqz etaoinshrdlcumwfgypbvkjxqz

allemanallemandd

enisrthdaulcgmowbfzkvüpäöjyxq enisrthdaulcgmowbfzkvüpäöjyxq

espagnolespagnol aeosrnlidutcpmvgbfyhqaeosrnlidutcpmvgbfyhqóójìàzñéxùjìàzñéxùkw kw

italienitalien aeiolnrtscdupmvgfbzhqaeiolnrtscdupmvgfbzhqòàòàùìéèùìéèóóykykwxôwxô

portugaiportugaiss

aeosridntmucplvgfbhqãçaeosridntmucplvgfbhqãçááéìzjéìzjóóêxêxàõyùkâôw àõyùkâôw

Source

Page 17: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Grande variabilitéGrande variabilité

Dépend de la taille du documentDépend de la taille du document Dépend du type de documentDépend du type de document

ExemplesExemples style narratif (verbes à la 2e personne du style narratif (verbes à la 2e personne du

pluriel) pluriel) plus de « Z » plus de « Z » chemins de fer chemins de fer plus de « W » (wagon) plus de « W » (wagon) personnage Loïs personnage Loïs plus de « ï » plus de « ï » petites annonces petites annonces plus de € plus de €

Page 18: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

ExemplesExemples

esaitnrulodesaitnrulodcpmévqfbghjàxyèêzwçùkîcpmévqfbghjàxyèêzwçùkîœïëœïë

Wikipédia Wikipédia 20042004

esaitnrulodesaitnrulodmcpvéqfgbhàxèyêzçôùâûmcpvéqfgbhàxèyêzçôùâûœkwïëüœkwïëüææññ

Engwall Engwall 1984 1984

esaitnrulodesaitnrulodcmpévqfbghjàxèyêzâçîùôcmpévqfbghjàxèyêzâçîùôûïkëwûïkëw

Brunet Brunet 18811881

eeirtnsacouldmpéfhgvqxbèjyçkwirtnsacouldmpéfhgvqxbèjyçkw Page Page d’accueil d’accueil www www VéronisVéronis

Page 19: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

BigrammesBigrammes

Deux lettres consécutivesDeux lettres consécutives bonjour bonjour bo on nj jo ou ur bo on nj jo ou ur

Page 20: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Français Anglais Allemand Italien Espagnol Portugais

on th en di de de

es on er on en es

de an ch ri er to

te he ei er on da

nt er un al ci os

re nd de to es re

en in nd ta re en

le ti ge ne os er

it al re in io te

er re in re la ra

et io ie it ra nt

ti en te io na em

ou ri ng de ec do

io of he li al di

la or ne en ad it

oi at ht ni da al

ne it ic tt to ad

me to be la nt co

ro ed it ll ie ei

ns nt sc el el as

Page 21: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

TrigrammesTrigrammes

Trois lettres consécutivesTrois lettres consécutives bonjour bonjour bon onj njo jou our bon onj njo jou our

Page 22: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Français Anglais Allemand Italien Espagnol Portugais

ion the der ion ion ent

tio and und zio cio ito

ent ion ein ell rec eit

oit tio ung one ere dir

ati ati cht lla der ire

roi igh ich rit ien rei

dro ght sch itt cho ção

men rig che del ent ade

tou ent ech iri ech dad

con ver die dir aci men

res one rec ess ona nte

que all ine ent nte dos

les eve eit azi con ess

des ery gen tto ene con

eme his ver ere tod tod

Page 23: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

Mots les plus fréquentsMots les plus fréquents

Français Anglais Allemand

de the der

la of die

l' and und

et to in

les a den

des in von

à that zu

les is das

Page 24: INF L11 Langage et informatique 1 Cours 7 – Moteurs de recherche : Détection de la langue

DémosDémos

A tester :A tester : TextCatTextCat XeroxXerox LexTexLexTex LangWitchLangWitch