classificateur d'url

Analyse et classification d’URL

Projet iPinion - avril 2010

Objectifs

• Extraire le maximum d’informations possible d’une URL sans avoir à crawler la page correspondante

• La taxonomie utilisée pour la classification est basée sur l’auteur du contenu : institutionnel, corporate, particulier, journaliste

• D’autres aspects sont pris en compte par un système de tags (type de site, langue, etc.)

Sommaire

• 1. Analyse de l’URL de base

• 2. Analyse du path

• 3. Résultats

• 4. Traitements postérieurs

Décomposition d’une URL

http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html

Protocole Sous-domaine Domaine TLD Sous-dossier Sous-dossiers

Titre Extension

http://www.pcinpact.com/actu/news/56413-intel-light-peak.php?from=rss










1. Analyse de l’URL de base

• L’URL de base se compose du sous-domaine, du domaine, du TLD, et éventuellement du premier sous-répertoire

• Elle est la partie la plus signifiante de l’URL, et contient toujours le nom du site

• Elle a l’inconvénient d’être très courte

Déterminer le nom du site

http://tempsreel.nouvelobs.com/actualite/social/20100412.OBS2257/sncf-78-de-ter-en-regions-57-de-trains-grande-lignes-teoz.html

Le nom du site est l’un de ces trois tokens :

http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.htmlhttp://twitter.com/bitsmedia/status/12255541587

http://www.liberation.fr/societe/0101630566-malentendu-sur-les-zones-noires-de-xynthia

-> si l’URL contient deux tokens, le premier est le nom du site-> si elle contient trois tokens : -> si elle commence par www, le token suivant est le nom du site -> si non, on examine le deuxième token : -> si c’est un service de blog listé, le premier token est le site -> si non, le deuxième token est le site, et le premier est un sous-domaine, à traiter avec les sous-url -> dans tous les cas, le dernier token est le TLD-> si le nom du site récupéré à l’issue de cette première étape est dans la liste des exceptions, le nom du site est le premier token suivant l’URL de base (ex : twitter)
























http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html

http://infopartage.blogspot.com/2010/04/des-dizaines-de-milliers-de-polonais.html

http://twitter.com/bitsmedia/status/12255541587

http://twitter.com/bitsmedia/status/12255541587



Tests sur le nom du site 1• On recheche le nom, par ordre de priorité, dans :

- la liste des exceptions- la liste ‘institutionnels’- la liste ‘médias’- Google News (s’il est présent, il est ajouté à la liste ‘médias’)- la base des marques déposées de l’INPI (s’il est présent, il est ajouté à la liste ‘marques’)

http://www.elysee.fr/president/les-actualites/communiques-de-presse/2010/avril/annulation-du-deplacement-de-m-le-president-de-la.8579.html

auteur="institutionnel"

http://www.lepost.fr/article/2009/05/13/1533812_la-banque-postale-comprend-la-crise.html

auteur="média"

























Tests sur le nom du site II

• Si tous les tests précédents échouent, on recherche la présence de mots qualifiants (‘lefilm’, ‘blog’, ‘actu’) dans le nom du site

• En cas de nouvel échec, on effectue ces tests sur le sous-domaine et le premier sous-répertoire

http://fragiles-lefilm.com/ nom="fragiles" type="film" auteur="corporate" lang="fr"

http://leblog.vendeesign.com/web20/facebook-lance-facebook-lite-un-twitter-like-6543/

nom="vendeesign" type="blog" lang="fr"

http://fragiles-lefilm.com






















Tests sur le TLD

• Si le TLD est national : on note #france (.fr), #francophone (.ch) ou #international (.de)

• Si le TLD est générique : s’il existe des restrictions particulières (.gov, .mil, .edu), on ajoute un tag correspondant (#institutionnel)

• Cas spécifique : .gouv.fr , par exemple, ajoute les tags #france et #institutionnel

2. Analyse du path

• La suite de l’URL (‘path’) est segmentée sur les ‘/’

• Le path peut contenir de nombreuses informations pertinentes

• Cependant, il doit être traité différemment de la partie principale l’URL

Recherche de date

• On trouve souvent une date encodée dans la première partie du path

• Diverses expressions régulières permettent de rechercher la présence d’une date

• La date de publication d’une page est une information importante pour en déterminer la pertinence

http://www.capitaine-commerce.com/2007/12/20/ http://fr.rian.ru/business/20071001/81826681.html

http://www.capitaine-commerce.com/2007/12/20/












http://fr.rian.ru/business/20071001/81826681.html












Test sur l’extension

• L’analyse de l’extension permet de déterminer s’il s’agit d’une page (.html, .php, etc.), d’un fichier multimédia (.jpg, .png, etc.), ou d’un flux RSS (.xml)

• On peut ensuite savoir quels traitements postérieurs seront possibles ou nécessaires : il est par exemple inutile de crawler les adresses pointant vers un fichier multimédia

Recherche du type de site

• Certains tokens (ex. : ‘wiki’ ou ‘blog’) permettent de déterminer le type de site correspondant à l’URL

• Le type de site peut également être déterminé à partir des listes de sites utilisées pour l’analyse


type="actualités"

http://forums.thinkpads.com/viewtopic.php?f=43&t=86489type="forum"













http://forums.thinkpads.com/viewtopic.php?f=43&t=86489










Parsing du titre

• On fait l’hypothèse que le dernier token avant l’extension est le titre de la page

• On élimine tous les nombres de plus de quatre chiffres, ainsi que tout se qui se trouve avant un underscore, dans le premier token

• On tokenize ensuite sur ‘-’ , le seul séparateur possible

http://cordonsbourse.blogs.liberation.fr/cori/2009/08/un-milliard-deuros-provisionn%C3%A9-pour-les-traders-de-bnp-paribas.html

titre="un milliard deuros provisionné pour les traders de bnp paribas"





Des tags pour les autres informations

• Si un mot qualifiant a été identifié dans l’URL, mais pas à une position particulière (ni nom du site, ni titre de la page), il est récupéré sous forme de tag :

http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/

53169148-fr.php

tags="creation entreprise"

http://emploi.france5.fr/emploi/creation-entreprise/choisir-son-statut/53169148-fr.php












3. Résultats provisoires

• A l’issue du script on dispose au minimum, pour chaque URL, du nom du site.

• On parvient à identifier un type d’auteur dans 60-70% des cas

• On dispose également de plusieurs tags (environ 5 par URL en moyenne)

Exemples complets I http://al-turayya.hautetfort.com/archive/2010/03/08/

faire-un-don-pour-soutenir-mon-blog.html

<url site="al turayya" page_title="faire un don pour soutenir mon blog" auteur="perso" type="blog"

service="hautetfort" lang="fr" filetype="text/html" date="08/03/2010">http://al-turayya.hautetfort.com/archive/2010/03/08/faire-un-don-pour-soutenir-mon-

blog.html</url>

http://www.ameliste.fr/

<url site="ameliste" auteur="commercial" lang="fr"> http://www.ameliste.fr/</url>

http://al-turayya.hautetfort.com/archive/2010/03/08/faire-un-don-pour-soutenir-mon-blog.html




















http://www.ameliste.fr














Exemples complets II

<url site="lalibre.be" page_title="ing a bien commence l annee" tags="economie finance article"

auteur="média" lang="fr" country="be" filetype="text/html" date="08/03/2010">http://al-

turayya.hautetfort.com/archive/2010/03/08/faire-un-don-pour-soutenir-mon-blog.html</url>

http://www.lalibre.be/economie/finance/article/285542/ing-a-bien-commence-l-annee.html





















4. Traitements postérieurs

• A l’issue de ce premier traitement, on peut envisager d’affiner la classification des URL

• On classifie les URL du corpus de référence en fonction d’une typologie plus fine, créant ainsi des ‘profils’

• Dans un second temps, on peut envisager d’utiliser ce corpus annoté avec un programme d’apprentissage automatique supervisé

classificateur d'url

Technology