finale allocation de frequence

157
 UNIVERSITÉ DE PIERRE ET MARIE CURIE – PARIS 6 U.F.R. DE SCIENCES THÈSE pour obtenir le garde de DOCTEUR DE L’UNIVERSITÉ DE PIERRE ET MARIE CURIE  Discip line : SYSTÈMES INFORMATIQUES présentée et soutenue publiquement par M. Sidi-Mohammed SENOUCI le 09 Octobre 2003 Titre : APPLICATION DE TECHNIQUES D’APPRENTISSAGE DANS LES RESEAUX MOBILES Directeur de thèse : M. Guy PUJOLLE JURY Président Mlle. Dominique GAITI Professeur à l’UTT Rapporteur M. André-Luc BEYLOT Professeur à l’ENSEEIHT Rapporteur M. Younes BENNANI Professeur à l’université de Paris 13 Examinateur M. Sami TABBANE Enseignant-chercheur à l’ESPTT Examinateur M. Otto SPANIOL Professeur à l’université d’Aachen Examinateur M. Laurent REYNAUD Chercheur chez France Télécom R&D Examinateur M. Samir TOHME Professeur à l’ENST Examinateur M. Guy PUJOLLE Professeur à l’université de Paris 6

Upload: amine-genesis

Post on 21-Jul-2015

47 views

Category:

Documents


0 download

TRANSCRIPT

UNIVERSIT DE PIERRE ET MARIE CURIE PARIS 6 U.F.R. DE SCIENCES THSE pour obtenir le garde de

DOCTEUR DE LUNIVERSIT DE PIERRE ET MARIE CURIEDiscipline : SYSTMES INFORMATIQUES

prsente et soutenue publiquement par M. Sidi-Mohammed SENOUCI le 09 Octobre 2003 Titre :

APPLICATION DE TECHNIQUES DAPPRENTISSAGE DANS LES RESEAUX MOBILESDirecteur de thse : M. Guy PUJOLLE JURY Prsident Rapporteur Rapporteur Examinateur Examinateur Examinateur Examinateur Examinateur Mlle. Dominique GAITI M. Andr-Luc BEYLOT M. Younes BENNANI M. Sami TABBANE M. Otto SPANIOL M. Laurent REYNAUD M. Samir TOHME M. Guy PUJOLLE Professeur lUTT Professeur lENSEEIHT Professeur luniversit de Paris 13 Enseignant-chercheur lESPTT Professeur luniversit dAachen Chercheur chez France Tlcom R&D Professeur lENST Professeur luniversit de Paris 6

RemerciementsJe tiens remercier M. Guy Pujolle, Professeur l universit de Pierre et Marie Curie, de m' avoir accueilli au sein de l quipe Rseau et Performance (RP) du Laboratoire Informatique de Paris 6 (LIP6) et de m' avoir permis de travailler dans d' aussi bonnes conditions. Ce travail n' aurait pu voir le jour sans sa prsence attentive et ses conseils toujours pertinents. Mes plus vifs remerciements lui sont adresss. J' adresse toute ma gratitude M. Andr-Luc Beylot, Professeur l ENSEEIHT, pour ses judicieux conseils qui ont permis d amliorer la qualit de ce rapport, et pour avoir contribu la ralisation de certains des travaux prsents dans cette thse. Je le remercie galement M. Younes Bennani, Professeur l Universit de Paris 13, pour avoir immdiatement accept le rle de rapporteur et de l' avoir assum avec beaucoup de patience et de pertinence. Je souhaite aussi exprimer mes vives remerciements Mlle. Dominique Gati, Professeur l UTT, M. Otto Spaniol, Professeur l universit technologique d Aachen en Allemagne, M. Sami Tabbane, enseignant-chercheur l ESPTT en Tunisie, M. Samir Tohm, Professeur l ENST, et M. Laurent Reynaud, chercheur chez France Tlcom R&D, d' avoir accept sans hsitation de prendre part ce jury de thse. Je remercie tous les membres du groupe RP pour le climat sympathique dans lequel ils m' permis de travailler. Les nombreuses discussions que j' pu avoir avec chacun m' ont ai ont beaucoup appris. Une mention toute spciale est rserve dans mon coeur pour tous ceux qui ont relu soigneusement toutes les tapes de ce mmoire ou qui m' grandement aid avancer tout au ont long de cette thse : Selma, Khaled, Laetitia et en particulier Yacine.

ii

Je tiens redire toute mon amiti la joyeuse bande des "jeunes" : Nadjib, Promthe, Lila, Anelise, Mauro, Marcelo, Louis, Hakima, Nazim, Youcef, Kamel, Samir, Maha, Davor, Julien, Benoit, Konstantin, Dominique, Leila, Arthur, Erwan, avec qui j' partag ces quelques ai annes de thse. Enfin, j' adresse toute mon affection ma famille, et en particulier mes surs et mes frres, mon pre dont j' aimerais dire quel point sa prsence m' prcieuse et ma est "beautiful sur". Leur intelligence, leur confiance, leur tendresse, leur amour me portent et me guident tous les jours.

ma maman.

Rsum Les demandes en transmissions sans fil, fournissant des communications fiables de voix et de donnes "n importe o et n importe quand", ont augment massivement ces dernires annes. L' explosion de ce march, sa croissance soutenue et l' apparition de nouveaux services amnent les rseaux mobiles actuels leur limite. Contrairement aux rseaux filaires, plusieurs problmes tels que le contrle d' admission d appels (CAC Call Admission Control), l allocation des ressources, la gestion de la localisation et le routage sont plus difficiles rsoudre dans les rseaux mobiles, et doivent leur complexit aux imperfections du support sans fil. Les solutions existantes ignorent souvent l' exprience et la connaissance qui pourraient tre acquises pendant l' excution du systme. Nous dmontrons, dans cette thse, l utilit des techniques d apprentissage pour rsoudre un certain nombre de problmes rencontrs dans ces rseaux mobiles. Nos premires contributions consistent amliorer, grce aux techniques d apprentissage par renforcement, le contrle d admission (CAC) et l allocation dynamique des ressources dans les rseaux cellulaires multiservices. Les solutions proposes sont robustes, amliorent considrablement la qualit de service (QoS), et rduisent les probabilits de coupure et ceci malgr les variations dans les conditions de trafic. Constatant le grand succs de ces rseaux cellulaires, de nouvelles solutions de communication sans fil de plus en plus performantes sont en train de paratre. Parmi ces solutions, nous nous sommes particulirement intress aux rseaux ad hoc ; ce sont des rseaux sans fil ne ncessitant aucune infrastructure fixe pour communiquer. Nos contributions se concentrent sur le problme du routage ad hoc, et plus spcialement l aspect minimisation de la consommation de l nergie, et par consquent l amlioration de la dure de vie du rseau (survivabilit). L une des quatre solutions de routage ad hoc proposes utilise l algorithme d apprentissage par renforcement (RL). Mots-cls : Rseaux cellulaires, Rseaux ad hoc, Contrle d admission CAC, Allocation dynamique de ressources DCA, routage ad hoc, Apprentissage par renforcement, Q-learning.

Abstract The increasing demand and rapid growth of mobile communications that provide reliable voice and data communications anytime and anywhere has massively grown. However, compared to the wired networks, several problems such as call admission control (CAC), channel allocation, location management and routing are more difficult to solve and owe their complexity to the shortcomings of the wireless medium. The existing solutions completely ignore the experience or knowledge that can be acquired during system operation. We argue that the use of learning techniques can lead to very good solutions in reasonable times. In this thesis, we show the benefits of learning techniques to solve some problems encountered in mobile networks. Our first contribution, consists on improving call admission control and dynamic channel allocation in multi-service cellular networks, using reinforcement learning techniques. The suggested solutions are robust, improve the Quality of Service (QoS), and reduce call-blocking probabilities for handoff calls in spite of variations in the traffic conditions. Given the great success of cellular networks, new powerful wireless communication solutions have been developed. Among these solutions, we were particularly interested in ad hoc networks, which are wireless networks that do not need any fixed infrastructure. Our work, has focused on routing problem, and more specifically on mechanisms minimizing energy consumption, and extending the network lifetime (survivability). One of the four suggested solutions of ad hoc routing uses the reinforcement learning algorithm (RL). Keywords : Cellular networks, ad hoc networks, Call Admission Control CAC, Dynamic channel allocation DCA, ad hoc routing, Reinforcement learning, Q-learning.

Table des matiresIntroduction..........................................................................................................................................7 1. 2. 1. 2. Motivations................................................................................................................................7 Contributions.............................................................................................................................9

Rseaux cellulaires : Vue densemble............................................................................................13 Introduction .............................................................................................................................13 Notions de base.......................................................................................................................14 2.1 La technique FDMA .............................................................................................14 2.2 La technique TDMA .............................................................................................15 2.3 La technique CDMA .............................................................................................15 3. Les rseaux cellulaires ...........................................................................................................16 3.1 Fondements ...........................................................................................................17 3.2 La cellule...............................................................................................................17 3.3 La rutilisation des frquences ..............................................................................17 3.4 Le transfert inter-cellulaire (ou Handoff)...............................................................17 4. Schmas d allocation de canaux ...........................................................................................17 4.1 Fixed Channel Allocation......................................................................................17 4.2 Dynamic Channel Allocation ................................................................................17 4.3 Comparaison .........................................................................................................17 4.4 Hybrid Channel Allocation ...................................................................................17 5. Diminution des blocages........................................................................................................17 5.1 Rservation des canaux .........................................................................................17 5.2 Mise en attente de nouveaux appels ......................................................................17 5.3 Mise en attente des handoffs .................................................................................17 5.4 Contrle d admission ............................................................................................17 5.5 Recouvrement des cellules ....................................................................................17 6. Conclusion...............................................................................................................................17 LApprentissage.................................................................................................................................17 Introduction .............................................................................................................................17 Apprentissage numrique ......................................................................................................17 2.1 Apprentissage supervis ........................................................................................17 2.2 Apprentissage non-supervis.................................................................................17 2.3 Apprentissage par renforcement............................................................................17 3. Applications ............................................................................................................................17 3.1 Applications classiques .........................................................................................17 3.2 Routage .................................................................................................................17 1. 2.

4

TABLE DES MATIERES

3.3 Allocation de ressources........................................................................................17 3.4 Contrle d admission CAC ...................................................................................17 4. Conclusion...............................................................................................................................17Contrle adaptatif dadmission des appels...................................................................................17 Motivations..............................................................................................................................17 Cas d une seule cellule FCA .................................................................................................17 2.1 Formulation du problme sous forme de SMDP ...................................................17 2.2 Implantation des algorithmes ................................................................................17 2.3 tude Analytique du mcanisme de rservation de canaux ...................................17 2.4 Rsultats exprimentaux........................................................................................17 3. Systme FCA ..........................................................................................................................17 3.1 Implantation de l algorithme QCAC-FCA ............................................................17 3.2 Rsultats exprimentaux........................................................................................17 4. Conclusion...............................................................................................................................17 Allocation dynamique et adaptative des ressources ...................................................................17 Motivations..............................................................................................................................17 Formulation du problme sous forme de SMDP.................................................................17 Implantation de l algorithme Q-DCA...................................................................................17 3.1 Reprsentation des Q-valeurs ................................................................................17 3.2 Implantation ..........................................................................................................17 3.3 Exploration............................................................................................................17 4. Rsultats exprimentaux ........................................................................................................17 4.1 Rpartition uniforme du trafic ...............................................................................17 4.2 Rpartition non uniforme du trafic ........................................................................17 4.3 Charge de trafic variable dans le temps .................................................................17 4.4 Panne d quipement dans un systme DCA ..........................................................17 5. Conclusion...............................................................................................................................17 Rseaux ad hoc : Vue densemble ..................................................................................................17 Introduction .............................................................................................................................17 Prsentation des rseaux Ad hoc...........................................................................................17 2.1 Applications cibles ................................................................................................17 2.2 Avantages..............................................................................................................17 2.3 Inconvnients ........................................................................................................17 3. Principaux algorithmes de routage ad hoc ...........................................................................17 3.1 Protocoles proactifs ...............................................................................................17 3.2 Protocoles ractifs .................................................................................................17 3.3 Protocoles hybrides ...............................................................................................17 4. Conclusion...............................................................................................................................17 Consommation de lnergie dans les rseaux ad hoc..................................................................17 Motivations..............................................................................................................................17 Protocoles minimisant la consommation des batteries .......................................................17 Impact du routage sur la consommation de l nergie .........................................................17 3.1 Caractristiques nergtiques des protocoles de routage .......................................17 3.2 tude comparative des protocoles de routage........................................................17 4. Conclusion...............................................................................................................................17 Protocoles de routage minimisant la consommation de lnergie............................................17 1. 2. 3. 1. 2. 1. 2. 3. 1. 2.

TABLE DES MATIERES

5

Motivations..............................................................................................................................17 Le protocole LEAR-AODV ..................................................................................................17 2.1 Dcouverte de route ..............................................................................................17 2.2 Maintien de la route...............................................................................................17 3. Le protocole PAR-AODV .....................................................................................................17 3.1 Dcouverte de route ..............................................................................................17 3.2 Maintien de la route...............................................................................................17 4. Le protocole LPR-AODV......................................................................................................17 4.1 Dcouverte de route ..............................................................................................17 4.2 Maintien de la route...............................................................................................17 5. Le protocole Q-AOMDV.......................................................................................................17 5.1 Dcouverte de route ..............................................................................................17 5.2 Maintien de la route...............................................................................................17 6. Rsultats exprimentaux ........................................................................................................17 6.1 N uds fixes ..........................................................................................................17 6.2 N uds mobiles......................................................................................................17 7. Conclusion...............................................................................................................................17 Conclusion...........................................................................................................................................17 1. Perspectives.............................................................................................................................17 Liste des publications........................................................................................................................17 Bibliographie ......................................................................................................................................17

1. 2.

&KDSLWUH Introduction1. MotivationsAvec l volution de la socit actuelle, les personnes se dplacent de plus en plus, tout en ayant besoin de communiquer pendant leurs dplacements. Ce phnomne a provoqu une demande accrue et orient les tudes vers le dveloppement de systmes trs sophistiqus afin de rpondre aux nouveaux besoins des utilisateurs. Ces besoins ont effectivement chang ; si la voix tait l origine le seul besoin, les demandes en transmissions sans fils fournissant des communications fiables de son haute dfinition, d images, voire de vidos de haute qualit est devenu de plus en plus pris par un nombre croissant d utilisateurs. Ces derniers, souhaitent que la mobilit soit compltement transparente afin de bnficier de performances comparables celles des rseaux filaires, malgr la gourmandise en bande passante de ces nouveaux services. Les systmes cellulaires sont sans aucun doute, ceux qui ont connu la plus grande volution ces dernires annes. Un des grands challenges pour ce type de rseaux est la mobilit des usagers durant une mme communication (changement de cellules). En effet, la disponibilit des ressources radios durant toute la dure de la communication n est pas ncessairement garantie, et ces utilisateurs peuvent subir une dgradation ou mme une rupture de la communication lors d un passage d une cellule une autre. Cet vnement, appel transfert inter-cellulaire ou "handoff", doit tre transparent l' utilisateur. L un des soucis majeurs lors de la conception des rseaux cellulaires, consiste viter aux usagers le dsagrment caus par des coupures de communication. En effet, du point de vue du client, cette coupure de communication est beaucoup plus dsagrable qu un chec de connexion.

8

CHAPITRE 1. INTRODUCTION

tant donn que la ressource radio est une ressource rare, il est impratif de l utiliser au maximum et particulirement dans le cas d un rseau cellulaire multiservices. Pour un oprateur il est parfois prfrable de bloquer un appel d' classe de service moins prioritaire (donnes une par exemple) et d en accepter un autre appel d' classe plus prioritaire (voix par exemple). une Ainsi, une bonne politique de contrle d' admission d' appel (CAC) est certainement ncessaire afin de permettre de maximiser l utilit de l ensemble de ces ressources radio. Pour aboutir cet objectif, il est galement indispensable de trouver une bonne mthode d allocation de la totalit de la bande passante disponible l ensemble des cellules. Ces nouveaux mcanismes (CAC, allocation dynamiques des ressources) doivent galement faire face aux changements frquents des conditions de trafic dans les rseaux cellulaires. L' engouement suscit par ces rseaux cellulaires laisse penser que l' utilisateur va devenir de plus en plus mobile. Ces systmes connaissent une trs forte expansion l' heure actuelle, cependant ils requirent une importante infrastructure logistique et matrielle fixe. L ambition voue des rseaux ad hoc est d tendre les notions de mobilit pour permettre l accs l information et la communication "n importe o et n importe quand" (Anywhere and Anytime). Les rseaux ad hoc liminent le besoin d' infrastructure fixe pour communiquer. L' activit du groupe MANET [1] de l IETF1 montre que le dveloppement de ces rseaux sans fil et sans infrastructure est en plein essor. Les industriels imaginent dj toutes sortes d applications. Militaires bien sr pour la cration de rseaux tactiques mobiles, mais aussi civiles pour les interventions d urgence, les communications avec les automobiles, la reconfiguration de rseaux sans cblage dans les entreprises ou bien la cration de rseaux temporaires autour d vnement. Sans conteste, les atouts majeurs de cette nouvelle gnration de rseaux mobiles sont la flexibilit et leur faible cot. Un des grands challenges pour ce type de rseaux rside dans l' autonomie restreinte des stations mobiles le constituant. Effectivement, cette autonomie est fournie par de simple batteries, et donc reprsente une ressource finie et rare. Chaque paquet envoy ou reu, de mme que chaque utilisation du terminal mobile profite de cette ressource. Et comme l amlioration du confort, et de l ensemble des fonctionnalits offertes aux utilisateurs est de plus en plus apprciable, rduire la consommation de l nergie au minimum est un dfi important dans les rseaux mobiles. Cet objectif devient davantage considrable pour les

1. IETF : Internet Engineering Task Force.

INTRODUCTION

9

rseaux ad hoc, o les stations ont de surcrot la fonction de routage. En effet, relayer des paquets au nom d' autres n uds, consomme l nergie propre au n ud.

2. ContributionsConstatant qu il est intressant d exploiter l' exprience et la connaissance qui pourraient tre acquises en cours de fonctionnement d un rseau cellulaire, nous proposons, dans le cadre de cette thse, de nouveaux mcanismes de contrle d admission d appels dans ces rseaux. Ces mcanismes considrent les deux schmas d allocation de canaux : fixe (FCA) et dynamique (DCA), et sont obtenus en utilisant l algorithme d apprentissage par renforcement Q-learning. Nous proposons, galement, pour les systmes d allocation dynamique, o toutes les ressources radios sont groupes dans un pool (ou groupe) commun, un nouveau mcanisme bas sur le Q-learning et permettant de choisir le meilleur canal parmi tous les canaux disponibles dans le pool commun. Ce mcanisme coupl avec le mcanisme de contrle d admission a pour objectif de maximiser le taux d utilisation de chaque canal. Ces propositions, que ce soit pour des systmes d allocation fixe ou dynamique, permettent de favoriser les appels plus prioritaires, tout en minimisant les probabilits de coupure des appels en cours de communication. En ce qui concerne les rseaux ad hoc, nous avons constat que la totalit des protocoles de routage actuels, proposs au sein du groupe MANET de l IETF, utilisent la mme mtrique (nombre de sauts ou temps de transmission minimum). Constatant, galement, que le choix du protocole de routage influe rellement sur la consommation de l nergie dans les rseaux ad hoc, nous proposons de nouveaux protocoles de routage utilisant des mtriques bases sur l nergie. Ces mtriques vont permettre de rallonger la dure de vie des batteries, et par consquent la dure de vie du rseau ad hoc (survivabilit du rseau). Ces nouveaux protocoles permettent ainsi, d assurer que la connectivit du rseau soit maintenue aussi longtemps que possible, tout en vitant de le partitionner en sous-rseaux disjoints. Les protocoles que nous avons dvelopp (LEAR-AODV, PAR-AODV, LPR-AODV et Q-AOMDV) sont des protocoles ractifs et sont bass sur l un des plus importants protocoles de routage actuels : AODV2. L' fondamentale du protocole LEAR-AODV est de mettre en ide2. Ad hoc On demand Distance Vector.

10

CHAPITRE 1. INTRODUCTION

cause la "bonne volont" de chaque n ud mobile participer au processus de slection de route et de relayer des paquets de donnes au nom d' autres n uds. Ainsi, un n ud dont la batterie est trop utilis, peut refuser de relayer ces paquets. Le routage PAR-AODV recherche la meilleure route minimisant une fonction cot prenant en compte l nergie rsiduelle de chaque n ud dans la route. Le protocole LPR-AODV favorise la route dont la dure de vie est maximum, et par consquent la route qui ne contient pas de n uds dont la dure de vie est faible. Le protocole QAOMDV, quant lui, recherche plusieurs routes allant de la source jusqu la destination, et essaie ensuite d quilibrer le trafic sur cet ensemble de routes. Le choix de la meilleure route se fait de proche en proche en utilisant un algorithme de routage bas sur l apprentissage par renforcement. L ordre quasi-linaire de ce document correspond une volont d amener le lecteur mieux comprendre les diffrentes caractristiques de chacune des solutions proposes. Ce document est organis comme suit : Le prochain chapitre de cette thse prsente les principaux lments ncessaires la comprhension du rapport, en particulier les notions de canal, cellule et de transfert intercellulaire (handoff). Nous exposons aussi les principaux schmas d allocation de ressources implants dans les rseaux cellulaires. Nous mettons l accent sur les diffrentes techniques permettant la diminution des ruptures de communication. Dans le troisime chapitre, nous exposons brivement la notion d apprentissage, en mettant l accent sur l apprentissage par renforcement. Le chapitre quatre prsente une nouvelle mthode de contrle d' admission des appels (CAC) dans les rseaux cellulaires supportant plusieurs classes de trafic. La mthode propose utilise l apprentissage par renforcement, et a t ralise pour le cas d une seule cellule de type FCA, et le cas d un systme cellulaire complet de type FCA. Diffrentes implantations de l algorithme d apprentissage par renforcement ont t ralises. Cette tude a t valide par un ensemble de simulations et compare aux solutions existantes. Le cinquime chapitre expose une nouvelle politique d allocation dynamique des ressources radios, en considrant galement le contrle d admission d appels dans des systmes cellulaires supportant plusieurs classes de trafic. La mthode propose utilise, galement,

INTRODUCTION

11

l apprentissage par renforcement et a t teste pour diffrents scnarios de simulations, et compare aux solutions traditionnelles. Le sixime chapitre prsente une vision d ensemble sur les rseaux ad hoc. Nous y dtaillons les principaux algorithmes de routage ad hoc existants. Ces notions sont ncessaires pour la comprhension des deux derniers chapitres du document. La consommation de l nergie dans ce type de rseau est tudie dans le chapitre 7. Nous arborons quelques propositions parmi les plus intressantes, permettant de rduire cette consommation pour chacune des couches du modle de rfrence. Nous mettons l accent sur la couche rseau (routage) et comparons, par un ensemble de simulations, l impact du routage sur la consommation de l nergie. Dans le dernier chapitre, nous prsentons de nouveaux protocoles ractifs (LEAR-AODV, PAR-AODV, LPR-AODV et Q-AOMDV) permettant d assurer la survivabilit du rseau, en rduisant autant que possible, la consommation des batteries dans les n uds. Les procdures de dcouverte et de maintien de la route y sont dcrites pour chaque protocole et sont compars celles utilises dans AODV. Un ensemble de simulation a t ralis pour comparer leurs performances. Enfin, une synthse globale reprenant l ensemble du travail effectu pendant cette thse, conclut ce document.

&KDSLWUH Rseaux cellulaires : Vue densemble1. IntroductionEn 1876, Graham Bell invente le tlphone fixe, premier moyen de communication moderne. Onze ans plus tard, le physicien allemand Heinrich Hertz dcouvre les ondes radio. La premire transmission radio fut ralise en 1896 par le physicien italien Guglielmo Marconi, et le premier service de radiotlphone a vu le jour aux Etats-Unis au dbut des annes 50. Malgr une perce assez timide dans les annes 60, les rseaux mobiles connaissent actuellement un norme succs. L avantage de tels systmes est la possibilit de communiquer de n importe o, mme en se dplaant. Cependant, l utilisation de la voie hertzienne pour le transport de l information a donn naissance des architectures de rseau assez diffrentes de celles des rseaux fixes. L une des raisons de cela est que la communication, dans les rseaux mobiles, doit continuer sans interruption, mme en cas de dplacement de l metteur ou du rcepteur. L autre raison, est l apparition de difficults qui n existaient pas lors des transmissions cbles, telles que la limitation naturelle de la bande passante, l instabilit de la qualit du lien radio ou encore la variation des points d accs au rseau. Les systmes cellulaires, sont sans aucun doute, ceux qui ont connu la plus grande volution ces dernires annes. Ce chapitre se propose de prsenter les principaux lments des rseaux cellulaires utiles la comprhension de cette thse tels que les notions de canal, de cellule, transfert inter-cellulaire, et d allocation de ressources.

14

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

2. Notions de baseLa frquence radio est une ressource naturellement limite, elle doit tre alors judicieusement utilise afin de permettre d couler la maximum de trafic. Ainsi, plusieurs mthodes d accs multiple ont t dfinies, permettant le partage de la bande passante en plusieurs canaux. Ceux-ci seront allous aux usagers afin de pouvoir communiquer avec le rseau. La dfinition d un canal de communication dpend de la mthode d accs choisie, il en existe principalement trois : Accs Multiple par Rpartition dans les Frquences (AMRF) ou Frequency-Division Multiple Access (FDMA) ; Accs Multiple par Rpartition dans le Temps (AMRT) ou Time-Division Multiple Access (TDMA) ; Accs Multiple par Rpartition par Code (AMRC) ou Code-Division Multiple Access (CDMA). La combinaison des trois techniques d accs (FDMA, TDMA et CDMA) est galement envisage.

2.1 La technique FDMALa mthode d accs FDMA [2][3][4][5][6], repose sur un multiplexage en frquences et est essentiellement utilise dans les rseaux analogiques. Le multiplexage frquentiel divise la bande de frquences en plusieurs sous-bandes. Chacune est place sur une frquence dite porteuse, ou carrier, qui est la frquence spcifique du canal. Chaque porteuse ne peut transporter que le signal d un seul utilisateur. La Figure 2.1 illustre un multiplexage FDMA de trois porteuses acceptant trois utilisateurs sur le mme support. Cette mthode ncessite une sparation entre les porteuses pour viter les interfrences. Ce mode de partage est simple mettre en uvre et il ne ncessite pas de synchronisation entre l metteur et le rcepteur. L un des grands inconvnients de FDMA est la sous utilisation de la bande passante.

RESEAUX CELLULAIRES : VUE D ENSEMBLE

15

Frquence

Occup par l'utilisateur 1 Non occup Occup par l'utilisateur 2

Canal physique

Temps

Figure 2.1 Le FDMA (Frequency-Division Multiple Access).

2.2 La technique TDMALa mthode TDMA [2][3][4][5][6] offre la totalit de la bande de frquences chaque utilisateur pendant une fraction de temps donne, appele time slot (intervalle). TDMA permet de transmettre un dbit plus important que la solution FDMA. Pour communiquer, un abonn utilise un slot (cf. Figure 2.2). Ainsi, plusieurs terminaux peuvent se partager la mme porteuse. Pour permettre ce partage, les mobiles doivent tre fortement synchroniss. Le TDMA s applique principalement la transmission de signaux numriques. Les accs combins FDMA/TDMA montrent une efficacit spectrale importante.Frquence Canal physique

Occup par l' utilisateur 1 Non occup Occup par l' utilisateur 2

Temps

Figure 2.2 Le TDMA (Time-Division Multiple Access).

2.3 La technique CDMALa troisime mthode, le CDMA autorise l allocation de la totalit de la bande de frquences, de manire simultane, tous les utilisateurs d une mme cellule. Pour ce faire, un code binaire spcifique est octroy chaque utilisateur. L utilisateur se sert de son code pour transmettre l information qu il dsire communiquer en format binaire d une manire orthogonale, c est--dire sans interfrence entre les signaux, ou autres communications. Le nombre de canaux avec CDMA [2][3][4][5][6] est thoriquement illimite ; toute la difficult, cependant, est de trouver des codes suffisamment diffrents pour viter les interfrences et

16

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

permettre ainsi la station de base de rcuprer des missions en parallle. La combinaison FDMA/CDMA offre un bon niveau de rsistance l interfrence co-canal [5].Code

Canal physique

Occup par l' utilisateur 1 Non occup Occup par l' utilisateur 2

Temps

Frquence

Figure 2.3 Le CDMA (Code-Division Multiple Access).

3. Les rseaux cellulairesLes systmes cellulaires (cf. Figure 2.4) offrent la possibilit d acheminer automatiquement une communication jusqu au destinataire quel que soit l endroit o il se trouve, que le demandeur appartienne au rseau de tlcommunications commut ou au systme cellulaire. Ils assurent le maintien de cette communication au cours du dplacement. Deux gnrations de ces systmes coexistent, la premire dite analogique tend disparatre au profit de la seconde qui repose, elle, sur une technologie numrique. Premire gnration : apparus dans les annes 70, les rseaux cellulaires analogiques, fournissant un service tlphonique des usagers pouvant se dplacer sur de grandes distances. La taille des cellules tait importante ce qui ne permettait d couler que peu de trafic. Cette gnration utilisait la technique d accs FDMA, et la transmission de la voix se faisait grce une modulation de frquence ; Deuxime gnration : profitant du dveloppement des techniques de codage numrique de la parole, les rseaux cellulaires de cette gnration autorisent l utilisation de TDMA et CDMA comme une alternative FDMA. Ainsi, le spectre radio est mieux rentabilis et le nombre d usagers possibles augmente considrablement.

RESEAUX CELLULAIRES : VUE D ENSEMBLE

17

Figure 2.4 Exemple de rseau cellulaire. De nouvelles gnrations de rseaux mobiles sont apparues [4] : Troisime gnration : La troisime gnration de mobiles, telle que l UMTS (Universal Mobile Telecommunications System), propose de dfinir un systme de communication sans fil visant raliser la convergence fixe-mobile. Les mobiles de la troisime gnration sont des terminaux aux dbits suprieurs ceux des mobiles actuels. Ils sont capables, ainsi, d offrir une importante gamme de services multimdias ; Quatrime gnration : La quatrime gnration de mobiles et sans fil se donne pour ambition non seulement d amliorer le dbit mais de mettre en commun la grande varit de solutions mobiles, souvent complmentaires entre elles, et de les proposer sous forme unifie, dans un quipement terminal unique. La cinquime gnration souhaite aller encore plus loin dans la mme direction par une unification des interfaces radio, des techniques d accs et des services.

3.1 FondementsLe concept cellulaire repose sur une proprit essentielle des ondes radio qui est de s attnuer en fonction de la distance. Une bande de frquences utilise sur un site peut, grce cette proprit, tre utilise sur un autre site condition que ce dernier soit suffisamment loign du premier. Ce concept, combin le plus souvent avec le mcanisme de rutilisation des frquences, permet des systmes de communication radio de couvrir des zones trs vastes et desservir des densits de trafic leves [5].

18

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

Les rseaux cellulaires mobiles reposent sur deux principes fondamentaux savoir : La cellule ; La rutilisation de frquences.

Ils grent principalement deux fonctions de base : Le trafic intercellulaire (ou Handoff) ; L itinrance (ou Roaming).

3.2 La celluleLa zone gographique desservie par le rseau mobile est divise en petites surfaces appeles cellules. Chacune d elles est couverte par un metteur nomm "Station de base". 3.2.1 Modlisation dune cellule La cellule est souvent schmatise par un hexagone ; cependant, cette forme ne peut exister dans la ralit. La Figure 2.5 montre ce qui peut ressembler des cellules relles. Contrairement la forme circulaire idale, l hexagone rgulier assure une couverture jointive du plan sans recouvrement. Il permet aussi un contour de niveau du signal constant depuis une antenne omnidirectionnelle. C est pourquoi, les ingnieurs de planification utilisent cette forme lors de la conception des rseaux.

Couverture du signal : Fictive

Couverture du signal : Idale

Couverture du signal : Relle

Figure 2.5 Formes de cellules. 3.2.2 Taille de la cellule La taille des cellules est trs variable, elle peut varier de quelques mtres (pico-cellules) quelques kilomtres (macro-cellules). Dans les zones denses, on trouve principalement des cellules de petites tailles (pico- ou micro-cellules), alors que dans les zones peu peuples, on

RESEAUX CELLULAIRES : VUE D ENSEMBLE

19

utilise des macro-cellules. La tendance actuelle, dans les systmes cellulaires, est l utilisation de cellules de plus en plus petites pour couler un maximum de trafic.

3.3 La rutilisation des frquencesLes frquences utilises par une cellule peuvent tre utilises par une autre cellule suffisamment loigne. Cela peut se faire grce la proprit d attnuation des ondes radiolectriques. Ce principe permet d augmenter significativement l utilisation de la bande passante. Ainsi, au lieu d utiliser une seule antenne (1 cellule) pour tout le rseau, la zone de couverture est divise en petites cellules regroupes en cluster (ou motifs cellulaires) dont la taille dpend du systme. chaque groupe ainsi form est attribu l ensemble des canaux du systme. Les cellules utilisant les mmes frquences appeles co-cellules, doivent tre situes une distance suffisamment grande pour ne pas causer d interfrences dites "co-canal". La distance minimale requise est appele distance moyenne de rutilisation. Dans la Figure 2.6, si par exemple, le systme possde N canaux. Dans un systme sans rutilisation, il pourrait y avoir au maximum N appels. En revanche, dans un systme possdant K motifs de rutilisation, KN communications peuvent tre achemines.Couverture radio avec N canaux allous

Une seule cellule N communications simultanes

7 motifs cellulaires N*7 communications simultanes

Figure 2.6 Gain de capacit ralis par la rutilisation des frquences.

20

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

3.3.1 -

Paramtres de rutilisation C/I [5] : Indicateur de performance utilis pour mesurer la qualit du signal reu. Il dpend du signal utile C et du niveau d interfrence co-canal I. Ce rapport est affect par des phnomnes alatoires tels que la localisation du mobile, l vanouissement de Rayleigh, les caractristiques des antennes et la localisation des metteurs/rcepteurs ;

3.3.1.1 Dfinitions

-

R : Rayon de la cellule. Il et fonction de la puissance d mission de la station de base ; D : Distance entre deux co-cellules. Afin d couler le maximum de charge, il est ncessaire de rduire la distance de

rutilisation au maximum. Cela ne peut se faire sans risque d interfrence. Lors de la conception du rseau et de la mise en place des stations de base, il est ncessaire de bien dfinir la distance de rutilisation ainsi que la taille optimale du motif. Ces deux nombres sont fonctions des rapports C/I et D/R. Le nombre N de cellules par motif est donn par : N = D/(3R). Une grande valeur de N donne une distance de rutilisation importante, mais rduit le risque d interfrences co-canal. L objectif dans un rseau cellulaire, est de trouver la plus petite valeur de N possible donnant un seuil d interfrence minimal requis par le systme ; ceci permet d obtenir une utilisation maximale de la bande passante [7]. En considrant que les cellules ont des rayons identiques, on obtient la relation suivante entre C/I et D/R [7] :& = , 1

O K1 reprsente le nombre de cellules co-canaux de la premire couronne et un paramtre caractrisant l environnement. Cette relation permet de constater que plus le rapport D/R est grand, plus le niveau d interfrence diminue. La valeur de C/I requise dpend du systme utilis ; c est ainsi que pour FDMA, par exemple, le C/I minimal est de 18 dB. Par ailleurs, la connaissance de cette valeur

' =0 51

(2.1)

RESEAUX CELLULAIRES : VUE D ENSEMBLE

21

permet de dterminer la taille du motif. Dans le cas de FDMA, il est possible d avoir un motif de 7 9 cellules [5].

3.4 Le transfert inter-cellulaire (ou Handoff)Une des procdures les plus complexes dans un rseau cellulaire est le transfert intercellulaire (ou Handoff). Il permet un abonn de poursuivre sa communication sans coupure lorsqu il change de cellule (Handoff inter-cellulaire cf. Figure 2.4). Le mobile peut galement effectuer un handoff l intrieur de la cellule si le signal devient faible par exemple (on parle alors de handoff intra-cellulaire). Pour l tude des rseaux cellulaires, plusieurs paramtres sont valus. Parmi les plus importants nous pouvons citer : la probabilit de rejet des nouveaux appels (demandes de connexion rejetes) et la probabilit d chec de transfert inter-cellulaire (se traduisant par une coupure de communication). Ainsi, un des soucis majeurs lors de la conception des rseaux est la rduction de la probabilit de coupure puisque, du point de vue de l usager, elle est beaucoup plus dsagrable qu un chec de connexion. Ceci est d autant plus important qu afin de rpondre la croissance des rseaux mobiles, la taille des cellules est de plus en plus rduite, ce qui augmente considrablement le nombre de transferts inter-cellulaires. 3.4.1 Droulement dun handoff Le mcanisme de handoff peut tre divis en trois phases [8] : (i) mesure de la qualit du lien radio, (ii) initiation de la procdure, et (iii) excution. 3.4.1.1 Mesure de la qualit du lien radio Durant la communication, la station de base et le mobile effectuent des mesures sur le lien radio (la puissance du signal et le taux d erreur bit). Les intervalles de mesure doivent tre suffisamment petits pour permettre au rseau de ragir rapidement la dtrioration de la qualit du lien. Pendant cette phase, une liste de cellules candidates, susceptibles de prendre en charge la communication, est maintenue jour. Une cellules est dans la liste si le signal qu elle met est reu par le mobile avec une puissance au dessus d un niveau prdtermin. 3.4.1.2 Initiation de la procdure de handoff Le processus de handoff est enclench ds lors que la qualit du signal est au-dessous d un seuil prdtermin. L initiation de ce mcanisme peut tre faite par le rseau, comme le

22

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

cas d un systme analogique, ou bien par le mobile lui-mme. Les systmes cellulaires numriques utilisent les deux techniques. 3.4.1.3 Excution du handoff Une fois le handoff dcid, la connexion est transfre vers un nouveau canal. Il existe trois mcanismes permettant de basculer d un canal l autre [8] : Handoff doux (Soft handoff) : l approche de la priphrie d une cellule, les couvertures de deux stations de base voisines se chevauchent, et l utilisateur distingue deux signaux forts pour sa transmission. S il se connecte aux deux stations d accs la fois, on dit qu il excute un handoff doux. Ce procd consomme deux fois plus de ressources, mais le passage d une cellule une autre est confortable pour l utilisateur. Ce type de handoff a t introduit dans le systme CDMA ; Handoff dur (Hard handoff) : Se produit lorsque le changement de cellules s accompagne d une modification de la frquence porteuse du signal. Le handoff n est pas forcment synonyme de changement de frquence, et il est possible de faire un handoff sur la mme frquence en changeant uniquement le slot. La communication et le routage des donnes s effectuent simultanment sur le nouveau lien ; cela induit une coupure durant la transmission. Ce type de handoff est compltement gr par le rseau, il s adapte bien la technique FCA (dcrite ci-dessous) et il est utilis dans le rseau GSM. L avantage de cette procdure est que le mobile ne monopolise qu un canal la fois ; Seamless Handoff : Le nouveau lien est tabli en parallle l ancien. Le mobile transmet sur l ancien et le nouveau lien en utilisant un partage temporel. Quand le rseau effectue la communication l ancien lien est libr. Ce handoff permet de minimiser la probabilit de coupure pendant le transfert, il s adapte bien la technique DCA (dcrite ci dessous) ; Handoff analogique : Dans certains pays, tels que les Etats-Unis, les systmes analogiques de premire gnration sont toujours oprationnels et cohabitent avec ceux entirement numriques. Un abonn de la deuxime gnration peut donc traverser une cellule dote d une transmission numrique pour se rendre dans une zone couverte par un systme analogique. Si les deux systmes l acceptent, et que son terminal le permette, l abonn excute un handoff analogique pour assurer la poursuite de la connexion.

RESEAUX CELLULAIRES : VUE D ENSEMBLE

23

3.4.2

Litinrance ou le Roaming L itinrance englobe toutes les fonctions du rseau mobile permettant de localiser

gographiquement un abonn. Cette procdure joue un rle trs important puisqu elle permet d acheminer les communications de/vers un usager du rseau. En effet, contrairement aux rseaux fixes, o un numro de tlphone correspond une adresse physique, un numro de terminal mobile possde une adresse logique laquelle il faut faire correspondre une adresse physique qui varie lors des dplacement [5]. La mthode de localisation la plus rpondue actuellement divise l ensemble des cellules en zones de localisation. Le rseau doit connatre en permanence la zone dans laquelle se trouve le mobile. Ainsi, ds la mise sous tension du terminal, le rseau enregistre sa localisation actuelle dans une base de donnes. Pour mener bien cette gestion, le rseau maintient gnralement deux types de bases de donnes [5] : Une base de donnes principale nomme HLR (Home Location Register), qui stocke les informations de tous les abonns du rseau (noms, droits d accs, etc.). La recherche de l abonn commence toujours par cette base. Plusieurs bases de donnes visiteurs nommes VLR (Visitor Location Register). Il existe une base de donnes de ce type par zone de localisation. Chaque VLR recopie du HLR les informations concernant les abonns se trouvant dans sa zone de localisation.

4. Schmas d allocation de canauxDans les rseaux cellulaires, la bande passante est divise en un ensemble disjoint de canaux radio qui peuvent tre utiliss simultanment, condition de maintenir une qualit du signal radio acceptable. Cette division peut se faire grce diffrentes techniques telle que FDMA, TDMA, CDMA ou toutes combinaisons de ces mthodes. Il existe principalement trois mthodes : Fixed Channel Allocation (FCA) ; Dynamic Channel Allocation (DCA) ; Hybrid Channel Allocation (HCA).

24

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

Ces mthodes tentent de maintenir la ressource radio entre les diffrentes cellules afin d obtenir une utilisation efficace du point de vue qualitatif et quantitatif. Cette partie dcrit brivement ces mcanismes d allocation de canaux, leurs performances respectives (Figure 2.7), ainsi que quelques mthodes permettant d amliorer la QoS des utilisateurs.ALLOCATION DE RESSOURCES

HCA

FCA

FCA

Emprunt de canaux

Allocation non uniforme

Centralis

Dcentralis

Simple

Hybride

Figure 2.7 Techniques d allocation de canaux.

4.1 Fixed Channel AllocationFCA est une mthode adapte aux systmes cellulaires utilisant FDMA et TDMA. Elle reste la technique la plus utilise dans les rseaux mobiles actuels. Elle consiste allouer d une manire quasi-permanente des canaux des cellules, selon un plan de frquence dtermin lors de la planification du rseau. Toute modification de cette allocation entrane une replanification des frquences. L un des principaux avantages de cette allocation est qu elle affecte les canaux aux cellules en respectant une distance de rutilisation optimale. La technique FCA de base attribue le mme nombre de canaux aux diffrentes cellules, ce qui se rvle efficace condition que le trafic soit uniforme. Cependant, de grandes pertes peuvent tre causes s il y a des diffrences de charge entre les stations de base. En effet, la demande de trafic peut excder la capacit de certaines cellules alors qu au mme moment d autres sites du systme ont leurs canaux sous-utiliss. Pour pallier cela, des techniques d allocation non-uniformes ou des techniques d emprunt de canaux sont proposes. 4.1.1 Allocation non-uniforme L allocation non-uniforme [9][10] consiste attribuer aux cellules des canaux en fonction du trafic qu elles coulent. C est ainsi qu un plus grand nombre de canaux est allou aux

RESEAUX CELLULAIRES : VUE D ENSEMBLE

25

cellules plus charges. Les auteurs de [9], proposent des algorithmes d allocation non-uniformes permettant de diminuer les blocages du rseau et d augmenter le trafic coul. 4.1.2 Emprunt de canaux Une cellule ayant puis toute sa capacit de trafic demande ses voisines des canaux pour pouvoir les attribuer ses propres appels. Cet emprunt ne peut se faire que s il ne cause aucune interfrence. la fin de l utilisation, les canaux sont rendus la cellule initiale. De nombreux mcanismes d emprunt existent ; ils diffrent les uns des autres par le choix des canaux emprunter. Deux familles d algorithmes [11][12] peuvent tre distingues : 4.1.2.1 Algorithmes demprunt de canaux simples Si tous les canaux d une cellule sont occups, un canal est emprunt aux cellules voisines s il ne cause pas d interfrences. Les canaux ainsi emprunts sont verrouills pour toutes les cellules o ils pourraient causer des interfrences. Plusieurs stratgies d emprunt existent [11], comme par exemple : Choisir un canal de la cellule la plus riche en canaux libres ; Choisir un canal de la cellule la plus riche en canaux libres non verrouills ; Transfrer, ds que possible, la communication d un canal emprunt un canal propre. 4.1.2.2 Algorithmes demprunt de canaux hybrides Les canaux d une cellule sont diviss en deux groupes, les premiers ne pouvant tre utiliss que par la cellule elle-mme et les seconds pouvant tre prts aux autres sites du rseau. Le ratio entre les deux groupes est dtermin en fonction des paramtres de trafic [12][13]. Ici encore, diffrentes stratgies existent [11], on peut envisager entre autre de : faire varier le ratio entre les deux groupes en fonction des conditions de trafic ; donner des priorits aux canaux pouvant tre emprunts ; dterminer, pour chaque cellule, les canaux pouvant tre emprunts par chacune de ses voisines [13].

26

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

4.1.2.3 Performances des algorithmes demprunt Les algorithmes d emprunt reposent, pour la plupart, sur le principe de verrouillage des canaux ce qui prsente de nombreux inconvnients. Un des plus importants, est que le nombre de canaux pouvant tre emprunts est limit ceux qui ne sont pas verrouills et qui ne sont pas utiliss dans les cellules se trouvant au-del de la distance de rutilisation minimale. Il est en outre difficile de maintenir la distance de rutilisation optimale dans un tel systme [13]. Pour des charges faibles et moyennes, les algorithmes d emprunt prsentent de meilleures performances que FCA. Cependant, pour des charges importantes, FCA est meilleur. En effet, dans ce cas, le nombre d emprunts augmente, et de nombreux canaux libres ne peuvent plus tre utiliss pour respecter la distance de rutilisation minimale requise. Cette raison fait aussi que les algorithmes hybrides sont meilleurs que les algorithmes simples en forte charge.

4.2 Dynamic Channel AllocationL allocation dynamique [11][14] est une technique actuellement utilise dans les systmes sans cordon tel que DECT [15]. Dans DCA, tous les canaux, ou un ensemble de canaux, disponibles dans le systme sont mis dans un pool commun utilisable par toutes les stations de base. Lors d une demande de communication, une cellule choisit un canal du pool commun qui sera restitu la fin de l appel. Le choix du canal n est pas alatoire, mais repose sur le calcul d interfrences. Dans le cas de disponibilit de plusieurs canaux pour la cellule, plusieurs stratgies de slection peuvent tre appliques [16][17][18][19][20][21]. Nous proposons, dans le Chapitre 5, une mthode permettant de choisir le meilleur canal disponible. Les algorithmes DCA peuvent tre diviss en deux catgories [11] : (i) algorithmes centraliss et (ii) algorithmes distribus. 4.2.1 Algorithmes centraliss Dans les algorithmes d allocation centraliss, les canaux sont allous aux cellules par un contrleur centralis. Pour effectuer cette opration, ce dernier utilise toutes les mesures effectues sur les frquences par les mobiles et les stations de base. Ce type d algorithme permet une allocation optimale avec un risque de surcharge du rseau. La diffrence entre les diffrentes propositions existantes est la fonction cot utilise pour le choix du meilleur canal. La stratgie appel First Availabe FA [18], par exemple, alloue le premier canal disponible satisfaisant la distance de rutilisation. Dans la stratgie LODA (Locally Optimized Dynamic Assignment) [17] la fonction cot choisie est base sur la future probabilit de blocage du

RESEAUX CELLULAIRES : VUE D ENSEMBLE

27

voisinage de la cellule en laquelle un appel a t initi. Dans la stratgie RING [18], le canal choisi est celui le plus utilis dans l ensemble des cellules co-canaux. Il existe dans la littrature plusieurs autres propositions d algorithmes d allocation centraliss. Des tudes de performances ont t faites afin de les comparer [18][11]. 4.2.2 Algorithmes distribus Plusieurs rsultats de simulation [22][23][24][25] ont dmontr que les stratgies d allocation centraliss peuvent produire une allocation de canaux proche de l optimum, mais aux dpens d une surcharge, due la centralisation, trs lev. Dans les algorithmes d allocation distribus, la cellule choisit le canal qu elle peut prendre en fonction des informations qu elle possde. Ces stratgies sont donc plus attrayantes, en raison de leur simplicit d implmentation dans chaque station de base. Les stratgies d allocation dynamique proposs utilisent gnralement soit : (i) des informations locales sur les canaux disponibles au voisinage de la cellule (cell-based) [26][27], soit (ii) des mesures sur la puissance du signal [28][29][30]. 4.2.2.1 Stratgies bases sur des informations sur cellules (cell-based) Dans les stratgies cell-based, un canal est allou un appel par la station de base dans laquelle l' appel t initi. La diffrence avec l' approche centralise est que chaque station de base maintient des informations sur les canaux disponibles dans le voisinage. L' information sur le statut des canaux est mise jour grce un change rgulier d informations entre les stations de base. La stratgie cell-based fournit une allocation de canaux proche de l optimum aux dpens d un change excessif d' informations de statut entre les stations de base. 4.2.2.2 Stratgies bases sur la puissance du signal Ce sont des politiques DCA qui adaptent leurs allocations selon les mesures du rapport signal/interfrence C/I. Un exemple de systme bas sur ce principe est le standard europen de tlphonie sans fil DECT (Digital Enhanced Cordless Telecommunications). La station de base n utilise que des informations locales, sans avoir communiquer avec n' importe quelle autre station de base dans le rseau. Ainsi, les stations de base et les mobiles estiment le rapport signal/interfrence C/I, et allouent un canal au nouvel appel tant que ce rapport est au-dessus d' certain seuil. Ces stratgies permettent un traitement en temps rel assez rapide mais aux un dpens d une forte probabilit d' interfrence co-canal avec les appels des cellules adjacentes. En fait, il est possible que l allocation d un canal au nouvel appel, provoque une dtrioration du rapport signal/interfrence des appels dj tablis.

28

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

4.3 ComparaisonLa demande de communication est le rsultat d un processus alatoire, l attribution des canaux dans le cas dynamique est aussi alatoire. Dans un tel cas, les cellules utilisant la mme frquence sont souvent plus loignes que la distance minimale requise. En consquence, le rseau n est pas toujours capable d attribuer, en mme temps, un canal le maximum de fois possible. Dans une allocation fixe, les canaux sont allous au dpart aux cellules de manire optimale. Ces raisons font qu en cas de fortes charges, FCA est meilleure, puisqu elle permet d couler le maximum de trafic. Cependant, pour les faibles et moyennes charges, DCA utilise les canaux d une manire plus efficace, surtout s il y a des disparits dans le trafic des cellules, alors que FCA peut engendrer des blocages mme s il existe des canaux libres dans le systme. De plus, le mcanisme FCA engendre un nombre plus important de handoffs. En effet, lors d un transfert inter-cellulaire, le mobile -dans le cas de DCA- ne change pas le canal si les conditions d interfrence le permettent, alors que pour FCA un changement de cellule entrane un changement de canal. En consquence, les pertes de handoff, dans le cas d une allocation fixe, sont beaucoup plus importantes, surtout dans un contexte micro-cellulaire o la procdure de changement de cellule est trs sollicite. la lumire de cette comparaison entre allocation fixe et dynamique, il est naturel de penser qu une mthode combinant les deux donnerait de trs bons rsultats. De nombreux auteurs ont ainsi suggr des mcanismes hybrides permettant d avoir les avantages des deux.

4.4 Hybrid Channel AllocationLors d une allocation hybride, les canaux sont diviss en deux catgories : fixe et dynamique. chaque cellule est attribu un ensemble de canaux permanents et le reste est mis dans un pool commun utilisable par toutes les stations de base. Quand une cellule puise ses canaux propres, elle utilise les canaux se trouvant dans le pool commun. Un des paramtres importants de ce mcanisme est le ratio entre le nombre de canaux fixes et le nombre de canaux dynamiques. Gnralement, l optimum est fonction de la charge. Les performances de HCA sont proches de celles de DCA. Pour les mmes raisons que celles cites dans la section 4.3, HCA prsente de bons rsultats dans un systme moyennement charg, alors que pour les fortes charges l allocation fixe est meilleure.

RESEAUX CELLULAIRES : VUE D ENSEMBLE

29

5. Diminution des blocagesLes techniques d attribution des canaux prsentes ne prennent pas en compte l impact des handoffs sur les performances. Comme il a t dcrit prcdemment, le handoff est dfini comme le changement de canal de transmission du mobile. Gnralement, ce changement est d la dgradation du signal radio ou une rorganisation des canaux pour viter la congestion. Le nouveau canal appartient soit la station de base courante (dans le cas d un handoff intracellulaire), soit, une autre station de base (handoff inter-cellulaire). Dans cette partie, notre attention porte uniquement sur les transferts inter-cellulaires. Lorsqu' mobile change de site et qu il ne trouve pas de canal disponible, la communication un est coupe et le handoff choue. Dans un systme compos de cellules de petite taille, la procdure de handoff a un impact trs important sur les performances du rseau. Il est donc important de limiter les checs de transfert inter-cellulaire, d autant que, du point de vue de l utilisateur, il est prjudiciable de perdre la communication en cours que de ne pas tre accept au dpart. Ainsi, dans un rseau mobile, implanter des mcanismes permettent de rduire la probabilit de coupure de communication devient trs important. De nombreuses mthodes sont supposes ; elles permettent de favoriser les handoffs par rapport aux nouveaux appels. On obtient ainsi de bonnes performances, mais, en contrepartie, le trafic coul est gnralement rduit et la probabilit d chec des nouveaux appels est augmente. Ces mcanismes utilisent globalement 5 principes : rservation de canaux l usage des handoff ; rservation de canaux pour les handoffs avec mise en attente des nouveaux appels ; mise en attente de handoffs ; contrle d admission ; recouvrement des cellules.

Les sections suivantes dcrivent brivement quelques unes des mthodes les plus cites dans la littrature.

30

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

5.1 Rservation des canauxIntroduites dans les annes 80 [12], les techniques de rservation de canaux (souvent nommes Guard Channel Schemes) permettent de rduire la probabilit de coupure de communication en rservant simplement, dans chaque cellule, des canaux l usage exclusif des handoffs. Le reste des ressources peut tre utilis pour tous les types d appels. L inconvnient de cette approche est videmment la perte de trafic offert, qui peut tre rduite grce un bon dimensionnement des canaux de garde et/ou une mise en attente des nouveaux appels [31]. Les techniques Guard channel peuvent tre utilises avec FCA ou DCA. Dans ce dernier schma, les canaux rservs ne sont pas allous une cellule particulire mais toutes les cellules utilisant le mme pool commun [11]. 5.1.1 Dimensionnement des cellules Le facteur le plus important dans les mcanismes de rservation est le choix du nombre de canaux allouer pour les handoffs, de manire obtenir un bon niveau de QoS. En effet, une sur-estimation de ce nombre peut causer des pertes importantes de bande passante, principalement dans le cas de FCA. Certains auteurs [31][32] suggrent une rservation du mme nombre de canaux par cellule. Ce pendant, cette uniformit ne tient pas compte de la dissymtrie du trafic qui peut exister dans un rseau cellulaire et peut ainsi engendrer des pertes. Par ailleurs, d autres travaux se sont intresss des mcanismes de rservation de canaux en fonction du trafic. Ainsi, les auteurs de [9] montrent que le blocage des nouveaux appels dans une cellule, crot avec une rservation et dcrot l ajout d un canal. Suite cette constatation, ils dveloppent des algorithmes qui permettent d attribuer chaque cellule des canaux propres (utilisables par tout type de trafic) et des canaux pour les handoffs, de manire satisfaire un niveau de QoS prdfini. La mthode est applique un ensemble de cellules, ce qui permet d avoir un FCA non uniforme avec les rservations. Cependant, les auteurs amliorent la QoS de chaque cellule indpendamment les unes des autres, alors que dans un systme rel, l amlioration d une cellule peut entraner la dtrioration de ses voisines. Le travail cit dans [33] propose quant lui, une mthode permettant de dterminer instantanment le nombre de canaux rserver, en fonction du nombre d appels courant dans les cellules. Ce mcanisme repose sur la notion d intervalle d observation qui reprsente une tranche de temps o il ne peut y avoir qu un seul changement dans une cellule (augmentation ou

RESEAUX CELLULAIRES : VUE D ENSEMBLE

31

diminution du nombre de mobiles). Ainsi, cette mthode suggre qu aprs une priode d observation, chaque cellule prvient ses voisines des modifications ventuelles qui se sont produites sur son territoire. Les informations ainsi collectes permettent chaque site, d estimer le trafic entrant au cours de la tranche de temps suivante, et ainsi de calculer la rservation adquate pour maintenir la QoS un niveau prdtermin. L inconvnient majeur de cette proposition est qu elle risque de gnrer beaucoup de signalisation, en particulier lors de fortes charges puisque les priodes d observation doivent tre petites pour couvrir tous les changements.

5.2 Mise en attente de nouveaux appelsLa mise en attente des nouveaux appels est plus simple mettre en uvre que celles des handoffs [36]. En effet, ces derniers sont plus sensibles aux dlais que les nouvelles communications. Dans [17], les auteurs proposent de rserver des canaux pour le handoff et de mettre en attente les nouvelles communications. Les canaux de garde permettent de rduire le blocage alors que l attente augmente le trafic offert. Les auteurs considrent qu il n y a pas de dlai maximal d attente dans une file d attente, parce qu un client s limine automatiquement grce un time-out interne. Cette hypothse est prise en compte dans les calculs ce qui amliore les performances. En effet, les auteurs ne dterminent pas le blocage des nouveaux appels mais le dlai d attente. Les rsultats obtenus montrent une augmentation sensible du trafic coul avec une rduction des diffrents blocages.

5.3 Mise en attente des handoffsLa mise en attente des handoffs [32][34][35], avec ou sans rservation, permet de rduire la probabilit des transferts inter-cellulaires. Un nouvel appel n est alors admis que si la file d attente est vide.

32

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

Puissance du signal Seuil de handoff Zone de handoff Signal reu

t0

t1

temps

Station de Base

Station de Base

Figure 2.8 Zone de handoff. Un tel mcanisme est possible grce au recouvrement des cellules qui permet d avoir des zones dans lesquelles les mobiles peuvent physiquement communiquer avec deux stations de base (Figure 2.8). La puissance du signal, dans cet intervalle, est entre le seuil d initialisation des handoffs et le seuil de rception de la station de base. Lors du sjour d un appel dans cet espace, si aucune ressource n est disponible dans la cellule destination, une demande de communication est mise dans une file d attente. Un client quitte cette file lorsqu un canal devient disponible ou lors de sa sortie de la zone de handoff. La mise en uvre de l attente des handoffs est dlicate [36]. Pour pouvoir l tudier il est important de bien estimer les paramtres de trafic tels que le temps de communication, le temps d attente dans la file, la vitesse de dplacement, etc. Ainsi deux travaux [34][35] se basant sur des hypothses diffrentes ont abouti des rsultats contradictoires. En effet, les auteurs comparent deux types de files : une file FIFO et une file prioritaire non premptive. Dans cette dernire, la priorit est donne aux clients dont la qualit du signal est mauvaise. Les rsultats de [35] montrent que le mcanisme prioritaire est plus performant que FIFO alors que [34] montrent qu il y a peu de diffrence entre ces deux politiques de gestion. Selon [36], il est vident que si les handoffs peuvent attendre longtemps, une file d attente prioritaire permet d avoir de meilleurs rsultats qu une file FIFO. Cependant, si le signal des mobiles se dgrade rapidement, ce qui revient dire que les handoffs ne peuvent pas attendre longtemps, les deux politiques sont quivalentes. En effet, dans ce dernier cas, le premier d une

RESEAUX CELLULAIRES : VUE D ENSEMBLE

33

file FIFO va certainement tre le plus prioritaire. La question primordiale de ce mcanisme est alors combien peut-on rellement faire attendre les handoffs dans un cas pratique ?

5.4 Contrle dadmissionLe principe du contrle d admission [37][38] repose sur la notion de Cell-Cluster qui reprsente un groupe de cellules adjacentes relies un mme contrleur d appel. Un nouveau mobile est accept par le contrleur si le nombre de communications dans le cluster n a pas atteint un niveau prdfini. Cette dcision est prise en fonction d informations globales. L objectif est une gnralisation de la rservation pour un groupe de cellules. L objectif du contrle d admission est de "garantir" aux communications admises dans un cluster une faible probabilit de coupure. Dans ces travaux, les auteurs se sont galement intresss des trafics ayant des besoins de QoS diffrentes.

5.5 Recouvrement des cellulesLa reprsentation hexagonale disjointe des cellules est uniquement utilise dans le cadre d tudes thoriques. Dans la ralit, les cellules se recouvrent les unes et les autres. Ce recouvrement peut permettre une partie des mobiles se trouvant sur un site, de pouvoir transmettre sur les sites voisins. Les auteurs de [39][40][41][43] exploitent cette caractristique et proposent des mcanismes qui rduisent les blocages sans trop perdre en terme de trafic offert. Les mthodes les plus communs sont : Directed Retry (DR) [39][41][43] et Directed Handoff (DH) [43]. Directed Retry : un mobile qui ne trouve pas de canal dans sa cellule, en cherche un autre dans une des cellules voisines qu lui fournirait une qualit de signal suffisante ; Directed handoff : une cellule qui a presque atteint sa capacit de trafic maximale force une partie de ses clients effectuer un handoff vers les cellules voisines. Cette opration ne peut se faire que si la qualit du signal est suffisante. Les mthodes DR et DH reposent sur la technique FCA et permettent thoriquement de diminuer les pertes. Cependant, il est difficile d estimer rellement le nombre de mobiles pouvant tre servi par deux ou plusieurs stations de base. Les performances relles pourraient tre moins optimistes que prvues [36].

34

CHAPITRE 2. RESEAUX CELLULAIRES : VUE D ENSEMBLE

6. ConclusionDans ce chapitre, nous avons donn un aperu sur les diffrentes solutions qui ont t proposes dans la littrature, permettent de rduire les probabilits de coupure de communication. Dans toutes ces propositions, la politique qui doit tre suivie par le gestionnaire de ressources, de chaque cellule, est celle o un certain nombre de canaux radios sont exclusivement rservs pour les handoffs. Cette politique est optimale lorsqu on considre une seule classe de trafic (i.e. appel tlphonique). Toutefois, dans un contexte multiservices, cette politique n est pas optimale. Nous proposons dans la suite de cette thse la recherche de la politique optimale en utilisant l apprentissage par renforcement.

&KDSLWUH LApprentissage1. IntroductionDonner une dfinition prcise de l apprentissage reste un problme dlicat et difficile, comme le note [44] : "L apprentissage je sais ce que c est tant qu on ne me demande pas de le dfinir". Mais, une des dfinitions qui nous parat assez complte vient du domaine de l Intelligence Artificielle [45] : le terme apprentissage dsigne, la capacit organiser, construire et gnraliser des connaissances pour une utilisation ultrieure. C est donc la capacit tirer profit de l exprience pour amliorer la rsolution d un problme. L apprentissage automatique peut tre de diffrents types. On distingue, entre autres, l apprentissage numrique et l apprentissage symbolique. Le premier met en uvre des donnes quantitatives et peut ainsi permettre de rsoudre des problmes numriques complexes, mais ne permet pas de grer aisment des donnes multi-relationnelles, ni de produire des connaissances explicites. L apprentissage symbolique prsente des avantages et inconvnients sensiblement opposs. Nous nous intressons dans cette thse l apprentissage numrique. Pour voir les diffrentes techniques utilises dans les deux approches, l ouvrage de T. Mitchell [45] nous parat tre une des meilleures rfrences. Dans ce chapitre, nous allons, tout d abord, aborder l apprentissage numrique dans sa gnralit, ainsi que les grandes catgories d approches d apprentissage numrique existantes. Nous numrerons, ensuite, quelques applications de cet apprentissage diffrents domaines et, en particulier, au domaine des rseaux de tlcommunications. Enfin, nous dtaillons l approche apprentissage par renforcement.

36

CHAPITRE 3. L APPRENTISSAGE

2. Apprentissage numriqueSelon le type dinformations disponibles dans l apprentissage numrique, deux grandes catgories d' approches peuvent tre distingues. La premire qualifie d apprentissage nonsupervis vise regrouper des objets en classes, en se basant sur des ressemblances entre eux. La deuxime approche est l apprentissage supervis, qui se base quant elle sur un ensemble d apprentissage constitu d objets dont la classe est connue priori.

2.1 Apprentissage supervisDans ce type d' apprentissage, un matre (ou superviseur, d o le nom d apprentissage supervis) fournit soit l' action qui devrait tre excute, soit un gradient sur l' erreur commise (cf. Figure 3.9). Dans les deux cas, le matre fournit au contrleur une indication sur l' action qu' devrait gnrer afin d' il amliorer ses performances. L utilisation d une telle approche prsuppose l existence d un expert capable de fournir un ensemble d exemples, appel base d apprentissage, forms de situations et d actions correctes associes. Ces exemples doivent tre reprsentatifs de la tche accomplir. L une des variantes de l apprentissage supervis, dans lequel une "critique" de la rponse calcule est fournie au rseau, est l' apprentissage par renforcement (Reinforcement Learning RL). C est cette variante d algorithmes qui nous a paru la plus adapte pour rsoudre les problmes traits dans cette thse. Cette mthode est dtaille plus bas.Erreur sur l action (Gradient sur l erreur )

(QWUpH

Contrleur

$FWLRQ

Processus

6RUWLH

Figure 3.9

Apprentissage supervis.

2.2 Apprentissage non-supervisL apprentissage non-supervis, appel aussi apprentissage partir d observations, consiste dterminer une classification partir d un ensemble d objets ou de situations donnes. On dispose d une masse de donnes indiffrencies, et l on dsire savoir si elles possdent une quelconque structure de groupes. Il s agit d identifier une ventuelle tendance

L APPRENTISSAGE

37

des donnes tre regroupes en classes. Ce type d apprentissage appel Clustering , est retrouv dans la classification automatique et dans la taxinomie numrique. Il recherche des rgularits parmi un ensemble d exemples, sans tre ncessairement guid par l utilisation qui sera faite des connaissances apprises. Il regroupe l ensemble des exemples de manire ce que les exemples au sein d un mme groupe se ressemblent suffisamment, et que les exemples de groupes diffrents soient suffisamment diffrents.

2.3 Apprentissage par renforcementL apprentissage par renforcement (dit aussi apprentissage semi-supervis) est une variante de l apprentissage supervis [47]. Par opposition l approche supervise, le matre dans l apprentissage par renforcement a un rle d' valuateur et non pas d' instructeur. Il est en gnral appel critique. Le rle du critique est de fournir une mesure indiquant si l' action gnre est approprie ou non. Il s' de programmer un agent au moyen d' valuation par agit une pnalit/rcompense sans avoir besoin de spcifier comment la tche doit tre remplie. Dans ce cadre, on doit indiquer au systme quel est le but atteindre, et celui-ci doit apprendre par une succession d' essais/erreurs (en interaction avec l' environnement) comment atteindre le but fix. Les composants de l apprentissage par renforcement sont l "apprenti" agent, l' environnement o il agit ainsi que la tche qu' doit raliser (cf. Figure 3.10). L' il interaction entre l' agent et l' environnement est continue. D' part le processus de dcision de l' une agent choisit des actions selon les situations perues de l' environnement, et d' autre part ces situations voluent sous l' influence de ces actions. Chaque fois que l' agent effectue une action, il reoit une rcompense. Celle-ci est une valeur scalaire indiquant l' agent la consquence de cette action.

environnement a0 a1 a2 r2 action D revenu U tat V

s0

r0

s1

r

1

s2

But : apprendre choisir l action qui maximise r0 +r1 + 2 r2 + , where 0 1

Agent

Figure 3.10

Interaction Agent-Environnement.

38

CHAPITRE 3. L APPRENTISSAGE

Pour tre plus formel, dnotons s ( S, un ensemble fini), une reprsentation de l' tat action choisie et r ( R, un ensemble fini) actuel de l' environnement, a ( A, un ensemble fini) l' la rcompense reue. L interaction entre l agent et l environnement consiste, chaque instant, en les squences suivantes :

(i)

l agent observe l tat actuel de l environnement V 6 ;

(ii) en se basant sur l tat V , l agent prend une dcision en excutant une action WD $ ; W

(iii) l environnement fait alors une transition vers un nouvel tat V probabilit 3 ( D ) ; VV W

W +1

= V 6 suivant la

(iv) l agent reoit instantanment un certain revenu U = U ( V , D ) indiquant laW W W

consquence de cette dcision. Le processus de dcision de l' agent s' appelle politique et c est une fonction de l ensemble agent doit apprendre une politique, , des tats vers l ensemble des actions ( : S A). L' permettant de choisir la prochaine action D = (V ) effectuer, et ceci en fonction de l' tat W W actuel st. L' interaction entre l' agent et l' environnement est continue et l apprenti agent modifie sa politique selon son exprience et selon le but consistant maximiser le cumul des rcompenses dans le temps. Ce cumul V(st), ralise en suivant une politique arbitraire , partir d un tat initial st, est dfinie comme suit : 9 ( V ) = ( W U ( V , ( V )) V = V W W 0 W = 0

(3.1)

o E dsigne l oprateur esprance et le facteur 0 1 reprsente la constante de propagation temporelle. L' objectif, pour l' agent est donc de maximiser cette somme des renforcements reus, et son apprentissage s' effectue par de nombreuses expriences. L agent est guid en cela par divers algorithmes cits dans le paragraphe 2.3.1 suivant.

L APPRENTISSAGE

39

2.3.1

Mthodes de rsolution Il existe trois classes fondamentales de mthodes permettant de rsoudre un problme

d' apprentissage par renforcement : la programmation dynamique PD, les mthodes de Monte Carlo MC, et l' apprentissage par diffrences temporelles TD [48]. Chaque classe possde des avantages et des inconvnients. La programmation dynamique possde des fondements mathmatiques bien connus/tudis mais ncessite un modle complet et prcis de l' environnement. Les mthodes MC ne ncessitent pas de modle et sont conceptuellement simples, mais sont inadaptes un calcul pas pas incrmentiel. Enfin, l' approche TD combine les deux premires mthodes, et rcupre ainsi la meilleure part de chacune. Cette approche ne ncessite pas de modle et est incrmentale. Ces mthodes se distinguent aussi en matire d' efficacit et de rapidit de convergence. Nous dcrivons, dans ce qui suit, une des mthodes les plus prise des algorithmes d' apprentissage par diffrences temporelles : le Q-learning. Lalgorithme Q-Learning : Le Q-learning, dvelopp en 1989 par Watkins [49][50], fait partie des mthodes de rsolution sans modle puisqu il s agit d apprendre par l exprience, les actions effectuer en fonction de l tat actuel. Le Q-learning a t dveloppe afin de dterminer une politique optimale * sans disposer de toutes les donnes pour faire les calculs par programmation dynamique ; il s' alors d' agit essayer de lier une estimation des actions et des esprances V(s). L quation (3.1) peut tre rcrite comme suit [50] :

9 ( V ) = 5( V, ( V )) +

3VV ( ( V ))9 ( V ) V ( V)

o 5( V, ( V )) = ({ ( V, ( V ))}. U

L utilit d une politique optimale * peut s crire de manire rcursive sous la forme de l quation de Bellman :

9 * ( V) = 9 * ( V ) = max 5 ( V, D ) + 3 (D )9 ( V ) VV D $ V 6

(3.2)

La tche du Q-learning consiste dterminer cette politique * sans connatre R(s,a) et Pss(a). Ceci est ralis en reformulant (3.2) : chaque politique est alors associe une valeur

40

CHAPITRE 3. L APPRENTISSAGE

4 ( V, D ) , appele Q-valeur. Cette dernire fournie la qualit de l action effectuer dans l tat

s, et elle est dfinie comme suit :4 ( V, D ) = 5( V, D ) + 3 (D )9 ( V ) VV V

action a est excute lorsque, l tat 4 ( V, D ) reprsente la moyenne des gains prvue si l' courant du systme est s et que est adopte, ensuite, comme politique de dcision. Soit : 4 * ( V, D ) = 4 * ( V, D) = 5( V, D ) + 3 (D )9 * ( V ) VV V , On a alors :

9 * ( V ) = max [4 * ( V, D )] D $La valeur optimale de la fonction utilit V* peut, ainsi, tre obtenue en utilisant Q*(s,a).9 * ( V) = 9 * ( V ) = max [4 * ( V, D )] D $

En revanche, nous obtenons une dfinition rcurrente pour Q* : 4 * ( V, D ) = 5( V, D) + 3 (D ) max 4 * ( V , E) VV E $ V

L objectif de l algorithme du Q-learning est de trouver une approximation de Q*, en

connaissant seulement le quadruplet

,

, , .

Cette information comprend l tat l instant t

(st), l tat l instant t+1 ( V = V +1 ), l action prise quand le systme est l tat st (at) et le revenu reu l instant t (rt) suite l excution de cette action. Les Q-valeurs sont mises jours, de faon rcursive chaque transition comme suit :

L APPRENTISSAGE

41

4W (V, D) + W 4W ( V, D), 4 ( V, D ) = W +1 4W (V, D), 4 ( V, D ) = U + max 4 (V , E) 4 ( V, D ) W W W W W E

VL V = V HW D = D W W VLQRQ

(3.3)

o

[

]

(3.4)

D o l algorithme :

$OJRULWKPH 4OHDUQLQJ

Initialiser Q0(s, a) des valeurs alatoires Choisir un point de dpart s0 tant que la politique nest pas suffisamment bonne choisir at en fonction des valeurs Qt(st,.) at = f(Qt(st,.)) obtenir en retour : st+1 et rt mettre jour Qt+1(st, at) en utilisant la formule (3.3) Fin tant que

Il est alors ncessaire de rgler le coefficient afin de fixer progressivement la politique apprise. permet pour sa part de moduler l importance des rcompenses escomptes venir. Dans [49], les auteurs dmontrent que si chaque paire (s,a) est infiniment visite, et que le taux d apprentissage tend vers zro, Qt(x,a) converge, lorsque W , vers Q*(x, a) avec une probabilit de 1. La politique optimale sera, alors, celle avec la plus grande Q-valeur : * ( V) = arg max 4 * ( V, D) . D $( V )

Exploration : Dans l' algorithme du Q-learning, le choix de l' action (la fonction f) n' pas dcrit. Il est est possible d imaginer diffrentes stratgies de slection, par exemple l' action qui a t la moins utilise, ou celle qui renvoie la plus forte Q-valeur. Dans [51] l auteur identifie deux approches dans l' exploration : (i) une exploration dirige, reposant sur les actions ou sur les Q-valeurs correspondants, et (ii) une exploration non-dirige dite aussi alatoire . Le choix de l action, pour la premire approche, peut se faire par exemple soit sur la base du nombre d' utilisation de l action, soit parce que l action a eu, par le pass, un fort pouvoir prdictif. Quant au choix de l action pour la seconde approche, il se fait l' d' tirage alatoire. L auteur dans [51] aide un tudie l' impact de l' exploration sur le contrle de l' apprentissage, et compare ces deux approches

42

CHAPITRE 3. L APPRENTISSAGE

en terme de temps moyen ncessaire pour la convergence. Les mthodes non diriges ont besoin de beaucoup plus de temps (entre 5 et 10 fois plus). Cependant, le processus mis en uvre dans cette approche est sans mmoire, puisqu' fois l' une action choisie, l' agent n' plus a accs aux informations relatives son point de dpart. L' intrt d' telle approche est de ne une pas ncessiter une mmoire dpendante de la taille de l' environnement. Dans nos travaux, nous avons test un ensemble de mthodes d exploration appartenant aux deux approches, telles que JORXWRQQH (ou GLUHFWHG , Boltzmann et mme des stratgies alatoires que nous dtaillerons dans les chapitres suivants.

3. ApplicationsLes travaux utilisant les techniques d apprentissage, comme solution, pour rsoudre les problmes rencontrs dans les rseaux de tlcommunications ne sont pas aussi nombreux. Nous allons numrer, ci-dessous, quelques uns de ces travaux allant d applications classiques (robotique, jeux, etc.) des applications rseaux. (routage, CAC, etc.).

3.1 Applications classiquesDe nombreux travaux ont t effectu dans le cadre de l' apprentissage de jeu deux joueurs (jeu de dames, jeu du Backgammon, etc.). L' autre grand domaine d' applications de l' apprentissage par renforcement est celui de la robotique "autonome", un domaine trs peu abord avec l' apprentissage supervis du fait de l' impossibilit de modliser le monde rel (c.a.d. de connatre la sortie dsire) avec suffisamment de prcision pour tenir compte de l' htrognit des capteurs, du bruit ambiant et la dynamique robot-monde extrieur. Schaal et Atkeson (1994) ont construit un robot deux bras, devant jongler avec un stick. Mahadevan et Connell (1992) ont utilis cette approche pour apprendre un robot mobile dplacer des objets par pousses. Le Q-Learning a t utilis par Crites et Barto (1996) pour grer 10 ascenseurs d un btiment avec pour objectif la minimisation du temps d' attente par les utilisateurs. Dans [52], les auteurs proposent un systme multi-agents (SMA) capable de prendre des dcisions conomiques telles que fixer les prix dans un contexte de march comptitif. Ils utilisent un modle o chacun des vendeurs fixe son prix tour de rle et reoit aussitt un certain revenu. Ils considrent deux cas : (i) un seul agent a la capacit d apprendre ; (ii) tous les agents essaient d apprendre en mme temps une politique optimale. Ils dmontrent, qu avec le

L APPRENTISSAGE

43

Q-learning l agent permet de trouver la politique de prix optimale pour le premier cas, et de diminuer le phnomne de guerre des prix entre les diffrents vendeurs pour le deuxime cas.

3.2 RoutageLes travaux [53][54][55] sont des propositions de routage dans les rseaux de tlcommunications, en utilisant des techniques d apprentissage comme solution. Nous nous intressons, plus particulirement, au travail propos par Boyan et Littman et qu ils ont nomm Q-routing [53]. Ce travail fait l objet d une extension traite dans le Chapitre 8 de ce document. Les auteurs proposent une extension de l' algorithme vecteur de distance de Bellman-Ford (DBF) bas sur l apprentissage par renforcement. Le module d apprentissage par renforcement est intgr dans chaque n ud d' rseau de commutation. La politique de routage tente de un trouver le meilleur n ud adjacent permettant d' atteindre la destination avec un "temps de transmission" minimum. Chaque n ud, x, estime le temps de transmission pour envoyer un paquet vers une destination d par l intermdiaire de l un de ses voisins, y. Cette estimation est amliore aprs une rtroaction directe du temps de transmission mesur quand le paquet atteint sa destination. En fait, en utilisant l apprentissage par renforcement, cette estimation peut tre mise jour localement avant que le paquet n atteigne sa destination. Effectivement, et comme le dcrit [53], lors de l envoi d un paquet y , le n ud x rcupre immdiatement l estimation du temps de transmission de y pour la pa