théorie des possibilités

Post on 05-Jan-2017

226 Views

Category:

Documents

4 Downloads

Preview:

Click to see full reader

TRANSCRIPT

THEORIE DES POSSIBILITES

Didier Dubois Institut de Recherche en Informatique

de Toulouse (IRIT) CNRS and Universite P. Sabatier

www.irit.fr/~Didier.Dubois

Motivation : information incomplete et incertitude Limitations des probabilités subjectives Le cadre des théories de l’incertain Eléments de théorie de possibilités Aspects historiques Version qualitative : logique possibiliste et non-monotonie. Version quantitative : calcul d’intervalles flous. Version quantitative : possibilité et probabilités imprécises Survol des applications

Exemple motivant Il y a au moins deux causes de l’incertitude : la variabilité des phénomènes et le caractère incomplet de l’information disponible. 1. Variabilité : Quantité de pluie journalière à Paris ?? Réponse probabiliste en fonction de la fréquence observée 2. Incomplétude Date de naissance du président Brésilien ?? Ce n’est pas une grandeur aléatoire…Pourtant, réponses plus ou moins précises en fonction de la connaissance détenue par les individus. On veut une théorie de l’incertain dédiée à l’information imprécise.

INCERTITUDE

C´EST LA VERITE OU LA FAUSSETE D´UNE PROPOSITION QUI EST INCERTAINE La probabilité pour que l'opération prenne plus d'une heure est 0.7.

Il est très possible qu'il neige demain. Il n'est pas absolument certain que Jean vienne à la réunion ON EVALUE LA PROBABILITE, LA POSSIBILITE LA CERTITUDE POUR QUE L´INFORMATION SOIT VRAIE OU FAUSSE

• Une proposition peut être incertaine si -l'information disponible est incomplète (imprécise, vague, …) -l'information disponible est contradictoire (variabilité, conflit)

• Degré d'incertitude ≠ degré de vérité : "il est probable qu'il soit chauve" ≠ "il est presque chauve"

Incertitude d’une proposition floue : incapacité de calculer son degré de vérité.

• Les valeurs de vérité, d'incertitude peuvent être elles-mêmes imprécises, vagues (linguistiques).

"Il est probable qu'il pleuve beaucoup demain".

• Antagonisme imprécision / incertitude Une information peut être à la fois imprécise et incertaine Pour un état donné de la connaissance : les affirmations suffisamment vagues ou imprécises sont certaines les affirmations trop précises sont incertaines. On cherche un compromis entre les deux : Jean est jeune ↔ il a probablement moins de 30 ans.

→ cadre formel commun souhaitable pour l'imprécis et l'incertain

CADRE GENERAL POUR LA REPRESENTATION DE L'INCERTITUDE Ensemble d'événements E formant une algèbre de Boole On note S, Ø les événements toujours certain et toujours impossible respectivement Mesure de confiance g : fonction de E dans [0,1] telle que

g(Ø) = 0 ; g(S) = 1 si A implique (= inclus dans) B alors g(A) ≤ g(B)

(monotonie)

g(A) quantifie la confiance d’un agent dans la proposition ou l’événement A.

PROPRIETES DES MESURES DE CONFIANCE g(A∪B) ≥ max(g(A), g(B)) ; g(A∩B) ≤ min(g(A), g(B)) Cette classe contient: les mesures de probabilité P(A∪B) = P(A) + P(B) − P(A∩B) les mesures de possibilité Π(A∪B) = max(Π(A), Π(B)) les mesures de nécessité N(A∩B) = min(N(A),N(B))

Probabilités subjectives (Ramsey, De Finetti) -La probabilité subjective P(A) reflète le prix d’un billet de loterie que j’accepte d’acheter pour gagner un euro si A se produit. -Si le prix est trop bas, acheteur et vendeur échangent leurs rôles. Ces contraintes impliquent que tout état de connaissance doit être représenté par une mesure de probabilité unique. Pourquoi ne pas représenter mon manque de connaissance sur la date de naissance du président par une probabilité subjective ?

- Cette représentation est instable - Cette représentation est infidèle à l’information disponible - Cette représentation est trop riche.

Limitations de la probabilité subjective. Supposons qu’on représente l’ignorance par une probabilité uniforme.

1. Si on sait seulement x ∈ A, et que x a une probabilité uniforme sur A, en général f(x) n’a pas une probabilité uniforme : on génère de l’information sur f(x) à partir d’ignorance sur x!!!

2. Parier sur la facette d’un dé : p = 1/6 parce que le dé est non pipé ou

parce qu’on ne connaît pas ce dé ??? Une probabilité subjective ne correspond pas à un seul état de connaissance possible.

3. En général les procédures d’élicitation de probabilité subjective ne

fournissent que des informations partielles : on ne connaît les valeurs de probabilité qu’avec imprécision.

Les théories de l'incertain Théorie des probabilités : la plus classique 2 interprétations : statistique, subjective Logique classique: Information incomplète représentée par des disjonctions Calcul d’intervalles : utilisation d’ensembles de valeurs mutuellement exclusives Théorie des possibilités ordinale ou numérique: distingue les états plausibles et les états peu plausibles utilisation d’ensembles flous de valeurs mutuellement exclusives Théorie des fonctions de croyance : combine information incomplète et probabilité par utilisation d’ensembles aléatoires Probabilités imprécises (la plus générale) :utilisation d’ensembles de fonctions de probabilité et d’intervalles de probabilité

CARACTERE INCOMPLET DES INFORMATIONS Information imprécise = insuffisante pour répondre aux questions d’intérêt dans une situation donnée.

Caractère incomplet de l’information. Exemples en symbolique : une disjonction p ∨ q en numérique : valeur mal connue d’un paramètre « x ∈ A » (intervalle) Ce qui est imprécis c’est le contenu de l’information. PAUL a entre 20 et 25 ans = Age(Paul) ∈ [20, 25]

L’imprécision est toujours représentée par une disjonction d’éléments mutuellement exclusifs dont l’un d’eux est la vraie valeur d’une grandeur :

Age(Paul) ∈ [20, 25] = 20∨21∨22∨23∨24∨25 Ensembles disjonctifs (et non conjonctifs) : En théorie des probabilités « événéments » En logique: « clauses »(disjonctions de littéraux) L’imprécision dépend du contexte, du référentiel U (du langage) Sur S = {mineur , majeur}, mineur est précis, mineur∨majeur = ignorance totale Sur {0, 1, 2, …, 100} ans, mineur = < 18 ans : imprécis

REPRESENTATION DE L’INFORMATION INCOMPLETE PAR DES ENSEMBLES : Ne pas confondre imprécision et variables multivaluées • Attribut multivalué précisément connu

ensemble conjonctif : les-sœurs(Paul) = Marie∧Nadine

• Attribut monovalué imprécisément connu

ensemble disjonctif : la-sœur(Paul) : Marie∨Nadine

• Attribut multivalué imprécisément connu

ensemble disjonctif d’ensembles conjonctifs:

les-sœurs(Paul) ∈ {Marie∧Nadine, Marie∧Anne}

REPRESENTATION DE L´IMPRECISION EN TERMES DE POSSIBILITE

POSSIBILITE

15 20

AGE(JEAN)

1

0

JEAN A ENTRE 15 ET 20 ANS

Un ensemble disjonctif A se code par une distribution de possibilité à

valeurs dans {0, 1} :

π(x) = 1 ssi x ∈ A et 0 sinon.

IMPRECISION : cas extrêmes

- ignorance totale : π(x) = 1 pour tout x dans le référentiel U

- précision totale : x = u* soit π(u*) = 1

et π(x) = 0 pour tout x ≠ u*.

ORDRE DE SPECIFICITE : L’information x ∈ A est plus spécifique

que x ∈ B ssi A ⊆ B.

CARACTERE SUBJECTIF DE LA REPRESENTATION : Un

ensemble d’informations est toujours attaché à un agent (humain ou

artificiel)

REVISION DE L’INFORMATION Un ensemble d’informations incomplètes est provisoire et peut évoluer Acquisition d’informations : augmentation de la spécificité :

l’agent sait x ∈ A et apprend x ∈ B

Donc x ∈ A ∩ B ou π = min(π A, π B)

Si A ∩ B = Ø : il faut conclure x ∈ A ∪ B par prudence.

Les deux cadres pour la représentation d’informations imprécises : intervalles et logique. Numérique : les intervalles

Problème typique : si on sait que xi ∈ Ai i = 1,…n

Et qu’on veut connaître f(x1 … xn), on doit calculer

B = {f(x1 … xn), xi ∈ Ai i = 1,…n}

Symbolique (booléen): la logique classique

K = ensemble de formules qui sont les croyances/connaissances d’un

agent sur le monde.

L’ensemble disjonctif sous-jacent est l’ensemble des modeles de K.

QUALIFICATION DES EVENEMENTS EN PRESENCE D’INFORMATION INCOMPLETE Si on sait seulement que x ∈ E alors - L’événement A est possible si A ∩ E ≠ Ø (coherence logique) Π(A) = 1, et 0 sinon

- L’événement A est certain si E ⊆ A (déduction logique) N(A) = 1, et 0 sinon

- L’événement A est certain si et seulement si son contraire est impossible: N(A) = 1 - Π(nonA)

- Ignorance totale sur A : Π(A) = Π(nonA) = 1, (N(A) = 0) - N(A)> 0 implique Π(A) = 1 - Π(A ∪ B) = max(Π(A), Π(B)) et N(A∩ B) = min(N(A), N(B)) - Une simple logique modale (KD45)

Cette représentation n’est pas souple: on va y introduire de la nuance

DISTRIBUTIONS de POSSIBILITE Une distribution de possibilité est une représentation d'un état de connaissance d’un agent relatif à l'état du monde. U: référentiel (ensemble d'états du monde) x : variable mal connue à valeur sur U L: Echelle de plausibilité: ensemble totalement ordonné ([0,1], fini,...) Une distribution de possibilité πx attachée à x est une fonction de U dans L telle que ∀u, πx(u) ∈ L, et ∃u, πx(u) = 1 (normalisation) Conventions πx(u) = 0 si et seulement si x = u est impossible, totalement exclu πx(u) = 1 si et seulement si x = u est normal, plausible πx(u) < πx(u') x = u' est plus plausible que x = u

REPRESENTATION DE L´IMPRECISION EN TERMES DE POSSIBILITE NUANCEE : exemple « JEAN EST JEUNE »

POSSIBILITE

14 21

AGE(JEAN)

1

0

a

π(a)µJeune

µJEUNE(x) = possibilité (AGE(JEAN) = x) JEUNE = SOUS-ENSEMBLE FLOU DES VALEURS POSSIBLES DE L´AGE DE JEAN

Cas particulier : JEAN A ENTRE 15 ET 20 ANS : possibilité(x) = 1 si 15 ≤ x≤ 20, et 0 sinon

Exemples de distributions de possibilité Information précise x = u0 : πx(u) = 1 si u = u0 et 0 sinon Information incomplète et nette « x ∈ E » : On ne connaît pas les probabilités : πx(u) = 1 si u ∈ E et 0 sinon

Ignorance totale (pas d’information) : πx(u) = 1 pour tout u Information imprécise nuancée πx(u) = 1 si u ∈ E1 (valeurs les plus plausibles) πx(u) = α2 < 1si u ∈ E2 (valeurs moins plausibles) πx(u) = α3 < α2 si u ∈ E3 ..... et (E1, E2…En) est une partition de U Une représentation simple et unificatrice des informations incertaines, incomplètes, imprécises, linguistiques

POSSIBILITE NUANCEE D´UN EVENEMENT

POS.

AGE(JEAN)

1

0

µJeune

A

Π(A)

Π(A) = max(π(u) | u ∈ A) = Hauteur (A ∩ 'JEUNE') degré de cohérence entre une proposition A et l’information disponible

= à quel point A n'est pas incompatible avec l'information "jeune"

NECESSITE NUANCEE D´UN EVENEMENT

POS.

AGE(JEAN)

1

0

µJeune

A

N(A) = 1 - Π(nonA) = min(1 - π(u) | u ∉ A) N(A) : degré d'inclusion : 'JEUNE' ⊆ A On calcule à quel point A se déduit de l'information "jeune"

LE CALCUL DES POSSIBILITES

N Π, FONCTIONS D´ENSEMBLE A VALEURS DANS [0, 1] COMME LES PROBABILITES

Axiome fondamental Π(A ∪ B) = max(Π(A), Π(B)) Π(Ø) = 0; Π(U) = 1 réaliser A ou B = réaliser le plus facile des 2.

Si E Information imprécise tenue pour certaine on peut poser

Π(A) = 0 : A est impossible si A ∩ E = Ø Π(A) = 1 : A est possible (très faible) si A ∩ E ≠ Ø

CAS GENERAL : à valeur dans [0,1] si E est FLOU Π(A) = max(µE(u) | u ∈ A).

E

A

• max(Π(A), Π(non A)) = 1 : L´un parmi A ou non A est possible. • Π(A) = Π(non A) = 1 : IGNORANCE TOTALE SUR A. En général on a seulement Π(A∩ B) ≤ min(Π(A), Π(B))

DEGRES DE NECESSITE

• N(A) = 1 - Π(non A) degré de nécessité (dualité) (= degré de certitude) • N(A) = 1 : A est certain : E ⊆ A CAS GENERAL : à valeur dans [0,1] si E FLOU N(A) = min(1 – µE(u) | u ∉ A).

EA

• axiome caractéristique : N(A∩ B) = min(N(A), N(B))

• mais en général N(A ∪ B) ≥ max(N(A), N(B))

• Remarquons que 1 - Π(A) ≠ Π(non A) donc pour décrire l'incertitude

sur A il faut 2 nombres

A → (N(A), Π(A)) 2 évaluations On vérifie que N(A) ≤ Π(A) N(A) > 0 ⇒ Π(A) = 1.

COMPARAISON DE DISTRIBUTIONS DE POSSIBILITE

Une distribution de possibilité π1 sur le référentiel U est plus spécifique

(au sens large) que π2 si et seulement si π1(u) ≤ π2(u), ∀u ∈ U. Plus spécifique = plus informatif 1 Tout ce qui est tant soit peu possible pour π1 est au moins π2 π1

aussi possible que pour π2 0 U Cas extrêmes : Savoir complet π(u*) = 1 ; π(u) = 0 pour u ≠u*, spécificité maximale Ignorance totale : π(u) = 1 ∀u ∈ U, spécificité minimale

PRINCIPE DE SPECIFICITE MINIMALE Etant donné un ensemble d’informations imprécises ou incertaines Ii, i = 1, …, n qui fournissent des contraintes sur la spécification de l’état du monde (valeurs de variables, etc.) la distribution de possibilité représentant ces informations est la moins spécifique parmi celles qui valident ces informations. Idée : quand un état n’est pas explicitement impossible, supposer qu’il est possible. Donc maximiser les degrés de possibilité. En général, un élément d’information Ii est modélisé par l’inégalité

π ≤ πi où πi est la représentation de l’information i et π est la représentation de l’état de connaissance de l’agent. ∀i, π ≤ πi donc π ≤ min i = 1, …, n πi donc, par défaut, π =min i = 1, …, n πi

Comment construire une distribution de possibilité? Un intervalle est une distribution de possibilité: « x ∈ E est certain » ssi « x ∉ E est impossible », donc π ≤ µE et (spécificité minimale) π = µE Un intervalle de confiance : « x ∈ E est a-certain » ssi « x ∉ E est (1−a)-impossible »

Soit N(E) ≥ a ssi Π(Ec) = maxu∉E π(u) ≤ 1 − a donc (spécificité minimale) 1 π(u) = max(µE(u), 1 − a) = 1 si u ∈ E 1− a π = 1 − a sinon et N(E) = a 0 E

Plusieurs informations incertaines consonantes : Cela correspond à des intervalles emboîtés Ei avec des niveaux de confiance associés ai : plus Ei est large, plus ai est grand. En ⊃ En-1 ⊃ …E2 ⊃ E1 an > an-1 > …a2 > a1 ai = N(Ei) le degré de certitude de Ei

On cherche la distribution la moins spécifique telle que ai = N(Ei) = min {1 – π(u), u ∉ Ei} pour i = 1, n

∀u, πx(u) = mini max(1 – ai, Ei(u))

a1

a2

1

0

E1

E2

E3

π

α2

α3

m2= α2 − α3

Cas limite continu : Un intervalle flou = Une ou plusieurs valeurs plausibles dans un intervalle support , + une interpolation M

∀α ∈ (0, 1], N(Mα) = 1 − α Intervalle flou Trapézoïdal

PROBABILITE POSSIBILITE VARIABILITE INCOMPLETUDE, IMPRECISION

PRECIS FLUCTUANT IMPRECISION COHERENTE (emboîtement) 1 SEUL DEGRE : P(A) = 1 − P(non A) 2 DEGRES Π(A) et N(A) = 1 − Π(non A) GENERALISE LE POINT GENERALISE L´ENSEMBLE

NATUREL POUR NATUREL POUR LES PHENOMENES PHYSIQUES CONNAISSANCES SUBJECTIVES TRES QUANTITATIF PROCHE DU QUALITATIF + MAX, MIN AMPLIFICATION ERREURS ERREURS FIXES

P(A) = P(nonA) = 1/2 Π(A) = 1 ; N(A) = 0 représente l’aléatoire représente l’ignorance

COMPENSATION D´ERREURS GENERALISE CALCUL D´ERREURS RESULTATS PRECIS RESULTATS PRUDENTS PARFOIS TROP PEU INFORMANTS PARFOIS ARBITRAIRES PLUS SURS, PARFOIS DIFFICILES A OBTENIR PLUS FACILES EN GENERAL A OBTENIR

LES PIONNIERS DE LA THEORIE DES POSSIBILITES • Vers 1950, G.L.S. Shackle appelle degré de surprise

potentielle d’un événement son degré d’impossibilité, qui doit être relié à la notion de plausibilité, plutôt que de probabilité.

• La surprise potentielle (1 − π) s’évalue sur une échelle d’impossibilité, un intervalle positif de la forme [0, y*], avec y* qui indique le refus complet de l’événement correspondant.

• Le degré de surprise potentielle d’un événement est le degré de surprise de sa réalisation la moins surprenante.

• Une notion reprise par W. Spohn (1988) qui remplace [0, y*] par les entiers positifs: sur(A) = n veut dire P(A) = ε -n

• Shafer fait le lien entre fonctions de croyances consonantes et Shackle

LES PIONNIERS DE LA THEORIE DES POSSIBILITES • Dans son livre de 1973 sur le raisonnement contrefactuel, le

philosophe David Lewis définit une relation ≥Π entre mondes possibles qu’il appelle "comparative possibility".

• Il relie ce concept de possibilité à la similarité entre mondes possibles qui sert à définir les conditions de vérité des contrefactuels.

• Il propose l’axiome A, B, C, A ≥Π B ⇒ C ∪ A ≥Π C ∪ B. • Ses seules et uniques contreparties numériques sont les mesures de

possibilité (Dubois, 1986) • L’ordre dual (nécessité) a été re-découvert par Gardenfors (1988)

pour les priorités qui guident la révision de connaissances

LES PIONNIERS DE LA THEORIE DES POSSIBILITES

• Le philosophe L. J. Cohen a considéré le problème du raisonnement juridictionnel (1977).

• "Baconian probabilities" comprises comme des degrés de prouvabilité.

• Dans un tribunal on ne peut pas condamner une personne sur la base d’arguments statistiques.

• Une hypothèse et sa négation ne peuvent avoir simultanément des degrés de "prouvabilité" positifs.

• Ces degrés de prouvabilité coincident avec des mesures de nécessité.

LES PIONNIERS DE LA THEORIE DES POSSIBILITES Zadeh (1978) propose d’interpréter les propositions où interviennent des prédicats flous comme des contraintes flexibles sur les valeurs de paramètres sous jacents

• La fonction d’appartenance d’un ensemble flou est alors interprétée comme une distribution de possibilité.

• relations entre possibilité and probabilité: ce qui est probable doit d’abord être possible.

• Se refère à l’idée de faisabilité graduelle ("degrees of ease") plutôt que la notion épistémique de plausibilité.

• L’axiome de "maxitivité" pour les mesures de possibilité est introduit (aussi pour des événements flous). Mais pas de mesures de nécessité.

DEUX BRANCHES DE LA THEORIE DES POSSIBILITES : Approche ordinale On range les valeurs possibles d’une grandeur par ordre de plausibilité. On utilise une échelle qualitative finie ou ordinale de degrés de possibilité.

Approche numérique Les degrés de possibilités sont des valeurs réelles de [0, 1] ou des entiers naturels. Il faut les articuler avec les probabilités. Toutes les théories admettent la maxitivité de la fonction de possibilité Les deux branches diffèrent sur le conditionnement et l’interprétation.

Modèle possibiliste ordinal : Certains états sont jugés plus plausibles que d'autres :

π : S → L échelle de plausibilité symbolique Π(A) = maxs∈A π(s) évalue l'absence de surprise de l’événement A On ne retient que l’état le plus normal où A est vrai. On néglige les autres. N(A) = n(Π(Ac)) avec n : fonction décroissante : n(α) = 1 – α = mins∉A n(π(s))

Elle évalue à quel point la proposition A est certaine par un agent = reflète l’impossibilité d’avoir des états plausibles hors de A

N(A) > 0 : La proposition A est provisoirement acceptée

1.8

.6.4

.2

B

A

π

.2: presque impossible

.4: plutôt impossible

.6: surprenant

.8: pas tellement surprenant

1: normal

Π(A) = 0.8 ; N(B) = 1 – 0.8 = 0.2 Π(A) = 0 : A impossible Π(A) < 1 : A est plus ou moins surprenant. Π(A) = 1 = Π(Ac) = 1 : A inconnu N(A) > 0 : A est considéré comme vrai N(A) > 0 ssi Π(A) > Π(Ac) ssi A est vrai pour tout s : π(s) = 1 N(A) = 1 : A est complètement certain

LOGIQUE POSSIBILISTE • Un degré de certitude positif entre 0 et 1 est attaché à toute proposition p de la logique classique : (p, α), α > 0. • Techniquement il s'agit d'une borne inférieure de mesure de nécessité N : (p, α) ⇔ N(p) ≥ α. N(p) = 1 : p est certainement vrai N(p) = 0 = N(¬p) on n'a pas d'information sur p N(p) > 0 ⇒ N(¬p) = 0 • Base de connaissances possibilistes : ensemble de formules classiques pondérées qualitativement.

K ={(pi, αi) | i = 1,n}

INFERENCE EN LOGIQUE POSSIBILISTE Idée : On infère p au niveau α ssi on infère p avec les formules de

certitude au moins α. Soit Kα = {pi | (pi, αi) ∈ K et αi ≥ α} :

K |– (p, α) ssi Kα |– p. REGLE DE RESOLUTION

(p ∨ q, α) (¬p ∨ r, β) _________________

(q ∨ r, min(α,β)) La validité d’une suite d’inférences est celle du plus faible maillon.

METHODE DE REFUTATION Etant donné un ensemble de formules valuées K, prouver (p, α)

= déduire (⊥, α) de K ∪ {(¬p, 1)} en maximisant α On cherche la chaîne d’inférences la plus valide

SEMANTIQUE de la Logique Possibiliste Propositionnelle Modèles de (pi, αi ) : On obtient donc une distribution de possibilité sur les interprétations par le principe de minimum de spécificité, sachant que(pi, αi) code N(pi) ≥ αi :

πi(I) = 1 si I |= pi (I modèle de pi) = 1− αi sinon On définit l'ensemble flou des modèles de K par:

πK(I) = mini=1,n πi(I) = min{1− αi : I |= ¬pi }

Conséquence logique: K |= (p, α) ssi πK(I) ≤ π(p, α)(I) Théorème de complétude: K |— (p, α) ssi K |= (p, α) (En clair : NK([p]) = minI |= p 1 − πK(I) = max{α, K |— (p, α)})

Inconsistance partielle et non-monotonie de l'inférence

• Si K |– (⊥, α) avec α > 0, alors Kα est inconsistant. • Degré d’inconsistance de K : Inc(K) = max{α, K |– (⊥, α)} • Si Inc(K) > 0, K |– (p, Inc(K)) pour toute formule p. • Inférence non-triviale : K |~ p ssi K |– (p, α) avec α > Inc(K)

Exemple : K = {(Etu(x) → Jeu(x), α1) (Jeu(x) → Cél(x), α2) (Etu(x) ∧ Par(x) → ¬Cél(x), α3) (Etu(Léa), 1)} avec α3 > α1 1) Inc(K) = 0 : K |– (Cél(Léa), min(α1,α2)) (mais pas ¬Cél(Léa)) 2) Mais K ∪ {(Par(Léa), 1) }est partiellement inconsistante Inc(K∪ {(Par(Léa), 1)}) = min(α1, α2, α3) = min(α1,α2) K ∪ {(Par(Léa), 1)} |~ ¬Cél(Léa) car K ∪ {(Par(Léa), 1)} |– (¬Cél(Léa), α3) et α3 > min(α1,α2).

CONDITIONNEMENT ORDINAL Π(A ∩ B) = min(Π(A |B),Π(B)) maximiser Π(A | B) (spécificité minimale) Π(A | B) = 1 if A ≠ Ø, Π(B) = Π(A ∩ B) >0 = Π(A ∩ B) si Π(A ∩ B) < Π(B) N(A | B) = 1 – Π(Ac | B) (pour les mesures de nécessité)

π(s| B) = 1 si π(s) = Π(B) = π(s) sinon. C’est la restriction de π à B + normalisation, en ramenant à 1 le degré de possibilité des états normaux de B

Non-nonotonie et théorie des possibilités Quand Π(B) > 0, N(A | B) > 0 ssi Π(Ac ∩ B) < Π(A ∩B) A est vrai dans les états normaux de B (les états les plus plausibles). N(A | B) > 0 représente une règle “ si B alors A ” ayant des exceptions

(A ∩B est plus normal que Ac ∩ B)

B

A

On peut avoir N(Ac) > 0 ( A est considéré comme faux en général) N(A|B) > 0 (A est considéré comme vrai dans le contexte B)

Formalisation possibiliste d’une règle par défaut « (Sauf exception) si p alors q » se traduit par la contrainte :

p∧q est une proposition plus plausible que p∧¬q. Formellement : p→q se code Π(p∧q) > Π( p∧¬q) Soit π une distribution de possibilité : cette inégalité signifie que les modèles les plus plausibles de p selon π vérifient q. « Les étudiants sont jeunes » = quand on est étudiant, il est plus plausible d’être jeune que pas. La distribution la moins spécifique qui vérifie cette condition est telle que Π(p∧q) = Π(¬p∧q) = Π(p∧q) = 1 > Π( p∧¬q) = α. On a donc les modèles normaux [¬p∨q] et les modèles moins normaux [p∧¬q] (les contre-exemples)

Formalisation possibiliste de plusieurs règles par défaut

• Si on a une famille de n règles par défaut, « si pi alors qi » on les formalise par l’ensemble de contraintes Π(pi ∧ qi) > Π(pi ∧ ¬qi) pour i=1, n

1.On construit la distribution de possibilité qualitative π la moins spécifique qui vérifie ces contraintes, et on obtient une suite d’ensembles de modèles des plus normaux aux moins normaux. 2. On peut calculer pour chaque règle i un poids de priorité αi = N(¬pi∨qi) 3. On obtient une base de connaissances possibiliste K = {(¬pi∨qi, αi)), i =1, …n} 4. Déduire une règle p→q à partir de { pi→qi : i =1, …n} revient à tester si K ∪ (p, 1) |~ q.

Méthode pour calculer la distribution de possibilité qualitative

1. Les interprétations qui falsifient ∨i = 1, n( pi ∧ ¬qi) ne sont pas contraintes et reçoivent le degré maximal de possibilité.

2. On obtient une classe E1 de modèles normaux. On retire les règles i dont un modèle de E vérifie pi ∧ qi (c’est un exemple de la règle i)

3. On recommence avec les contraintes qui restent, jusqu’à épuisement.

Note : si ∨i ( pi ∧¬qi) est une tautologie à une étape de la procédure, alors l’ensemble de règles est incohérent.

Exemple : Manchot →Oiseau, Oiseau →Vole, Manchot →¬ Vole Soit 1. Π(M∧O) > Π(M∧¬O) ;

2. Π(O∧V) > Π(O∧¬V) ; 3. Π(M∧¬V) > Π(M∧V).

Etape 1 : Modèles normaux : ¬( (M∧¬O) ∨( O∧¬V)∨(M∧V)) = ¬M∧(¬O ∨ V) (les non-manchots qui, s’ils sont des oiseaux, volent). Comme (O∧V) ∧¬M∧(¬O ∨ V) = O∧V∧¬M on enlève la règle 2. Etape 2 : Modèle sous-normaux : les oiseaux qui ne volent pas ¬( M∧¬O)∨(M∧V)) ∧ (M∨ (O ∧ ¬V) = O ∧ ¬V () Fin : O ∧ ¬V est consistant avec M∧O et M∧¬V.

Modèles anormaux : ¬[(O ∧ ¬V) ∨ (¬M∧(¬O ∨ V)] = M∧( ¬O ∨ V) (les manchots qui soient volent, soit ne sont pas des oiseaux)

N

A M

O SN SN SN

A N A V N

TRADUCTION EN LOGIQUE POSSIBILISTE Normal : Possibilité 1 ; Sous-Normal : Possibilité 1 − α ; Anormal : Possibilité 1 − β < 1 − α . K = { (¬M∨O, β), (¬O∨V, β), (¬M∨¬V, β)} Car N(¬M∨O) = 1 − Π(M∧¬O) = β > α N(¬O∨V) = 1 − Π( O∧¬V) = α

N(¬M∨¬V) = 1 − Π( M∧V) = β > α Donc comme espéré :

• K ∪ (O, 1) |~ V car Inc(K ∪ (O, 1)) = 0 et K ∪ (O, 1) |– (V, α) • K ∪ {(O, 1) , (M, 1)} |~ ¬V car car Inc(K ∪ {(O, 1) , (M, 1)})= α

et K ∪ {(O, 1) , (M, 1)} |– (¬V, β)

PRINCIPE D’EXTENSION Soit f une fonction de U dans V F un ensemble flou sur U Trouver les images de U par la fonction f. Non flou : f(F) = { f(u), u ∈ F} Flou : f(F) = ∪u ∈ U {(f(u), µF(u))} Soit : µf(F)(v) = sup {µF(u), f(u) = v} On a pour chaque niveau α : f(Fα) = {f(u), u ∈ Fα} Si A ⊆ B alors f(A) ⊆ f(B) Si f est continue, ou sur un référentiel fini, on prouve f(Fα) = f(F)α On peut reconstruire f(F) à partir des f(Fα)

INTERPRETATIONS : Théorie des possibilités :

µf(F)(v) = Π(f–1(v)) Analogue de la démarche probabiliste (remplacer Π par P) Incertitude (information incomplète) induite par F sur V. Propagation de contraintes flexibles : on trouve la contrainte induite par f sur V en raison de la restriction de u à F

NOMBRE FLOU, INTERVALLE FLOU.

= mesure d'incertitude "possibiliste" sur les nombres = ensemble flou M de nombres de fonction d'appartenance µM : Réels → [0,1] * convexe (µM, unimodal) * normalisé (∃x : µM(x) = 1 (Π(R) = 1) * µM semi continue supérieurement =

α-coupes {x | µM(x) ≥ α} = fermés → Généralisation des intervalles fermés → bornes à la fois optimistes et pessimistes

CALCUL D’INTERVALLES FLOU

ANALOGUE "POSSIBILISTE" DU CALCUL DES VARIABLES ALEATOIRES Etant données les distributions de possibilité de variables x, y (ensembles flous M et N sur r) Si la distribution de possibilité jointe est πMxN(x, y) = min(µM (u), µ N(v)) Trouver la distribution de possibilité µf(M,N) de f(x,y). C’est : µf(M,N)(w) = ΠM x N(f-1(w)) = sup{min(µM (u), µN(v)) | f(u,v) = w}

Si M, N sont des intervalles flous f(M,N) est un intervalle flou dès que f est continue

CALCUL PAR COUPES DE NIVEAUX

1

λ

0r

M+ N

+

N–

M–

ƒ(M,N) +

ƒ(M,N) –

a b a + b cas de l’addition. C’est une extension du calcul d’intervalles.

CALCUL PAR COUPES DE NIVEAUX Si M, N = intervalles : on retrouve le calcul d'erreurs.

f(M,N) = {f(u, v) u ∈ M, v ∈ N} On a [f(M,N)]α = f(Mα,Nα) Donc : CALCULS SIMPLES, AISEMENT PARAMETRABLES si les calculs d’intervalles correspondants sont faciles. A adapter selon la monotonie de f : par exemple : si f n’a pas d’extrema ni de minima locaux et est continue : f([a, a’], [b, b’)] = [min (f(a, b), f(a, b’), f(a’, b, f(a’, b’)), max (f(a, b), f(a, b’), f(a’, b, f(a’, b’))]

MAXIMUM ET MINIMUM d’intervalles flous max([a, a'], [b, b']) = [max(a, b), max( a', b')] min([a, a'], [b, b']) = [min(a, b), min( a', b')].

1

0

M N

r

max(M,N)

min(M,N)

Les opérations max et min sont commutatives et associative, et max (– M, – N) = – min (M, N). max and min sont mutuellement distributives, idempotentes, min (M, N) ⊕ max (M, N) = M ⊕ N; M ⊕ min (N1, N2) = min (M⊕N1, M⊕N2); M⊕ max (N1, N2) = max (M⊕ N1, M ⊕ N2); max (M, N) = M if and only if min(M, N) = N.

CALCUL AVEC REPRESENTATIONS PARAMETREES Si : Noyau(M) = [m*, m*] ; Support(M) = [m*-a m*+b] µM (u) = L((m*- x)/a) si x ≤ m*, = R((m*- x)/b) si x ≤ m* L et R modélisent la forme de M à gauche et à droite du noyau. On écrit M = (m*, m*, a, b)LR λM = (λm*, λ m*, λa, λb) LR λ > 0 = (λm*, λ m*, –λb, –λa) RL λ < 0

Si M = (m*, m*, a, b)LR et N = (n*, n*, c, d) LR

M + N = (m* + n*, m* + n*, a + c, b + d) LR plus généralement si f monotone croissante, on peut exprimer simplement l’inverse des parties croissantes et décroissantes de µf(M,N) [µεf(M,N)]-1 = f((µεM)-1, (µεN)-1) ε ∈ {-,+} trouver λ tel que : z = f(m* - aL-1(λ), n* - cL-1(λ)) pour ε = – z = f(m* - bR-1(λ), n* - dR-1(λ)), pour ε =+

PRECAUTIONS AVEC LE CALCUL D’INTERVALLES FLOUS : les mêmes qu’avec le calcul d’intervalles : • Attention aux expressions algébriques d’une fonction non-monotone où une même variable apparaît plusieurs fois Exemples : 1. x(y + z) et xy + xz le résultat de MN +MN’ est plus imprécis que M(N + N’) 2. M2 = {u2, u∈M }⊂ M·M = {uv, u∈M v∈M } • Si la fonction n’est pas monotone par rapport à une variable : tenir compte des extrema de la fonction. Exemples : f(x) = x2 : [–1, 1] 2 = [0, 1] ≠ [f(–1), f(1)] = {1}

THEORIE DES POSSIBILITES THEORIE DES PROBABILITES Informations cohérentes Informations précises Mais imprécises mais dispersées Incomplétude Variabilité

Condition de compatibilité : N(A) ≤ P(A) ≤ Π(A), ∀A Ce qui est certain doit être probable Ce qui est probable doit être possible

Interprétations probabilistes des mesures de possibilité : Un degré de possibilité est la borne supérieure d'un degré de probabilité π est équivalent à la famille de probabilités P(π) = {P: P(A) ≤ Π(A), ∀A} Exemple: Des intervalles de confiance emboîtés En ⊃ En-1 ⊃ …E2 ⊃ E1 avec niveau de confiance ai : P(Ei) ≥ ai Pour tout événement A on calcule: Π(A) = sup{P(A) où pour tout i, P(Ei) ≥ ai } La distribution de possibilité associée est comme auparavant π(u) = 1 si u ∈ E1( valeurs les plus plausibles) = min{1− ai, u ∉ Ei} sinon Approximations consonantes de familles convexes de probabilité.

Fonctions de répartition cumulatives supérieures et inférieures

POSSIBILITE

1

0

MF* F*

Un intervalle flou M produit 2 fonctions de répartitions F*, F* correspondant à deux mesures de probabilité P*, P*

F*(r) = Π( x≤r) = µM(r) pour r ≤ m* ; 1 pour r ≥ m*

F*(r) = Ν( x≤r) = 0 pour r ≤ m* ; 1 − µM(r) pour r ≥ m*

;

INTERVALLE MOYEN D’UNE MESURE DE POSSIBILITE

Soit E*(M) = inf{∫x dP(x), P ∈P(µM)}= E(P*) espérance mathématique inférieure

E*(M) = sup{∫x dP(x), P ∈P(µM)} = E(P*) espérance mathématique supérieure

L’intervalle moyen de M est = [E*(M), E*(M)].

Et E*(M) = ∫01 inf Mαdα; E*(M) = ∫0

1 supMαdα Donc defuz(M) = (E*(M) + E*(M))/2

Possibilité et vraisemblance P(um | u) = la probabilité que la mesure lue soit um quand la valeur réelle est x = u. Si on lit x = um, P(um | u) est vu comme la vraisemblance v(u) de x = u, quand on ne dispose pas de la probabilité a priori p(u) La distribution {P(um | u): u ∈A} n'est pas une distribution de probabilité : il faut Identifier π(u) à P(um | u) Raisons: 1) P(um | A) ≤ maxu∈A P(um | u) 2) si u ∈ A, v(u) ≤ v(A) donc P(um | A) ≥ maxu∈A P(um | u)

Identifier Π(Α) à P(um | A)

MESURE DE POSSIBILITE = ENSEMBLE ALEATOIRE CONSONANT On pose mi = αi – αi+1

Masse affectée à l’α i -coupe Fi (m1 +… + mn = 1 par construction)

1

F

α3

possibility levels1 > α2 > α3 >… > αn

α2α4

MESURE DE POSSIBILITE = ENSEMBLE ALEATOIRE CONSONANT La pondération m est une allocation de probabilité sur les sous-ensembles de S : m(E) = probabilité de tirer E (de savoir seulement x∈E). Un cas particulier de la théorie des fonctions de croyance Inversement on recalcule :

π(s) = ∑i: s∈Fi mi

N(A) = ∑Fi⊆A mi ; Π(A) = ∑Fi∩A≠ Ø mi

POSSIBILITE CONDITIONNELLE NUMERIQUE Conditionnement Dempster Π(A ∩ B) = Π(A |B)*Π(B)

* = produit Π(A |* B) = ∏(A ∧ B)

∏(B)

N(A |* B) = 1 – Π(Ac |* B)

Π(A |* B) reste σ-maxitive si Π l’est. On renormalise la distribution de possibilité sur B : π(x|* B) = π(x) / Π(B) si x ∈ B et 0 sinon.

Conditionnement Bayesien possibiliste : Si : Π(A |b E) = sup{P(A|E), P ≤ Π, P(E) >0} = 1 –N(Ac |b E) Alors Π(A ∩ E) Π(A |b E) = Π(A ∩ E) + Ν(Ac ∩ E) C’est encore une mesure de possibilité de distribution : π(ω |b E) = max π(ω),

π(ω)

π(ω) + N(E)

Ν(A ∩ E) 1 – Π(Ac |b E) = N(A |b E) = Ν(A ∩ E) + Π(Ac ∩ E)

Transformation possibilité ––> probabilité Comment tirer au hasard un élément dans un ensemble flou F ? Idée: -tirer au hasard un représentant non flou de F (α−coupe) -tirer au hasard un élément dans cette coupe.

POSSIBILITE

14 21

AGE(JEAN)

1

0

a

α ?µJeune

pM(x) = ∫01 (Mα(x)/λ(Mα) )dα

avec λ(Mα) = longueur de l’α-coupe et Mα(x) = 1 si x∈ Mα(x), 0 sinon

CAS DISCRET Un référentiel U = {u1, u2, …un} et une distribution de possibilité πn = 1 > πn-1 > …> π1

Soit Mπi = {u1, u2, … ui}

pM(u) = Σu M πi(u)/i soit pj = Σi = 1, j (πi – πi–1)/i Interprétations

- Valeur de Shapley et probabilité pignistique (fonctions de croyance) - Principe de raison insuffisante de Laplace généralisé (ce qui est

équipossible est équiprobable) - Centre de gravité de P(π) = {P: P(A) ≤ Π(A), ∀A}

- On retrouve ∫01 pM(x) dx = (E*(M) + E*(M))/2

TRANSFORMATIONS PROBABILITE → POSSIBILITE Trouver une représentation possibiliste fidèle d'une mesure de probabilité remplacer p(x) par « x ∈ E » avec probabilité P(E) Donc πE(s) = 1 si x ∈ E et 1 − P(E) sinon On vérifie P(A) ≤ Π E(A), ∀A Exemple : trouver un intervalle de dispersion représentant une densité de probabilité = remplacer p(x) par « x ∈ E » avec une confiance suffisamment haute, E étant aussi précis que possible. Exigences contradictoires : plus E est précis moins il est probable.

Principes de transformation de P vers Π: Probabilité statistique Etant donné une mesure de probabilité P 1. Cohérence probabilité/ possibilité: Π(A) ≥ P(A) 2. Respect de l'ordre : p(u) > p(v) implique π(u) > π(v) 3. Préservation de l'information: π aussi spécifique que possible

Résultats : cas fini si pn >… > p1 alors π est unique

πi = ∑j=1,i pj. si pi = pi+1 choix entre i) spécificité ⇒ ordre arbitraire entre i et i+1 ii) respect de l'ordre : probabilité uniforme ⇒ possibilité uniforme Application : comparaison de distributions de probabilités L’ordre de spécificité possibiliste sur les transformées revient alors à comparer les distributions de probabilité quant à leur « concentration » (entropie):

π1 < π2 implique -∑ p1ilog p1i < -∑ p2ilog p2i

π1 < π2 ssi ∑ f(p1i) < ∑ f(p1i), pour tout f concave.

Cas continu : Une densité p continue, unimodale et strictement monotone de part et d'autre du mode Alors sa transformée π est unique: Ses coupes de niveau α sont les coupes de niveau de p et ses intervalles de dispersion optimaux avec un niveau de confiance 1 − α de p autour de son mode. Soit Ir = {u, p(u) ≥ r} et λ(Ir) sa longueur. Proposition : i) Ir est l’intervalle de probabilité maximale parmi ceux de même longueur : P(Ir) = sup{P(I): λ(I) = λ(Ir)} ii) Ir est l’intervalle de longueur minimale parmi ceux de même confiance : λ(Ir) = inf{ λ(I): P(I) = P(Ir) = 1 − α }

densité p

I

u v

π(u) = 1 – P(I)• •

Construction d’un intervalle I de dispersion : si on tire une valeur x au hasard selon p, x ∈ I avec une probabilité P(I). Si Iα = [aα, bα] = {u, p(u) ≥ α} on pose π(aα) = π(bα) = 1 - P(Iα)

Exemples de transformations proba-> possibilité : • P a une distribution uniforme sur un intervalle π = distribution de possibilité uniforme ou distribution (symétrique) triangulaire • P a une densité symétrique de support borné et de mode m.

alors π est convexe de part et d'autre du mode La distribution de possibilité triangulaire de même support I et de mode m domine toujours P . L’intervalle flou triangulaire est le modèle naturel pour représenter une probabilité symétrique inconnue de support borné • P de densité quelconque et de moyenne et écart-type connus: l'inégalité de Bienaymé-Tchebytchev fournit une distribution de possibilité qui domine P.

Possibilités subjectives Idée : exploiter l’approche par la théorie du pari échangeable des probabilités subjectives Critique : Un agent est forcé de donner une distribution de probabilité quelles que soient ses connaissances. Par exemple la probabilité uniforme code le hasard et l’ignorance (principe de raison insuffisante de Laplace : les symétries). Principe : la probabilité subjective est induite par les croyances d’un agent, mais n’est pas en liaison univoque avec elles.

Possibilités subjectives Hypothèse 1 : Les croyances incomplètes d’un agent se modélisent par des fonctions de croyances (masses m(A) de somme 1 affectées aux sous-ensembles A) Hypothèse 2 : On a seulement accès à la probabilité subjective fournie par l’agent Hypothèse 3 : L’agent fournit la probabilité pignistique (Laplace généralisé aux ensembles focaux, valeur de Shapley)

Méthode : retrouver la fonction de croyance sous tendue par la probabilité subjective.

Possibilités subjectives Il y a plus d’une fonction de croyance qui donne une probabilité subjective p. Postulat : choisir la moins informative - au sens de la cardinalité espérée : I(m) = ∑ Α m(A)⋅card(A).

- au sens du minimum de spécificité : p(x) = ∑ x in A m(A).

- au sens du maximum de commonalité (Q) • Résultat : La moins informative des fonctions de

croyances dont la valeur de Shapley est p est unique and consonante. C’est une mesure de nécessité

Possibilités subjectives

• Dans le cas fini la fonction de croyance - qui maximize I(m) - de fonction de contour la moins spécifique - de fonction de commonalité maximale

est consonante et est caractérisée par la distribution de possibilité πi = Σj=1,n min(pj, pi).

Déjà proposée par Dubois et Prade (1983) Elle est moins informative que la transformée optimale probabilité possibilité statistiques, car elle obéit à un principe de moindre engagement

Théorie des possibilités numérique: quand ? • Le modèle possibiliste est naturel pour

– informations expertes sous forme d’un intervalle et d’une valeur plausible

– Intervalles experts emboîtés – Intervalles de confiance (plus de seuil 0.95) – Fonctions de vraisemblance : P(A|x) = π(x) – Les inégalités probabilistes (Bienaymé-Tchebytchev):

construire π connaissant moyenne et écart-type seulement

PERSPECTIVES ET APPLICATIONS

La théorie des possibilités n’a pas été appliquée autant que la logique floue dans les sciences de l’ingénieur. • Elle est moins facile à appréhender que la théorie des ensembles flous • Elle fait une concurrence directe à la théorie des probabilités • Elle possède des sous-branches numériques liées à la statistique non bayésienne, et symboliques liées à la logique et l’intelligence artificielle. • Interprétations diverses : Bornes de probabilité ou probabilité infinitésimales - Il n’y a pas UNE théorie des possibilités. - La théorie des possibilités utilise les outils de la théorie des ensembles flous, qu’elle réinterprète.

Applications

1) Représentation d’informations linguistiques sur des domaines numériques : règles floues de divers types. Applications au raisonnement par cas, aux procédures d’apprentissage spécifiques dans l’optique de la fouille de données.

2) Les problèmes de satisfaction de contraintes ont été étendus

aux contraintes flexibles avec priorités dans le cadre de la théorie des possibilités [16]. Dans ce cadre, une contrainte est vue comme un ensemble de solutions plus ou moins possibles et un degré de nécessité attaché à une contrainte traduit sa priorité.

3) Les mesures de possibilité quantitatives permettent de représenter des modèles probabilistes incomplets. Applications en analyse de risque pour la mise en évidence la différence entre ignorance partielle et variabilité.

4) La fusion d’informations imprécises : Si le cadre théorique des

possibilités est restreint, les modes de combinaison sont variés (opérations de combinaison d’ensembles flous).

5) Les bases de données contenant des informations imparfaites

(incomplètes, mal connues, contradictoires). La mise en œuvre pratique de cette approche n’est pas simple.

6) Le diagnostic automatique : Contreparties ordinales et

numériques possibilistes des réseaux bayésiens probabilistes.

7) La propagation de l’incertitude pour l’analyse de risque : évaluer la sortie d’un modèle mathématique dont les paramètres sont incertains :

- représentation d’informations expertes par des intervalles flous - utilisation du calcul d’intervalles flous : dépendance entre variables

inconnue, et dépendance totale entre les sources d’information - extension à l’utilisation conjointe du calcul d’intervalle et du calcul de

variables aléatoires 8) Ordonnancement avec des durées d’activité mal connues : calculs de dates au plus tôt , au plus tard, de marges imprécises de tâches. On suppose moins d’information que le PERT probabiliste.

top related