soutenance de stage - imtrimtr.ircam.fr/imtr/images/soutenance_de_stage.pdf · etat de l’art...

42
Etat de l’art Contrôle de la parcimonie Résultats Conclusion Soutenance de Stage Factorisation en Matrices Non-Négatives pour la Reconnaissance Multi-Source Incrémentale Arnaud Dessein Encadrants : Arshia Cont, Guillaume Lemaitre 29 juin 2009 [email protected] 29 juin 2009 Soutenance de Stage 1/16

Upload: lyque

Post on 09-Jul-2018

219 views

Category:

Documents


0 download

TRANSCRIPT

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Soutenance de Stage

Factorisation en Matrices Non-Négatives pour la ReconnaissanceMulti-Source Incrémentale

Arnaud DesseinEncadrants : Arshia Cont, Guillaume Lemaitre

29 juin 2009

[email protected] 29 juin 2009 Soutenance de Stage 1/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Plan

1 Etat de l’artFactorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

2 Contrôle de la parcimonie

3 Résultats

4 Conclusion

[email protected] 29 juin 2009 Soutenance de Stage 2/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Factorisation en matrices non-négatives

Problème standard de factorisation en matrices non-négatives (NMF)[Lee & Seung, 1999].

Soit V ∈ Rn×m+ et r < min(n,m), trouver W ∈ Rn×r

+ et H ∈ Rr×m+ telles

que :V ≈WH

Minimisation par rapport à une fonction coût : la distance euclidienne.

Interprétation :vj ≈Whj =

∑i hijwi

wi : vecteurs de base.hij : coefficients de décomposition.

[email protected] 29 juin 2009 Soutenance de Stage 3/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Factorisation en matrices non-négatives

Problème standard de factorisation en matrices non-négatives (NMF)[Lee & Seung, 1999].

Soit V ∈ Rn×m+ et r < min(n,m), trouver W ∈ Rn×r

+ et H ∈ Rr×m+ telles

que :V ≈WH

Minimisation par rapport à une fonction coût : la distance euclidienne.

Interprétation :vj ≈Whj =

∑i hijwi

wi : vecteurs de base.hij : coefficients de décomposition.

[email protected] 29 juin 2009 Soutenance de Stage 3/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Contexte de la reconnaissance des sons

Rappel du modèle.

V ≈ WH

vj ≈ Whj =∑

i hijwi

Choix commun des paramètres :V : représentation temps-fréquence.vj : trames successives.wi : modèles spectraux.hij : coefficients d’activation.

Exemple d’application : transcription de la musique polyphonique[Smaragdis & Brown, 2003, Abdallah & Plumbley, 2004, Raczyński et al., 2007,Vincent et al., 2008, Bertin et al., 2009].Limites pour notre problème.

[email protected] 29 juin 2009 Soutenance de Stage 4/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Contexte de la reconnaissance des sons

Rappel du modèle.

V ≈ WH

vj ≈ Whj =∑

i hijwi

Choix commun des paramètres :V : représentation temps-fréquence.vj : trames successives.wi : modèles spectraux.hij : coefficients d’activation.

Exemple d’application : transcription de la musique polyphonique[Smaragdis & Brown, 2003, Abdallah & Plumbley, 2004, Raczyński et al., 2007,Vincent et al., 2008, Bertin et al., 2009].

Limites pour notre problème.

[email protected] 29 juin 2009 Soutenance de Stage 4/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Contexte de la reconnaissance des sons

Rappel du modèle.

V ≈ WH

vj ≈ Whj =∑

i hijwi

Choix commun des paramètres :V : représentation temps-fréquence.vj : trames successives.wi : modèles spectraux.hij : coefficients d’activation.

Exemple d’application : transcription de la musique polyphonique[Smaragdis & Brown, 2003, Abdallah & Plumbley, 2004, Raczyński et al., 2007,Vincent et al., 2008, Bertin et al., 2009].Limites pour notre problème.

[email protected] 29 juin 2009 Soutenance de Stage 4/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Reconnaissance multi-source incrémentale

Vers une décomposition non-négative :1 Apprendre des modèles wi avant la décomposition.2 Regrouper ces modèles dans W fixe pendant la décomposition.3 Résoudre un problème NMF pour chaque trame :

v ≈Wh

Applications :Analyse de la parole [Sha & Saul, 2005].Transcription [Paulus & Virtanen, 2005, Niedermayer, 2008].Suivi de partition [Cont, 2006].Reconnaissance multi-f0 et multi-instrument [Cont et al., 2007].Evaluation de la lecture à vue [Cheng et al., 2008].

Problème majeur : contrôler la parcimonie de la décomposition[Cont, 2006, Cont et al., 2007].

[email protected] 29 juin 2009 Soutenance de Stage 5/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Reconnaissance multi-source incrémentale

Vers une décomposition non-négative :1 Apprendre des modèles wi avant la décomposition.2 Regrouper ces modèles dans W fixe pendant la décomposition.3 Résoudre un problème NMF pour chaque trame :

v ≈Wh

Applications :Analyse de la parole [Sha & Saul, 2005].Transcription [Paulus & Virtanen, 2005, Niedermayer, 2008].Suivi de partition [Cont, 2006].Reconnaissance multi-f0 et multi-instrument [Cont et al., 2007].Evaluation de la lecture à vue [Cheng et al., 2008].

Problème majeur : contrôler la parcimonie de la décomposition[Cont, 2006, Cont et al., 2007].

[email protected] 29 juin 2009 Soutenance de Stage 5/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Factorisation en matrices non-négativesContexte de la reconnaissance des sonsReconnaissance multi-source incrémentale

Reconnaissance multi-source incrémentale

Vers une décomposition non-négative :1 Apprendre des modèles wi avant la décomposition.2 Regrouper ces modèles dans W fixe pendant la décomposition.3 Résoudre un problème NMF pour chaque trame :

v ≈Wh

Applications :Analyse de la parole [Sha & Saul, 2005].Transcription [Paulus & Virtanen, 2005, Niedermayer, 2008].Suivi de partition [Cont, 2006].Reconnaissance multi-f0 et multi-instrument [Cont et al., 2007].Evaluation de la lecture à vue [Cheng et al., 2008].

Problème majeur : contrôler la parcimonie de la décomposition[Cont, 2006, Cont et al., 2007].

[email protected] 29 juin 2009 Soutenance de Stage 5/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Plan

1 Etat de l’art

2 Contrôle de la parcimonieIllustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

3 Résultats

4 Conclusion

[email protected] 29 juin 2009 Soutenance de Stage 6/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Illustration et motivations

Expérience de [Paatero, 1997].Input matrix V

5

10

15

20

25

30

35

402 4 6 8 10 12 14 16 18 20

(a) V = WH + |N|.

Basis vector w1

0

50

100

0 10 20 30 40

Basis vector w2

0

50

0 10 20 30 40

Basis vector w3

0

100

200

0 10 20 30 40

Basis vector w4

0

50

0 10 20 30 40

Encoding coe!cients h1

0

0.5

1

0 10 20 30 0

Encoding coe!cients h2

0

0.5

1

0 10 20 30 40

Encoding coe!cients h3

0

0.5

1

0 10 20 30 40

Encoding coe!cients h4

0

0.5

1

0 10 20 30 40

(b) W et H.

Estimated basis vector w1

0

0.5

1

0 10 20 30 40

Estimated basis vector w2

0

0.5

0 10 20 30 40

Estimated basis vector w3

0

0.5

0 10 20 30 40

Estimated basis vector w4

0

0.5

0 10 20 30 40

Estimated encoding coefficients h1

20

30

40

0 10 20 30 40

Estimated encoding coefficients h2

0

50

100

0 10 20 30 40

Estimated encoding coefficients h3

0

50

100

0 10 20 30 40

Estimated encoding coefficients h4

0

100

200

0 10 20 30 40

(c) W et H.

Figure: Expérience de Paatero avec NMF.

Vers l’utilisation de techniques d’optimisation convexe[Boyd & Vandenberghe, 2004].

[email protected] 29 juin 2009 Soutenance de Stage 7/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Illustration et motivations

Expérience de [Paatero, 1997].Input matrix V

5

10

15

20

25

30

35

402 4 6 8 10 12 14 16 18 20

(a) V = WH + |N|.

Basis vector w1

0

50

100

0 10 20 30 40

Basis vector w2

0

50

0 10 20 30 40

Basis vector w3

0

100

200

0 10 20 30 40

Basis vector w4

0

50

0 10 20 30 40

Encoding coe!cients h1

0

0.5

1

0 10 20 30 0

Encoding coe!cients h2

0

0.5

1

0 10 20 30 40

Encoding coe!cients h3

0

0.5

1

0 10 20 30 40

Encoding coe!cients h4

0

0.5

1

0 10 20 30 40

(b) W et H.

Estimated basis vector w1

0

0.5

1

0 10 20 30 40

Estimated basis vector w2

0

0.5

0 10 20 30 40

Estimated basis vector w3

0

0.5

0 10 20 30 40

Estimated basis vector w4

0

0.5

0 10 20 30 40

Estimated encoding coefficients h1

20

30

40

0 10 20 30 40

Estimated encoding coefficients h2

0

50

100

0 10 20 30 40

Estimated encoding coefficients h3

0

50

100

0 10 20 30 40

Estimated encoding coefficients h4

0

100

200

0 10 20 30 40

(c) W et H.

Figure: Expérience de Paatero avec NMF.

Vers l’utilisation de techniques d’optimisation convexe[Boyd & Vandenberghe, 2004].

[email protected] 29 juin 2009 Soutenance de Stage 7/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Optimisation par gradient projeté

Utilisation de l’optimisation pargradient projeté par [Hoyer, 2004].Mesure de parcimonie :

sp(x) =

√n − ‖x‖1/‖x‖2√

n − 1

0 6 sp(x) 6 1

Choix d’une parcimonie s parl’utilisateur.Descente de gradient avecétape de projection sur le cônede parcimonie s.

[email protected] 29 juin 2009 Soutenance de Stage 8/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Optimisation par gradient projeté

Utilisation de l’optimisation pargradient projeté par [Hoyer, 2004].Mesure de parcimonie :

sp(x) =

√n − ‖x‖1/‖x‖2√

n − 1

0 6 sp(x) 6 1

Choix d’une parcimonie s parl’utilisateur.Descente de gradient avecétape de projection sur le cônede parcimonie s.

Figure: Projection sur un cône deparcimonie.

[email protected] 29 juin 2009 Soutenance de Stage 8/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Programmations conique de second ordre et quadratique convexe

Utilisation de la programmationconique de second ordre par[Heiler & Schnörr, 2006].Optimisation entre deux cônes deparcimonie smin 6 sp(x) 6 smax .

Problème convexe retourné assezcomplexe.Simplification par une séquence deprogrammes coniques de second ordre.Utilisation de la programmationquadratique convexe[Boyd & Vandenberghe, 2004].Plus efficace et robuste.Introduction de pénalités dans lafonction coût.

[email protected] 29 juin 2009 Soutenance de Stage 9/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Programmations conique de second ordre et quadratique convexe

Utilisation de la programmationconique de second ordre par[Heiler & Schnörr, 2006].Optimisation entre deux cônes deparcimonie smin 6 sp(x) 6 smax .Problème convexe retourné assezcomplexe.Simplification par une séquence deprogrammes coniques de second ordre.

Utilisation de la programmationquadratique convexe[Boyd & Vandenberghe, 2004].Plus efficace et robuste.Introduction de pénalités dans lafonction coût.

Figure: Optimisation entre deux cônesde parcimonie.

[email protected] 29 juin 2009 Soutenance de Stage 9/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Illustration et motivationsOptimisation par gradient projetéProgrammations conique de second ordre et quadratique convexe

Programmations conique de second ordre et quadratique convexe

Utilisation de la programmationconique de second ordre par[Heiler & Schnörr, 2006].Optimisation entre deux cônes deparcimonie smin 6 sp(x) 6 smax .Problème convexe retourné assezcomplexe.Simplification par une séquence deprogrammes coniques de second ordre.Utilisation de la programmationquadratique convexe[Boyd & Vandenberghe, 2004].Plus efficace et robuste.Introduction de pénalités dans lafonction coût.

Figure: Optimisation entre deux cônesde parcimonie.

[email protected] 29 juin 2009 Soutenance de Stage 9/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Plan

1 Etat de l’art

2 Contrôle de la parcimonie

3 RésultatsExpérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

4 Conclusion

[email protected] 29 juin 2009 Soutenance de Stage 10/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Expérience de Paatero

Input matrix V

5

10

15

20

25

30

35

402 4 6 8 10 12 14 16 18 20

(a) V = WH + |N|.

Basis vector w1

0

50

100

0 10 20 30 40

Basis vector w2

0

50

0 10 20 30 40

Basis vector w3

0

100

200

0 10 20 30 40

Basis vector w4

0

50

0 10 20 30 40

Encoding coe!cients h1

0

0.5

1

0 10 20 30 0

Encoding coe!cients h2

0

0.5

1

0 10 20 30 40

Encoding coe!cients h3

0

0.5

1

0 10 20 30 40

Encoding coe!cients h4

0

0.5

1

0 10 20 30 40

(b) W et H.

Estimated basis vector w1

0

0.5

1

0 10 20 30 40

Estimated basis vector w2

0

0.5

0 10 20 30 40

Estimated basis vector w3

0

0.5

0 10 20 30 40

Estimated basis vector w4

0

0.5

0 10 20 30 40

Estimated encoding coefficients h1

20

30

40

0 10 20 30 40

Estimated encoding coefficients h2

0

50

100

0 10 20 30 40

Estimated encoding coefficients h3

0

50

100

0 10 20 30 40

Estimated encoding coefficients h4

0

100

200

0 10 20 30 40

(c) W et H.

Figure: Expérience de Paatero avec NMF et SNMF.

[email protected] 29 juin 2009 Soutenance de Stage 11/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Expérience de Paatero

Estimated basis vector !w1

0

0.5

1

0 10 20 30 40

Estimated basis vector !w2

0

0.5

1

0 10 20 30 40

Estimated basis vector !w3

0

0.5

1

0 10 20 30 40

Estimated basis vector !w4

0

0.5

1

0 10 20 30 40

Estimated encoding coe!cients !h1

0

100

200

0 5 10 15 20

Estimated encoding coe!cients !h2

0

50

100

0 5 10 15 20

Estimated encoding coe!cients !h3

0

50

100

0 5 10 15 20

Estimated encoding coe!cients !h4

0

100

200

0 5 10 15 20

(a) W, H (PG, sw = 0.65).

Estimated basis vector !w1

0

0.5

1

0 10 20 30 40

Estimated basis vector !w2

0

0.5

1

0 10 20 30 40

Estimated basis vector !w3

0

0.5

1

0 10 20 30 40

Estimated basis vector !w4

0

0.5

1

0 10 20 30 40

Estimated encoding coe!cients !h1

0

100

200

0 5 10 15 20

Estimated encoding coe!cients !h2

0

100

200

0 5 10 15 20

Estimated encoding coe!cients !h3

0

50

100

0 5 10 15 20

Estimated encoding coe!cients !h4

0

50

100

0 5 10 15 20

(b) W, H (SOCP, sminw = 0.65).

Figure: Expérience de Paatero avec NMF et SNMF.

[email protected] 29 juin 2009 Soutenance de Stage 11/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Reconnaissance multi-f0 et multi-instrument

Représentation :Le spectre de modulation [Sukittanon et al., 2004].Non-négativité, additivité [Atlas & Janssen, 2005].Déjà utilisé, discriminatif [Cont et al., 2007].

Apprentissage des modèles pour chaque note de chaque instrument avecNMF.

689.1

1378.1

2067.2

2756.3

3445.3

4134.4

4823.4

5512.5

2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27

(a) A4 du piano.

689.1

1378.1

2067.2

2756.3

3445.3

4134.4

4823.4

5512.5

2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27

(b) A4 de la flute.

Figure: Modèles de A4 pour la flute et le piano.

[email protected] 29 juin 2009 Soutenance de Stage 12/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Reconnaissance multi-f0 et multi-instrument

Représentation :Le spectre de modulation [Sukittanon et al., 2004].Non-négativité, additivité [Atlas & Janssen, 2005].Déjà utilisé, discriminatif [Cont et al., 2007].

Apprentissage des modèles pour chaque note de chaque instrument avecNMF.

689.1

1378.1

2067.2

2756.3

3445.3

4134.4

4823.4

5512.5

2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27

(a) A4 du piano.

689.1

1378.1

2067.2

2756.3

3445.3

4134.4

4823.4

5512.5

2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27

(b) A4 de la flute.

Figure: Modèles de A4 pour la flute et le piano.

[email protected] 29 juin 2009 Soutenance de Stage 12/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Reconnaissance multi-f0 et multi-instrument

Représentation :Le spectre de modulation [Sukittanon et al., 2004].Non-négativité, additivité [Atlas & Janssen, 2005].Déjà utilisé, discriminatif [Cont et al., 2007].

Apprentissage des modèles pour chaque note de chaque instrument avecNMF.

689.1

1378.1

2067.2

2756.3

3445.3

4134.4

4823.4

5512.5

2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27

(a) A4 du piano.

689.1

1378.1

2067.2

2756.3

3445.3

4134.4

4823.4

5512.5

2.53 5.07 7.6 10.13 12.67 15.2 17.73 20.27

(b) A4 de la flute.

Figure: Modèles de A4 pour la flute et le piano.

[email protected] 29 juin 2009 Soutenance de Stage 12/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Reconnaissance multi-f0 et multi-instrument

0 2 4 6 8 10 12 14

D2

G2

C3

F3

A3

D4

G4

C5

F5

B5

E6

Time in beats

Pitc

h

Piano

flute

Figure: Piano-roll de la Sonate pour Flute et Piano de Poulenc.

[email protected] 29 juin 2009 Soutenance de Stage 12/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Reconnaissance multi-f0 et multi-instrument

Evaluation subjective.

0.0 0.4 0.8 1.1 1.5 1.9 2.3 2.6 3.0 3.4 3.8 4.1 4.5 4.9 5.3 5.6 6.0 6.4 6.8 7.1 7.5 7.9 8.3 8.6 9.0 9.4 9.8 10.1 10.5 10.9 11.3 11.6 12.0 12.4 12.8 13.1 13.5

A0

A1

A2

A3

A4

A5

A6

A7

Noise

B4

A5

A6

Flute

Piano

(a) Algorithme de [Cont et al., 2007].0.0 0.4 0.8 1.1 1.5 1.9 2.3 2.6 3.0 3.4 3.8 4.1 4.5 4.9 5.3 5.6 6.0 6.4 6.8 7.1 7.5 7.9 8.3 8.6 9.0 9.4 9.8 10.1 10.5 10.9 11.3 11.6 12.0 12.4 12.8 13.1 13.5

A0

A1

A2

A3

A4

A5

A6

A7

Noise

B4

A5

A6

Flute

Piano

(b) Algorithme CQP.

Figure: Coefficients d’activation H obtenus.

Evaluation objective en cours.

[email protected] 29 juin 2009 Soutenance de Stage 12/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Analyse de scènes sonores complexes

Spectre d’amplitude.Apprentissage des modèles.

Création d’une scène sonore.

0 2 4 6 8 10 12 14 16 18 20−1

−0.5

0

0.5

1Porte

VerresCasserole

Figure: Forme d’onde de la scène sonore.

[email protected] 29 juin 2009 Soutenance de Stage 13/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Analyse de scènes sonores complexes

Spectre d’amplitude.Apprentissage des modèles.Création d’une scène sonore.

0 2 4 6 8 10 12 14 16 18 20−1

−0.5

0

0.5

1Porte

VerresCasserole

Figure: Forme d’onde de la scène sonore.

[email protected] 29 juin 2009 Soutenance de Stage 13/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Expérience de PaateroReconnaissance multi-f0 et multi-instrumentAnalyse de scènes sonores complexes

Analyse de scènes sonores complexes

Séquence : V – V – C – P – P – P – C – C – V – C – P – P – C.

0 2.9 5.7 8.6 11.4 14.3 17.1 20 0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

CasserolePorteVerres

(a) Coefficients d’activation avec ND.

0 2.9 5.7 8.6 11.4 14.3 17.1 20 0

0.1

0.2

0.3

0.4

0.5

0.6

0.7

0.8

0.9

1

CasserolePorteVerres

(b) Coefficients d’activation avec SND.

Figure: Analyse d’une scène sonore complexe.

[email protected] 29 juin 2009 Soutenance de Stage 13/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Plan

1 Etat de l’art

2 Contrôle de la parcimonie

3 Résultats

4 Conclusion

[email protected] 29 juin 2009 Soutenance de Stage 14/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Conclusion

Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.

[email protected] 29 juin 2009 Soutenance de Stage 15/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Conclusion

Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.

La distance euclidienne avec interprétation géométrique.Autres fonctions coûts, divergences.La divergence d’Itakura-Saito avec interprétation bayésienne[Févotte et al., 2009].

[email protected] 29 juin 2009 Soutenance de Stage 15/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Conclusion

Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.

Transformée en ondelettes.Représentations complexes pour V et W.Tenseurs [Welling & Weber, 2001, Cichocki & Zdunek, 2006, Friedlander, 2006].

[email protected] 29 juin 2009 Soutenance de Stage 15/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Conclusion

Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.

Utilisation du spectre de modulation.Extension du modèle NMF [Smaragdis, 2004].Représentation par états.

[email protected] 29 juin 2009 Soutenance de Stage 15/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Conclusion

Résumé du travail et perspectives.Espace et géométrie du problème.Représentations.Temporalité des évènements.Pouvoir de généralisation et robustesse.

W fixe.Relâchement de la contrainte sur W.Contrôle explicite de la robustesse.

[email protected] 29 juin 2009 Soutenance de Stage 15/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Questions

Merci pour votre attention !

[email protected] 29 juin 2009 Soutenance de Stage 16/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Analyse d’une scène complexe

0 5 10 150

100

200

300

0 5 10 150

200

400

600

0 5 10 150

100

200

300

Porte

Verres

Casserole

(a) Coefficients d’activation avec ND.

0 5 10 150

100

200

0 5 10 150

200

400

0 5 10 150

50

100

Verres

Casserole

Porte

(b) Coefficients d’activation avec SND.

Figure: Analyse d’une scène complexe.

[email protected] 29 juin 2009 Soutenance de Stage 17/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Rythme de batterie

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

20

40

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

200

400

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

5

10

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

200

400

Charley

GrosseCaisse

Tom

Caisse claire

(a) Coefficients d’activation avec ND.

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

10

20

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

200

400

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

2

4

0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 50

200

400

Tom

Caisse claire

Grosse caisse

Charley

(b) Coefficients d’activation avec SND.

Figure: Rythme de batterie.

[email protected] 29 juin 2009 Soutenance de Stage 18/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Bibliographie I

Abdallah, S. A. & Plumbley, M. D. (2004).Polyphonic music transcription by non-negative sparse coding of power spectra.In Proceedings of the 5th International Conference on Music Information Retrieval (ISMIR) (pp. 318–325). Barcelona, Spain.

Atlas, L. E. & Janssen, C. (2005).Coherent modulation spectral filtering for single-channel music source separation.In IEEE International Conference in Acoustics and Speech Signal Processing (ICASSP).

Bertin, N., Badeau, R., & Vincent, E. (2009).Enforcing harmonicity and smoothness in Bayesian non-negative matrix factorization applied to polyphonic music transcription.Technical report, TELECOM ParisTech.

Boyd, S. & Vandenberghe, L. (2004).Convex Optimization.Cambridge University Press.

Cheng, C.-C., Hu, D. J., & Saul, L. K. (2008).Nonnegative matrix factorization for real time musical analysis and sight-reading evaluation.In Acoustics, Speech and Signal Processing 2008, IEEE International Conference on (pp. 2017–2020). Las Vegas, NV, USA.

Cichocki, A. & Zdunek, R. (2006).NMFLAB/NTFLAB – MATLAB Toolbox for Non-Negative Matrix/Tensor Factorization.http://www.bsp.brain.riken.jp/ICALAB/nmflab.html.

Cont, A. (2006).Realtime multiple pitch observation using sparse non-negative constraints.In International Symposium on Music Information Retrieval (ISMIR) Victoria, Canada.

[email protected] 29 juin 2009 Soutenance de Stage 19/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Bibliographie II

Cont, A., Dubnov, S., & Wessel, D. (2007).Realtime multiple-pitch and multiple-instrument recognition for music signals using sparse non-negative constraints.In Proceedings of the 10th International Conference on Digital Audio Effects (DAFx-07) Bordeaux, France.

Friedlander, M. P. (2006).BCLS : A large-scale solver for bound-constrained least squares.http://www.cs.ubc.ca/~mpf/bcls/.

Févotte, C., Bertin, N., & Durrieu, J.-L. (2009).Nonnegative matrix factorization with the itakura-saito divergence : With application to music analysis.Neural Computation, 21(3), 793–830.

Heiler, M. & Schnörr, C. (2006).Learning sparse representations by non-negative matrix factorization and sequential cone programming.Journal of Machine Learning Research, 7, 1385–1407.

Hoyer, P. O. (2004).Non-negative matrix factorization with sparseness constraints.Journal of Machine Learning Research, 5, 1457–1469.

Lee, D. D. & Seung, H. S. (1999).Learning the parts of objects by non-negative matrix factorization.Nature, 401(6755), 788–791.

Niedermayer (2008).Non-negative matrix division for the automatic transcription of polyphonic music.In Proceedings of the 9th International Conference on Music Information Retrieval (ISMIR) (pp. 544–549).

[email protected] 29 juin 2009 Soutenance de Stage 20/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Bibliographie III

Paatero, P. (1997).Least squares formulation of robust non-negative factor analysis.Chenometrics and Intelligent Laboratory Systems, 37(1), 23–35.

Paulus, J. & Virtanen, T. (2005).Drum transcription with non-negative spectrogram factorisation.In Proceedings of the 13th European Signal Processing Conference (EUSIPCO 05) Antalya, Turkey.

Raczyński, S. A., Ono, N., & Sagayama, S. (2007).Harmonic nonnegative matrix approximation for multipitch analysis of musical sounds.In Proceedings of ASJ Autumn Meeting (pp. 827–830).

Sha, F. & Saul, L. K. (2005).Real-time pitch determination of one or more voices by nonnegative matrix factorization.Advances in Neural Information Processing Systems, 17, 1233–1240.

Smaragdis, P. (2004).Non-negative matrix factor deconvolution ; extraction of multiple sound sources from monophonic inputs.In Springer (Ed.), Proceedings of the 5th International Conference on Independent Component Analysis and Blind SignalSeparation (ICA 04), volume 3195 of Lecture Notes in Computer Science (pp. 494–499). Granada, Spain.

Smaragdis, P. & Brown, J. C. (2003).Non-negative matrix factorization for polyphonic music transcription.In IEEE Workshop on Applications of Signal Processing to Audio and Acoustics (pp. 177–180). New Paltz, NY.

Sukittanon, S., Atlas, L. E., & Pitton, J. W. (2004).Modulation-scale analysis for content identification.IEEE Transactions on Signal Processing, 52(10), 3023–3035.

[email protected] 29 juin 2009 Soutenance de Stage 21/16

Etat de l’artContrôle de la parcimonie

RésultatsConclusion

Bibliographie IV

Vincent, E., Bertin, N., & Badeau, R. (2008).Harmonic and inharmonic nonnegative matrix factorization for polyphonic pitch transcription.In Acoustics, Speech and Signal Processing, 2008. ICASSP 2008. IEEE International Conference on (pp. 109 –112).

Welling, M. & Weber, M. (2001).Positive tensor factorization.Pattern Recognition Letters, 22(12), 1255–1261.

[email protected] 29 juin 2009 Soutenance de Stage 22/16