Les Enseignants-Chercheurs du Campus de Metz
 
Stéphane ROSSIGNOL


Enseignant-Chercheur

CentraleSupélec
Campus de Metz
2 rue Edouard Belin
57070 Metz
FRANCE

Tél: +33(0)387 76 47 73
Fax: +33(0)387 76 47 00
Courriel:

 
Ma page...
 
Activités d'enseignement
 
Recherche :
Thèmes de recherche
Mes publications
 
ma tete
 
> Home> Enseignants-Chercheurs

 Enseignant Chercheur

Softwares téléchargeables :

Thème de recherches principal : Depuis plusieurs années, je développe des programmes d'indexation semi-automatique et/ou automatique des sons.

Ce travail concerne principalement la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent.

  • 1) Le premier niveau de segmentation, appelé << sources >>, concerne la distinction entre la parole/la musique/divers bruits/etc. Les sons considérés proviennent par exemple de bandes-son de films ou d'émissions radiophoniques.

    Des << fonctions d'observation >> (ou << caractéristiques >>) sont étudiées, qui ont pour objectif de mettre en évidence les propriétés différentes du signal de parole, du signal de musique, etc. Les méthodes de classification de la littérature sont étudiées et comparées. Les performances du système avec des signaux réels sont discutées.

  • 2) Le deuxième niveau de segmentation, appelé << caractéristiques >>, concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato, avec trémolo/sans trémolo, violon/piano/etc. La plupart de ces caractéristiques donnent lieu à des fonctions d'observation utilisées par le troisième niveau de segmentation décrit ci-dessous.

    La détection du vibrato, l'estimation de ses paramètres (fréquence et amplitude) et sa suppression du trajet de la fondamentale sont des sujets particulièrement étudiés. Un ensemble de techniques sont développées. Les performances de ces techniques avec des sons réels sont discutées.

    Le vibrato est supprimé du trajet de la fondamentale original afin d'obtenir une ligne mélodique << lissée >>. Alors, ce nouveau trajet de la fondamentale peut être utilisé pour la segmentation en notes (troisième niveau de segmentation) des extraits musicaux, et peut aussi être utilisé pour des modifications ou des analyses supplémentaires de ces sons.

    Bien sûr, la détection du vibrato est opérée seulement si, lors du premier niveau de segmentation, la source << musique >> a été détectée.

  • 3) Le troisième niveau de segmentation concerne la segmentation en << notes ou en phones ou plus généralement en parties stables >>, suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif...

    L'analyse peut être découpée, d'une manière trop simpliste mais ayant l'avantage d'être plus informative, en quatre étapes distinctes. La première consiste à extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriée qu'elle présente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en fréquence fondamentale, celles en énergie et celles en contenu spectral ; chacun correspond à l'un des critères permettant de différencier psychoacoustiquement les sons. En deuxième lieu, chaque fonction d'observation est automatiquement seuillée. En troisième lieu, une fonction de décision finale, correspondant aux marques de segmentation, est construite à partir des fonctions d'observation seuillées. Dans ce cadre, des techniques de fusion de données sont étudiées. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuée. Les performances du système avec des sons réels sont discutées.

Les données obtenues pour un certain niveau de segmentation sont utilisées par les niveaux de segmentation de numéro d'ordre supérieurs afin d'améliorer leurs performances.

La longueur des segments provenant du niveau de segmentation en << sources >> peut être de quelques minutes. La longueur des segments donnés par le niveau de segmentation en << caractéristiques >> est communément plus petite : elle est disons de l'ordre de quelques dizaines de secondes. La longueur des segments fournis par le niveau de segmentation en << zones stables >> est le plus souvent inférieure à une seconde.

L'unification et la maintenance des programmes mis en place, au fur et à mesure que de nouvelles techniques sont utilisées, sont assurées. Notamment, ces programmes sont organisés en cinq ensembles :

  • 1) "Segmentation", visant principalement à la segmentation en notes (musique) ou en phones (musique et parole).

    Notamment, de nouvelles << fonctions d'observation >> sont continuellement en cours de développement et d'évaluation. Par exemple, récemment (2007), des fonctions d'observation basées sur les méthodes à noyaux, comme les SVMs, ont été étudiées.

  • 2) "Sources", visant à la segmentation en sources.

  • 3) Différents pitch-trackers/partial-trackers.

  • 4) Le traitement des << caractéristiques >>, et particulièrement du vibrato.

  • 5) Une "interface", visant idéalement à être multimodale, pour qu'elle soit le plus ergonomique possible, et donc pour que l'indexation à la main se fasse, souplement, le plus vite possible. Le but de cette interface étant de permettre une indexation semi-automatique, le complètement automatique demeurant encore difficile. Il s'agit d'aider à la constitution de grandes bases de données de signaux sonores musicaux labélisées. Ces bases de données existent pour la parole, mais elles sont beaucoup moins nombreuses pour la musique.