Stéphane ROSSIGNOL
|
|
ma tete |
|
|
|
> Home> Enseignants-Chercheurs
Enseignant Chercheur
Softwares téléchargeables :
Thème de recherches principal :
Depuis plusieurs années, je développe des programmes d'indexation semi-automatique et/ou automatique des sons.
Ce travail concerne principalement la segmentation et l'indexation
des signaux sonores musicaux. Trois niveaux de segmentation
interdépendants sont définis, correspondant chacun à un niveau de
description du son différent.
1) Le premier niveau de segmentation, appelé << sources >>,
concerne la distinction entre la parole/la musique/divers
bruits/etc. Les sons considérés proviennent par exemple de
bandes-son de films ou d'émissions radiophoniques.
Des << fonctions d'observation >> (ou << caractéristiques >>) sont
étudiées, qui ont pour objectif de mettre en évidence les
propriétés différentes du signal de parole, du signal de musique,
etc. Les méthodes de classification de la littérature sont étudiées
et comparées. Les performances du système avec des signaux réels
sont discutées.
2) Le deuxième niveau de segmentation, appelé << caractéristiques >>,
concerne ce type d'index : silence/son, voisé/non voisé,
harmonique/inharmonique, monophonique/polyphonique, avec
vibrato/sans vibrato, avec trémolo/sans trémolo, violon/piano/etc.
La plupart de ces caractéristiques donnent lieu à des fonctions
d'observation utilisées par le troisième niveau de segmentation
décrit ci-dessous.
La détection du vibrato, l'estimation de ses paramètres
(fréquence et amplitude) et sa suppression du trajet de la
fondamentale sont des sujets particulièrement étudiés. Un
ensemble de techniques sont développées. Les performances de
ces techniques avec des sons réels sont discutées.
Le vibrato est supprimé du trajet de la fondamentale original
afin d'obtenir une ligne mélodique << lissée >>. Alors,
ce nouveau trajet de la fondamentale peut être utilisé pour
la segmentation en notes (troisième niveau de segmentation)
des extraits musicaux, et peut aussi être utilisé pour des
modifications ou des analyses supplémentaires de ces sons.
Bien sûr, la détection du vibrato est opérée seulement si, lors
du premier niveau de segmentation, la source << musique >>
a été détectée.
3) Le troisième niveau de segmentation concerne la segmentation
en << notes ou en phones ou plus généralement en parties
stables >>, suivant la nature du son considéré : instrumental,
voix chantée, parole, son percussif...
L'analyse peut être découpée, d'une manière trop simpliste mais ayant
l'avantage d'être plus informative, en quatre étapes distinctes.
La première consiste à extraire un grand nombre de fonctions
d'observation. Une fonction d'observation est d'autant plus
appropriée qu'elle présente des pics grands et fins quand des
transitions surviennent et que sa moyenne et sa variance restent
petites pendant les zones stables. Trois types de transitions
existent : celles en fréquence fondamentale, celles en énergie
et celles en contenu spectral ; chacun correspond à l'un des
critères permettant de différencier psychoacoustiquement les sons.
En deuxième lieu, chaque fonction d'observation est automatiquement
seuillée. En troisième lieu, une fonction de décision finale,
correspondant aux marques de segmentation, est construite à partir
des fonctions d'observation seuillées. Dans ce cadre, des
techniques de fusion de données sont étudiées. Finalement, pour
les sons monophoniques et harmoniques, la transcription
automatique est effectuée. Les performances du système avec
des sons réels sont discutées.
Les données obtenues pour un certain niveau de segmentation
sont utilisées par les niveaux de segmentation de numéro
d'ordre supérieurs afin d'améliorer leurs performances.
La longueur des segments provenant du niveau de segmentation
en << sources >> peut être de quelques minutes. La longueur des
segments donnés par le niveau de segmentation en
<< caractéristiques >> est communément plus petite : elle est disons
de l'ordre de quelques dizaines de secondes. La longueur des
segments fournis par le niveau de segmentation en << zones stables >>
est le plus souvent inférieure à une seconde.
L'unification et la maintenance des programmes mis en place, au fur
et à mesure que de nouvelles techniques sont utilisées, sont
assurées. Notamment, ces programmes sont organisés en cinq ensembles :
1) "Segmentation", visant principalement à la segmentation en notes
(musique) ou en phones (musique et parole).
Notamment, de nouvelles << fonctions d'observation >> sont
continuellement en cours de développement et d'évaluation. Par
exemple, récemment (2007), des fonctions d'observation basées sur
les méthodes à noyaux, comme les SVMs, ont été étudiées.
2) "Sources", visant à la segmentation en sources.
3) Différents pitch-trackers/partial-trackers.
4) Le traitement des << caractéristiques >>, et particulièrement du
vibrato.
5) Une "interface", visant idéalement à être multimodale, pour
qu'elle soit le plus ergonomique possible, et donc pour que
l'indexation à la main se fasse, souplement, le plus vite
possible. Le but de cette interface étant de permettre une
indexation semi-automatique, le complètement automatique demeurant
encore difficile. Il s'agit d'aider à la constitution de grandes
bases de données de signaux sonores musicaux labélisées. Ces bases
de données existent pour la parole, mais elles sont beaucoup moins
nombreuses pour la musique.
|