CENTRALESUPELEC :

Softwares téléchargeables :

1) Un pitch-tracker basé sur l'autocorrélation (en octave/matlab). Il faut que le pitch soit compris entre 100 Hz et 600 Hz. On récupère aussi des informations sur le voisement. A moins de mettre les mains dans le code octave/matlab donné, les paramètres ne sont pas accessibles (c'est-à-dire via des paramètres de la fonction octave/matlab). Mon but était de fournir un code aussi concis que possible. N'hésitez pas à l'utiliser et à vous plaindre des résultats obtenus : j'essaierai d'en tenir compte dans les prochaines versions de la chose.

Version de janvier 2016 du pitcher

Ci-dessous, vous trouvez un petit rapport décrivant l'algorithme et donnant quelques performances.

Version 1.01 du rapport
2) Segmentation en sources d'un signal (les sources possibles étant la parole et la musique)
3) Petite boîte à outils pour calculer la FFT, etc. Utilisée notamment pour la segmentation en sources ci-dessus.

L'archive est disponible ici, si le lien donné dans les pages ci-dessus ne marche plus : version de janvier 2016
4) Petite boîte à outils, avec des exemples d'utilisation incorporés, permettant de calculer l'optimisation SMO pour les nu-SVM mono-classe. Des bases de grande dimension peuvent être considérées : plusieurs centaines de milliers, voire plusieurs millions de données.
5) Petite boîte à outils pour calculer les cepstres. Utilisée par la segmentation en sources (dans le futur), etc.
6) Petite boîte à outils pour calculer les MLS (Maximum Length Sequence) et la FHT (Fast Hadamar Transform)
7) Petite boîte à outils pour interpréter les signaux d'écriture (on-line)

Thème de recherches principal : Depuis plusieurs années, je développe des programmes d'indexation semi-automatique et/ou automatique des sons.

Ce travail concerne principalement la segmentation et l'indexation des signaux sonores musicaux. Trois niveaux de segmentation interdépendants sont définis, correspondant chacun à un niveau de description du son différent.

1) Le premier niveau de segmentation, appelé << sources >>, concerne la distinction entre la parole/la musique/divers bruits/etc. Les sons considérés proviennent par exemple de bandes-son de films ou d'émissions radiophoniques.
Des << fonctions d'observation >> (ou << caractéristiques >>) sont étudiées, qui ont pour objectif de mettre en évidence les propriétés différentes du signal de parole, du signal de musique, etc. Les méthodes de classification de la littérature sont étudiées et comparées. Les performances du système avec des signaux réels sont discutées.
2) Le deuxième niveau de segmentation, appelé << caractéristiques >>, concerne ce type d'index : silence/son, voisé/non voisé, harmonique/inharmonique, monophonique/polyphonique, avec vibrato/sans vibrato, avec trémolo/sans trémolo, violon/piano/etc. La plupart de ces caractéristiques donnent lieu à des fonctions d'observation utilisées par le troisième niveau de segmentation décrit ci-dessous.
La détection du vibrato, l'estimation de ses paramètres (fréquence et amplitude) et sa suppression du trajet de la fondamentale sont des sujets particulièrement étudiés. Un ensemble de techniques sont développées. Les performances de ces techniques avec des sons réels sont discutées.
Le vibrato est supprimé du trajet de la fondamentale original afin d'obtenir une ligne mélodique << lissée >>. Alors, ce nouveau trajet de la fondamentale peut être utilisé pour la segmentation en notes (troisième niveau de segmentation) des extraits musicaux, et peut aussi être utilisé pour des modifications ou des analyses supplémentaires de ces sons.
Bien sûr, la détection du vibrato est opérée seulement si, lors du premier niveau de segmentation, la source << musique >> a été détectée.
3) Le troisième niveau de segmentation concerne la segmentation en << notes ou en phones ou plus généralement en parties stables >>, suivant la nature du son considéré : instrumental, voix chantée, parole, son percussif...
L'analyse peut être découpée, d'une manière trop simpliste mais ayant l'avantage d'être plus informative, en quatre étapes distinctes. La première consiste à extraire un grand nombre de fonctions d'observation. Une fonction d'observation est d'autant plus appropriée qu'elle présente des pics grands et fins quand des transitions surviennent et que sa moyenne et sa variance restent petites pendant les zones stables. Trois types de transitions existent : celles en fréquence fondamentale, celles en énergie et celles en contenu spectral ; chacun correspond à l'un des critères permettant de différencier psychoacoustiquement les sons. En deuxième lieu, chaque fonction d'observation est automatiquement seuillée. En troisième lieu, une fonction de décision finale, correspondant aux marques de segmentation, est construite à partir des fonctions d'observation seuillées. Dans ce cadre, des techniques de fusion de données sont étudiées. Finalement, pour les sons monophoniques et harmoniques, la transcription automatique est effectuée. Les performances du système avec des sons réels sont discutées.

Les données obtenues pour un certain niveau de segmentation sont utilisées par les niveaux de segmentation de numéro d'ordre supérieurs afin d'améliorer leurs performances.

La longueur des segments provenant du niveau de segmentation en << sources >> peut être de quelques minutes. La longueur des segments donnés par le niveau de segmentation en << caractéristiques >> est communément plus petite : elle est disons de l'ordre de quelques dizaines de secondes. La longueur des segments fournis par le niveau de segmentation en << zones stables >> est le plus souvent inférieure à une seconde.

L'unification et la maintenance des programmes mis en place, au fur et à mesure que de nouvelles techniques sont utilisées, sont assurées. Notamment, ces programmes sont organisés en cinq ensembles :

1) "Segmentation", visant principalement à la segmentation en notes (musique) ou en phones (musique et parole).
Notamment, de nouvelles << fonctions d'observation >> sont continuellement en cours de développement et d'évaluation. Par exemple, récemment (2007), des fonctions d'observation basées sur les méthodes à noyaux, comme les SVMs, ont été étudiées.
2) "Sources", visant à la segmentation en sources.
3) Différents pitch-trackers/partial-trackers.
4) Le traitement des << caractéristiques >>, et particulièrement du vibrato.
5) Une "interface", visant idéalement à être multimodale, pour qu'elle soit le plus ergonomique possible, et donc pour que l'indexation à la main se fasse, souplement, le plus vite possible. Le but de cette interface étant de permettre une indexation semi-automatique, le complètement automatique demeurant encore difficile. Il s'agit d'aider à la constitution de grandes bases de données de signaux sonores musicaux labélisées. Ces bases de données existent pour la parole, mais elles sont beaucoup moins nombreuses pour la musique.