Generative models for the classification and separation of real-time sound sources
This thesis is part of the A-Volute company, an audio enhancement softwares editor. It offers a radar thattranslates multi-channel audio information into visual information in real-time. This radar, althoughrelevant, lacks intelligence because it only analyses the audio stream in terms of energy and not in terms ofseparate sound sources. The purpose of this thesis is to develop algorithms for classifying and separatingsound sources in real time. On the one hand, audio source classification aims to assign a label (e.g. voice)to a monophonic (one label) or polyphonic (several labels) sound. The developed method uses a specificfeature, the normalized power spectrum, which is useful in both monophonic and polyphonic cases due toits additive properties of the sound sources. This method uses a generative model that allows to derive adecision rule based on a non-parametric estimation. The real-time constraint is achieved by pre-processingthe prototypes with a hierarchical clustering. The results are encouraging on different databases (ownedand benchmark), both in terms of accuracy and computation time, especially in the polyphonic case. Onthe other hand, source separation consists in estimating the sources in terms of signal in a mixture. Twoapproaches to this purpose were considered in this thesis. The first considers the signals to be found asmissing data and estimates them through a generative process and probabilistic modelling. The otherapproach consists, from sound examples present in a database, in computing optimal transformationsof several examples whose combination tends towards the observed mixture. The two proposals arecomplementary, each having advantages and drawbacks (computation time for the first, interpretability ofthe result for the second). The experimental results seem promising and allow us to consider interestingresearch perspectives for each of the proposals.
Cette thèse s’inscrit dans le cadre de l’entreprise A-Volute, éditrice de logiciels d’amélioration d’expérienceaudio. Elle propose un radar qui transpose l’information sonore multi-canale en information visuelleen temps-réel. Ce radar, bien que pertinent, manque d’intelligence car il analyse uniquement le fluxaudio en terme d’énergie et non en termes de sources sonores distinctes. Le but de cette thèse est dedévelopper des algorithmes de classification et de séparation de sources sonores en temps-réel. D’unepart, la classification de sources sonores a pour but d’attribuer un label (son monophonique) ou plusieurslabels (son polyphonique) à un son. La méthode développée utilise un attribut spécifique, le spectrede puissance normalisé, utile à la fois dans le cas monophonique et polyphonique de par sa propriétéd’additivité des sources sonores. Cette méthode utilise un modèle génératif qui permet de dériver unerègle de décision basée sur une estimation non paramétrique. Le passage en temps-réel est réalisé grâceà un pré-traitement des prototypes avec une classification hiérarchique ascendante. Les résultats sontencourageants sur différentes bases de données (propriétaire et de comparaison), que ce soit en termede précision ou de temps de calcul, notamment dans le cas polyphonique. D’autre part, la séparation desources consiste à estimer les sources en terme de signal dans un mélange. Deux approches de séparationont été considérées dans la thèse. La première considère les signaux à retrouver comme des donnéesmanquantes et à les estimer via un schéma génératif et une modélisation probabiliste. L’autre approcheconsiste, à partir d’exemples sonores présent dans une base de données, à calculer des transformationsoptimales de plusieurs exemples dont la combinaison tend vers le mélange observé. Les deux propositionssont complémentaires, avec chacune des avantages et inconvénients (rapidité de calcul pour la première,interprétabilité du résultat pour la deuxième). Les résultats expérimentaux semblent prometteurs et nouspermettent d’envisager des perspectives de recherches intéressantes pour chacune des propositions.