Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores

Léo Cances

Le moteur de recherche
des thèses françaises

Désactiver l'aide à la saisie

Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores

FR |

EN

Auteur / Autrice :	Léo Cances
Direction :	Thomas Pellegrini
Type :	Thèse de doctorat
Discipline(s) :	Intelligence Artificielle
Date :	Soutenance le 14/12/2021
Etablissement(s) :	Toulouse 3
Ecole(s) doctorale(s) :	École doctorale Mathématiques, informatique et télécommunications (Toulouse)
Partenaire(s) de recherche :	Laboratoire : Institut de Recherche en Informatique de Toulouse (1995-....)
Jury :	Président / Présidente : Geoffroy Peeters
	Examinateurs / Examinatrices : Thomas Pellegrini, Sylvie, Julie Chambon
	Rapporteur / Rapporteuse : Alain Rakotomamonjy

Mots clés

FR |

EN

Mots clés contrôlés

Classification

Sons

Apprentissage non supervisé (intelligence artificielle)

Apprentissage profond

Mots clés libres

Apprentissage profond

Apprentissage faiblement supervisé

Apprentissage semi-supervisé

Détection d'évènements sonores

Évènements sonores

Résumé

FR |

EN

La quantité de données produite par les médias tel que Youtube est une mine d'or d'information pour les algorithmes d'apprentissage machine. Une mine d'or inatteignable tant que ces informations n'ont pas été raffinées. Pour les algorithmes dits supervisés, il est nécessaire d'associer à chaque information disponible une étiquette permettant de l'identifier et de l'utiliser. C'est un travail fastidieux, lent et coûteux, réalisé par des annotateurs humains de manière bénévole ou professionnellement. Cependant, la quantité d'information générée chaque jour excède largement nos capacités d'annotation humaine. Il est alors nécessaire de se tourner vers des méthodes d'apprentissage capables d'utiliser l'information dans sa forme brute ou légèrement travaillée. Cette problématique est au coeur de ma thèse, où il s'agit, dans une première partie, d'exploiter des annotations humaines dites '' faibles '', puis d'exploiter des données partiellement annotées dans une seconde partie. La détection automatique d'évènements sonores polyphoniques est une problématique difficile à résoudre. Les évènements sonores se superposent, se répètent et varient dans le domaine fréquentiel même au sein d'une même catégorie. Toutes ces difficultés rendent la tâche d'annotation encore plus difficile, non seulement pour un annotateur humain, mais aussi pour des systèmes entraînés à la classification. La classification audio de manière semi-supervisée, c'est-à-dire lorsqu'une partie conséquente du jeu de données n'a pas été annotée, est l'une des solutions proposées à la problématique de l'immense quantité de données générée chaque jour. Les méthodes d'apprentissage profond semi-supervisées sont nombreuses et utilisent différents mécanismes permettant d'extraire implicitement des informations des données non-annotées, les rendant ainsi utiles et directement utilisables. L'objectif de cette thèse est dans un premier temps, d'étudier et proposer des approches faiblement supervisées pour la tâche de détection d'évènements sonores, mises en oeuvre lors de notre participation à la tâche quatre du défi international DCASE. Il s'agit ici d'enregistrements audio faiblement supervisés réalistes, de type bruits domestique. Afin de résoudre cette tâche, nous avons proposé deux solutions fondées sur les réseaux de neurones convolutifs récurrents, ainsi que sur des hypothèses statistiques contraignant l'entraînement. Dans un second temps, nous nous pencherons sur l'apprentissage profond semi-supervisé, lorsqu'une majorité de l'information n'est pas annotée. Nous comparons des approches développées pour la classification d'images au départ, avant de proposer leur application À la classification audio. Nous montrons que les approches les plus récentes permettent d'obtenir des résultats aussi bons qu'un entraînement entièrement supervisé, qui lui aurait eu accès à l'intégralité des annotations.

Le moteur de recherche
des thèses françaises

Les thèses

Les personnes
liées aux thèses

Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche des thèses françaises

Les thèses

Les personnes liées aux thèses

Recherche Avancée

Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores

Mots clés

Mots clés contrôlés

Mots clés libres

Résumé

Le moteur de recherche
des thèses françaises

Les personnes
liées aux thèses