Skip to content

Contrastive Learning for Music Representation - Interaction Humain-Robot Project - Master 2 Informatique, Parcours Vision et Machine Intelligente (VMI)

Notifications You must be signed in to change notification settings

yassinefkh/CLMR

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

10 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Contrastive Learning for Music Representation

Présentation générale

Ce projet explore l’apprentissage contrastif multimodal pour aligner des signaux audio musicaux et des descriptions en langage naturel dans un espace latent partagé. L’objectif est d’apprendre des représentations où la proximité géométrique reflète une proximité sémantique.

Le projet a été réalisé dans le cadre de l’UE Interaction Humain-Robot, enseigné par M. Nizar OUARTI.
Master 2 Informatique - Vision et Machine Intelligente (VMI) - Université Paris Cité.

Auteurs : Titouan BRIERRE, Yassine FEKIH HASSEN


Motivation

La musique est un signal continu, tandis que la compréhension humaine repose sur des concepts abstraits :

  • genre musical,
  • instrumentation dominante,
  • ambiance,
  • énergie ou tempo.

Relier un signal audio brut à ce niveau de compréhension sémantique constitue un défi central en Music Information Retrieval. Le langage naturel fournit une interface intuitive pour exprimer ces concepts, ce qui motive l’étude de l’alignement audio–texte.

Ce projet vise à déterminer si un modèle entraîné par apprentissage contrastif sur des paires audio–texte peut structurer un espace latent cohérent, exploitable pour des tâches de recherche multimodale.


Jeux de données

Le modèle est entraîné à partir de données audio–texte appariées, issues de deux jeux de données complémentaires.

MusicCaps

  • Captions riches en langage naturel
  • Descriptions détaillées (genre, instruments, ambiance, structure)
  • Supervision sémantique de haute qualité

MagnaTagATune

  • Dataset plus large
  • Annotations plus courtes et bruitées
  • Grande diversité stylistique

La combinaison de ces deux jeux de données permet d’exposer le modèle à des formulations linguistiques variées, des niveaux de granularité sémantique différents et une large diversité musicale.

Remarque Il n’existe pas de labels de classes stricts. Les descriptions sont libres, redondantes et subjectives, ce qui rend la classification supervisée classique peu adaptée.


Formulation du problème

Plutôt que de prédire une étiquette, l’objectif est d’apprendre un espace de représentation partagé dans lequel des extraits musicaux sémantiquement proches sont proches géométriquement, audio et texte sont directement comparables et la similarité est mesurée par une distance simple (cosinus)

Cette formulation conduit naturellement à une approche par dual encoder contrastif, inspirée des modèles de type CLIP.


Représentations utilisées

Représentation audio

  • Conversion du signal audio en spectrogramme Mel
  • Passage d’un signal 1D à une représentation 2D temps–fréquence
  • Compatible avec des réseaux convolutionnels

Avantages

  • Représentation perceptuellement motivée
  • Bon compromis expressivité / coût

Limites

  • Perte de la phase
  • Certaines informations fines de timbre sont atténuées

Représentation textuelle

  • Captions en langage naturel
  • Encodage via un Transformer pré-entraîné
  • Représentation globale de la phrase
  • Projection dans l’espace latent commun avec l’audio

L’utilisation d’un modèle pré-entraîné permet de bénéficier de connaissances linguistiques générales et d’améliorer la stabilité de l’apprentissage.


Architecture contrastive

Le modèle repose sur une architecture à double encodeur :

  • un encodeur audio produisant un embedding audio,
  • un encodeur texte produisant un embedding textuel,
  • normalisation L2 des embeddings,
  • similarité cosinus,
  • température apprise pour contrôler la distribution des scores.


Fonction de perte contrastive

Pour un batch de taille (B), chaque extrait audio (a_i) est associé à sa caption correspondante (t_i). Toutes les autres paires du batch sont considérées comme négatives.

La perte est calculée de manière symétrique :

  • audio → texte,
  • texte → audio.

Intuition géométrique

  • rapprocher les paires audio–texte correspondantes,
  • éloigner les paires non correspondantes,
  • structurer l’espace latent selon des critères sémantiques.

Analyse des représentations apprises

Afin d’analyser la structure de l’espace latent, des projections par PCA / t-SNE sont réalisées.

Observations

  • fort recouvrement entre embeddings audio et texte,
  • absence de séparation stricte par modalité,
  • espace réellement partagé.

La visualisation joue ici un rôle clé pour valider la qualité des représentations.


Recherche multimodale (Retrieval)

Audio → Texte : exemple qualitatif

Rang Caption récupérée Score
Query (GT) A song with classical.
1 A song with classical, harpsichord, violin, slow. 0.915
2 A song with strings, classic. 0.906
3 A song with harpsichord, classical, strings. 0.895
4 A song with harpsichord, classical, strings. 0.895
5 A song with harpsichord, strings, baroque. 0.890

Les résultats montrent une cohérence forte : nous avons des instruments similaires, des styles proches et une robustesse aux variations lexicales.


Évaluation quantitative

Recall@K classique (strict)

Les scores de Recall@K strict sont relativement faibles :

  • Audio → Texte : R@1 = 4.62, R@10 = 23.80
  • Texte → Audio : R@1 = 4.23, R@10 = 22.80

Cela s’explique par le fait que plusieurs captions peuvent être sémantiquement correctes pour un même extrait audio, sans correspondre exactement à la caption de référence.


Semantic Recall@K

Pour pallier cette limite, une métrique de Semantic Recall@K est introduite à l’aide de SBERT. Une requête est considérée correcte si au moins une caption récupérée dépasse un seuil de similarité sémantique ((\tau = 0.70)).

Résultats :

  • Audio → Texte : SR@1 = 42.11, SR@10 = 73.64
  • Texte → Audio : SR@1 = 42.33, SR@10 = 91.15

Ces résultats confirment que le modèle capture effectivement des similarités sémantiques pertinentes, même en l’absence de correspondance exacte.


Limites

  • Forte dépendance à la qualité des captions
  • Subjectivité humaine dans les descriptions
  • Spectrogramme Mel comme compromis
  • Sensibilité aux choix de normalisation
  • Déséquilibres entre styles musicaux

Perspectives

  • Encodeurs audio plus puissants (PANN, AST)
  • Représentations musicales symboliques
  • Hybridation audio–symbolique
  • Jeux de données multimodaux plus structurés

About

Contrastive Learning for Music Representation - Interaction Humain-Robot Project - Master 2 Informatique, Parcours Vision et Machine Intelligente (VMI)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published