Contrastive Learning for Music Representation

Présentation générale

Ce projet explore l’apprentissage contrastif multimodal pour aligner des signaux audio musicaux et des descriptions en langage naturel dans un espace latent partagé. L’objectif est d’apprendre des représentations où la proximité géométrique reflète une proximité sémantique.

Le projet a été réalisé dans le cadre de l’UE Interaction Humain-Robot, enseigné par M. Nizar OUARTI.
Master 2 Informatique - Vision et Machine Intelligente (VMI) - Université Paris Cité.

Auteurs : Titouan BRIERRE, Yassine FEKIH HASSEN

Motivation

La musique est un signal continu, tandis que la compréhension humaine repose sur des concepts abstraits :

genre musical,
instrumentation dominante,
ambiance,
énergie ou tempo.

Relier un signal audio brut à ce niveau de compréhension sémantique constitue un défi central en Music Information Retrieval. Le langage naturel fournit une interface intuitive pour exprimer ces concepts, ce qui motive l’étude de l’alignement audio–texte.

Ce projet vise à déterminer si un modèle entraîné par apprentissage contrastif sur des paires audio–texte peut structurer un espace latent cohérent, exploitable pour des tâches de recherche multimodale.

Jeux de données

Le modèle est entraîné à partir de données audio–texte appariées, issues de deux jeux de données complémentaires.

MusicCaps

Captions riches en langage naturel
Descriptions détaillées (genre, instruments, ambiance, structure)
Supervision sémantique de haute qualité

MagnaTagATune

Dataset plus large
Annotations plus courtes et bruitées
Grande diversité stylistique

La combinaison de ces deux jeux de données permet d’exposer le modèle à des formulations linguistiques variées, des niveaux de granularité sémantique différents et une large diversité musicale.

Remarque Il n’existe pas de labels de classes stricts. Les descriptions sont libres, redondantes et subjectives, ce qui rend la classification supervisée classique peu adaptée.

Formulation du problème

Plutôt que de prédire une étiquette, l’objectif est d’apprendre un espace de représentation partagé dans lequel des extraits musicaux sémantiquement proches sont proches géométriquement, audio et texte sont directement comparables et la similarité est mesurée par une distance simple (cosinus)

Cette formulation conduit naturellement à une approche par dual encoder contrastif, inspirée des modèles de type CLIP.

Représentations utilisées

Représentation audio

Conversion du signal audio en spectrogramme Mel
Passage d’un signal 1D à une représentation 2D temps–fréquence
Compatible avec des réseaux convolutionnels

Avantages

Représentation perceptuellement motivée
Bon compromis expressivité / coût

Limites

Perte de la phase
Certaines informations fines de timbre sont atténuées

Représentation textuelle

Captions en langage naturel
Encodage via un Transformer pré-entraîné
Représentation globale de la phrase
Projection dans l’espace latent commun avec l’audio

L’utilisation d’un modèle pré-entraîné permet de bénéficier de connaissances linguistiques générales et d’améliorer la stabilité de l’apprentissage.

Architecture contrastive

Le modèle repose sur une architecture à double encodeur :

un encodeur audio produisant un embedding audio,
un encodeur texte produisant un embedding textuel,
normalisation L2 des embeddings,
similarité cosinus,
température apprise pour contrôler la distribution des scores.

Fonction de perte contrastive

Pour un batch de taille (B), chaque extrait audio (a_i) est associé à sa caption correspondante (t_i). Toutes les autres paires du batch sont considérées comme négatives.

La perte est calculée de manière symétrique :

audio → texte,
texte → audio.

Intuition géométrique

rapprocher les paires audio–texte correspondantes,
éloigner les paires non correspondantes,
structurer l’espace latent selon des critères sémantiques.

Analyse des représentations apprises

Afin d’analyser la structure de l’espace latent, des projections par PCA / t-SNE sont réalisées.

Observations

fort recouvrement entre embeddings audio et texte,
absence de séparation stricte par modalité,
espace réellement partagé.

La visualisation joue ici un rôle clé pour valider la qualité des représentations.

Recherche multimodale (Retrieval)

Audio → Texte : exemple qualitatif

Rang	Caption récupérée	Score
Query (GT)	A song with classical.
1	A song with classical, harpsichord, violin, slow.	0.915
2	A song with strings, classic.	0.906
3	A song with harpsichord, classical, strings.	0.895
4	A song with harpsichord, classical, strings.	0.895
5	A song with harpsichord, strings, baroque.	0.890

Les résultats montrent une cohérence forte : nous avons des instruments similaires, des styles proches et une robustesse aux variations lexicales.

Évaluation quantitative

Recall@K classique (strict)

Les scores de Recall@K strict sont relativement faibles :

Audio → Texte : R@1 = 4.62, R@10 = 23.80
Texte → Audio : R@1 = 4.23, R@10 = 22.80

Cela s’explique par le fait que plusieurs captions peuvent être sémantiquement correctes pour un même extrait audio, sans correspondre exactement à la caption de référence.

Semantic Recall@K

Pour pallier cette limite, une métrique de Semantic Recall@K est introduite à l’aide de SBERT. Une requête est considérée correcte si au moins une caption récupérée dépasse un seuil de similarité sémantique ((\tau = 0.70)).

Résultats :

Audio → Texte : SR@1 = 42.11, SR@10 = 73.64
Texte → Audio : SR@1 = 42.33, SR@10 = 91.15

Ces résultats confirment que le modèle capture effectivement des similarités sémantiques pertinentes, même en l’absence de correspondance exacte.

Limites

Forte dépendance à la qualité des captions
Subjectivité humaine dans les descriptions
Spectrogramme Mel comme compromis
Sensibilité aux choix de normalisation
Déséquilibres entre styles musicaux

Perspectives

Encodeurs audio plus puissants (PANN, AST)
Représentations musicales symboliques
Hybridation audio–symbolique
Jeux de données multimodaux plus structurés

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
checkpoints		checkpoints
code		code
documents		documents
figures		figures
.gitattributes		.gitattributes
README.MD		README.MD

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Contrastive Learning for Music Representation

Présentation générale

Motivation

Jeux de données

MusicCaps

MagnaTagATune

Formulation du problème

Représentations utilisées

Représentation audio

Représentation textuelle

Architecture contrastive

Fonction de perte contrastive

Analyse des représentations apprises

Observations

Recherche multimodale (Retrieval)

Audio → Texte : exemple qualitatif

Évaluation quantitative

Recall@K classique (strict)

Semantic Recall@K

Limites

Perspectives

About

Uh oh!

Releases

Packages

Languages

yassinefkh/CLMR

Folders and files

Latest commit

History

Repository files navigation

Contrastive Learning for Music Representation

Présentation générale

Motivation

Jeux de données

MusicCaps

MagnaTagATune

Formulation du problème

Représentations utilisées

Représentation audio

Représentation textuelle

Architecture contrastive

Fonction de perte contrastive

Analyse des représentations apprises

Observations

Recherche multimodale (Retrieval)

Audio → Texte : exemple qualitatif

Évaluation quantitative

Recall@K classique (strict)

Semantic Recall@K

Limites

Perspectives

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages