Ce projet explore l’apprentissage contrastif multimodal pour aligner des signaux audio musicaux et des descriptions en langage naturel dans un espace latent partagé. L’objectif est d’apprendre des représentations où la proximité géométrique reflète une proximité sémantique.
Le projet a été réalisé dans le cadre de l’UE Interaction Humain-Robot, enseigné par M. Nizar OUARTI.
Master 2 Informatique - Vision et Machine Intelligente (VMI) - Université Paris Cité.
Auteurs : Titouan BRIERRE, Yassine FEKIH HASSEN
La musique est un signal continu, tandis que la compréhension humaine repose sur des concepts abstraits :
- genre musical,
- instrumentation dominante,
- ambiance,
- énergie ou tempo.
Relier un signal audio brut à ce niveau de compréhension sémantique constitue un défi central en Music Information Retrieval. Le langage naturel fournit une interface intuitive pour exprimer ces concepts, ce qui motive l’étude de l’alignement audio–texte.
Ce projet vise à déterminer si un modèle entraîné par apprentissage contrastif sur des paires audio–texte peut structurer un espace latent cohérent, exploitable pour des tâches de recherche multimodale.
Le modèle est entraîné à partir de données audio–texte appariées, issues de deux jeux de données complémentaires.
- Captions riches en langage naturel
- Descriptions détaillées (genre, instruments, ambiance, structure)
- Supervision sémantique de haute qualité
- Dataset plus large
- Annotations plus courtes et bruitées
- Grande diversité stylistique
La combinaison de ces deux jeux de données permet d’exposer le modèle à des formulations linguistiques variées, des niveaux de granularité sémantique différents et une large diversité musicale.
Remarque Il n’existe pas de labels de classes stricts. Les descriptions sont libres, redondantes et subjectives, ce qui rend la classification supervisée classique peu adaptée.
Plutôt que de prédire une étiquette, l’objectif est d’apprendre un espace de représentation partagé dans lequel des extraits musicaux sémantiquement proches sont proches géométriquement, audio et texte sont directement comparables et la similarité est mesurée par une distance simple (cosinus)
Cette formulation conduit naturellement à une approche par dual encoder contrastif, inspirée des modèles de type CLIP.
- Conversion du signal audio en spectrogramme Mel
- Passage d’un signal 1D à une représentation 2D temps–fréquence
- Compatible avec des réseaux convolutionnels
Avantages
- Représentation perceptuellement motivée
- Bon compromis expressivité / coût
Limites
- Perte de la phase
- Certaines informations fines de timbre sont atténuées
- Captions en langage naturel
- Encodage via un Transformer pré-entraîné
- Représentation globale de la phrase
- Projection dans l’espace latent commun avec l’audio
L’utilisation d’un modèle pré-entraîné permet de bénéficier de connaissances linguistiques générales et d’améliorer la stabilité de l’apprentissage.
Le modèle repose sur une architecture à double encodeur :
- un encodeur audio produisant un embedding audio,
- un encodeur texte produisant un embedding textuel,
- normalisation L2 des embeddings,
- similarité cosinus,
- température apprise pour contrôler la distribution des scores.
Pour un batch de taille (B), chaque extrait audio (a_i) est associé à sa caption correspondante (t_i). Toutes les autres paires du batch sont considérées comme négatives.
La perte est calculée de manière symétrique :
- audio → texte,
- texte → audio.
Intuition géométrique
- rapprocher les paires audio–texte correspondantes,
- éloigner les paires non correspondantes,
- structurer l’espace latent selon des critères sémantiques.
Afin d’analyser la structure de l’espace latent, des projections par PCA / t-SNE sont réalisées.
- fort recouvrement entre embeddings audio et texte,
- absence de séparation stricte par modalité,
- espace réellement partagé.
La visualisation joue ici un rôle clé pour valider la qualité des représentations.
| Rang | Caption récupérée | Score |
|---|---|---|
| Query (GT) | A song with classical. | |
| 1 | A song with classical, harpsichord, violin, slow. | 0.915 |
| 2 | A song with strings, classic. | 0.906 |
| 3 | A song with harpsichord, classical, strings. | 0.895 |
| 4 | A song with harpsichord, classical, strings. | 0.895 |
| 5 | A song with harpsichord, strings, baroque. | 0.890 |
Les résultats montrent une cohérence forte : nous avons des instruments similaires, des styles proches et une robustesse aux variations lexicales.
Les scores de Recall@K strict sont relativement faibles :
- Audio → Texte : R@1 = 4.62, R@10 = 23.80
- Texte → Audio : R@1 = 4.23, R@10 = 22.80
Cela s’explique par le fait que plusieurs captions peuvent être sémantiquement correctes pour un même extrait audio, sans correspondre exactement à la caption de référence.
Pour pallier cette limite, une métrique de Semantic Recall@K est introduite à l’aide de SBERT. Une requête est considérée correcte si au moins une caption récupérée dépasse un seuil de similarité sémantique ((\tau = 0.70)).
Résultats :
- Audio → Texte : SR@1 = 42.11, SR@10 = 73.64
- Texte → Audio : SR@1 = 42.33, SR@10 = 91.15
Ces résultats confirment que le modèle capture effectivement des similarités sémantiques pertinentes, même en l’absence de correspondance exacte.
- Forte dépendance à la qualité des captions
- Subjectivité humaine dans les descriptions
- Spectrogramme Mel comme compromis
- Sensibilité aux choix de normalisation
- Déséquilibres entre styles musicaux
- Encodeurs audio plus puissants (PANN, AST)
- Représentations musicales symboliques
- Hybridation audio–symbolique
- Jeux de données multimodaux plus structurés

