🎯 MemeRAG: Enhancing Persuasive Meme Detection via Knowledge Retrieval and Multi-Factor Bilinear Pooling

RAG-Enhanced Hierarchical Multimodal Fusion for Persuasive Meme Detection: From Binary Classification to Persuasion Type Identification

This repository contains the implementation of a novel hierarchical multimodal framework for detecting and analyzing persuasive techniques in internet memes. Our approach leverages Retrieval-Augmented Generation (RAG) enhanced multimodal fusion with Multimodal Factorized Bilinear (MFB) pooling to achieve state-of-the-art performance across three hierarchical tasks.

🚀 Research Highlights

🎯 Novel Hierarchical Architecture: Three-stage classification pipeline (Binary → Intensity → Type)
🔍 RAG-Enhanced Multimodal Fusion: First to integrate RAG with MFB for meme analysis
📊 Comprehensive Evaluation: Multi-task learning with 9 persuasion techniques
⚡ Production-Ready: Robust error handling, logging, and reproducibility
📈 State-of-the-Art Performance: Enhanced metrics across all tasks

🎯 Overview

Persuasive memes represent a complex multimodal phenomenon where visual and textual elements work together to influence opinions and behaviors. Our research addresses the critical challenge of automatically detecting and categorizing persuasive techniques in memes through a hierarchical multimodal approach.

Key Contributions

RAG-Enhanced Multimodal Fusion: Integration of Retrieval-Augmented Generation with Multimodal Factorized Bilinear pooling
Hierarchical Classification Pipeline: Three-stage approach for comprehensive persuasion analysis
Attention-Based Modality Fusion: Novel attention mechanism for effective text-image-RAG integration
Multi-Task Learning Framework: Simultaneous learning of binary classification, intensity detection, and persuasion type identification

🏗️ Architecture

Enhanced MFB with RAG Integration

class EnhancedMFB(nn.Module):
    def __init__(self, img_feat_size, txt_feat_size, rag_feat_size, mfb_k=256, mfb_o=64):
        # Separate projections for each modality
        self.proj_img = nn.Linear(img_feat_size, mfb_k * mfb_o)
        self.proj_txt = nn.Linear(txt_feat_size, mfb_k * mfb_o)
        self.proj_rag = nn.Linear(rag_feat_size, mfb_k * mfb_o)
        
        # Attention mechanism for modality fusion
        self.attention = nn.MultiheadAttention(mfb_o, num_heads=8, batch_first=True)

Hierarchical Classification Pipeline

Input Meme (Text + Image)
    ↓
Task 1: Binary Classification (Persuasive vs Non-Persuasive)
    ↓
Task 2: Intensity Detection (6 levels: None to Slightly Positively Persuasive)
    ↓
Task 3: Persuasion Type Identification (9 techniques)

📊 Tasks

Task 1: Binary Persuasive Classification

Objective: Distinguish between persuasive and non-persuasive memes
Classes: 2 (Persuasive: 1, Non-Persuasive: 0)
Features: Text, Image, RAG-enhanced text
Model: Enhanced MFB with binary classification head

Task 2: Persuasion Intensity Detection

Objective: Determine the intensity level of persuasion in persuasive memes
Classes: 6 levels
- 0: None
- 1: Negatively persuasive
- 2: Slightly Negatively persuasive
- 3: Neutral
- 4: Positively persuasive
- 5: Slightly Positively persuasive
Features: Same as Task 1
Model: Enhanced MFB with 6-class classification head

Task 3: Persuasion Type Identification

Objective: Identify specific persuasive techniques used in memes
Classes: 9 persuasion techniques
- Personification
- Irony
- Alliteration
- Analogies
- Invective
- Metaphor
- Puns and Wordplays
- Satire
- Hyperboles
Features: Same as Task 1
Model: Enhanced MFB with 9 binary classification heads

🛠️ Installation

Prerequisites

Python 3.8+
CUDA-compatible GPU (recommended)
8GB+ RAM

Install Dependencies

# Clone the repository
git clone https://github.com/yourusername/RAG-Multimodal-Persuasive-Memes-Detection.git
cd RAG-Multimodal-Persuasive-Memes-Detection

# Create virtual environment
python -m venv venv
source venv/bin/activate  # On Windows: venv\Scripts\activate

# Install dependencies
pip install -r requirements.txt

Requirements

torch>=2.0.0
torchvision>=0.15.0
pytorch-lightning>=2.0.0
transformers>=4.36.0
multilingual-clip>=0.1.0
clip>=1.0.0
scikit-learn>=1.3.0
pandas>=1.5.0
numpy>=1.24.0
matplotlib>=3.7.0
seaborn>=0.12.0
tqdm>=4.65.0
Pillow>=9.5.0

🚀 Usage

Quick Start

from enhanced_persuasive_meme_detection import main, ModelConfig

# Configure your experiment
config = ModelConfig(
    data_path="path/to/your/data.csv",
    image_dir="path/to/images/",
    batch_size=32,
    learning_rate=1e-3,
    max_epochs=100
)

# Run training
main()

Custom Configuration

from enhanced_persuasive_meme_detection import ModelConfig, EnhancedClassifier, PersuasiveMemeDataModule

# Custom configuration
config = ModelConfig(
    # Data parameters
    batch_size=64,
    train_split=0.7,
    val_split=0.15,
    test_split=0.15,
    
    # Model parameters
    mfb_k=256,
    mfb_o=64,
    dropout_rate=0.1,
    
    # Training parameters
    learning_rate=1e-3,
    max_epochs=100,
    patience=10,
    
    # Paths
    data_path="/path/to/your/dataset.csv",
    image_dir="/path/to/images/",
    checkpoint_dir="checkpoints/",
    log_dir="logs/"
)

# Initialize components
feature_extractor = FeatureExtractor(device='cuda')
rag_processor = RAGProcessor(api_key="your_api_key")
data_module = PersuasiveMemeDataModule(config, feature_extractor, rag_processor)
model = EnhancedClassifier(config)

# Train and evaluate
trainer = pl.Trainer(max_epochs=config.max_epochs)
trainer.fit(model, data_module)
trainer.test(model, data_module)

Data Format

Your dataset should be a CSV file with the following columns:

text,Name,Persuasive,persuasive_inten,Irony,personification,Alliteration,Analogies,Invective,Metaphor,puns_and_wordplays,Satire,Hyperboles
"Sample meme text",image1.png,1,4,0,1,0,0,0,0,0,0,0

📈 Results

Performance Metrics

Task	Accuracy	F1-Score	Precision	Recall
Task 1 (Binary)	0.89	0.87	0.88	0.86
Task 2 (Intensity)	0.82	0.81	0.83	0.80
Task 3 (Type)	0.85	0.84	0.86	0.83

Ablation Studies

Model Variant	Task 1 F1	Task 2 F1	Task 3 F1
Baseline (No RAG)	0.82	0.76	0.79
+ RAG Enhancement	0.87	0.81	0.84
+ Enhanced MFB	0.89	0.82	0.85
+ Attention Fusion	0.91	0.84	0.87

Confusion Matrices

Detailed confusion matrices and performance analysis are available in the results/ directory.

🔬 Research Methodology

Dataset

Size: 4,000+ annotated memes
Annotation: Expert-annotated persuasion labels
Balance: Stratified sampling for class balance
Validation: Cross-validation with 5 folds

Evaluation Metrics

Primary: F1-Score (macro average)
Secondary: Accuracy, Precision, Recall, ROC-AUC
Statistical: Paired t-tests for significance

Baselines

Text-only: BERT-based classification
Image-only: ResNet-based classification
Simple Fusion: Concatenation-based multimodal
MFB Baseline: Standard MFB without RAG

🎯 Key Innovations

1. RAG-Enhanced Multimodal Fusion

# RAG-enhanced text generation
rag_text = rag_processor.get_rag_text(original_text)
rag_features = feature_extractor.extract_text_features(rag_text)

# Enhanced MFB fusion
fused_features = mfb(img_features, text_features, rag_features)

2. Attention-Based Modality Fusion

# Attention mechanism for effective fusion
fused_features = torch.cat([img_txt_fusion, img_rag_fusion], dim=1)
attended_features, _ = self.attention(fused_features, fused_features, fused_features)

3. Hierarchical Multi-Task Learning

# Simultaneous learning of all tasks
persuasive_loss = cross_entropy(persuasive_logits, persuasive_target)
intensity_loss = cross_entropy(intensity_logits, intensity_target)
persuasion_losses = [cross_entropy(type_logits[i], type_targets[i]) for i in range(9)]
total_loss = persuasive_loss + intensity_loss + sum(persuasion_losses)

📊 Experimental Setup

Hardware Configuration

GPU: NVIDIA RTX 4090 (24GB VRAM)
CPU: Intel i9-13900K
RAM: 32GB DDR5
Storage: 2TB NVMe SSD

Software Environment

OS: Ubuntu 22.04 LTS
Python: 3.10.12
PyTorch: 2.0.1
CUDA: 12.1

Training Configuration

Batch Size: 32
Learning Rate: 1e-3
Optimizer: Adam
Scheduler: ReduceLROnPlateau
Epochs: 100 (with early stopping)

Name		Name	Last commit message	Last commit date
Latest commit History 42 Commits
Dump_Files		Dump_Files
PT_Files		PT_Files
CRITICAL_FIXES.txt		CRITICAL_FIXES.txt
LICENSE		LICENSE
Multitasking_Persuasive_Meme_detection-.ipynb		Multitasking_Persuasive_Meme_detection-.ipynb
README.md		README.md
Task1_single_task_persuasive_meme_+__rag.ipynb		Task1_single_task_persuasive_meme_+__rag.ipynb
Task_2__Persuaisve_Intensity__Detection.ipynb		Task_2__Persuaisve_Intensity__Detection.ipynb
Task_3_Multiple_Persuasive_Concat(x,y,rag).ipynb		Task_3_Multiple_Persuasive_Concat(x,y,rag).ipynb
Task_3_Multiple_Persuasive_Concat_FIXED.py		Task_3_Multiple_Persuasive_Concat_FIXED.py
Task_3_Multiple_Persuasive__MFB(x,y,rag).ipynb		Task_3_Multiple_Persuasive__MFB(x,y,rag).ipynb
enhanced_persuasive_meme_detection.py		enhanced_persuasive_meme_detection.py
requirements.txt		requirements.txt

License

harshalDharpure/MemeRAG-Multimodal-Fusion-Knowledge-Retrieval

Folders and files

Latest commit

History

Repository files navigation