Awesome-Multimodal-in-3D

A comprehensive surevy on Multimodal Models in 3D

Generation

Title	Github	WebSite	Pub. & Date
CLIP-Sculptor: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Natural Language	nan	nan	2022
SINC: Spatial Composition of 3D Human Motions for Simultaneous Action Generation	nan	nan	2023
Make-An-Animation: Large-Scale Text-conditional 3D Human Motion Generation	nan	nan	2023
Articulated 3D Head Avatar Generation using Text-to-Image Diffusion Models	nan	nan	2023
Multimodal 3D Hand Pose Enhancement for Sign Language	nan	nan	2022
Text and Image Guided 3D Avatar Generation and Manipulation	nan	nan	2022
TexFusion: Synthesizing 3D Textures with Text-Guided Image Diffusion Models	nan	nan	2023
DreamAvatar: Text-and-Shape Guided 3D Human Avatar Generation via Diffusion Models	nan	nan	2023
Guide3D: Create 3D Avatars from Text and Image Guidance	nan	nan	2023
High-Fidelity Generalized Emotional Talking Face Generation with Multi-Modal Emotion Space Learning	nan	nan	2023
MRIS: A Multi-modal Retrieval Approach for Image Synthesis on Diverse Modalities	nan	nan	2023
Text2Tex: Text-driven Texture Synthesis via Diffusion Models	nan	nan	2023
Fantasia3D: Disentangling Geometry and Appearance for High-quality Text-to-3D Content Creation	nan	nan	2023
Text2Light: Zero-Shot Text-Driven HDR Panorama Generation	nan	nan	2023
Text-to-3D using Gaussian Splatting	nan	nan	2023
Autoregressive 3D Shape Generation via Canonical Mapping	nan	nan	2022
SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation	nan	nan	2023
Efficient Text-Guided 3D-Aware Portrait Generation with Score Distillation Sampling on Distribution	nan	nan	2023
Cross-Modal 3D Shape Generation and Manipulation	nan	nan	2022
ITportrait: Image-Text Coupled 3D Portrait Domain Adaptation	nan	nan	2023
FaceFormer: Speech-Driven 3D Facial Animation with Transformers	nan	nan	2022
Ctrl-Room: Controllable Text-to-3D Room Meshes Generation with Layout Constraints	nan	nan	2023
Text-guided 3D Human Generation from 2D Collections	nan	nan	2023
TM2D: Bimodality Driven 3D Dance Generation via Music-Text Integration	nan	nan	2023
Semantify: Simplifying the Control of 3D Morphable Models using CLIP	nan	nan	2023
Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D Understanding, Generation, and Instruction Following	nan	nan	2023
Zero3D: Semantic-Driven Multi-Category 3D Shape Generation	nan	nan	2023
HeadSculpt: Crafting 3D Head Avatars with Text	nan	nan	2023
AI-enabled Automatic Multimodal Fusion of Cone-Beam CT and Intraoral Scans for Intelligent 3D Tooth-Bone Reconstruction and Clinical Applications	nan	nan	2022
T$^3$Bench: Benchmarking Current Progress in Text-to-3D Generation	nan	nan	2023
AvatarCLIP: Zero-Shot Text-Driven Generation and Animation of 3D Avatars	nan	nan	2022
ArK: Augmented Reality with Knowledge Interactive Emergent Ability	nan	nan	2023
AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D Diffusion	nan	nan	2023
SUG: Single-dataset Unified Generalization for 3D Point Cloud Classification	nan	nan	2023
TextField3D: Towards Enhancing Open-Vocabulary 3D Generation with Noisy Text Fields	nan	nan	2023
HumanNorm: Learning Normal Diffusion Model for High-quality and Realistic 3D Human Generation	nan	nan	2023
DreamWaltz: Make a Scene with Complex 3D Animatable Avatars	nan	nan	2023
Zero-Shot Text-Guided Object Generation with Dream Fields	nan	nan	2022
ClipMatrix: Text-controlled Creation of 3D Textured Meshes	nan	nan	2021
AvatarCraft: Transforming Text into Neural Human Avatars with Parameterized Shape and Pose Control	nan	nan	2023
3D-TOGO: Towards Text-Guided Cross-Category 3D Object Generation	nan	nan	2023
CG-NeRF: Conditional Generative Neural Radiance Fields for 3D-aware Image Synthesis	nan	nan	2023
Shap-E: Generating Conditional 3D Implicit Functions	nan	nan	2023
Instruct 3D-to-3D: Text Instruction Guided 3D-to-3D conversion	nan	nan	2023
LERF: Language Embedded Radiance Fields	nan	nan	2023
CLIP-Mesh: Generating textured meshes from text using pretrained image-text models	nan	nan	2022
Chupa: Carving 3D Clothed Humans from Skinned Shape Priors using 2D Diffusion Probabilistic Models	nan	nan	2023
DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model	nan	nan	2023
PODIA-3D: Domain Adaptation of 3D Generative Model Across Large Domain Gap Using Pose-Preserved Text-to-Image Diffusion	nan	nan	2023
MPE4G: Multimodal Pretrained Encoder for Co-Speech Gesture Generation	nan	nan	2023
Decomposing NeRF for Editing via Feature Field Distillation	nan	nan	2022
DreamHuman: Animatable 3D Avatars from Text	nan	nan	2023
SALAD: Part-Level Latent Diffusion for 3D Shape Generation and Manipulation	nan	nan	2023
Image-free Domain Generalization via CLIP for 3D Hand Pose Estimation	nan	nan	2023
3DDesigner: Towards Photorealistic 3D Object Generation and Editing with Text-guided Diffusion Models	nan	nan	2023
Audio2Gestures: Generating Diverse Gestures from Audio	nan	nan	2023
Audio2Gestures: Generating Diverse Gestures from Speech Audio with Conditional Variational Autoencoders	nan	nan	2021
AI Choreographer: Music Conditioned 3D Dance Generation with AIST++	nan	nan	2021
3D-CLFusion: Fast Text-to-3D Rendering with Contrastive Latent Diffusion	nan	nan	2023
3DQD: Generalized Deep 3D Shape Prior via Part-Discretized Diffusion Process	nan	nan	2023
AV-NeRF: Learning Neural Fields for Real-World Audio-Visual Scene Synthesis	nan	nan	2023
Magic3D: High-Resolution Text-to-3D Content Creation	nan	nan	2023
CLIP-Layout: Style-Consistent Indoor Scene Synthesis with Semantic Furniture Embedding	nan	nan	2023
3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows	nan	nan	2023
StructDiffusion: Language-Guided Creation of Physically-Valid Structures using Unseen Objects	nan	nan	2023
DreamStone: Image as a Stepping Stone for Text-Guided 3D Shape Generation	nan	nan	2023
ISS: Image as Stepping Stone for Text-Guided 3D Shape Generation	nan	nan	2023
ATT3D: Amortized Text-to-3D Object Synthesis	nan	nan	2023
Learning Versatile 3D Shape Generation with Improved AR Models	nan	nan	2023
Revisiting Transformer for Point Cloud-based 3D Scene Graph Generation	nan	nan	2023

Pretraining

Title	Github	WebSite	Pub. & Date
CrossPoint: Self-Supervised Cross-Modal Contrastive Learning for 3D Point Cloud Understanding	nan	nan	2022
Grounding Pretrained Features in 3D Representations	nan	nan	2023
MedBLIP: Bootstrapping Language-Image Pre-training from 3D Medical Images and Texts	nan	nan	2023
CrysMMNet: Multimodal Representation for Crystal Property Prediction	nan	nan	2023
Joint-MAE: 2D-3D Joint Masked Autoencoders for 3D Point Cloud Pre-training	nan	nan	2023
CHORUS: Learning Canonicalized 3D Human-Object Spatial Relations from Unbounded Synthesized Images	nan	nan	2023
CLIP goes 3D: Leveraging Prompt Tuning for Language Grounded 3D Recognition	nan	nan	2023
3D Concept Learning and Reasoning from Multi-View Images	nan	nan	2023
3D-LLM: Injecting the 3D World into Large Language Models	nan	nan	2023
Pri3D: Can 3D Priors Help 2D Representation Learning?	nan	nan	2021
Joint Representation Learning for Text and 3D Point Cloud	nan	nan	2023
CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training	nan	nan	2023
ConceptFusion: Open-set Multimodal 3D Mapping	nan	nan	2023
MotionGPT: Human Motion as a Foreign Language	nan	nan	2023
JM3D&JM3D-LLM: Elevating 3D Representation with Joint Multi-modal Cues	nan	nan	2023
Context-aware Alignment and Mutual Masking for 3D-Language Pre-training	nan	nan	2023
Point Clouds Are Specialized Images: A Knowledge Transfer Approach for 3D Understanding	nan	nan	2023
ViT-Lens: Towards Omni-modal Representations	nan	nan	2023

Editing and Manupulation

Title	Github	WebSite	Pub. & Date
ClipFace: Text-guided Editing of Textured 3D Morphable Models	nan	nan	2023
CompoNeRF: Text-guided Multi-object Compositional NeRF with Editable 3D Scene Layout	nan	nan	2023
Volumetric Disentanglement for 3D Scene Manipulation	nan	nan	2022
Instruct-NeRF2NeRF: Editing 3D Scenes with Instructions	nan	nan	2023
LADIS: Language Disentanglement for 3D Shape Editing	nan	nan	2022
Local 3D Editing via 3D Distillation of CLIP Knowledge	nan	nan	2023

detection

Title	Github	WebSite	Pub. & Date
TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers	nan	nan	2022
Omni3D: A Large Benchmark and Model for 3D Object Detection in the Wild	nan	nan	2023
HRFuser: A Multi-resolution Sensor Fusion Architecture for 2D Object Detection	nan	nan	2023
ObjectFusion: Multi-modal 3D Object Detection with Object-Centric Fusion	nan	nan	2023
PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D Object Detection	nan	nan	2023
FUTR3D: A Unified Sensor Fusion Framework for 3D Detection	nan	nan	2023
DSGN++: Exploiting Visual-Spatial Relation for Stereo-based 3D Detectors	nan	nan	2022
FocalFormer3D : Focusing on Hard Instance for 3D Object Detection	nan	nan	2023
Focal Sparse Convolutional Networks for 3D Object Detection	nan	nan	2022
AutoAlignV2: Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection	nan	nan	2022
BEVDistill: Cross-Modal BEV Distillation for Multi-View 3D Object Detection	nan	nan	2022
Language-Guided 3D Object Detection in Point Cloud for Autonomous Driving	nan	nan	2023
Semantics-aware LiDAR-Only Pseudo Point Cloud Generation for 3D Object Detection	nan	nan	2023
A Generalized Multi-Modal Fusion Detection Framework	nan	nan	2023
From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object Detection	nan	nan	2021
DeepFusion: A Robust and Modular 3D Object Detector for Lidars, Cameras and Radars	nan	nan	2022
PointSee: Image Enhances Point Cloud	nan	nan	2022
FusionFormer: A Multi-sensory Fusion in Bird's-Eye-View and Temporal Consistent Transformer for 3D Object Detection	nan	nan	2023
Joint Multi-Object Detection and Tracking with Camera-LiDAR Fusion for Autonomous Driving	nan	nan	2021
Geometric-aware Pretraining for Vision-centric 3D Object Detection	nan	nan	2023
TiG-BEV: Multi-view BEV 3D Object Detection via Target Inner-Geometry Learning	nan	nan	2022
FULLER: Unified Multi-modality Multi-task 3D Perception via Multi-level Gradient Calibration	nan	nan	2023
FaceCLIPNeRF: Text-driven 3D Face Manipulation using Deformable Neural Radiance Fields	nan	nan	2023
Center Feature Fusion: Selective Multi-Sensor Fusion of Center-based Objects	nan	nan	2023
SemanticBEVFusion: Rethink LiDAR-Camera Fusion in Unified Bird's-Eye View Representation for 3D Object Detection	nan	nan	2022
MSMDFusion: Fusing LiDAR and Camera at Multiple Scales with Multi-Depth Seeds for 3D Object Detection	nan	nan	2023
Paint and Distill: Boosting 3D Object Detection with Semantic Passing Network	nan	nan	2022
RCM-Fusion: Radar-Camera Multi-Level Fusion for 3D Object Detection	nan	nan	2023
X 3 KD: Knowledge Distillation Across Modalities, Tasks and Stages for Multi-Camera 3D Object Detection	nan	nan	2023
Boosting Unsupervised Domain Adaptation for 3D Object Detection in Point Clouds with 2D Image Semantic Information	nan	nan	2023
LoGoNet: Towards Accurate 3D Object Detection with Local-to-Global Cross- Modal Fusion	nan	nan	2023
Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object Detection	nan	nan	2022
Unifying Voxel-based Representation with Transformer for 3D Object Detection	nan	nan	2022
MoDAR: Using Motion Forecasting for 3D Object Detection in Point Cloud Sequences	nan	nan	2023
DeepFusion: Lidar-Camera Deep Fusion for Multi-Modal 3D Object Detection	nan	nan	2022
AShapeFormer: Semantics-Guided Object-Level Active Shape Encoding for 3D Object Detection via Transformers	nan	nan	2023
Delving into the Pre-training Paradigm of Monocular 3D Object Detection	nan	nan	2022
MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection	nan	nan	2023
Cross-Modal Analysis of Human Detection for Robotics: An Industrial Case Study	nan	nan	2021
PAI3D: Painting Adaptive Instance-Prior for 3D Object Detection	nan	nan	2022
EPNet++: Cascade Bi-directional Fusion for Multi-Modal 3D Object Detection	nan	nan	2022
Multi-Modal 3D Object Detection by Box Matching	nan	nan	2023
Open-Vocabulary 3D Detection via Image-level Class and Debiased Cross-modal Contrastive Learning	nan	nan	2022
Open-Vocabulary Point-Cloud Object Detection without 3D Annotation	nan	nan	2023
Open-Vocabulary Point-Cloud Object Detection Without 3D Annotation	nan	nan	2023

Segmentation

Title	Github	WebSite	Pub. & Date
A Simple and Robust Framework for Cross-Modality Medical Image Segmentation applied to Vision Transformers	nan	nan	2023
MoPA: Multi-Modal Prior Aided Domain Adaptation for 3D Semantic Segmentation	nan	nan	2023
Multi-Modal Continual Test-Time Adaptation for 3D Semantic Segmentation	nan	nan	2023
Exploiting the Complementarity of 2D and 3D Networks to Address Domain-Shift in 3D Semantic Segmentation	nan	nan	2023
Segment Anything in 3D with NeRFs	nan	nan	2023
Context-Aware Entity Grounding with Open-Vocabulary 3D Scene Graphs	nan	nan	2023
Optimal Latent Vector Alignment for Unsupervised Domain Adaptation in Medical Image Segmentation	nan	nan	2021
MA-SAM: Modality-agnostic SAM Adaptation for 3D Medical Image Segmentation	nan	nan	2023
Generative Text-Guided 3D Vision-Language Pretraining for Unified Medical Image Segmentation	nan	nan	2023
LargeKernel3D: Scaling up Kernels in 3D Sparse CNNs	nan	nan	2023
PointDC:Unsupervised Semantic Segmentation of 3D Point Clouds via Cross-modal Distillation and Super-Voxel Clustering	nan	nan	2023
UniDA3D: Unified Domain Adaptive 3D Semantic Segmentation Pipeline	nan	nan	2023
MetaBEV: Solving Sensor Failures for BEV Detection and Map Segmentation	nan	nan	2023
Swin UNETR: Swin Transformers for Semantic Segmentation of Brain Tumors in MRI Images	nan	nan	2022
Prototype Adaption and Projection for Few- and Zero-Shot 3D Point Cloud Semantic Segmentation	nan	nan	2023
Mask3D: Pre-training 2D Vision Transformers by Learning Masked 3D Priors	nan	nan	2023
OpenIns3D: Snap and Lookup for 3D Open-vocabulary Instance Segmentation	nan	nan	2023
Contrastive Learning for Self-Supervised Pre-Training of Point Cloud Segmentation Networks With Image Data	nan	nan	2023
Cross-modal Learning for Domain Adaptation in 3D Semantic Segmentation	nan	nan	2022
Revisiting Multi-modal 3D Semantic Segmentation in Real-world Autonomous Driving	nan	nan	2023
Language-guided Semantic Style Transfer of 3D Indoor Scenes	nan	nan	2022
2DDATA: 2D Detection Annotations Transmittable Aggregation for Semantic Segmentation on Point Cloud	nan	nan	2023
Auto-Prompting SAM for Mobile Friendly 3D Medical Image Segmentation	nan	nan	2023
MSeg3D: Multi-modal 3D Semantic Segmentation for Autonomous Driving	nan	nan	2023
BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain Generalization of 3D Semantic Segmentation	nan	nan	2023
CKD-TransBTS: Clinical Knowledge-Driven Hybrid Transformer with Modality-Correlated Cross-Attention for Brain Tumor Segmentation	nan	nan	2022
Weakly Supervised 3D Open-vocabulary Segmentation	nan	nan	2023
PartSLIP: Low-Shot Part Segmentation for 3D Point Clouds via Pretrained Image-Language Models	nan	nan	2023
UniSeg: A Unified Multi-Modal LiDAR Segmentation Network and the OpenPCSeg Codebase	nan	nan	2023

Tracking

Title	Github	WebSite	Pub. & Date
3D Multi-Object Tracking Using Graph Neural Networks with Cross-Edge Modality Attention	nan	nan	2022
LATTE: LAnguage Trajectory TransformEr	nan	nan	2022
3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking	nan	nan	2023
EagerMOT: 3D Multi-Object Tracking via Sensor Fusion	nan	nan	2021
MMF-Track: Multi-modal Multi-level Fusion for 3D Single Object Tracking	nan	nan	2023

Matching

Title	arXiv	Github	WebSite	Pub. & Date
Self-Supervised Learning for Multimodal Non-Rigid 3D Shape Matching		nan	nan	2023

ov-detection

Title	arXiv	Github	WebSite	Pub. & Date
CoDA: Collaborative Novel Box Discovery and Cross-modal Alignment for Open-vocabulary 3D Object Detection		nan	nan	2023

Anomaly Detection

Title	arXiv	Github	WebSite	Pub. & Date
Complementary Pseudo Multimodal Feature for Point Cloud Anomaly Detection		nan	nan	2023
EasyNet: An Easy Network for 3D Industrial Anomaly Detection		nan	nan	2023

Grounding

Title	Github	WebSite	Pub. & Date
UniT3D: A Unified Transformer for 3D Dense Captioning and Visual Grounding	nan	nan	2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding	nan	nan	2022
ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding with GPT and Prototype Guidance	nan	nan	2023
NS3D: Neuro-Symbolic Grounding of 3D Objects and Relations	nan	nan	2023
Multi-View Transformer for 3D Visual Grounding	nan	nan	2022
Learning Point-Language Hierarchical Alignment for 3D Visual Grounding	nan	nan	2022
3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection	nan	nan	2022
3D VR Sketch Guided 3D Shape Prototyping and Exploration	nan	nan	2023

Completion

Title	arXiv	Github	WebSite	Pub. & Date
AGG-Net: Attention Guided Gated-convolutional Network for Depth Image Completion		nan	nan	2023

Style-Transfer

Title	Github	WebSite	Pub. & Date
TeSTNeRF: Text-Driven 3D Style Transfer via Cross-Modal Learning	nan	nan	2023
TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition	nan	nan	2022
HyperStyle3D: Text-Guided 3D Portrait Stylization via Hypernetworks	nan	nan	2023
CLIP3Dstyler: Language Guided 3D Arbitrary Neural Style Transfer	nan	nan	2023

Pose Estimation

Title	Github	WebSite	Pub. & Date
ZeroPose: CAD-Model-based Zero-Shot Pose Estimation	nan	nan	2023
Weakly Supervised 3D Multi-person Pose Estimation for Large-scale Scenes based on Monocular Camera and Single LiDAR	nan	nan	2022
PoseScript: 3D Human Poses from Natural Language	nan	nan	2022
PoseFix: Correcting 3D Human Poses with Natural Language	nan	nan	2023
Human-M3: A Multi-view Multi-modal Dataset for 3D Human Pose Estimation in Outdoor Scenes	nan	nan	2023
CLIP-Hand3D: Exploiting 3D Hand Pose Estimation via Context-Aware Prompting	nan	nan	2023
Non-Local Latent Relation Distillation for Self-Adaptive 3D Human Pose Estimation	nan	nan	2022
Deep Two-Stream Video Inference for Human Body Pose and Shape Estimation	nan	nan	2021
Cross-Domain 3D Hand Pose Estimation with Dual Modalities	nan	nan	2023
3D-Augmented Contrastive Knowledge Distillation for Image-based Object Pose Estimation	nan	nan	2022

Scene Understanding

Title	Github	WebSite	Pub. & Date
Towards Label-free Scene Understanding by Vision Foundation Models	nan	nan	2023
CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP	nan	nan	2023
Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction	nan	nan	2023
Lowis3D: Language-Driven Open-World Instance-Level 3D Scene Understanding	nan	nan	2023
PLA: Language-Driven Open-Vocabulary 3D Scene Understanding	nan	nan	2023
Semantic Abstraction: Open-World 3D Scene Understanding from 2D Vision-Language Models	nan	nan	2022
OpenShape: Scaling Up 3D Shape Representation Towards Open-World Understanding	nan	nan	2023

Manupulation

Title	Github	WebSite	Pub. & Date
PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation	nan	nan	2023
TextDeformer: Geometry Manipulation using Text Guidance	nan	nan	2023
Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation	nan	nan	2023

Retrival

Title	Github	WebSite	Pub. & Date
Democratising 2D Sketch to 3D Shape Retrieval Through Pivoting	nan	nan	2023
RONO: Robust Discriminative Learning With Noisy Labels for 2D-3D Cross-Modal Retrieval	nan	nan	2023
TextANIMAR: Text-based 3D Animal Fine-Grained Retrieval	nan	nan	2023
SCA-PVNet: Self-and-Cross Attention Based Aggregation of Point Cloud and Multi-View for 3D Object Retrieval	nan	nan	2023
OVIR-3D: Open-Vocabulary 3D Instance Retrieval Without Training on 3D Data	nan	nan	2023
Towards 3D VR-Sketch to 3D Shape Retrieval	nan	nan	2022

Classification

Title	arXiv	Github	WebSite	Pub. & Date
Multimodal Brain Disease Classification with Functional Interaction Learning from Single fMRI Volume		nan	nan	2023

Localization

Title	Github	WebSite	Pub. & Date
3D Highlighter: Localizing Regions on 3D Shapes via Text Descriptions	nan	nan	2023
UnLoc: A Universal Localization Method for Autonomous Vehicles using LiDAR, Radar and/or Camera Input	nan	nan	2023
WildRefer: 3D Object Localization in Large-scale Dynamic Scenes with Multi-modal Visual Data and Natural Language	nan	nan	2023

Question Answering

Title	arXiv	Github	WebSite	Pub. & Date
Multi-CLIP: Contrastive Vision-Language Pre-training for Question Answering tasks in 3D Scenes		nan	nan	2023

Prediction

Title	arXiv	Github	WebSite	Pub. & Date
3D Spatial Multimodal Knowledge Accumulation for Scene Graph Prediction in Point Cloud		nan	nan	2023

Depth Estimation

Title	arXiv	Github	WebSite	Pub. & Date
Towards Zero-Shot Scale-Aware Monocular Depth Estimation		nan	nan	2023

Finetuning

Title	arXiv	Github	WebSite	Pub. & Date
ImageBind-LLM: Multi-modality Instruction Tuning		nan	nan	2023

Recognition

Title	Github	WebSite	Pub. & Date
LiCamGait: Gait Recognition in the Wild by Using LiDAR and Camera Multi-modal Visual Sensors	nan	nan	2022
LATFormer: Locality-Aware Point-View Fusion Transformer for 3D Shape Recognition	nan	nan	2023
Cross-Modal Learning with 3D Deformable Attention for Action Recognition	nan	nan	2023
FER-former: Multi-modal Transformer for Facial Expression Recognition	nan	nan	2023

Reconstruction

Title	arXiv	Github	WebSite	Pub. & Date
Speech4Mesh: Speech-Assisted Monocular 3D Facial Reconstruction for Speech-Driven 3D Facial Animation		nan	nan	2023
Zero-1-to-3: Zero-shot One Image to 3D Object		nan	nan	2023

Style Generation

Title	arXiv	Github	WebSite	Pub. & Date
Style-aware Augmented Virtuality Embeddings (SAVE)		nan	nan	2023

Scene Understanding

Title	arXiv	Github	WebSite	Pub. & Date
M$^{3}$3D: Learning 3D priors using Multi-Modal Masked Autoencoders for 2D image and video understanding		nan	nan	2023

Captioning

Title	arXiv	Github	WebSite	Pub. & Date
Scalable 3D Captioning with Pretrained Models		nan	nan	2023

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Awesome-Multimodal-in-3D

Table of Contents

Generation

Pretraining

Editing and Manupulation

detection

Segmentation

Tracking

Matching

ov-detection

Anomaly Detection

Grounding

Completion

Style-Transfer

Pose Estimation

Scene Understanding

Manupulation

Retrival

Classification

Localization

Question Answering

Prediction

Depth Estimation

Finetuning

Recognition

Reconstruction

Style Generation

Scene Understanding

Captioning

About

Uh oh!

Releases

Packages

Uh oh!

Contributors 1

Folders and files

Latest commit

History

Repository files navigation

Awesome-Multimodal-in-3D

Table of Contents

Generation

Pretraining

Editing and Manupulation

detection

Segmentation

Tracking

Matching

ov-detection

Anomaly Detection

Grounding

Completion

Style-Transfer

Pose Estimation

Scene Understanding

Manupulation

Retrival

Classification

Localization

Question Answering

Prediction

Depth Estimation

Finetuning

Recognition

Reconstruction

Style Generation

Scene Understanding

Captioning

About

Topics

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors 1

Packages