Live LLM-Synthetic-Data Papers (Updated to July,2025)

This repo collects the most live-updated, finely categorized work on LLM-synthetic-data, such as papers, tools, datasets, blogs, and more.

If you find this useful, feel free to follow us and star a ⭐. Thanks to all great GitHub contributors!

Entries marked with 🔥 are those we highly recommend.

Latest updates

Section 3 (Surveys): added domain-specific synthesis surveys.
Section 4 (Method): reorganized by LLM training stages with ultra-fine subcategories for each paper (highly recommended).
Section 5 (Analysis): new section for synthetic-data analyses.
Section 6 (Application): expanded to 19 new sub-areas.

1. Githubs

2. Blogs

Synthetic data: save money, time and carbon with open source. Moritz Laurer. Feb 16, 2024.
Synthetic data generation (Part 1). Dylan Royan Almeida. Apr 10, 2024
Synthetic dataset generation techniques: Self-Instruct. Daniel van Strien. May 15, 2024.
CodecLM: Aligning language models with tailored synthetic data Zifeng Wang and Chen-Yu Lee. May 30, 2024.
The Rise of Agentic Data Generation. Maxime Labonne. July 15, 2024.
LLM-Driven Synthetic Data Generation, Curation & Evaluation. Cobus Greyling. Aug 2, 2024.
Using LLMs for Synthetic Data Generation: The Definitive Guide Kritin Vongthongsri. November 8, 2024.

3. Surveys

Best Practices and Lessons Learned on Synthetic Data for Language Models. Ruibo Liu, Jerry Wei, Fangyu Liu, Chenglei Si, Yanzhe Zhang, Jinmeng Rao, Steven Zheng, Daiyi Peng, Diyi Yang, Denny Zhou, Andrew M. Dai. COLM 2024.
On LLMs-Driven Synthetic Data Generation, Curation, and Evaluation: A Survey. Lin Long, Rui Wang, Ruixuan Xiao, Junbo Zhao, Xiao Ding, Gang Chen, Haobo Wang. ACL Findings 2024.
Large Language Models for Data Annotation: A Survey Zhen Tan, Dawei Li, Song Wang, Alimohammad Beigi, Bohan Jiang, Amrita Bhattacharjee, Mansooreh Karami, Jundong Li, Lu Cheng, Huan Liu. EMNLP 2024.
Generative AI for Synthetic Data Generation: Methods, Challenges and the Future. Xu Guo, Yiqiang Chen. Arxiv 2024.
Comprehensive Exploration of Synthetic Data Generation: A Survey. André Bauer, Simon Trapp, Michael Stenger, Robert Leppich, Samuel Kounev, Mark Leznik, Kyle Chard, Ian Foster. Arxiv 2024.
A Survey on Bridging VLMs and Synthetic Data. Mohammad Ghiasvand Mohammadkhani, Saeedeh Momtazi, Hamid Beigy. OpenReview 2025.
A Survey on Data Synthesis and Augmentation for Large Language Models *Ke Wang, Jiahui Zhu, Minjie Ren, Zeming Liu, Shiwei Li, Zongye Zhang, Chenkai Zhang, Xiaoyu Wu, Qiqi Zhan, Qingjie Liu, Yunhong Wang.*Arxiv 2024.
Synthetic Data Generation Using Large Language Models: Advances in Text and Code Mihai Nadas, Laura Diosan, Andreea Tomescu. Arxiv 2025.
A Comprehensive Survey of Synthetic Tabular Data Generation Ruxue Shi, Yili Wang, Mengnan Du, Xu Shen, Yi Chang, Xin Wang. Arxiv 2025.
Large Language Models for Traffic and Transportation Research: Methodologies, State of the Art, and Future Opportunities Yimo Yan, Yejia Liao, Guanhao Xu, Ruili Yao, Huiying Fan, Jingran Sun, Xia Wang, Jonathan Sprinkle, Ziyan An, Meiyi Ma, Xi Cheng, Tong Liu, Zemian Ke, Bo Zou, Matthew Barth, Yong-Hong Kuo. Arxiv 2025.
Biological Sequence with Language Model Prompting: A Survey Jiyue Jiang, Zikang Wang, Yuheng Shan, Heyan Chai, Jiayi Li, Zixian Ma, Xinrui Zhang, Yu Li Arxiv 2025.

4. Methods

4.1. Pre-training

Phi-4 Technical Report Microsoft Research. Arxiv 2024.🔥
Nemotron-CC: Transforming Common Crawl into a Refined Long-Horizon Pretraining Dataset Dan Su, Kezhi Kong, Ying Lin, Joseph Jennings, Brandon Norick, Markus Kliegl, Mostofa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Arxiv 2024. 🔥
Hunyuan-Large: An Open-Source MoE Model with 52 Billion Activated Parameters by Tencent Tecent Hunyuan Team. Arxiv 2024.🔥
A. Rephrasing document
- Rephrasing theWeb A Recipe for Compute and Data-Efficient Language Modeling Pratyush Maini, Skyler Seto, He Bai, David Grangier, Yizhe Zhang, Navdeep Jaitly. ACL 2024.🔥
- ToEdit: How to Synthesize Text Data to Avoid Model Collapse? ICML 2025.

4.2. Continue Pre-training

Phi-1: Textbooks Are All You Need Suriya Gunasekar, Yi Zhang, Jyoti Aneja, Caio César Teodoro Mendes, Allie Del Giorno, Sivakanth Gopi, Mojan Javaheripi, Piero Kauffmann, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Harkirat Singh Behl, Xin Wang, Sébastien Bubeck, Ronen Eldan, Adam Tauman Kalai, Yin Tat Lee, Yuanzhi Li. Arxiv 2023.
MAmmoTH2: Scaling Instructions from the Web. Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen. Neurips 2024.🔥
Scaling Laws of Synthetic Data for Language Models Zeyu Qin, Qingxiu Dong, Xingxing Zhang, Li Dong, Xiaolong Huang, Ziyi Yang, Mahmoud Khademi, Dongdong Zhang, Hany Hassan Awadalla, Yi R. Fung, Weizhu Chen, Minhao Cheng, Furu Wei. Arxiv 2025.

4.3. Instruction Tuning

4.3.1 Before ChatGPT came out

STaR: Bootstrapping Reasoning With Reasoning Eric Zelikman, Yuhuai Wu, Jesse Mu, Noah D. Goodman. NeurIPS 2022.
Generating Training Data with Language Models: Towards Zero-Shot Language Understanding Yu Meng, Jiaxin Huang, Yu Zhang, Jiawei Han. NeurIPS 2022.
ZeroGen: Efficient Zero-shot Learning via Dataset Generation Jiacheng Ye, Jiahui Gao, Qintong Li, Hang Xu, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong. EMNLP 2022.
Symbolic Knowledge Distillation: from General Language Models to Commonsense Models Peter West, Chandra Bhagavatula, Jack Hessel, Jena D. Hwang, Liwei Jiang, Ronan Le Bras, Ximing Lu, Sean Welleck, Yejin Choi. NAACL 2022.
Unnatural Instructions: Tuning Language Models with (Almost) No Human Labor Or Honovich, Thomas Scialom, Omer Levy, Timo Schick. ACL 2023.

4.3.2 Rephrasing instructions

A. Evolving Instrution
- WizardLM: Empowering Large Language Models to Follow Complex Instructions. Can Xu, Qingfeng Sun, Kai Zheng, Xiubo Geng, Pu Zhao, Jiazhan Feng, Chongyang Tao, Daxin Jiang. ICLR 2024.🔥
- Automatic Instruction Evolving for Large Language Models Weihao Zeng, Can Xu, Yingxiu Zhao, Jian-Guang Lou, Weizhu Chen. EMNLP 2024.
- Optimizing Instruction Synthesis: Effective Exploration of Evolutionary Space with Tree Search Chenglin Li, Qianglong Chen, Zhi Li, Feng Tao, Yicheng Li, Hao Chen, Fei Yu, Yin Zhang. EMNLP Findings 2024.
- Infinity Instruct: Scaling Instruction Selection and Synthesis to Enhance Language Models Jijie Li, Li Du, Hanyu Zhao, Bo-wen Zhang, Liangdong Wang, Boyan Gao, Guang Liu, Yonghua Lin. Arxiv 2025.
- AIDE: Attribute-Guided MultI-Hop Data Expansion for Data Scarcity in Task-Specific Fine-tuning Jiayu Li, Xuan Zhu, Fang Liu, Yanjun Qi. ACL 2025.
B. Curating Persona Database
- Scaling Synthetic Data Creation with 1,000,000,000 Personas. Xin Chan, Xiaoyang Wang, Dian Yu, Haitao Mi, Dong Yu. Arxiv 2024.🔥
- OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas Xiaoyang Wang, Hongming Zhang, Tao Ge, Wenhao Yu, Dian Yu, Dong Yu. Arxiv 2025.

4.3.3 Instruction Inversion

A. Instruction Inversion Directly From Document
- LongForm: Effective Instruction Tuning with Reverse Instructions. Abdullatif Köksal, Timo Schick, Anna Korhonen, Hinrich Schütze. EMNLP 2024 findings.🔥
- Self-Alignment with Instruction Backtranslation. Xian Li, Ping Yu, Chunting Zhou, Timo Schick, Omer Levy, Luke Zettlemoyer, Jason Weston, Mike Lewis. ICLR 2024 Oral
- From Real to Synthetic: Synthesizing Millions of Diversified and Complicated User Instructions with Attributed Grounding Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao. ACL 2025.🔥
B. Extract document followed by Instruction Inversion
- Knowledge-Instruct: Effective Continual Pre-training from Limited Data using Instructions Oded Ovadia, Meni Brief, Rachel Lemberg, Eitam Sheetrit. Arxiv 2025.
- Source2Synth: Synthetic Data Generation and Curation Grounded in Real Data Sources Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli. Arxiv 2025.

4.3.4 Synthesis instructions and outputs using LLM

A. Rephrasing instructions and Instruction Inversion
- Instruction-Tuning Data Synthesis from Scratch via Web Reconstruction Yuxin Jiang, Yufei Wang, Chuhan Wu, Xinyi Dai, Yan Xu, Weinan Gan, Yasheng Wang, Xin Jiang, Lifeng Shang, Ruiming Tang, Wei Wang. ACL 2025.
B. Synthesis from scratch without seed
- Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin. ICLR 2025.
- LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions Chaochen Gao, Xing Wu, Zijia Lin, Debing Zhang, Songlin Hu.
- TarGEN: Targeted Data Generation with Large Language Models Himanshu Gupta, Kevin Scaria, Ujjwala Anantheswaran, Shreyas Verma, Mihir Parmar, Saurabh Arjun Sawant, Chitta Baral, Swaroop Mishra. COLM 2024.
- LAB: Large-Scale Alignment for ChatBots Shivchander Sudalairaj, Abhishek Bhandwaldar, Aldo Pareja, Kai Xu, David D. Cox, Akash Srivastava. Arxiv 2024🔥
C. Extract Q&A Pairs
- MAmmoTH2: Scaling Instructions from the Web. Xiang Yue, Tuney Zheng, Ge Zhang, Wenhu Chen. Neurips 2024.🔥
D. Knowledge-based Synthesis with seed
LLM-Generated Structural Knowledge
- Synthetic Data (Almost) from Scratch: Generalized Instruction Tuning for Language Models Haoran Li, Qingxiu Dong, Zhengyang Tang, Chaojun Wang, Xingxing Zhang, Haoyang Huang, Shaohan Huang, Xiaolong Huang, Zeqiang Huang, Dongdong Zhang, Yuxian Gu, Xin Cheng, Xun Wang, Si-Qing Chen, Li Dong, Wei Lu, Zhifang Sui, Benyou Wang, Wai Lam, Furu Wei. Arxiv 2025.
- TreeSynth: Synthesizing Diverse Data from Scratch via Tree-Guided Subspace Partitioning Sheng Wang, Pengan Chen, Jingqi Zhou, Qintong Li, Jingwei Dong, Jiahui Gao, Boyang Xue, Jiyue Jiang, Lingpeng Kong, Chuan Wu. Arxiv 2025.
LLM Self-Reflection
- Condor: Enhance LLM Alignment with Knowledge-Driven Data Synthesis and Refinement Maosong Cao, Taolin Zhang, Mo Li, Chuyu Zhang, Yunxin Liu, Haodong Duan, Songyang Zhang, Kai Chen. ACL 2025.
- DataGen: Unified Synthetic Dataset Generation via Large Language Models Yue Huang, Siyuan Wu, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun. ICLR 2025.
- Beyond Sample-Level Feedback: Using Reference-Level Feedback to Guide Data Synthesis Shuhaib Mehri, Xiusi Chen, Heng Ji, Dilek Hakkani-Tür. Arxiv 2025.
- GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation Zihong Chen, Wanli Jiang, Jinzhe Li, Zhonghang Yuan, Huanjun Kong, Wanli Ouyang, Nanqing Dong Arxiv 2025.
E. External Knowledge
Human Rubric
- Large Language Model as Attributed Training Data Generator: A Tale of Diversity and Bias Yue Yu, Yuchen Zhuang, Jieyu Zhang, Yu Meng, Alexander Ratner, Ranjay Krishna, Jiaming Shen, Chao Zhang. NeurIPS D&B 2023.
- Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision. Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan. NeurIPS 2023.🔥
Data Attributes
- Learning to Generate Instruction Tuning Datasets for Zero-Shot Task Adaptation Nihal V. Nayak, Yiyang Nan, Avi Trost, Stephen H. Bach. ACL Findings 2024.🔥
- CodecLM: Aligning Language Models with Tailored Synthetic Data. Zifeng Wang, Chun-Liang Li, Vincent Perot, Long T. Le, Jin Miao, Zizhao Zhang, Chen-Yu Lee, Tomas Pfister. NAACL Findings 2024.🔥
F. Prompt-Based Synthesis with Seed
Few-shot Example Prompting
- Self-instruct: Aligning language models with self-generated instructions. Yizhong Wang, Yeganeh Kordi, Swaroop Mishra, Alisa Liu, Noah A. Smith, Daniel Khashabi, Hannaneh Hajishirzi. ACL 2023.🔥
- Few-shot LLM Synthetic Data with Distribution Matching Jiyuan Ren, Zhaocheng Du, Zhihao Wen, Qinglin Jia, Sunhao Dai, Chuhan Wu, Zhenhua Dong. WWW 2025.
- Generating Faithful Synthetic Data with Large Language Models: A Case Study in Computational Social Science Veniamin Veselovsky, Manoel Horta Ribeiro, Akhil Arora, Martin Josifoski, Ashton Anderson, Robert West, Arxiv 2023.🔥
Diverse Inference Settings
- Increasing Diversity While Maintaining Accuracy: Text Data Generation with Large Language Models and Human Interventions John Joon Young Chung, Ece Kamar, Saleema Amershi. ACL 2023.🔥
- Large Language Models Can Self-Improve Jiaxin Huang, Shixiang Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han. EMNLP 2023.
Fixed Prompt Templates
- Making Large Language Models Better Data Creators Dong-Ho Lee, Jay Pujara, Mohit Sewak, Ryen W. White, Sujay Kumar Jauhar. EMNLP 2023.
G. Model Iteration
- ALMA: Alignment with Minimal Annotation Michihiro Yasunaga, Leonid Shamis, Chunting Zhou, Andrew Cohen, Jason Weston, Luke Zettlemoyer, Marjan Ghazvininejad. Arxiv 2024.
H. Agent
- MetaSynth: Meta-Prompting-Driven Agentic Scaffolds for Diverse Synthetic Data Generation Haris Riaz, Sourav Bhabesh, Vinayak Arannil, Miguel Ballesteros, Graham Horwood. Findings of ACL 2025
I. Learn from failure
- Forewarned is Forearmed: Harnessing LLMs for Data Synthesis via Failure-induced Exploration. ICLR 2025.
- CDS: Knowledge Component-Driven Data Synthesis Guided by Cognitive Diagnosis Theory Haokun Zhao, Jinyi Han, Jiaqing Liang, Yanghua Xiao, Xiaojun Meng, Jiansheng Wei. Arxiv 2025.
- SIPDO: Closed-Loop Prompt Optimization via Synthetic Data Feedback Yaoning Yu, Ye Yu, Kai Wei, Haojing Luo, Haohan Wang. Arxiv 2025.

4.3.5 Generating context from instruction-answer pairs

Generalizing From Short to Long: Effective Data Synthesis for Long-Context Instruction Tuning Wenhao Zhu, Pinzhen Chen, Hanxu Hu, Shujian Huang, Fei Yuan, Jiajun Chen, Alexandra Birch. Arxiv 2025.

4.4. Alignment

4.4.1 Self-align

Self-Rewarding Language Models. Weizhe Yuan, Richard Yuanzhe Pang, Kyunghyun Cho, Xian Li, Sainbayar Sukhbaatar, Jing Xu, Jason Weston. ICML 2024.

4.4.2 Human Principle Alignment

Principle-Driven Self-Alignment of Language Models from Scratch with Minimal Human Supervision Zhiqing Sun, Yikang Shen, Qinhong Zhou, Hongxin Zhang, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan. NeurIPS 2023.
Step-by-Step Mastery: Enhancing Soft Constraint Following Ability of Large Language Models Qingyu Ren, Jie Zeng, Qianyu He, Jiaqing Liang, Yanghua Xiao, Weikang Zhou, Zeye Sun, Fei Yu. ACL Findings 2025.

4.4.3 RLAIF

Phi-4 Technical Report Microsoft Research. Arxiv 2024.🔥
Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng, Radha Poovendran, Yejin Choi, Bill Yuchen Lin. ICLR 2025.
Montessori-Instruct: Generate Influential Training Data Tailored for Student Learning Xiaochuan Li, Zichun Yu, Chenyan Xiong. ICLR 2025.

4.4.4 Safety

Constitutional AI: Harmlessness from AI Feedback Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan. Arxiv 2022.
SynthPAI: A Synthetic Dataset for Personal Attribute Inference Hanna Yukhymenko, Robin Staab, Mark Vero, Martin Vechev. NeurIPS D&B 2024.
Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts Mikayel Samvelyan, Sharath Chandra Raparthy, Andrei Lupu, Eric Hambro, Aram H. Markosyan, Manish Bhatt, Yuning Mao, Minqi Jiang, Jack Parker-Holder, Jakob Foerster, Tim Rocktäschel, Roberta Raileanu. NeurIPS 2024.
Refined Direct Preference Optimization with Synthetic Data for Behavioral Alignment of LLMs V´ıctor Gallego. Arxiv 2024.
TRIDENT: Enhancing Large Language Model Safety with Tri-Dimensional Diversified Red-Teaming Data Synthesis Xiaorui Wu, Xiaofeng Mao, Fei Li, Xin Zhang, Xuanhong Li, Chong Teng, Donghong Ji, Zhuang Li. ACL 2025
PoisonSwarm: Universal Harmful Information Synthesis via Model Crowdsourcing Yu Yan, Sheng Sun, Zhifei Zheng, Ziji Hao, Teli Liu, Min Liu. Arxiv 2025.
AgentAlign: Navigating Safety Alignment in the Shift from Informative to Agentic Large Language Models Jinchuan Zhang, Lu Yin, Yan Zhou, Songlin Hu. Arxiv 2025.
Synthesizing Privacy-Preserving Text Data via Finetuning without Finetuning Billion-Scale LLMs Bowen Tan, Zheng Xu, Eric Xing, Zhiting Hu, Shanshan Wu. ICML 2025.
Scalable and Ethical Insider Threat Detection through Data Synthesis and Analysis by LLMs Haywood Gelman, John D. Hastings. Arxiv 2025.
ToxiLab: How Well Do Open-Source LLMs Generate Synthetic Toxicity Data? Zheng Hui, Zhaoxiao Guo, Hang Zhao, Juanyong Duan, Lin Ai, Yinheng Li, Julia Hirschberg, Congrui Huang. Arxiv 2024.
Model-based Large Language Model Customization as Service Zhaomin Wu, Jizhou Guo, Junyi Hou, Bingsheng He, Lixin Fan, Qiang Yang. Arxiv 2024.

4.5. Refinement Learning

SALMON: Self-Alignment with Instructable Reward Models Zhiqing Sun, Yikang Shen, Hongxin Zhang, Qinhong Zhou, Zhenfang Chen, David Cox, Yiming Yang, Chuang Gan. ICLR 2024.
West-of-N: Synthetic Preference Generation for Improved Reward Modeling. Alizée Pace, Jonathan Mallinson, Eric Malmi, Sebastian Krause, Aliaksei Severyn. Arxiv 2024.
A. Self-playing
- Self-playing Adversarial Language Game Enhances LLM Reasoning Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du. Neurips 2024.
- Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models. Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou. ICLR 2025.
- Self-play with Execution Feedback: Improving Instruction-following Capabilities of Large Language Models. Guanting Dong, Keming Lu, Chengpeng Li, Tingyu Xia, Bowen Yu, Chang Zhou, Jingren Zhou. Submit to ICLR 2025.

4.6. LLM Benchmarking

DataGen: Unified Synthetic Dataset Generation via Large Language Models Yue Huang, Siyuan Wu, Chujie Gao, Dongping Chen, Qihui Zhang, Yao Wan, Tianyi Zhou, Xiangliang Zhang, Jianfeng Gao, Chaowei Xiao, Lichao Sun. ICLR 2025.

4.7. Using synthetic and real data jointly

Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models Jie Chen, Yupeng Zhang, Bingning Wang, Wayne Xin Zhao, Ji-Rong Wen, Weipeng Chen. EMNLP Findings 2024.
Few-shot LLM Synthetic Data with Distribution Matching Jiyuan Ren, Zhaocheng Du, Zhihao Wen, Qinglin Jia, Sunhao Dai, Chuhan Wu, Zhenhua Dong. WWW 2025.

5. Analysis

5.1. Effect of Synthetic Data

AI models collapse when trained on recursively generated data Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson & Yarin Gal, Nature 2024.
How bad is training on synthetic data? A statistical analysis of language model collapse. Mohamed El Amine Seddik, Suei-Wen Chen, Soufiane Hayou, Pierre Youssef, Merouane Abdelkader DEBBAH. COLM 2024.
Strong Model Collapse Elvis Dohmatob, Yunzhen Feng, Arjun Subramonian, Julia Kempe. ICLR 2025.
Towards a Theoretical Understanding of Synthetic Data in LLM Post-Training: A Reverse-Bottleneck Perspective Zeyu Gan, Yong Liu. ICLR 2025.
Beyond Model Collapse: Scaling Up with Synthesized Data Requires Reinforcement Yunzhen Feqng, Elvis Dohmatob, Pu Yang, Francois Charton, Julia Kempe. ICLR 2025.
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops Shi Fu, Yingjie Wang, Yuzhu Chen, Xinmei Tian, Dacheng Tao. ICLR 2025
Is Model Collapse Inevitable? Breaking the Curse of Recursion by Accumulating Real and Synthetic Data Matthias Gerstgrasser, Rylan Schaeffer, Apratim Dey, Rafael Rafailov, Henry Sleight, John Hughes, Tomasz Korbak, Rajashree Agrawal, Dhruv Pai, Andrey Gromov, Daniel A. Roberts, Diyi Yang, David L. Donoho, Sanmi Koyejo. Arxiv 2024

5.2 Evaluation of Synthetic Data

5.2.1 Artifactuality

Under the Surface: Tracking the Artifactuality of LLM-Generated Data Debarati Das, Karin De Langis, Anna Martin-Boyle, Jaehyung Kim, Minhwa Lee, Zae Myung Kim, Shirley Anugrah Hayati, Risako Owan, Bin Hu, Ritik Parkar, Ryan Koo, Jonginn Park, Aahan Tyagi, Libby Ferland, Sanjali Roy, Vincent Liu, Dongyeop Kang. Arxiv 2024.

5.2.2 Fidelity

MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents Liyan Tang, Philippe Laban, Greg Durrett. EMNLP 2024.
How bad is training on synthetic data? A statistical analysis of language model collapse Mohamed El Amine Seddik, Suei-Wen Chen, Soufiane Hayou, Pierre Youssef, Merouane Debbah. COLM 2024.
Fine-tuning Language Models for Factuality Katherine Tian, Eric Mitchell, Huaxiu Yao, Christopher D. Manning, Chelsea Finn. ICLR 2024.
ToEdit: How to Synthesize Text Data to Avoid Model Collapse? ICML 2025.

5.2.3 Diversity

Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning Jaehun Jung, Seungju Han, Ximing Lu, Skyler Hallinan, David Acuna, Shrimai Prabhumoye, Mostafa Patwary, Mohammad Shoeybi, Bryan Catanzaro, Yejin Choi. Arxiv 2025.
On the Diversity of Synthetic Data and its Impact on Training Large Language Models Hao Chen, Abdul Waheed, Xiang Li, Yidong Wang, Jindong Wang, Bhiksha Raj, Marah I. Abdin. Arxiv 2024.
Evaluating the Diversity and Quality of LLM Generated Content Alexander Shypula, Shuo Li, Botong Zhang, Vishakh Padmakumar, Kayo Yin, Osbert Bastani ICLR 2025 Workshop.
Less is More: Adaptive Coverage for Synthetic Training Data Sasan Tavakkol, Max Springer, Mohammadhossein Bateni, Neslihan Bulut, Vincent Cohen-Addad, MohammadTaghi Hajiaghayi. Arxiv 2025.
Measuring diversity of synthetic prompts and data generated with fine-grained persona prompting Gauri Kambhatla, Chantal Shaib, Venkata Govindarajan. Arxiv 2025. (Focus on Persona Diversity)

6. Application Areas

6.1 Mathematical Reasoning

Distilling LLMs' Decomposition Abilities into Compact Language Models Denis Tarasov, Kumar Shridhar. AutoRL@ICML 2024.
MuggleMath: Assessing the Impact of Query and Response Augmentation on Math Reasoning Chengpeng Li, Zheng Yuan, Hongyi Yuan, Guanting Dong, Keming Lu, Jiancan Wu, Chuanqi Tan, Xiang Wang, Chang Zhou. ACL 2024.
MathGenie: Generating Synthetic Data with Question Back-translation for Enhancing Mathematical Reasoning of LLMs Zimu Lu, Aojun Zhou, Houxing Ren, Ke Wang, Weikang Shi, Junting Pan, Mingjie Zhan, Hongsheng Li. ACL 2024.
MetaMath: Bootstrap Your Own Mathematical Questions for Large Language Models Longhui Yu, Weisen Jiang, Han Shi, Jincheng Yu, Zhengying Liu, Yu Zhang, James T. Kwok, Zhenguo Li, Adrian Weller, Weiyang Liu. ICLR 2024.
Augmenting Math Word Problems via Iterative Question Composing Haoxiong Liu, Yifan Zhang, Yifan Luo, Andrew Chi-Chih Yao. DPFM@ICLR 2024.
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen. Arxiv 2024.
Dart-math: Difficulty-aware rejection tuning for mathematical problem-solving Yuxuan Tong, Xiwen Zhang, Rui Wang, Ruidong Wu, Junxian He. NeurIPS 2024.
RL on Incorrect Synthetic Data Scales the Efficiency of LLM Math Reasoning by Eight-Fold Amrith Setlur, Saurabh Garg, Xinyang Geng, Naman Garg, Virginia Smith, Aviral Kumar. NeurIPS 2025
VCR: A "Cone of Experience" Driven Synthetic Data Generation Framework for Mathematical Reasoning Sannyuya Liu, Jintian Feng, Xiaoxuan Shen, Shengyingjie Liu, Qian Wan, Jianwen Sun. AAAI 2025.
Key-Point-Driven Data Synthesis with its Enhancement on Mathematical Reasoning Yiming Huang, Xiao Liu, Yeyun Gong, Zhibin Gou, Yelong Shen, Nan Duan, Weizhu Chen. AAAI2025.
Synthesis by Design: Controlled Data Generation via Structural Guidance Lei Xu, Sirui Chen, Yuxuan Huang, Chaochao Lu. Arxiv 2025.
LLM-based Automated Theorem Proving Hinges on Scalable Synthetic Data Generation Junyu Lai, Jiakun Zhang, Shuo Xu, Taolue Chen, Zihang Wang, Yao Yang, Jiarui Zhang, Chun Cao, Jingwei Xu. Arxiv 2025.
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning Huanyu Liu, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong, Ge Li. Arxiv 2025.
RV-Syn: Rational and Verifiable Mathematical Reasoning Data Synthesis based on Structured Function Library Jiapeng Wang, Jinhao Jiang, Zhiqiang Zhang, Jun Zhou, Wayne Xin Zhao. Arxiv 2025.
MathFusion: Enhancing Mathematical Problem-solving of LLM through Instruction Fusion Qizhi Pei, Lijun Wu, Zhuoshi Pan, Yu Li, Honglin Lin, Chenlin Ming, Xin Gao, Conghui He, Rui Yan. ACL 2025.
AutoLogi: Automated Generation of Logic Puzzles for Evaluating Reasoning Abilities of Large Language Models Qin Zhu, Fei Huang, Runyu Peng, Keming Lu, Bowen Yu, Qinyuan Cheng, Xipeng Qiu, Xuanjing Huang, Junyang Lin. Arxiv 2025.
CDS: Knowledge Component-Driven Data Synthesis Guided by Cognitive Diagnosis Theory Haokun Zhao, Jinyi Han, Jiaqing Liang, Yanghua Xiao, Xiaojun Meng, Jiansheng Wei. Arxiv 2025.
A Graph-Based Synthetic Data Pipeline for Scaling High-Quality Reasoning Instructions Jiankang Wang, Jianjun Xu, Xiaorui Wang, Yuxin Wang, Mengting Xing, Shancheng Fang, Zhineng Chen, Hongtao Xie, Yongdong Zhang. Arxiv 2024.
Unleashing LLM Reasoning Capability via Scalable Question Synthesis from Scratch Yuyang Ding, Xinyu Shi, Xiaobo Liang, Juntao Li, Zhaopeng Tu, Qiaoming Zhu, Min Zhang. ACL 2025.
Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing Ye Tian, Baolin Peng, Linfeng Song, Lifeng Jin, Dian Yu, Haitao Mi, Dong Yu. NeurIPS 2024.
Step-Opt: Boosting Optimization Modeling in LLMs through Iterative Data Synthesis and Structured Validation Yang Wu, Yifan Zhang, Yurong Wu, Yuran Wang, Junkai Zhang, Jian Cheng. Arxiv 2025.
FLAMES: Improving LLM Math Reasoning via a Fine-Grained Analysis of the Data Synthesis Pipeline Parker Seegmiller, Kartik Mehta, Soumya Saha, Chenyang Tao, Shereen Oraby, Arpit Gupta, Tagyoung Chung, Mohit Bansal, Nanyun Peng. EMNLP 2025.

6.2 Code Generation

Program Synthesis with Large Language Models Jacob Austin, Augustus Odena, Maxwell Nye, Maarten Bosma, Henryk Michalewski, David Dohan, Ellen Jiang, Carrie Cai, Michael Terry, Quoc Le, Charles Sutton. Arxiv 2021.
CodeRL: Mastering Code Generation through Pretrained Models and Deep Reinforcement Learning Hung Le, Yue Wang, Akhilesh Deepak Gotmare, Silvio Savarese, Steven C.H. Hoi. NeurIPS 2022.
InterCode: Standardizing and Benchmarking Interactive Coding with Execution Feedback John Yang, Akshara Prabhakar, Karthik Narasimhan, Shunyu Yao. Arxiv 2023.
Language Models Can Teach Themselves to Program Better Patrick Haluptzok, Matthew Bowers, Adam Tauman Kalai. ICLR 2023.
CODEGEN: AN OPEN LARGE LANGUAGE MODEL FOR CODE WITH MULTI-TURN PROGRAM SYNTHESIS. ICLR2023.
Code Alpaca: An Instruction-following LLaMA Model trained on code generation instructions Sahil Chaudhary. GitHub 2023.
Genetic Instruct: Scaling up Synthetic Generation of Coding Instructions for Large Language Models Somshubra Majumdar, Vahid Noroozi, Sean Narenthiran, Aleksander Ficek, Jagadeesh Balam, Boris Ginsburg. Arxiv 2024.
Magicoder: Empowering Code Generation with OSS-Instruct Yuxiang Wei, Zhe Wang, Jiawei Liu, Yifeng Ding, Lingming Zhang. ICML 2024.
WaveCoder: Widespread And Versatile Enhancement For Code Large Language Models By Instruction Tuning Zhaojian Yu, Xin Zhang, Ning Shang, Yangyu Huang, Can Xu, Yishujie Zhao, Wenxiang Hu, Qiufeng Yin. ACL 2024.
WizardCoder: Empowering Code Large Language Models with Evol-Instruct Ziyang Luo, Can Xu, Pu Zhao, Qingfeng Sun, Xiubo Geng, Wenxiang Hu, Chongyang Tao, Jing Ma, Qingwei Lin, Daxin Jiang. ICLR 2024.
Learning Performance-Improving Code Edits Alexander Shypula, Aman Madaan, Yimeng Zeng, Uri Alon, Jacob Gardner, Milad Hashemi, Graham Neubig, Parthasarathy Ranganathan, Osbert Bastani, Amir Yazdanbakhsh. ICLR 2024.
InverseCoder: Unleashing the Power of Instruction-Tuned Code LLMs with Inverse-Instruct Yutong Wu, Di Huang, Wenxuan Shi, Wei Wang, Lingzhe Gao, Shihao Liu, Ziyuan Nan, Kaizhao Yuan, Rui Zhang, Xishan Zhang, Zidong Du, Qi Guo, Yewen Pu, Dawei Yin, Xing Hu, Yunji Chen. Arxiv 2024.
OpenCodeInterpreter: Integrating Code Generation with Execution and Refinement Tianyu Zheng, Ge Zhang, Tianhao Shen, Xueling Liu, Bill Yuchen Lin, Jie Fu, Wenhu Chen, Xiang Yue. Arxiv 2024.
AutoCoder: Enhancing Code Large Language Model with AIEV-Instruct Bin Lei, Yuchen Li, Qiuwu Chen. Arxiv 2024.
How Do Your Code LLMs Perform? Empowering Code Instruction Tuning with High-Quality Data Yejie Wang, Keqing He, Dayuan Fu, Zhuoma Gongque, Heyang Xu, Yanxu Chen, Zhexu Wang, Yujia Fu, Guanting Dong, Muxi Diao, Jingang Wang, Mengdi Zhang, Xunliang Cai, Weiran Xu. Arxiv 2024.
SelfCodeAlign: Self-Alignment for Code Generation Yuxiang Wei, Federico Cassano, Jiawei Liu, Yifeng Ding, Naman Jain, Zachary Mueller, Harm de Vries, Leandro von Werra, Arjun Guha, Lingming Zhang. Arxiv 2024.
Veritas: Deterministic Verilog Code Synthesis from LLM-Generated Conjunctive Normal Form Prithwish Basu Roy, Akashdeep Saha, Manaar Alam, Johann Knechtel, Michail Maniatakos, Ozgur Sinanoglu, Ramesh Karri. Arxiv 2025.
Boosting Vulnerability Detection of LLMs via Curriculum Preference Optimization with Synthetic Reasoning Data Xin-Cheng Wen, Yijun Yang, Cuiyun Gao, Yang Xiao, Deheng Ye. ACL Findings 2025.
DSCodeBench: A Realistic Benchmark for Data Science Code Generation Shuyin Ouyang, Dong Huang, Jingwen Guo, Zeyu Sun, Qihao Zhu, Jie M. Zhang. Arxiv 2025.
Infinite-Instruct: Synthesizing Scaling Code instruction Data with Bidirectional Synthesis and Static Verification Wenjing Xing, Wenke Lu, Yeheng Duan, Bing Zhao, Zhenghui kang, Yaolong Wang, Kai Gao, Lei Qiao. Arxiv 2025.
SATURN: SAT-based Reinforcement Learning to Unleash Language Model Reasoning Huanyu Liu, Jia Li, Hao Zhu, Kechi Zhang, Yihong Dong, Ge Li. Arxiv 2025.
ChiseLLM: Unleashing the Power of Reasoning LLMs for Chisel Agile Hardware Development Bowei Wang, Jiaran Gao, Yelai Feng, Renzhi Chen, Shanshan Li, Lei Wang. Arxiv 2025.
ClarifyCoder: Clarification-Aware Fine-Tuning for Programmatic Problem Solving Jie JW Wu, Manav Chaudhary, Davit Abrahamyan, Arhaan Khaku, Anjiang Wei, Fatemeh H. Fard. Arxiv 2025.
UnitCoder: Scalable Iterative Code Synthesis with Unit Test Guidance Yichuan Ma, Yunfan Shao, Peiji Li, Demin Song, Qipeng Guo, Linyang Li, Xipeng Qiu, Kai Chen. Arxiv 2025.
dafny-annotator: AI-Assisted Verification of Dafny Programs Gabriel Poesia, Chloe Loughridge, Nada Amin. Arxiv 2024.
Mastering the Craft of Data Synthesis for CodeLLMs Meng Chen, Philip Arthur, Qianyu Feng, Cong Duy Vu Hoang, Yu-Heng Hong, Mahdi Kazemi Moghaddam, Omid Nezami, Thien Nguyen, Gioacchino Tangari, Duy Vu, Thanh Vu, Mark Johnson, Krishnaram Kenthapadi, Don Dharmasiri, Long Duong, Yuan-Fang Li. NAACL 2025.
EDGE: Enhanced Grounded GUI Understanding with Enriched Multi-Granularity Synthetic Data Xuetian Chen, Hangcheng Li, Jiaqing Liang, Sihang Jiang, Deqing Yang. Arxiv 2024.

6.3 Agent and Tool Use

ToolAlpaca: Generalized Tool Learning for Language Models with 3000 Simulated Cases. Qiaoyu Tang, Ziliang Deng, Hongyu Lin, Xianpei Han, Qiao Liang, Boxi Cao, Le Sun. Arxiv 2023.
Toolformer: Language Models Can Teach Themselves to Use Tools. Timo Schick, Jane Dwivedi-Yu, Roberto Dessì, Roberta Raileanu, Maria Lomeli, Luke Zettlemoyer, Nicola Cancedda, Thomas Scialom. NeurIPS 2023.
GPT4Tools: Teaching Large Language Model to Use Tools via Self-instruction. Rui Yang, Lin Song, Yanwei Li, Sijie Zhao, Yixiao Ge, Xiu Li, Ying Shan. Neurips 2023.
Gorilla: Large Language Model Connected with Massive APIs. Shishir G. Patil, Tianjun Zhang, Xin Wang, Joseph E. Gonzalez. NeurIPS 2024.
Quality Matters: Evaluating Synthetic Data for Tool-Using LLMs. Shadi Iskander, Nachshon Cohen, Zohar Karnin, Ori Shapira, Sofia Tolmach. EMNLP 2024.
Voyager: An Open-Ended Embodied Agent with Large Language Models. Guanzhi Wang, Yuqi Xie, Yunfan Jiang, Ajay Mandlekar, Chaowei Xiao, Yuke Zhu, Linxi Fan, Anima Anandkumar. TMLR 2024.
A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis Xin Gao, Qizhi Pei, Zinan Tang, Yu Li, Honglin Lin, Jiang Wu, Lijun Wu, Conghui He. ACL 2025.
Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning Guanting Dong, Yifei Chen, Xiaoxi Li, Jiajie Jin, Hongjin Qian, Yutao Zhu, Hangyu Mao, Guorui Zhou, Zhicheng Dou, Ji-Rong Wen. Arxiv 2025.
ToolACE-DEV: Self-Improving Tool Learning via Decomposition and EVolution Xu Huang, Weiwen Liu, Xingshan Zeng, Yuefeng Huang, Xinlong Hao, Yuxian Wang, Yirong Zeng, Chuhan Wu, Yasheng Wang, Ruiming Tang, Defu Lian. Arxiv 2025.
Advancing and Benchmarking Personalized Tool Invocation for LLMs Xu Huang, Yuefeng Huang, Weiwen Liu, Xingshan Zeng, Yasheng Wang, Ruiming Tang, Hong Xie, Defu Lian. Arxiv 2025.
GraphMaster: Automated Graph Synthesis via LLM Agents in Data-Limited Environments Enjun Du, Xunkai Li, Tian Jin, Zhihan Zhang, Rong-Hua Li, Guoren Wang. Arxiv 2025.
LLMSR@XLLM25: Less is More: Enhancing Structured Multi-Agent Reasoning via Quality-Guided Distillation Jiahao Yuan, Xingzhe Sun, Xing Yu, Jingwen Wang, Dehui Du, Zhiqing Cui, Zixiang Di. XLLM 2025.
Efficient Multi-Agent System Training with Data Influence-Oriented Tree Search Wentao Shi, Zichun Yu, Fuli Feng, Xiangnan He, Chenyan Xiong. Arxiv 2025.
Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents Yu Gu, Kai Zhang, Yuting Ning, Boyuan Zheng, Boyu Gou, Tianci Xue, Cheng Chang, Sanjari Srivastava, Yanan Xie, Peng Qi, Huan Sun, Yu Su. Submitted to TMLR 2025.
ToolFlow: Boosting LLM Tool-Calling Through Natural and Coherent Dialogue Synthesis Zezhong Wang, Xingshan Zeng, Weiwen Liu, Liangyou Li, Yasheng Wang, Lifeng Shang, Xin Jiang, Qun Liu, Kam-Fai Wong. NAACL 2025.
Synthesizing Post-Training Data for LLMs through Multi-Agent Simulation Shuo Tang, Xianghe Pang, Zexi Liu, Bohan Tang, Rui Ye, Tian Jin, Xiaowen Dong, Yanfeng Wang, Siheng Chen. Arxiv 2024.
Self-Training Large Language Models for Tool-Use Without Demonstrations Ne Luo, Aryo Pradipta Gema, Xuanli He, Emile van Krieken, Pietro Lesci, Pasquale Minervini. Arxiv 2025.

6.4 Vision and Language

Visual Instruction Tuning Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee. NeurIPS 2023.
Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond Jinze Bai, Shuai Bai, Shusheng Yang, Shijie Wang, Sinan Tan, Peng Wang, Junyang Lin, Chang Zhou, Jingren Zhou. Arxiv 2023.
Enhancing Cognition and Explainability of Multimodal Foundation Models with Self-Synthesized Data Yucheng Shi, Quanzheng Li, Jin Sun, Xiang Li, Ninghao Liu. ICLR 2025.
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model Jiahui Gao, Renjie Pi, Jipeng Zhang, Jiacheng Ye, Wanjun Zhong, Yufei Wang, Lanqing Hong, Jianhua Han, Hang Xu, Zhenguo Li, Lingpeng Kong. ICLR 2025.
MiniGPT-4: Enhancing Vision-Language Understanding with Advanced Large Language Models Deyao Zhu, Jun Chen, Xiaoqian Shen, Xiang Li, Mohamed Elhoseiny. ICLR 2024.
Enhancing Large Vision Language Models with Self-Training on Image Comprehension Yihe Deng, Pan Lu, Fan Yin, Ziniu Hu, Sheng Shen, James Zou, Kai-Wei Chang, Wei Wang. NeurIPS 2024.
LLaVA-OneVision: Easy Visual Task Transfer Bo Li, Yuanhan Zhang, Dong Guo, Renrui Zhang, Feng Li, Hao Zhang, Kaichen Zhang, Yanwei Li, Ziwei Liu, Chunyuan Li. Submit to TMLR.
FUSION: Fully Integration of Vision-Language Representations for Deep Cross-Modal Understanding Zheng Liu, Mengjie Liu, Jingzhou Chen, Jingwei Xu, Bin Cui, Conghui He, Wentao Zhang. Arxiv 2025.
RadarLLM: Empowering Large Language Models to Understand Human Motion from Millimeter-wave Point Cloud Sequence Zengyuan Lai, Jiarui Yang, Songpengcheng Xia, Lizhou Lin, Lan Sun, Renwen Wang, Jianran Liu, Qi Wu, Ling Pei. Arxiv 2025.
Unicorn: Text-Only Data Synthesis for Vision Language Model Training Xiaomin Yu, Pengxiang Ding, Wenjie Zhang, Siteng Huang, Songyang Gao, Chengwei Qin, Kejian Wu, Zhaoxin Fan, Ziyue Qiao, Donglin Wang. Arxiv 2025.
Unseen from Seen: Rewriting Observation-Instruction Using Foundation Models for Augmenting Vision-Language Navigation Ziming Wei, Bingqian Lin, Yunshuang Nie, Jiaqi Chen, Shikui Ma, Hang Xu, Xiaodan Liang. Arxiv 2025.
Semantic to Structure: Learning Structural Representations for Infringement Detection Chuanwei Huang, Zexi Jia, Hongyan Fei, Yeshuang Zhu, Zhiqiang Yuan, Jinchao Zhang, Jie Zhou. Arxiv 2025.
Theorem-Validated Reverse Chain-of-Thought Problem Generation for Geometric Reasoning Linger Deng, Linghao Zhu, Yuliang Liu, Yu Wang, Qunyi Xie, Jingjing Wu, Gang Zhang, Yingying Zhu, Xiang Bai. Arxiv 2024.
Distill Visual Chart Reasoning Ability from LLMs to MLLMs Wei He, Zhiheng Xi, Wanxu Zhao, Xiaoran Fan, Yiwen Ding, Zifei Shan, Tao Gui, Qi Zhang, Xuanjing Huang. Arxiv 2024.

6.5 Retrieval-Augmented Generation

GainRAG: Preference Alignment in Retrieval-Augmented Generation through Gain Signal Synthesis Yi Jiang, Sendong Zhao, Jianbo Li, Haochun Wang, Bing Qin. ACL 2025.
DailyQA: A Benchmark to Evaluate Web Retrieval Augmented LLMs Based on Capturing Real-World Changes Jiehan Cheng, Zhicheng Dou. Arxiv 2025.
HM-RAG: Hierarchical Multi-Agent Multimodal Retrieval Augmented Generation Pei Liu, Xin Liu, Ruoyu Yao, Junming Liu, Siyuan Meng, Ding Wang, Jun Ma. Arxiv 2025.
AI-University: An LLM-based platform for instructional alignment to scientific classrooms Mostafa Faghih Shojaei, Rahul Gulati, Benjamin A. Jasperson, Shangshang Wang, Simone Cimolato, Dangli Cao, Willie Neiswanger, Krishna Garikipati. Arxiv 2025.
A Collaborative Multi-Agent Approach to Retrieval-Augmented Generation Across Diverse Data Aniruddha Salve, Saba Attar, Mahesh Deshmukh, Sayali Shivpuje, Arnab Mitra Utsab. Arxiv 2024.
LLM-Ref: Enhancing Reference Handling in Technical Writing with Large Language Models Kazi Ahmed Asif Fuad, Lizhong Chen. Arxiv 2024.

6.6 Long Context

Make Your LLM Fully Utilize the Context. Shengnan An, Zexiong Ma, Zeqi Lin, Nanning Zheng, Jian-Guang Lou. Arxiv 2024.
From Artificial Needles to Real Haystacks: Improving Retrieval Capabilities in LLMs by Finetuning on Synthetic Data. Zheyang Xiong, Vasilis Papageorgiou, Kangwook Lee, Dimitris Papailiopoulos. ICLR 2025.
Scaling Instruction-tuned LLMs to Million-token Contexts via Hierarchical Synthetic Data Generation Linda He, Jue WANG, Maurice Weber, Shang Zhu, Ben Athiwaratkun, Ce Zhang. ICLR 2025.🔥
LongMagpie: A Self-synthesis Method for Generating Large-scale Long-context Instructions Chaochen Gao, Xing Wu, Zijia Lin, Debing Zhang, Songlin Hu.
WildLong: Synthesizing Realistic Long-Context Instruction Data at Scale Jiaxi Li, Xingxing Zhang, Xun Wang, Xiaolong Huang, Li Dong, Liang Wang, Si-Qing Chen, Wei Lu, Furu Wei. Arxiv 2025.
NExtLong: Toward Effective Long-Context Training without Long Documents Chaochen Gao, Xing Wu, Zijia Lin, Debing Zhang, Songlin Hu. ICML 2025.
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li. ICLR 2025.
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li. Arxiv 2025.🔥

6.7 Writing

TinyStories: How Small Can Language Models Be and Still Speak Coherent English? Ronen Eldan, Yuanzhi Li. Arxiv 2024.
Weaver: Foundation Models for Creative Writing Tiannan Wang, Jiamin Chen, Qingrui Jia, Shuai Wang, Ruoyu Fang, Huilin Wang, Zhaowei Gao, Chunzhao Xie, Chuou Xu, Jihong Dai, Yibin Liu, Jialong Wu, Shengwei Ding, Long Li, Zhiwei Huang, Xinle Deng, Teng Yu, Gangan Ma, Han Xiao, Zixin Chen, Danjun Xiang, Yunxia Wang, Yuanyuan Zhu, Yi Xiao, Jing Wang, Yiru Wang, Siran Ding, Jiayang Huang, Jiayi Xu, Yilihamu Tayier, Zhenyu Hu, Yuan Gao, Chengfeng Zheng, Yueshu Ye, Yihang Li, Lei Wan, Xinyue Jiang, Yujie Wang, Siyu Cheng, Zhule Song, Xiangru Tang, Xiaohua Xu, Ningyu Zhang, Huajun Chen, Yuchen Eleanor Jiang, Wangchunshu Zhou. Arxiv 2024.
LongWriter: Unleashing 10,000+ Word Generation from Long Context LLMs Yushi Bai, Jiajie Zhang, Xin Lv, Linzhi Zheng, Siqi Zhu, Lei Hou, Yuxiao Dong, Jie Tang, Juanzi Li. ICLR 2025.
LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning Yuhao Wu, Yushi Bai, Zhiqiang Hu, Roy Ka-Wei Lee, Juanzi Li. Arxiv 2025.🔥

6.8 AI For Science

Leveraging Large Language Models for enzymatic reaction prediction and characterization Lorenzo Di Fruscia, Jana Marie Weber Arxiv 2025.
Large language models to accelerate organic chemistry synthesis Yu Zhang, Yang Han, Shuai Chen, Ruijie Yu, Xin Zhao, Xianbin Liu, Kaipeng Zeng, Mengdi Yu, Jidong Tian, Feng Zhu, Xiaokang Yang, Yaohui Jin, Yanyan Xu. Nature Machine Intelligence 2025.
SynLlama: Generating Synthesizable Molecules and Their Analogs with Large Language Models Kunyang Sun, Dorian Bagni, Joseph M. Cavanagh, Yingze Wang, Jacob M. Sawyer, Andrew Gritsevskiy, Oufan Zhang, Teresa Head-Gordon. Arxiv 2025.
Causal Discovery from Data Assisted by Large Language Models Kamyar Barakati, Alexander Molak, Chris Nelson, Xiaohang Zhang, Ichiro Takeuchi, Sergei V. Kalinin. Arxiv 2025.
Leveraging Large Language Models to Address Data Scarcity in Machine Learning: Applications in Graphene Synthesis Devi Dutta Biswajeet, Sara Kadkhodaei. Arxiv 2025.
Agentic Mixture-of-Workflows for Multi-Modal Chemical Search Tiffany J. Callahan, Nathaniel H. Park, Sara Capponi. Arxiv 2025.

6.9 Text-to-SQL

Synthesizing Text-to-SQL Data from Weak and Strong LLMs Jiaxi Yang, Binyuan Hui, Min Yang, Jian Yang, Junyang Lin, Chang Zhou. ACL 2024.
Synthetic-Text-To-SQL: A synthetic dataset for training language models to generate SQL queries from natural language prompts Meyer, Yev and Emadi, Marjan and Nathawani, Dhruv and Ramaswamy, Lipika and Boyd, Kendrick and Van Segbroeck, Maarten and Grossman, Matthew and Mlocek, Piotr and Newberry, Drew. Huggingface 2024.
OmniSQL: Synthesizing High-quality Text-to-SQL Data at Scale Haoyang Li, Shang Wu, Xiaokang Zhang, Xinmei Huang, Jing Zhang, Fuxin Jiang, Shuai Wang, Tieying Zhang, Jianjun Chen, Rui Shi, Hong Chen, Cuiping Li. Arxiv 2025.
CoddLLM: Empowering Large Language Models for Data Analytics Jiani Zhang, Hengrui Zhang, Rishav Chakravarti, Yiqun Hu, Patrick Ng, Asterios Katsifodimos, Huzefa Rangwala, George Karypis, Alon Halevy. Arxiv 2025.

6.10 Synergy between Large and Small Models

FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models, Ruixuan Xiao, Yiwen Dong, Junbo Zhao, Runze Wu, Minmin Lin, Gang Chen, Haobo Wang. EMNLP 2023.
Synthetic Data Generation with Large Language Models for Text Classification: Potential and Limitations, Zhuoyan Li, Hangxiao Zhu, Zhuoran Lu, Ming Yin. EMNLP finding 2023.
Data-Constrained Synthesis of Training Data for De-Identification Thomas Vakili, Aron Henriksson, Hercules Dalianis. ACL 2025.
Symbiotic Cooperation for Web Agents: Harnessing Complementary Strengths of Large and Small LLMs Ruichen Zhang, Mufan Qiu, Zhen Tan, Mohan Zhang, Vincent Lu, Jie Peng, Kaidi Xu, Leandro Z. Agudelo, Peter Qian, Tianlong Chen. Arxiv 2025.

6.11 Weak-to-Strong

Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. Collin Burns, Pavel Izmailov, Jan Hendrik Kirchner, Bowen Baker, Leo Gao, Leopold Aschenbrenner, Yining Chen, Adrien Ecoffet, Manas Joglekar, Jan Leike, Ilya Sutskever, Jeffrey Wu. ICML 2024.
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models. Zixiang Chen, Yihe Deng, Huizhuo Yuan, Kaixuan Ji, Quanquan Gu. ICML 2024.
Impossible Distillation for Paraphrasing and Summarization: How to Make High-quality Lemonade out of Small, Low-quality Models Jaehun Jung, Peter West, Liwei Jiang, Faeze Brahman, Ximing Lu, Jillian Fisher, Taylor Sorensen, Yejin Choi. NAACL 2024.

6.12 Distill Small Model

TinyStories: How Small Can Language Models Be and Still Speak Coherent English? Ronen Eldan, Yuanzhi Li. Arxiv 2024.
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models Ruida Wang, Wangchunshu Zhou, Mrinmaya Sachan, EMNLP finding2023
CorrSynth -- A Correlated Sampling Method for Diverse Dataset Generation from LLMs Suhas S Kowshik, Abhishek Divekar, Vijit Malik. EMNLP 2024.

6.13 Multilingual Data

CulFiT: A Fine-grained Cultural-aware LLM Training Paradigm via Multilingual Critique Data Synthesis Ruixiang Feng, Shen Gao, Xiuying Chen, Lisi Chen, Shuo Shang. ACL 2025.
Command R7B Arabic: A Small, Enterprise Focused, Multilingual, and Culturally Aware Arabic LLM Yazeed Alnumay, Alexandre Barbet, Anna Bialas, William Darling, Shaan Desai, Joan Devassy, Kyle Duffy, Stephanie Howe, Olivia Lasche, Justin Lee, Anirudh Shrinivason, Jennifer Tracey. AfricaNLP 2025.
Evaluating Large Language Model Capability in Vietnamese Fact-Checking Data Generation Long Truong To, Hung Tuan Le, Dat Van-Thanh Nguyen, Manh Trong Nguyen, Tri Thien Nguyen, Tin Van Huynh, Kiet Van Nguyen. Arxiv 2024.

6.14 Structured Data

TableDreamer: Progressive and Weakness-guided Data Synthesis from Scratch for Table Instruction Tuning Mingyu Zheng, Zhifan Feng, Jia Wang, Lanrui Wang, Zheng Lin, Yang Hao, Weiping Wang. ACL Findings 2025.
A Note on Statistically Accurate Tabular Data Generation Using Large Language Models Andrey Sidorenko. Arxiv 2025.
SLOT: Structuring the Output of Large Language Models Darren Yow-Bang Wang, Zhengyuan Shen, Soumya Smruti Mishra, Zhichao Xu, Yifei Teng, Haibo Ding. Arxiv 2025.
Tabby: Tabular Adaptation for Language Models Sonia Cromp, Satya Sai Srinath Namburi GNVV, Mohammed Alkhudhayri, Catherine Cao, Samuel Guo, Nicholas Roberts, Frederic Sala. Arxiv 2025.
GReaTER: Generate Realistic Tabular data after data Enhancement and Reduction Tung Sum Thomas Kwok, Chi-Hua Wang, Guang Cheng. ICDE workshop 2025.
Generative adversarial networks vs large language models: a comparative study on synthetic tabular data generation Austin A. Barr, Robert Rozman, Eddie Guo. Arxiv 2025.
SampleLLM: Optimizing Tabular Data Synthesis in Recommendations Jingtong Gao, Zhaocheng Du, Xiaopeng Li, Yichao Wang, Xiangyang Li, Huifeng Guo, Ruiming Tang, Xiangyu Zhao. WWW 2025.
Large Language Models for Data Synthesis Yihong Tang, Menglin Kong, Lijun Sun. Arxiv 2025.

6.15 Natural Language Understanding

Improving Natural Language Understanding for LLMs via Large-Scale Instruction Synthesis Lin Yuan, Jun Xu, Honghao Gui, Mengshu Sun, Zhiqiang Zhang, Lei Liang, Jun Zhou. AAAI 2025.
Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification Alexander Shvets. ACL Findings 2025.
DS2-ABSA: Dual-Stream Data Synthesis with Label Refinement for Few-Shot Aspect-Based Sentiment Analysis Hongling Xu, Yice Zhang, Qianlong Wang, Ruifeng Xu. ACL 2025.

6.16 Logic Reasoning

Enhancing Reasoning Capabilities of LLMs via Principled Synthetic Logic Corpus Terufumi Morishita, Gaku Morio, Atsuki Yamaguchi, Yasuhiro Sogawa. NeurIPS 2024
LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning Jin Jiang, Yuchen Yan, Yang Liu, Jianing Wang, Shuai Peng, Xunliang Cai, Yixin Cao, Mengdi Zhang, Liangcai Gao. ACL 2025

6.17 Dialogue System

DocTalk: Scalable Graph-based Dialogue Synthesis for Enhancing LLM Conversational Capabilities Jing Yang Lee, Hamed Bonab, Nasser Zalmout, Ming Zeng, Sanket Lokegaonkar, Colin Lockard, Binxuan Huang, Ritesh Sarkhel, Haodong Wang. SIGDIAL 2025.
Mutual Reinforcement of LLM Dialogue Synthesis and Summarization Capabilities for Few-Shot Dialogue Summarization Yen-Ju Lu, Ting-Yao Hu, Hema Swetha Koppula, Hadi Pouransari, Jen-Hao Rick Chang, Yin Xia, Xiang Kong, Qi Zhu, Simon Wang, Oncel Tuzel, Raviteja Vemulapalli. NAACL Findings 2025.
Bottom-Up Synthesis of Knowledge-Grounded Task-Oriented Dialogues with Iteratively Self-Refined Prompts Kun Qian, Maximillian Chen, Siyan Li, Arpit Sharma, Zhou Yu. NAACL 2025.

6.18 Federated Learning

Prompt Public Large Language Models to Synthesize Data for Private On-device Applications. Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage. COLM 2024.
Harnessing large-language models to generate private synthetic text. Alexey Kurakin, Natalia Ponomareva, Umar Syed, Liam MacDermed, Andreas Terzis. Arxiv 2024.

6.19 Generative Design

Generative Design through Quality-Diversity Data Synthesis and Language Models. Adam Gaier, James Stoddart, Lorenzo Villaggi, Shyam Sudhakaran. GECCO 2024.
VeriReason: Reinforcement Learning with Testbench Feedback for Reasoning-Enhanced Verilog Generation Yiting Wang, Guoheng Sun, Wanghao Ye, Gang Qu, Ang Li. Arxiv 2025.
CodeV-R1: Reasoning-Enhanced Verilog Generation Yaoyu Zhu, Di Huang, Hanqi Lyu, Xiaoyun Zhang, Chongxiao Li, Wenxuan Shi, Yutong Wu, Jianan Mu, Jinghua Wang, Yang Zhao, Pengwei Jin, Shuyao Cheng, Shengwen Liang, Xishan Zhang, Rui Zhang, Zidong Du, Qi Guo, Xing Hu, Yunji Chen. Arxiv 2025.
LIFT: LLM-Based Pragma Insertion for HLS via GNN Supervised Fine-Tuning Neha Prakriya, Zijian Ding, Yizhou Sun, Jason Cong. Arxiv 2025.
CAD-Editor: A Locate-then-Infill Framework with Automated Training Data Synthesis for Text-Based CAD Editing Yu Yuan, Shizhao Sun, Qi Liu, Jiang Bian. ICML 2025.
AnalogXpert: Automating Analog Topology Synthesis by Incorporating Circuit Design Expertise into Large Language Models Haoyi Zhang, Shizhao Sun, Yibo Lin, Runsheng Wang, Jiang Bian. Arxiv 2024.

5.15. Knowledge-Intensive Data

GraphGen: Enhancing Supervised Fine-Tuning for LLMs with Knowledge-Driven Synthetic Data Generation Zihong Chen, Wanli Jiang, Jinzhe Li, Zhonghang Yuan, Huanjun Kong, Wanli Ouyang, Nanqing Dong Arxiv 2025.

7. Tools

DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows. Ajay Patel, Colin Raffel, Chris Callison-Burch. ACL 2024.
AgentInstruct: Toward Generative Teaching with Agentic Flows. Arindam Mitra, Luciano Del Corro, Guoqing Zheng, Shweti Mahajan, Dany Rouhana, Andres Codas, Yadong Lu, Wei-ge Chen, Olga Vrousgos, Corby Rosset, Fillipe Silva, Hamed Khanpour, Yash Lara, Ahmed Awadallah. Arxiv 2024.
Distilabel: An AI Feedback (AIF) Framework for Building Datasets with and for LLMs. Álvaro Bartolomé Del Canto, Gabriel Martín Blázquez, Agustín Piqueres Lajarín and Daniel Vila Suero. GitHub 2024.
Fuxion: Synthetic Data Generation and Normalization Functions using Langchain + LLMs.
Easy Dataset: A Unified and Extensible Framework for Synthesizing LLM Fine-Tuning Data from Unstructured Documents Ziyang Miao, Qiyu Sun, Jingyuan Wang, Yuchen Gong, Yaowei Zheng, Shiqi Li, Richong Zhang. Arxiv 2025.
EasyDistill: A Comprehensive Toolkit for Effective Knowledge Distillation of Large Language Models Chengyu Wang, Junbing Yan, Wenrui Cai, Yuanhao Yue, Jun Huang. Arxiv 2025.

8. Datasets

Open Artificial Knowledge Vadim Borisov, Richard Schreiber. ICML Workshop 2024.
PromptSource: An Integrated Development Environment and Repository for Natural Language Prompts Stephen H. Bach, Victor Sanh, Zheng-Xin Yong, Albert Webson, Colin Raffel, Nihal V. Nayak, Abheesht Sharma, Taewoon Kim, M Saiful Bari, Thibault Fevry, Zaid Alyafeai, Manan Dey, Andrea Santilli, Zhiqing Sun, Srulik Ben-David, Canwen Xu, Gunjan Chhablani, Han Wang, Jason Alan Fries, Maged S. Al-shaibani, Shanya Sharma, Urmish Thakker, Khalid Almubarak, Xiangru Tang, Dragomir Radev, Mike Tian-Jian Jiang, Alexander M. Rush, ACL 2022 Demo.
Super-NaturalInstructions: Generalization via Declarative Instructions on 1600+ NLP Tasks Yizhong Wang, Swaroop Mishra, Pegah Alipoormolabashi, Yeganeh Kordi, Amirreza Mirzaei, Anjana Arunkumar, Arjun Ashok, Arut Selvan Dhanasekaran, Atharva Naik, David Stap, Eshaan Pathak, Giannis Karamanolakis, Haizhi Gary Lai, Ishan Purohit, Ishani Mondal, Jacob Anderson, Kirby Kuznia, Krima Doshi, Maitreya Patel, Kuntal Kumar Pal, Mehrad Moradshahi, Mihir Parmar, Mirali Purohit, Neeraj Varshney, Phani Rohitha Kaza, Pulkit Verma, Ravsehaj Singh Puri, Rushang Karia, Shailaja Keyur Sampat, Savan Doshi, Siddhartha Mishra, Sujan Reddy, Sumanta Patro, Tanay Dixit, Xudong Shen, Chitta Baral, Yejin Choi, Noah A. Smith, Hannaneh Hajishirzi, Daniel Khashabi. EMNLP 2022.

Name		Name	Last commit message	Last commit date
Latest commit History 61 Commits
LICENSE		LICENSE
README.md		README.md

License

pengr/LLM-Synthetic-Data

Folders and files

Latest commit

History

Repository files navigation