Chibi-LM

一个使用 PyTorch 从零实现的迷你语言模型学习项目。

项目简介

这是一个使用 Claude 创建的学习项目，目的是理解和实现 Transformer Decoder-only 架构的语言模型。项目实现了一个小型的语言模型，用于学习简单的文本序列模式。

功能特性

Transformer 架构: 实现了 Decoder-only Transformer 模型
位置编码: 正弦余弦位置编码
多头注意力机制: 支持多头自注意力
因果掩码: 确保自回归生成
训练流程: 完整的训练、评估和文本生成流程

项目结构

.
├── model.py          # Transformer 模型实现
├── train.py          # 训练脚本
├── dl.py            # 数据加载器
├── gen-data.py      # 数据生成脚本
├── show_dataset.py  # 数据集查看工具
├── data/            # 训练数据和词汇表
└── checkpoints/     # 模型检查点

快速开始

训练模型

python train.py

查看数据集

python show_dataset.py

模型配置

词汇量: 24 个词
模型维度: 32
注意力头数: 2
层数: 2
前馈网络维度: 64
最大序列长度: 16

学习目标

通过此项目学习：

Transformer 架构的基本原理
自注意力机制的实现
语言模型的训练流程
文本生成的基本方法

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Chibi-LM

项目简介

功能特性

项目结构

快速开始

训练模型

查看数据集

模型配置

学习目标

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data		data
.gitignore		.gitignore
README.md		README.md
dl.py		dl.py
gen-data.py		gen-data.py
model.py		model.py
show_dataset.py		show_dataset.py
train.py		train.py

Folders and files

Latest commit

History

Repository files navigation

Chibi-LM

项目简介

功能特性

项目结构

快速开始

训练模型

查看数据集

模型配置

学习目标

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages