Turkce_Hukuk-LLM-FineTuning-QLORA

🏛️ Türkçe Hukuk LLM Eğitimi – QLoRA ile Geliştirilmiş Yaklaşım

Bu proje, 2024 Teknofest Yapay Zeka Yarışması birincisi Renicames takımının hukuk tabanlı dil modeli çalışmasında kullanılan veri ve modele dayanarak, full fine-tuning’e alternatif bir yöntem olarak QLoRA (Quantized Low-Rank Adaptation) tekniğini önermektedir.

🎯 Projenin Amacı

Teknofest 2024 projesinde kullanılan hukuk verisi ve T5 Efficient Base Türkçe modeli ile,
Daha kaynak verimli, esnek ve kolay erişilebilir bir eğitim süreci tasarlamak,
QLoRA tekniği sayesinde eğitim sırasında yaşanan donanım limitlerini aşmak.

🧠 Eğitim Sürecinden Çıkarımlar

Orijinal projede kullanılan batch_size=8, Kaggle GPU ortamında klasik fine-tuning sırasında "out of memory" hatasına yol açtı.
Bu nedenle batch_size değeri 2’ye düşürülerek eğitim yapılmak zorunda kalındı, fakat eğitim süresi uzadı ve model performansı sınırlı kaldı.
QLoRA tekniği ile bu sorun ortadan kaldırıldı ve batch_size=8 tekrar kullanılabilir hale geldi.
Bu sayede eğitim çok daha verimli ve kararlı şekilde gerçekleştirildi.

🔄 Denenen QLoRA Yapılandırmaları

İlk Deneme: num_train_epochs = 5
İkinci Deneme: num_train_epochs = 10
Üçüncü Deneme: batch_size = 16, num_train_epochs = 15 ➤ num_train_epochs artırılmasının nedeni: Validation loss hâlâ düşmeye devam ediyordu.

📊Test Çıkarımları

Veri setinde aynı cevaba farklı sorularla ulaşan örneklerin bulunduğu durumlarda, QLoRA ile eğitilmiş modelin performansı Renicames takımının geliştirdiği orijinal modele oldukça yakın sonuçlar vermektedir.

📁 Dosya Açıklamaları

Dosya	Açıklama
`hukuk-projesi-renicames.ipynb`	Full fine tuning
`hukuk-projesi-qlora.ipynb`	İlk QLoRA denemesi
`hukuk-projesi-qlora-v2.ipynb`	Parametre iyileştirmeleri içeren versiyon
`hukuk-projesi-qlora-v3.ipynb`	En verimli sonuçları üreten final sürüm
`hukuk_projesi_test.ipynb`	Tüm modellerin performans karşılaştırması

🚀 Katkılar ve Yenilik

Önceki Teknofest projesiyle aynı veri ve model temel alınmış,
Eğitim sürecine QLoRA gibi modern PEFT yöntemleri entegre edilmiştir,
Bu sayede klasik eğitimin önündeki bellek sorunları ortadan kaldırılmış, daha hızlı ve etkili bir eğitim mümkün kılınmıştır,

📈 Yapılabilecek İyileştirmeler

Eğitim sayısı artırılabilir,
Teknofest modelindeki gibi ROUGE değerlerine bakılabilir,
Farklı LLM'ler denenebilir.

🔗 Referanslar

Teknofest 2024 1.si Reincames Takımının GitHub Reposu:Teknofest Proje GitHub
Veri Seti - Hugging Face: Hukuk Veri Seti Hugging Face
Geliştirdiğim Modeller: Benim Modellerime Huggigface hesabımdan erişebilirsiniz.
Base Model:Turkish-NLP/t5-efficient-base-turkish

Name		Name	Last commit message	Last commit date
Latest commit History 11 Commits
README.md		README.md
hukuk-projesi-qlora-v2.ipynb		hukuk-projesi-qlora-v2.ipynb
hukuk-projesi-qlora-v3.ipynb		hukuk-projesi-qlora-v3.ipynb
hukuk-projesi-qlora.ipynb		hukuk-projesi-qlora.ipynb
hukuk-projesi-reincames.ipynb		hukuk-projesi-reincames.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Turkce_Hukuk-LLM-FineTuning-QLORA

🏛️ Türkçe Hukuk LLM Eğitimi – QLoRA ile Geliştirilmiş Yaklaşım

🎯 Projenin Amacı

🧠 Eğitim Sürecinden Çıkarımlar

🔄 Denenen QLoRA Yapılandırmaları

📊Test Çıkarımları

📁 Dosya Açıklamaları

🚀 Katkılar ve Yenilik

📈 Yapılabilecek İyileştirmeler

🔗 Referanslar

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

Turkce_Hukuk-LLM-FineTuning-QLORA

🏛️ Türkçe Hukuk LLM Eğitimi – QLoRA ile Geliştirilmiş Yaklaşım

🎯 Projenin Amacı

🧠 Eğitim Sürecinden Çıkarımlar

🔄 Denenen QLoRA Yapılandırmaları

📊Test Çıkarımları

📁 Dosya Açıklamaları

🚀 Katkılar ve Yenilik

📈 Yapılabilecek İyileştirmeler

🔗 Referanslar

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages