Skip to content

Embedding moeller icin ayrı bir baslık acıldı, leaderboarddaki mevcut…#2

Open
nezahatkorkmaz wants to merge 1 commit intokesimeg:mainfrom
nezahatkorkmaz:patch-1
Open

Embedding moeller icin ayrı bir baslık acıldı, leaderboarddaki mevcut…#2
nezahatkorkmaz wants to merge 1 commit intokesimeg:mainfrom
nezahatkorkmaz:patch-1

Conversation

@nezahatkorkmaz
Copy link

… embeddingler oraya taşındı ve 2 yeni türkçe embedding eklendi.

Reorganized model listings and added new embeddings section.

… embeddingler oraya taşındı ve 2 yeni türkçe embedding eklendi.

Reorganized model listings and added new embeddings section.
@kesimeg
Copy link
Owner

kesimeg commented Nov 22, 2025

Merhabalar,
Öncelikle katkınız için teşekkür ederim. Embedding modelleri için ayrı bir başlık açımak mantıklı. Eklediğiniz iki modele de baktım.

Bu repoya ekleme yaparken çeşitli kritlere bakıyorum. En önemli kriter kullanılabilir olması. Şuanda var olan şeylere göre bir farklılık sunması da bir kriter. Eklemediğim şeylere örnek olarak ingilizceden kötü bir şekilde çevrilmiş, bir model ile sentezlenmiş ama düşük kaliteli, readmeye sahip olmayan yada az örnekli verisetlerini verebilirim.

Modelleri seçmek maalesef daha zor. Çünkü modelleri test etmek için verisetlerinde olduğu gibi incelemek mümkün değil. O yüzden orada daha çok kurumların (şirket/üniversite) çıkardığı modelleri ekliyorum. Yada en azından bilimsel makalelerde atıf verilmiş performansı hakkında fikir sahibi olabileceğimiz popüler modelleri ekliyorum.

Sizin modellerin açıklamalarını incelediğimde bir model 3 farklı dataset ile eğitilmiş ancak datasetlerin toplam büyüklüğü 1000 örnekten az ve model performansı da çok az değişikliğe uğramış. Diğer model için de yukarı da belirttiğim üzere maalesef performansını bilmem mümkün değil. O yüzden maalesef bu iki embedding modelini kabul edemeyeceğim.

Bu filtrelemeyi yapmamamın sebebi gerçekten kullanılabilir şeylere insanların buradan erişebilmesi. Huggingface üzerinde Türkçe 1000'in üzerinde veriseti var. Bizde benchmarkları da sayacak olursak 40tan az. Bunun sebebi örneğin bir kişi instruction verisetine erişmek istediğinde 1000 model içinden aramak yerine buradan bulabilmesi.

İlk başta dediğim gibi embedding modelleri için ekstra bir alan açmak mantıklı. Eğer pull requesti embedding bölümü açıp sadece var olan modelleri taşıyacak şekilde değiştirirseniz merge edebiliriz.

Katkınız için teşekkür ederim

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

2 participants