Bu proje, ses verilerini kullanarak konuşmacı tanıma ve ses analizi gerçekleştiren bir makine öğrenmesi uygulamasıdır. Kullanıcı arayüzü üzerinden ses kaydı alınabilir, kayıtlar makine öğrenmesi modeliyle analiz edilip tanımlanabilir.
- Gerçek zamanlı ses kaydı
- Konuşmacı tanıma
- Ses dalga formu ve özellik çıkarımı
- Kullanıcı arayüzü ile kolay kullanım
Bu projeyi çalıştırmadan önce aşağıdaki bağımlılıkların yüklü olduğundan emin olun:
pip install -r requirements.txtEk olarak, ffmpeg kütüphanesinin de sistemde kurulu olması gerekmektedir:
- Ubuntu:
sudo apt-get install ffmpeg
- Windows: FFmpeg Download üzerinden indirip sistem PATH'ine eklemeniz gerekmektedir.
-
Projeyi klonlayın:
git clone https://github.com/sebahattinn/voice.git cd voice -
Gerekli bağımlılıkları yükleyin:
pip install -r requirements.txt
-
Kullanıcı arayüzünü başlatın:
python UserInterface.py
- Uygulama arayüzü açıldığında, 'Record' butonuna basarak ses kaydı yapabilirsiniz.
- Kaydedilen ses, makine öğrenmesi modeli tarafından analiz edilip sonuç ekranda gösterilecektir.
- Sonuçlar, konuşmacının kim olduğu ve ses dalga formu ile birlikte görüntülenir.
Projede kullanılan model, MFCC (Mel Frequency Cepstral Coefficients) özniteliklerini kullanarak konuşmacıları tanır ve ayırır. Eğitim sürecinde, ses dosyalarından çıkarılan MFCC öznitelikleri kullanılarak bir sınıflandırıcı (MLP Classifier) eğitilmiştir.
Eğer modeli yeniden eğitmek isterseniz, AudioML4.ipynb dosyasını çalıştırabilirsiniz.
Katkıda bulunmak isterseniz, lütfen bir pull request açın. Her türlü geri bildirime açığım!
Bu proje MIT Lisansı ile lisanslanmıştır.