TOM AI, sesli komutları anlayabilen, işleyebilen ve sesli yanıt verebilen bir yapay zeka asistanıdır.
Asistan şuan geliştirme aşamasındadır.
TOM AI
├── README.md
├── TOM-Voice/ # Metinden sese (TTS) modülü
├── TOM-Listener/ # Sesten metne (STT) modülü
├── TOM-Bridge/ # LLM ile geri dönüş yapan kısım
├── TOM-UI/ # Arayüz bileşenleri
├── TOM-Utils/ # Ortak kullanılacak yardımcı fonksiyonlar
└── docs/ # Dökümantasyon
Metinden sese dönüştürme (Text-to-Speech) işlemlerini gerçekleştiren modüller.
- TTS paketi için Coqui AI modeli kullanılacak.
- Ses iyileştirmesi için yeniden eğitim yapılacak.
- Gerekli optimizasyonlar yapılacak.
Sesten metne dönüştürme (Speech-to-Text) işlemlerini gerçekleştiren modüller.
- STT için OpenAI Whisper modeli kullanılacak.
- Modeli FasterWhisper ile modeller optimize edilecek.
LLM (Large Language Model) ile iletişimi sağlayan ve yanıtları işleyen modüller.
- TTS, STT ve LLM birlikte çalışırken fazla ram kullanılıyor. GPU ve CPU entegrasyonu yapılacak.
Kullanıcı arayüzü bileşenlerini içeren modüller.
- QT Designer ile tasarım yapılacak.
- Audio Wave görselleştirilmesi yapılacak.
- Modern arayüz renklendirmesi yapılacak.
- Uygulamanın kilitlenmelerini önlemek için gerekli ayarlar yapılacak.
Tüm modüller tarafından ortak kullanılan yardımcı fonksiyonları içeren modüller.
| Özellik | M4A | MP3 |
|---|---|---|
| Ses Kalitesi | Daha iyi (AAC ile) | Orta, eski algoritmalar |
| Dosya Boyutu | Daha küçük | Daha büyük |
| Kayıpsız Destek | ALAC ile mümkün | Desteklemez |
| Destekleyen Cihazlar | Apple cihazlarında daha yaygın | Her yerde çalışır |
| Sıkıştırma Türü | AAC veya ALAC | Lossy (Kayıplı) |
| Kullanım Alanı | Apple Music, YouTube, Podcastler | Çoğu müzik çalar |
(Kurulum adımları eklenecek)
(Kullanım talimatları eklenecek)
(Katkıda bulunma rehberi eklenecek)
(License)[]