"Kokoro-82M", yakın zamanda patlayan bir metinden konuşmaya TTS modelidir

Küçük · Yayınlandı 24.01.2025 21:03:01

TTS nedir?

TTS, Metin Konuşması (Text To Speech) kelimesinin kısaltması, makinelerin konuşmasını sağlayan insan-makine diyalogunun bir parçasıdır.
Hem dilbilimi hem de psikolojiyi kullanarak metni doğal konuşma akışlarına akıllıca dönüştüren ve dahili çiplerle desteklenen sinir ağları tasarımı sayesinde olağanüstü bir eserdir. TTS teknolojisi, metin dosyalarını gerçek zamanlı dönüştürür ve dönüştürme süresi saniyeler cinsinden hesaplanabilir. Benzersiz akıllı ses kontrolcüsünün etkisiyle, metin çıkışının ses ritmi akıcıdır; böylece dinleyiciler bilgiyi dinlerken doğal hissederler; makine sesinin kayıtsızlık ve sarsıntısı olmadan.

Kokoro TTS

StyleTTS 2 mimarisine dayanan, 82 milyon parametreye sahip gelişmiş yapay zeka metin-konuşma modeli, yüksek kaliteli, doğal ses sentezi sağlar. Adres:Bağlantı girişi görünür.

Özellik:

1. Açık kaynak ve lisanslama dostu

Kokoro TTS, Apache 2.0 lisansını kullanır ve sınırsız ticari senaryoları destekler, bu da onu gerçekten açık kaynaklı bir çözüm haline getirir.

2. Yüzü Kucaklama sıralama avantajı

Kokoro TTS, Hugging Face'teki TTS Arena'da üçüncü oldu. Play.HT ve ElevenLabs gibi modeller daha yüksek sıralarda olsa da, ticari kullanımı desteklemiyorlar ve bu da Kokoro TTS'yi daha rekabetçi gösteriyor.

Temel özellikler:

Küçük Parametreler, Güçlü Performans: Sadece 82M parametresiyle Kokoro TTS, diğer kaynak yoğun modellere kıyasla verimliliğiyle öne çıkar.
Çok Dilli Destek: Çince, Korece, Japonca, Fransızca ve İngilizce dahil olmak üzere beş dili destekler.
Çok karakterli tınıs desteği: Farklı senaryoların ihtiyaçlarını karşılamak için çeşitli erkek ve kadın ses paketleri sunmak. Erkek ve kadın karakterlerden en fazla 18 tona kadar sunulabilir.
Gerçek zamanlı ses üretimi: Normal bir CPU'da Kokoro TTS, neredeyse gerçek zamanlı konuşma üretebiliyor ve bir GPU'da ise gerçek zamanlı olarak inanılmaz 50 kat daha hızlı bir ses üretebiliyor.
Doğal Konuşma Sentezi: Kokoro TTS tarafından üretilen sesler doğal olarak pürüzsüz ve insan konuşmasına yakındır. İster ses asistanları, ister sesli kitaplar ya da karakter dublajı olsun, yüksek kaliteli bir ses deneyimi sağlayabilir.
ONNX Versiyonu: Gerçek zamanlı kullanım durumları için ideal, hafif, GPU-bağımsız bir dağıtım seçeneği sunar.

Çevrimiçi Deneyim:Bağlantı girişi görünür.
Model indirme:Bağlantı girişi görünür.

Küçük · Yayınlandı 26.05.2025 10:43:02

Bilibili açık kaynak projesi IndexTTS deployment tutorial
https://www.itsvse.com/thread-11011-1-1.html

"Kokoro-82M", yakın zamanda patlayan bir metinden konuşmaya TTS modelidir

İlgili Yazılar