Bu makale makine çevirisi ayna makalesidir, orijinal makaleye geçmek için lütfen buraya tıklayın.

Görünüm: 2118|Yanıt: 1

"Kokoro-82M", yakın zamanda patlayan bir metinden konuşmaya TTS modelidir

[Bağlantıyı kopyala]
2025-1-24 tarihinde 21:03:01 tarihinde yayınlandı | | | |
TTS nedir?

TTS, Metin Konuşması (Text To Speech) kelimesinin kısaltması, makinelerin konuşmasını sağlayan insan-makine diyalogunun bir parçasıdır.
Hem dilbilimi hem de psikolojiyi kullanarak metni doğal konuşma akışlarına akıllıca dönüştüren ve dahili çiplerle desteklenen sinir ağları tasarımı sayesinde olağanüstü bir eserdir. TTS teknolojisi, metin dosyalarını gerçek zamanlı dönüştürür ve dönüştürme süresi saniyeler cinsinden hesaplanabilir. Benzersiz akıllı ses kontrolcüsünün etkisiyle, metin çıkışının ses ritmi akıcıdır; böylece dinleyiciler bilgiyi dinlerken doğal hissederler; makine sesinin kayıtsızlık ve sarsıntısı olmadan.

Kokoro TTS

StyleTTS 2 mimarisine dayanan, 82 milyon parametreye sahip gelişmiş yapay zeka metin-konuşma modeli, yüksek kaliteli, doğal ses sentezi sağlar. Adres:Bağlantı girişi görünür.



Özellik:

1. Açık kaynak ve lisanslama dostu

Kokoro TTS, Apache 2.0 lisansını kullanır ve sınırsız ticari senaryoları destekler, bu da onu gerçekten açık kaynaklı bir çözüm haline getirir.

2. Yüzü Kucaklama sıralama avantajı

Kokoro TTS, Hugging Face'teki TTS Arena'da üçüncü oldu. Play.HT ve ElevenLabs gibi modeller daha yüksek sıralarda olsa da, ticari kullanımı desteklemiyorlar ve bu da Kokoro TTS'yi daha rekabetçi gösteriyor.

Temel özellikler:

Küçük Parametreler, Güçlü Performans: Sadece 82M parametresiyle Kokoro TTS, diğer kaynak yoğun modellere kıyasla verimliliğiyle öne çıkar.
Çok Dilli Destek: Çince, Korece, Japonca, Fransızca ve İngilizce dahil olmak üzere beş dili destekler.
Çok karakterli tınıs desteği: Farklı senaryoların ihtiyaçlarını karşılamak için çeşitli erkek ve kadın ses paketleri sunmak. Erkek ve kadın karakterlerden en fazla 18 tona kadar sunulabilir.
Gerçek zamanlı ses üretimi: Normal bir CPU'da Kokoro TTS, neredeyse gerçek zamanlı konuşma üretebiliyor ve bir GPU'da ise gerçek zamanlı olarak inanılmaz 50 kat daha hızlı bir ses üretebiliyor.
Doğal Konuşma Sentezi: Kokoro TTS tarafından üretilen sesler doğal olarak pürüzsüz ve insan konuşmasına yakındır. İster ses asistanları, ister sesli kitaplar ya da karakter dublajı olsun, yüksek kaliteli bir ses deneyimi sağlayabilir.
ONNX Versiyonu: Gerçek zamanlı kullanım durumları için ideal, hafif, GPU-bağımsız bir dağıtım seçeneği sunar.

Çevrimiçi Deneyim:Bağlantı girişi görünür.
Model indirme:Bağlantı girişi görünür.




Önceki:İki ön uç görüntü (resim) karşılaştırıcısı
Önümüzdeki:Derin öğrenme için yaygın modeller (.pt, . onnx) dosya formatı
 Ev sahibi| 2025-5-26 tarihinde 10:43:02 tarihinde yayınlandı |
Bilibili açık kaynak projesi IndexTTS deployment tutorial
https://www.itsvse.com/thread-11011-1-1.html
Feragatname:
Code Farmer Network tarafından yayımlanan tüm yazılım, programlama materyalleri veya makaleler yalnızca öğrenme ve araştırma amaçları içindir; Yukarıdaki içerik ticari veya yasa dışı amaçlarla kullanılamaz, aksi takdirde kullanıcılar tüm sonuçları ödemelidir. Bu sitedeki bilgiler internetten alınmakta olup, telif hakkı anlaşmazlıklarının bu siteyle hiçbir ilgisi yoktur. Yukarıdaki içeriği indirmeden sonraki 24 saat içinde bilgisayarınızdan tamamen silmelisiniz. Programı beğendiyseniz, lütfen orijinal yazılımı destekleyin, kayıt satın alın ve daha iyi orijinal hizmetler alın. Herhangi bir ihlal olursa, lütfen bizimle e-posta yoluyla iletişime geçin.

Mail To:help@itsvse.com