Cet article est un article miroir de traduction automatique, veuillez cliquer ici pour accéder à l’article original.

Vue: 2118|Répondre: 1

« Kokoro-82M » est un modèle TTS de synthèse vocale qui a récemment explosé

[Copié le lien]
Publié le 24-01-2025 à 21:03:01 | | | |
Qu’est-ce que TTS ?

TTS, abréviation de Text To Speech, fait partie du dialogue homme-machine qui permet aux machines de parler.
C’est un travail remarquable qui utilise à la fois la linguistique et la psychologie pour convertir intelligemment le texte en flux de parole naturels grâce à la conception de réseaux de neurones, soutenus par des puces intégrées. La technologie TTS convertit les fichiers texte en temps réel, et le temps de conversion peut être calculé en secondes. Grâce à son contrôleur vocal unique et intelligent, le rythme vocal de la sortie du texte est fluide, de sorte que les auditeurs se sentent naturels en écoutant l’information, sans l’indifférence et les saccadements de la sortie vocale machine.

Kokoro TTS

Un modèle avancé de synthèse vocale par IA avec 82 millions de paramètres, basé sur l’architecture StyleTTS 2, offre une synthèse vocale de haute qualité et naturelle. Adresse:La connexion hyperlientérée est visible.



Particularité:

1. Open source et adapté aux licences

Kokoro TTS utilise la licence Apache 2.0 et prend en charge un nombre illimité de scénarios commerciaux, ce qui en fait une solution véritablement open source.

2. Avantage de classement de Visage Câlin

Kokoro TTS a pris la troisième place à la TTS Arena à Hugging Face. Bien que des modèles comme Play.HT et ElevenLabs soient mieux classés, ils ne supportent pas une utilisation commerciale, ce qui rend Kokoro TTS plus compétitif.

Caractéristiques principales :

Petits paramètres, fortes performances : Avec seulement 82 millions de paramètres, le Kokoro TTS se distingue par son efficacité comparé à d’autres modèles gourmands en ressources.
Support multilingue : Prend en charge cinq langues, dont le chinois, le coréen, le japonais, le français et l’anglais.
Soutien du timbre multi-caractères : Proposez une variété de formules vocales masculines et féminines pour répondre aux besoins de différents scénarios. Jusqu’à 18 tons de personnages masculins et féminins sont disponibles.
Génération de voix en temps réel : Sur un CPU classique, Kokoro TTS peut générer des paroles en quasi-temps réel, et sur un GPU, il peut générer un incroyable 50 fois plus vite en temps réel.
Synthèse de la parole naturelle : Les voix générées par le Kokoro TTS sont naturellement fluides et proches de la parole humaine. Qu’il s’agisse d’assistants vocaux, de livres audio ou de doublage de personnages, cela peut offrir une expérience vocale de haute qualité.
Version ONNX : Offre une option de déploiement légère indépendante du GPU, idéale pour les cas d’utilisation en temps réel.

Expérience en ligne :La connexion hyperlientérée est visible.
Téléchargement du modèle :La connexion hyperlientérée est visible.




Précédent:Deux comparateurs d’image front-end (image)
Prochain:Modèles courants pour l’apprentissage profond (.pt, . onnx)
 Propriétaire| Publié le 26-05-2025 à 10:43:02 |
Tutoriel de déploiement IndexTTS pour le projet open source Bilibili
https://www.itsvse.com/thread-11011-1-1.html
Démenti:
Tous les logiciels, supports de programmation ou articles publiés par Code Farmer Network sont uniquement destinés à l’apprentissage et à la recherche ; Le contenu ci-dessus ne doit pas être utilisé à des fins commerciales ou illégales, sinon les utilisateurs assumeront toutes les conséquences. Les informations sur ce site proviennent d’Internet, et les litiges de droits d’auteur n’ont rien à voir avec ce site. Vous devez supprimer complètement le contenu ci-dessus de votre ordinateur dans les 24 heures suivant le téléchargement. Si vous aimez le programme, merci de soutenir un logiciel authentique, d’acheter l’immatriculation et d’obtenir de meilleurs services authentiques. En cas d’infraction, veuillez nous contacter par e-mail.

Mail To:help@itsvse.com