"Kokoro-82M" é um modelo TTS de texto para fala que recentemente explodiu

Pequeno · Publicado em 24/01/2025 21:03:01

O que é TTS?

TTS, abreviação de Texto para Fala, é uma parte do diálogo humano-máquina que permite que as máquinas falem.
É um trabalho excepcional que utiliza tanto a linguística quanto a psicologia para converter texto de forma inteligente em fluxos naturais de fala por meio do design de redes neurais, suportadas por chips embutidos. A tecnologia TTS converte arquivos de texto em tempo real, e o tempo de conversão pode ser calculado em segundos. Sob a ação de seu controlador de voz inteligente e único, o ritmo vocal da saída do texto é suave, de modo que os ouvintes se sintam naturais ao ouvir informações, sem a indiferença e o desequilíbrio da saída de voz de máquina.

Kokoro TTS

Um modelo avançado de texto para fala com IA com 82 milhões de parâmetros, baseado na arquitetura StyleTTS 2, oferece síntese de voz de alta qualidade e som natural. Endereço:O login do hiperlink está visível.

Peculiaridade:

1. Código aberto e amigável à licença

O Kokoro TTS utiliza a licença Apache 2.0 e suporta cenários comerciais ilimitados, tornando-se uma solução verdadeiramente open-source.

2. Vantagem de ranking de Abraços no Face

Kokoro TTS ficou em terceiro lugar na TTS Arena em Hugging Face. Embora modelos como Play.HT e ElevenLabs tenham classificação mais alta, eles não suportam uso comercial, fazendo com que o Kokoro TTS pareça mais competitivo.

Recursos principais:

Parâmetros Pequenos, Desempenho Forte: Com apenas 82M de parâmetros, o Kokoro TTS se destaca por sua eficiência em comparação com outros modelos que consomem muitos recursos.
Suporte Multilíngue: Suporta cinco idiomas, incluindo chinês, coreano, japonês, francês e inglês.
Suporte ao timbre multi-personagem: Fornecer uma variedade de pacotes de vozes masculinas e femininas para atender às necessidades de diferentes cenários. Até 18 tons de personagens masculinos e femininos estão disponíveis.
Geração de voz em tempo real: Em uma CPU comum, o Kokoro TTS pode gerar fala quase em tempo real, e em uma GPU, pode gerar incrivelmente 50 vezes mais rápido em tempo real.
Síntese Natural da Fala: As vozes geradas pelo Kokoro TTS são naturalmente suaves e próximas da fala humana. Seja para assistentes de voz, audiolivros ou dublagem de personagens, pode proporcionar uma experiência de voz de alta qualidade.
Versão ONNX: Oferece uma opção leve de implantação independente da GPU, ideal para casos de uso em tempo real.

Experiência Online:O login do hiperlink está visível.
Modelo para download:O login do hiperlink está visível.

Pequeno · Publicado em 26/05/2025 10:43:02

Projeto open source Bilibili Tutorial de implantação IndexTTS
https://www.itsvse.com/thread-11011-1-1.html

"Kokoro-82M" é um modelo TTS de texto para fala que recentemente explodiu

Posts Relacionados