ChatTTS - Текст в речь для разговорных сценариев

Оптимизирован для естественной разговорной речи

ChatTTS - A Generative Speech Model For Daily Dialogue | Product Hunt
UserUserUserUserUser

20K+ Star on Github

Онлайн-чат с синтезом речи

Попробуйте ChatTTS с помощью следующих примеров.

Клонирование речи | Voicv

Что такое ChatTTS?

ChatTTS - модель генерации речи, разработанная для разговорных сценариев, специально для задач диалогов крупных языковых моделей (LLM) ассистентов, а также приложений, таких как разговорные аудио- и видеовведения. Она поддерживает как китайский, так и английский язык, и благодаря использованию примерно 100 000 часов данных на китайском и английском языках для обучения, ChatTTS демонстрирует высокое качество и естественность синтеза речи.

Особенности ChatTTS

Поддержка многих языков

Одной из ключевых особенностей ChatTTS является поддержка нескольких языков, включая английский и китайский. Это позволяет ему обслуживать широкий круг пользователей и преодолевать языковые барьеры

Обучение на большом объеме данных

ChatTTS был обучен с использованием значительного объема данных, приблизительно 10 миллионов часов данных на китайском и английском языках. Это обширное обучение привело к высококачественному и естественно звучащему синтезу речи

Совместимость с задачами диалога

ChatTTS хорошо подходит для обработки задач диалога, обычно назначаемых большим языковым моделям LLMs. Он способен генерировать ответы на разговоры и обеспечивать более естественное и плавное взаимодействие при интеграции в различные приложения и сервисы

Планы открытого исходного кода

команда проекта планирует предоставить открытый доступ к обученной базовой модели. Это позволит академическим исследователям и разработчикам из сообщества дальше изучать и развивать технологию

Управление и безопасность

Команда стремится улучшить управляемость модели, добавляя водяные знаки и интегрируя ее с LLMs. Эти усилия обеспечивают безопасность и надежность модели

Простота использования

ChatTTS обеспечивает простой и удобный опыт для своих пользователей. Для работы требуется только текстовая информация в качестве ввода, что генерирует соответствующие голосовые файлы. Это упрощает использование для пользователей, у которых есть потребности в синтезе речи

Как использовать ChatTTS?

Давайте начнем работу с ChatTTS всего за несколько простых шагов.

1

Скачать с GitHub

Скачайте код с GitHub.

git clone https://github.com/2noise/ChatTTS
Скачать ChatTTS
2

Установить зависимости

Прежде чем начать, убедитесь, что у вас установлены необходимые пакеты. Вам понадобятся torch и ChatTTS. Если вы еще не установили их, вы можете сделать это с помощью pip:

pip install torch ChatTTS
3

Импорт необходимых библиотек

Импортируйте необходимые библиотеки для вашего скрипта. Вам понадобятся torch, ChatTTS и Audio из IPython.display

import torch
import ChatTTS
from IPython.display import Audio
4

Инициализация ChatTTS

Создайте экземпляр класса ChatTTS и загрузите предварительно обученные модели.

chat = ChatTTS.Chat()
chat.load_models()
5

Подготовьте ваш текст

Определите текст, который вы хотите преобразовать в речь. Замените <YOUR TEXT HERE> на ваш желаемый текст.

texts = ["Привет, добро пожаловать в ChatTTS!",]
6

Генерация речи

Используйте метод infer для генерации речи из текста. Установите use_decoder=True, чтобы включить декодер.

wavs = chat.infer(texts, use_decoder=True)
7

Воспроизведение аудио

Используйте класс Audio из IPython.display для воспроизведения сгенерированного аудио. Установите частоту дискретизации на 24 000 Гц и включите автоматическое воспроизведение.

Audio(wavs[0], rate=24_000, autoplay=True)
8

Полный скрипт

Вот полный скрипт для справки:

import torch
import ChatTTS
from IPython.display import Audio

# Инициализация ChatTTS
chat = ChatTTS.Chat()
chat.load_models()

# Определение текста для преобразования в речь
texts = ["Привет, добро пожаловать в ChatTTS!",]

# Генерация речи
wavs = chat.infer(texts, use_decoder=True)

# Воспроизведение сгенерированного аудио
Audio(wavs[0], rate=24_000, autoplay=True)

Часто задаваемые вопросы

У вас есть вопрос? Посмотрите некоторые из распространенных запросов ниже.

Как разработчики могут интегрировать ChatTTS в свои приложения?

Разработчики могут интегрировать ChatTTS в свои приложения, используя предоставленное API и SDK. Процесс интеграции обычно включает инициализацию модели ChatTTS, загрузку предварительно обученных моделей и вызов функций текст в речь для генерации аудио из текста. Подробная документация и примеры доступны для руководства разработчиков через процесс интеграции.

Для чего можно использовать ChatTTS?

ChatTTS можно использовать для различных приложений, включая, но не ограничиваясь: Разговорные задачи для ассистентов на основе больших языковых моделей Генерация речи в диалогах Видеоинтро Синтез речи для образовательного и тренировочного контента Любое приложение или сервис, требующий функциональность текста в речь

Как обучается ChatTTS?

ChatTTS обучается на примерно 100 000 часах данных на китайском и английском языках. Этот обширный набор данных помогает модели научиться создавать качественную, естественную речь. Кроме того, команда проекта планирует освободить базовую модель, обученную на 40 000 часах данных, для способствования дальнейшим исследованиям и разработке в академических и разработческих кругах.

Поддерживает ли ChatTTS несколько языков?

Да, ChatTTS поддерживает как китайский, так и английский языки. Обучившись на большом наборе данных на этих языках, ChatTTS может генерировать высококачественный синтез речи как на китайском, так и на английском языках, что делает его пригодным для использования в многоязычных средах и удовлетворяет потребности разноязычных пользователей.

Чем отличается ChatTTS от других моделей текст в речь?

ChatTTS оптимизирован специально для диалоговых сценариев, что делает его особенно эффективным для разговорных приложений. Он поддерживает как китайский, так и английский языки и обучен на огромном наборе данных, чтобы обеспечить высококачественный, естественный синтез речи. Кроме того, план освободить базовую модель, обученную на 40 000 часах данных, делает его уникальным и способствует дальнейшим исследованиям и развитию в этой области.

Какие данные используются для обучения ChatTTS?

ChatTTS обучен на примерно 100 000 часах данных на китайском и английском языках. Этот набор данных включает в себя широкий спектр устного контента, чтобы помочь модели научиться генерировать естественную и высококачественную речь. Разнообразие и объем обучающих данных обеспечивают эффективное применение ChatTTS для различных задач синтеза речи.

Существует ли открытая версия ChatTTS для разработчиков и исследователей?

Да, команда проекта планирует выпустить открытую версию ChatTTS, обученную на 40 000 часах данных. Эта открытая модель позволит разработчикам и исследователям исследовать и расширить возможности ChatTTS, способствуя инновациям и развитию в области текста в речь.

Как ChatTTS обеспечивает естественность синтезированной речи?

ChatTTS обеспечивает естественность синтезированной речи путем обучения на обширном и разнообразном наборе данных примерно на 100 000 часах устной речи на китайском и английском языках. Это обширное обучение позволяет модели улавливать различные речевые паттерны, интонации и нюансы, что приводит к качественной, естественной речи. Также используются передовые методы машинного обучения для настройки модели на лучшую производительность в разговорных сценариях.

Можно ли настроить ChatTTS для конкретных приложений или голосов?

Да, ChatTTS можно настроить для конкретных приложений или голосов. Разработчики могут настраивать модель, используя собственные наборы данных, чтобы лучше подходило для определенных случаев использования или разработки уникальных голосовых профилей. Эта настройка обеспечивает большую гибкость и адаптируемость в различных контекстах применения.

С какими платформами и окружениями совместим ChatTTS?

ChatTTS разработан для совместимости с различными платформами и окружениями. Его можно интегрировать в веб-приложения, мобильные приложения, настольное программное обеспечение и встроенные системы. Предоставленные SDK и API поддерживают несколько языков программирования, что обеспечивает легкую реализацию ChatTTS на разных платформах.

Есть ли ограничения в использовании ChatTTS?

Хотя ChatTTS является мощной и универсальной моделью текст в речь, есть несколько ограничений, которые следует учитывать. Например, качество синтезированной речи может варьироваться в зависимости от сложности и длины входного текста. Кроме того, производительность модели может быть затронута доступными вычислительными ресурсами, поскольку генерация качественной речи в реальном времени может требовать значительной вычислительной мощности. Непрерывно вносятся обновления и улучшения, чтобы решать эти ограничения и улучшать возможности модели

Как пользователи могут оставить отзывы или сообщить о проблемах с ChatTTS?

Пользователи могут оставлять отзывы или сообщать о проблемах с ChatTTS через несколько каналов. Проектная команда обычно предлагает систему поддержки, которая может включать поддержку по электронной почте, специализированный портал поддержки или сообщественный форум. Предоставление подробной информации о проблеме или отзыве, включая необходимые журналы или примеры, поможет команде более эффективно решать проблемы и улучшать модель ChatTTS. Кроме того, пользователи могут вносить свой вклад в репозиторий проекта на GitHub, если он доступен для общественности, путем отправки проблем или запросов на включение изменений.