ChatTTS - 会話シナリオ向けのテキスト読み上げ
自然な会話形式のテキスト読み上げに最適化
20K+ Star on Github
オンライン無料チャットTTS
以下の例を使用してChatTTSを試してください。
ChatTTSとは?
ChatTTSは、大規模言語モデル(LLM)アシスタントの対話タスクや会話オーディオ・ビデオの導入などのアプリケーション向けに設計された音声生成モデルです。中国語と英語の両方をサポートし、約100,000時間の中国語と英語のデータを使用してトレーニングされたChatTTSは、スピーチ合成において高い品質と自然さを示しています。
ChatTTSの特徴
複数言語サポート
ChatTTSの主な機能の1つは、英語や中国語を含む複数の言語のサポートです。これにより、幅広いユーザーを対象にし、言語の壁を乗り越えることができます
大規模なデータトレーニング
ChatTTSは大量のデータ、おおよそ1,000 万時間に及ぶ中国語および英語のデータを使用してトレーニングされています。 この徹底的なトレーニングにより、高品質かつ自然な音声合成が実現しています
対話タスク互換性
ChatTTSは、一般的に大規模言語モデルLLMに割り当てられる対話タスクを適切に扱うのに適しています。 さまざまなアプリケーションやサービスに統合された際に、会話のための応答を生成し、より自然でスムーズなインタラクション体験を提供できます
オープンソースの計画
プロジェクトチームは、トレーニングされたベースモデルをオープンソース化する予定です。これにより、学術研究者やコミュニティ内の開発者がこの技術をさらに研究および開発できるようになります
コントロールとセキュリティ
チームは、モデルの制御可能性の向上、透かしの追加、およびLLMとの統合を強化することにコミットしています。これらの取り組みにより、モデルの安全性と信頼性が確保されます
使いやすさ
ChatTTSは、ユーザーにとって使いやすい体験を提供しています。テキスト情報のみを入力として必要とし、それに対応する音声ファイルを生成します。このシンプルさにより、音声合成ニーズを持つユーザーにとって便利です
ChatTTSの使い方
数ステップでChatTTSを始めましょう。
依存関係のインストール
開始する前に、必要なパッケージがインストールされていることを確認してください。torchとChatTTSが必要です。まだインストールしていない場合は、pipを使用してインストールできます。
pip install torch ChatTTS
必要なライブラリのインポート
スクリプトに必要なライブラリをインポートします。torch、ChatTTS、およびIPython.displayからのAudioが必要です。
import torch
import ChatTTS
from IPython.display import Audio
ChatTTSの初期化
ChatTTSクラスのインスタンスを作成し、事前にトレーニングされたモデルを読み込みます。
chat = ChatTTS.Chat()
chat.load_models()
テキストの準備
音声に変換したいテキストを定義します。 <YOUR TEXT HERE>をお好みのテキストに置き換えます。
texts = ["こんにちは、ChatTTSへようこそ!",]
音声の生成
テキストから音声を生成するためにinferメソッドを使用します。デコーダーを有効にするには、use_decoder=Trueを設定します。
wavs = chat.infer(texts, use_decoder=True)
オーディオの再生
生成されたオーディオを再生するには、IPython.displayからのAudioクラスを使用します。サンプルレートを24,000 Hzに設定し、自動再生を有効にします。
Audio(wavs[0], rate=24_000, autoplay=True)
完全なスクリプト
参考のために、こちらが完全なスクリプトです:
import torch
import ChatTTS
from IPython.display import Audio
# ChatTTSの初期化
chat = ChatTTS.Chat()
chat.load_models()
# 音声に変換するテキストの定義
texts = ["こんにちは、ChatTTSへようこそ!",]
# 音声の生成
wavs = chat.infer(texts, use_decoder=True)
# 生成されたオーディオの再生
Audio(wavs[0], rate=24_000, autoplay=True)
よくある質問
質問がありますか?一般的な疑問を以下で確認してください。
開発者はどのようにChatTTSをアプリケーションに統合できますか?
開発者は、提供されたAPIやSDKを使用することで、ChatTTSをアプリケーションに統合することができます。統合プロセスは通常、ChatTTSモデルの初期化、事前に学習されたモデルのロード、テキストから音声を生成するためのテキスト読み上げ機能の呼び出しを含みます。開発者を統合プロセスを案内するための詳細なドキュメントと例が利用可能です。
ChatTTSはどのようにトレーニングされていますか?
ChatTTSは、おおよそ100,000時間の中国語と英語のデータでトレーニングされています。この幅広いデータセットにより、モデルは高品質で自然な音声を生成する方法を学習します。さらに、プロジェクトチームは、さらなる研究開発を促進するために、40,000時間のデータでトレーニングされたベースモデルのオープンソース化を計画しています
ChatTTSは複数言語をサポートしていますか?
はい、ChatTTSは中国語と英語の両方をサポートしています。これらの言語で大規模なデータセットでトレーニングすることで、ChatTTSは中国語と英語の両方で高品質な音声合成を生成できます。そのため、多言語環境での使用に適しており、多様な言語ユーザーのニーズに対応しています。