ChatTTS - التحدث إلى النص لسيناريوهات الحوار

محسن للتحدث الطبيعي، التحدث إلى النص بطريقة حوارية

ChatTTS - A Generative Speech Model For Daily Dialogue | Product Hunt
UserUserUserUserUser

20K+ Star on Github

دردشة صوتية عبر الإنترنت مجانًا

جرب ChatTTS مع الأمثلة التالية.

تسجيل الصوت | Voicv

ما هو ChatTTS؟

ChatTTS هو نموذج لتوليد الأصوات مصمم لسيناريوهات الحوار، على وجه الخصوص لمهام الحوار لمساعدي النموذج اللغوي الكبير (LLM)، بالإضافة إلى التطبيقات مثل التقديمات الصوتية والمرئية الحوارية. يدعم كلاً من اللغتين الصينية والإنجليزية، ومن خلال استخدام حوالي 100،000 ساعة من البيانات باللغتين الصينية والإنجليزية للتدريب، يظهر ChatTTS جودة عالية وطبيعية في توليد الكلام.

ميزات ChatTTS

الدعم متعدد اللغات

أحد الميزات الرئيسية لتطبيق ChatTTS هو دعمه لعدة لغات، بما في ذلك الإنجليزية والصينية. وهذا يتيح له خدمة مجموعة واسعة من المستخدمين والتغلب على حواجز اللغة

التدريب بكميات كبيرة من البيانات

تم تدريب ChatTTS باستخدام كمية كبيرة من البيانات، تقريبًا ١٠ مليون ساعة من البيانات باللغتين الصينية والإنجليزية. هذا التدريب الشامل أسفر عن جودة عالية وصوت طبيعي للتخليق الصوتي

توافق مهام الحوار

تتناسب ChatTTS بشكل جيد مع مهام الحوار المسندة عادة إلى نماذج اللغة الكبيرة LLMs. يمكنه إنشاء ردود للمحادثات وتوفير تفاعل أكثر طبيعية وسلاسة عند دمجه في تطبيقات وخدمات مختلفة

خطط الشفرة المفتوحة

تخطط فريق المشروع لإصدار قاعدة نموذج مدرب بشكل مفتوح. سيتيح هذا للباحثين الأكاديميين والمطورين في المجتمع مواصلة دراسة وتطوير التكنولوجيا

التحكم والأمان

يلتزم الفريق بتحسين قابلية التحكم في النموذج، من خلال إضافة علامات مائية ودمجه مع نماذج اللغة الكبيرة. تضمن هذه الجهود سلامة وموثوقية النموذج

سهولة الاستخدام

يوفر ChatTTS تجربة سهلة الاستخدام لمستخدميه. إنه يتطلب معلومات نصية فقط كإدخال، مما يولد ملفات صوتية مقابلة. تجعل هذه البساطة الأمر مريحًا للمستخدمين الذين لديهم احتياجات في التخليق الصوتي

كيفية استخدام ChatTTS؟

لنبدأ استخدام ChatTTS في خطوات بسيطة قليلة.

1

تحميل من GitHub

قم بتنزيل الكود من GitHub.

git clone https://github.com/2noise/ChatTTS
تحميل ChatTTS
2

تثبيت الاعتماديات

قبل البدء، تأكد من تثبيت الحزم الضرورية. ستحتاج إلى torch و ChatTTS. إذا لم تقم بتثبيتهما بعد، يمكنك القيام بذلك باستخدام pip:

pip install torch ChatTTS
3

استيراد المكتبات المطلوبة

استورد المكتبات اللازمة لنصيبك. ستحتاج إلى torch و ChatTTS و Audio من IPython.display

import torch
import ChatTTS
from IPython.display import Audio
4

تهيئة ChatTTS

قم بإنشاء نسخة من صنف ChatTTS وقم بتحميل النماذج المدربة مسبقًا.

chat = ChatTTS.Chat()
chat.load_models()
5

إعداد النص الخاص بك

حدد النص الذي تريد تحويله إلى كلام. قم بتبديل <YOUR TEXT HERE> بالنص الذي ترغب فيه.

texts = ["مرحبًا، مرحبًا بك في ChatTTS!",]
6

إنشاء الكلام

استخدم الطريقة infer لإنشاء الكلام من النص. ضع use_decoder=True لتمكين المفك الرمزي.

wavs = chat.infer(texts, use_decoder=True)
7

تشغيل الصوت

استخدم فئة Audio من IPython.display لتشغيل الصوت المُنشأ. ضبط معدل العينة على 24,000 هرتز وتمكين التشغيل التلقائي.

Audio(wavs[0], rate=24_000, autoplay=True)
8

نص كامل

فيما يلي النص الكامل للإشارة:

import torch
import ChatTTS
from IPython.display import Audio

# تهيئة ChatTTS
chat = ChatTTS.Chat()
chat.load_models()

# تعريف النص الذي سيتم تحويله إلى كلام
texts = ["مرحبًا، مرحبًا بك في ChatTTS!",]

# إنشاء الكلام
wavs = chat.infer(texts, use_decoder=True)

# تشغيل الصوت المولد
Audio(wavs[0], rate=24_000, autoplay=True)

الأسئلة الشائعة

هل لديك سؤال؟ تحقق من بعض الاستفسارات الشائعة أدناه.

كيف يمكن للمطورين دمج ChatTTS في تطبيقاتهم؟

يمكن للمطورين دمج ChatTTS في تطبيقاتهم عن طريق استخدام واجهة برمجة التطبيقات ومجموعات تطوير البرمجيات. يتضمن عملية الدمج بشكل عام تهيئة نموذج ChatTTS، تحميل النماذج المدربة مسبقًا، واستدعاء وظائف تحويل النص إلى كلام لتوليد ملفات صوتية من النص. تتوفر وثائق مفصلة وأمثلة لتوجيه المطورين خلال عملية الدمج.

ماذا يمكن استخدام ChatTTS من أجل؟

يمكن استخدام ChatTTS لتطبيقات مختلفة، بما في ذلك ولكن لا تقتصر على: المهام الحوارية لمساعدي اللغة الكبيرة توليد خطابات الحوار مقدمات الفيديو توليد كلام للمحتوى التعليمي والتدريبي أي تطبيق أو خدمة تتطلب وظيفة تحويل النص إلى كلام

كيف يتم تدريب ChatTTS؟

يتم تدريب ChatTTS على ما يقرب من 100000 ساعة من البيانات باللغتين الصينية والإنجليزية. تساعد هذه المجموعة البيانية الضخمة النموذج على تعلم إنتاج كلام طبيعي عالي الجودة. بالإضافة إلى ذلك، يخطط فريق المشروع لنشر نموذج قاعدي تم تدريبه على 40000 ساعة من البيانات لتسهيل المزيد من البحث والتطوير في المجال الأكاديمي وللمطورين

هل ChatTTS يدعم عدة لغات؟

نعم، يدعم ChatTTS كل من اللغة الصينية والإنجليزية. من خلال التدريب على مجموعة بيانات كبيرة في هذه اللغتين، يمكن لـ ChatTTS توليد توليف كلام عالي الجودة في كل من اللغة الصينية والإنجليزية، مما يجعله مناسبًا للاستخدام في بيئات متعددة اللغات وتلبية احتياجات مستخدمي لغات متنوعة.

ما الذي يميز ChatTTS عن طرق تحويل النص إلى كلام الأخرى؟

ميزة ChatTTS هي تحسينه خصيصًا لسيناريوهات الحوار، مما يجعله فعالًا بشكل خاص في تطبيقات الحوار. يدعم كل من اللغة الصينية والإنجليزية وقد تم تدريبه على مجموعة بيانات ضخمة لضمان توليف كلام طبيعي عالي الجودة. بالإضافة إلى ذلك، يميزه الخطة لإصدار نموذج قاعدي تم تدريبه على 40000 ساعة من البيانات، مما يعزز البحث والتطوير المزيد في هذا المجال.

ما نوع البيانات المستخدمة لتدريب ChatTTS؟

يتم تدريب ChatTTS على ما يقرب من 100000 ساعة من البيانات الصينية والإنجليزية. تتضمن هذه المجموعة البيانية مجموعة متنوعة واسعة من المحتوى المنطوق لمساعدة النموذج على تعلم توليف كلام طبيعي وعالي الجودة. تنوع وحجم بيانات التدريب يضمن أن يمكن لـ ChatTTS التعامل بفعالية مع مهام توليف الكلام المختلفة.

هل هناك نسخة مفتوحة المصدر من ChatTTS متاحة للمطورين والباحثين؟

نعم، يخطط فريق المشروع لإصدار نسخة مفتوحة المصدر من ChatTTS تم تدريبها على 40000 ساعة من البيانات. سيتيح هذا النموذج مفتوح المصدر للمطورين والباحثين استكشاف إمكانيات ChatTTS وتوسيعها، مما يعزز الابتكار والتطوير في مجال تحويل النص إلى كلام.

كيف يضمن ChatTTS طبيعية التحدث المركب؟

يضمن ChatTTS طبيعية التحدث المركب من خلال التدريب على مجموعة بيانات كبيرة ومتنوعة تبلغ ما يقرب من 100000 ساعة من الكلام باللغة الصينية والإنجليزية. هذا التدريب الواسع يسمح للنموذج بالتقاط أنماط الكلام المتنوعة والطبقات والتفاصيل، مما ينتج في كلام طبيعي عالي الجودة. تُستخدم أيضًا تقنيات التعلم الآلي المتقدمة لضبط النموذج لتحقيق أداء أفضل في سيناريوهات الحوار.

هل يمكن تخصيص ChatTTS لتطبيقات معينة أو أصوات محددة؟

نعم، يمكن تخصيص ChatTTS لتطبيقات معينة أو أصوات محددة. يمكن للمطورين ضبط النموذج باستخدام مجموعات بياناتهم الخاصة لتناسب حالات الاستخدام المعينة بشكل أفضل أو لتطوير ملامح صوتية فريدة. هذا التخصيص يسمح بزيادة المرونة والقابلية للتكيف في سياقات التطبيق المختلفة.

ما هي المنصات والبيئات التي يتوافق ChatTTS معها؟

تم تصميم ChatTTS ليكون متوافقًا مع مجموعة من المنصات والبيئات. يمكن دمجه في تطبيقات الويب، وتطبيقات الجوال، والبرامج على سطح المكتب، وأنظمة الإدخال المضمنة. تدعم واجهات تطوير التطبيقات البرمجية وواجهات برمجة التطبيقات لغات البرمجة المتعددة، مما يضمن أن يمكن للمطورين تنفيذ ChatTTS بسهولة عبر المنصات المختلفة.

هل هناك قيود على استخدام ChatTTS؟

على الرغم من أن ChatTTS هو نموذج تحويل النص إلى كلام قوي ومتعدد الاستخدامات، إلا أن هناك بعض القيود التي يتعين مراعاتها. على سبيل المثال، قد تختلف جودة الكلام المولد حسب تعقيد النص الداخلي وطوله. بالإضافة إلى ذلك، يمكن أن يؤثر أداء النموذج على الموارد الحسابية المتاحة، حيث يمكن أن يتطلب توليف كلام عالي الجودة في الوقت الحقيقي قدرات معالجة كبيرة. يتم إجراء تحديثات وتحسينات مستمرة لمعالجة هذه القيود وتعزيز قدرات النموذج

كيف يمكن للمستخدمين تقديم ملاحظات أو الإبلاغ عن مشاكل مع ChatTTS؟

يمكن للمستخدمين تقديم ملاحظات أو الإبلاغ عن مشاكل مع ChatTTS من خلال عدة قنوات. يقدم فريق المشروع عادة نظام دعم، الذي قد يتضمن دعم البريد الإلكتروني، بوابة دعم مخصصة، أو منتدى المجتمع. يساعد تقديم معلومات مفصلة حول المشكلة أو الملاحظة، بما في ذلك أي سجلات أو أمثلة ذات الصلة، الفريق على معالجة الاهتمامات بشكل أكثر فعالية وتحسين نموذج ChatTTS. بالإضافة إلى ذلك، يمكن للمستخدمين المساهمة في مستودع GitHub للمشروع إذا كان مفتوح المصدر، من خلال تقديم مشكلات أو طلبات سحب.