علي بابا كلاود تطلق نماذج ذكاء اصطناعي متطورة للصوت

Qwen3-TTS-VD-Flash: التحكم الكامل في الأصوات

يحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، ويتيح للمستخدم إنشاء أصوات بمشاعر مختلفة ونبرة وسرعة إلقاء قابلة للتخصيص. كما يمكن تحديد العمر، نوع الصوت، والأسلوب، ما يمنح تحكمًا واسعًا في المخرجات الصوتية، ويجعل النموذج منافسًا قويًا لواجهة OpenAI GPT-4o mini-tts وفقًا لتقارير منصة SCMP.

Qwen3-TTS-VC-Flash: استنساخ الأصوات بدقة عالية
أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيختص باستنساخ الأصوات، إذ يمكنه نسخ صوت شخص من مقطع قصير لا يتجاوز ثلاث ثوانٍ، مع إمكانية إعادة إنتاجه بـ عشر لغات مختلفة. وتؤكد الشركة أن النموذج يحقق أخطاء أقل مقارنةً بمنافسين مثل ElevenLabs وMiniMax.

قدرات واسعة للنماذج الجديدة
تتيح النماذج الجديدة التعامل مع نصوص معقدة، تقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات. ويمكن الوصول إليها عبر واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، مع إتاحة نسخ تجريبية على منصة Hugging Face.

سوق متسارع لتقنيات الصوت بالذكاء الاصطناعي
يأتي هذا الإطلاق في وقت تشهد فيه سوق تقنيات الصوت بالذكاء الاصطناعي منافسة متصاعدة، مدفوعة بالطلب من قطاعات مثل الإعلانات، الألعاب، وصناعة الفيديو. وتفتح هذه النماذج المجال أمام استخدامات واسعة مثل إنتاج الإعلانات الصوتية، الدبلجة متعددة اللغات، صناعة الشخصيات الصوتية، التعليم الإلكتروني ومراكز الاتصال، مع تقليل الوقت والتكلفة مقارنة بالأساليب التقليدية.

علي بابا كلاود تطلق نماذج ذكاء اصطناعي متطورة للصوت

Qwen3-TTS-VD-Flash: التحكم الكامل في الأصوات

{{date}} {{title}}