الساعة 00:00 م
الخميس 24 ابريل 2025
22° القدس
21° رام الله
21° الخليل
25° غزة
4.84 جنيه إسترليني
5.14 دينار أردني
0.07 جنيه مصري
4.13 يورو
3.65 دولار أمريكي
4

الأكثر رواجا Trending

وسط الرماد.. مبادرات التفريغ النفسي تحيي أرواحًا أنهكها الرعب في غزة

غزة.. هدنة يسبقها تصعيد عسكري وهذه سيناريوهات الحرب العدوانية

"أمازون" تكشف عن نموذج ذكاء اصطناعي توليدي للصوت

حجم الخط
Nova Sonic
رام الله- وكالات

كشفت شركة "أمازون" عن نموذجها الجديد القائم على الذكاء الاصطناعي التوليدي Nova Sonic، المصمم للتعامل مع الصوت بنحو مباشر وتوليد كلام طبيعي أقرب إلى المحادثات البشرية.

وأكدت الشركة أن أداء هذا النموذج ينافس أبرز النماذج الصوتية المتقدمة من شركتي OpenAI وجوجل، وذلك وفق معايير قياس السرعة ودقة تعرّف الكلام وجودة المحادثة.

ويُعد نموذج Nova Sonic استجابة من "أمازون" للنماذج الصوتية الحديثة، مثل النموذج الذي يدعم وضع الصوت في ChatGPT، الذي يعد أكثر سلاسة مقارنةً بالنماذج السابقة، مثل الإصدارات الأولى من أليكسا وسيري.

وأسهمت الطفرات التقنية الأخيرة في جعل المساعدات الصوتية التقليدية، مثل أليكسا وسيري، تبدو متأخرة من ناحية الواقعية والطبيعية في التفاعل.

ويتوفر نموذج Nova Sonic عبر منصة أمازون Bedrock المخصصة للمطورين لبناء تطبيقات الذكاء الاصطناعي للمؤسسات، وذلك من خلال واجهة برمجة تطبيقات API جديدة تتيح البث الصوتي في الاتجاهين.

وفي بيانٍ رسمي، وصفت "أمازون" نموذجها الجديد بأنه "الأكثر كفاءة من ناحية التكلفة" في السوق، إذ تقل تكلفته بما يقارب 80% مقارنةً بنموذج GPT-4o من OpenAI.

ووفق روهيت براساد، النائب الأول لرئيس "أمازون" وكبير علماء الذكاء الاصطناعي العام (AGI) في الشركة، فإن مكونات Nova Sonic تُستخدم بالفعل في تشغيل المساعد الصوتي المحسّن الذي أطلقته الشركة حديثًا "أليكسا بلس".

ويتميّز Nova Sonic كذلك بقدرته على الاستجابة في الوقت المناسب في أثناء الحوارات الثنائية، إذ يراعي مدد الصمت والمقاطعات من الطرف الآخر، كما يولّد نسخة مكتوبة من كلام المستخدم، يمكن للمطورين الاستفادة منها في تطبيقات مختلفة.

كما يتميز بأنه أقل عرضة لأخطاء تعرّف الكلام مقارنةً بالنماذج الأخرى، إذ يتمكن من فهم نوايا المستخدم حتى في حال تمتمته أو حديثه وسط ضوضاء.

وفي معيار Multilingual LibriSpeech لاختبار تعرّف الكلام عبر لغات ولهجات مختلفة، سجّل Nova Sonic معدل خطأ بلغ 4.2% فقط عند متوسط الأداء عبر اللغات الإنجليزية والفرنسية والإيطالية والألمانية والإسبانية.

وفي معيار آخر يُعرف باسم Augmented Multi Party Interaction لاختبار دقة التعرف الصوتي في حوارات متعددة الأطراف بمستوى صوت مرتفع، تفوق Nova Sonic بنسبة 46.7% من ناحية معدل الخطأ مقارنةً بنموذج GPT-4o-transcribe من OpenAI.

ويُسجّل النموذج سرعة استجابة رائدة في هذا القطاع، بمتوسط تأخير محسوس قدره 1.09 ثانية، مقارنة بـ1.18 ثانية لنموذج Realtime API من OpenAI، وفقًا لاختبارات أجرتها مؤسسة Artificial Analysis.

ويُعد نموذج Nova Sonic جزءًا من إستراتيجية "أمازون" الواسعة لتطوير الذكاء الاصطناعي العام (AGI)، الذي تُعرّفه الشركة بأنه "الذكاء الاصطناعي القادر على أداء كافة المهام التي ينفذها البشر عبر الحاسوب".

ويقول براساد إن الشركة تعتزم مستقبلًا إطلاق نماذج ذكاء اصطناعي قادرة على فهم وسائط متعددة، تشمل الصور والفيديو والصوت، إلى جانب "بيانات حسية أخرى" قد تُستخدم في تطبيقات واقعية.

وكانت شركة "أمازون" قد أطلقت حديثًا نموذج Nova Act، وهو نموذج ينفذ المهام عبر المتصفح، ويُعد جزءًا من مزايا "أليكسا بلس"، وميزة "اشترِ نيابةً عني" التي تمكّن الذكاء الاصطناعي من التسوق نيابةً عن المستخدمين، بالإضافة إلى نموذج توليد الفيديو الجديد Nova Reel.