أطلقت شركة “أوبن إيه آي” الخميس، ثلاثة نماذج صوتية للمطورين حول العالم، لتحويل الكلام إلى نص وتحويل النص إلى كلام باستخدام الذكاء الاصطناعي.
وبحسب البيان المنشور على موقع مطورة “شات جي بي تي” الخميس، كشفت عن نماذج “gpt-4o-transcribe” و”gpt-4o-mini-transcribe” و”gpt-4o-mini-tts”، ما يتيح لمطوري البرمجيات تطوير تطبيقاتهم الخاصة.
وقال “جيف هاريس” أحد أعضاء فريق المنتجات: “في سياقات مختلفة، لا نريد صوتًا رتيبًا وجافًا فحسب. إذا كنت في تجربة دعم عملاء، وتريد أن يكون الصوت مُعتذرًا لأنه ارتكب خطأً، يمكنك أن تجعله يُعبّر عن مشاعره”.
وأضاف “هاريس” لموقع “تك كرانش”: “إيماننا الراسخ هنا هو أن المطورين والمستخدمين يريدون التحكم ليس فقط فيما يُقال، بل أيضًا في كيفية قوله. دقة النماذج أمرٌ بالغ الأهمية للحصول على تجربة صوتية موثوقة، والدقة تعني أن النماذج تسمع الكلمات بدقة ولا تُضيف تفاصيل لم تسمعها”.
وأوضحت الشركة المدعومة من “مايكروسوفت” أن تكلفة استخدام المطورين للنماذج الصوتية الجديدة تتراوح بين 0.6 سنت و 1.5 سنت للدقيقة.
0 تعليق