في خطوة جديدة نحو تعزيز تجربة التفاعل الصوتي، كشفت شركة OpenAI في 7 مايو عن ثلاثة نماذج صوتية مبتكرة تهدف إلى تحسين أداء الوكلاء الصوتيين في إنجاز المهام بشكل فوري. تأتي هذه النماذج كجزء من تطوير منصة المطورين الخاصة بالشركة، مما يتيح للمستخدمين الاستفادة من تقنيات متقدمة في المحادثات الحية.
تشمل النماذج الجديدة كلاً من GPT-Realtime-2 وGPT-Realtime-Translate وGPT-Realtime-Whisper. حيث تم تصميم النموذج الأول لإدارة الطلبات الأكثر تعقيداً، واستدعاء الأدوات، والتعامل مع الانقطاعات، والحفاظ على السياق خلال جلسات الصوت الطويلة. بينما يدعم النموذج الثاني الترجمة من أكثر من 70 لغة إلى 13 لغة، مما يجعله مثالياً للاستخدام في مجالات مثل دعم العملاء والتعليم.
التفاصيل
النموذج الثالث، GPT-Realtime-Whisper، يوفر إمكانية تحويل الكلام إلى نص بشكل مباشر، مما يتيح إنشاء الترجمة التلقائية، وملاحظات الاجتماعات، وتحديثات سير العمل أثناء حديث المتحدث. وقد بدأت بعض الشركات مثل Zillow وPriceline وDeutsche Telekom في اختبار هذه النماذج الجديدة، مما يعكس اهتماماً واسعاً بالتقنيات الصوتية الحديثة.
تبدأ أسعار استخدام نموذج GPT-Realtime-2 من $32 لكل مليون رمز صوتي، بينما يكلف GPT-Realtime-Translate $0.034 لكل دقيقة، وGPT-Realtime-Whisper $0.017 لكل دقيقة. هذه الأسعار تعكس التوجه نحو تقديم خدمات صوتية متطورة وبأسعار تنافسية.
