كشفت شركة OpenAI عن أحدث إصدار من روبوت ChatGPT، مما يمثل تقدمًا كبيرًا في مجال الذكاء الاصطناعي للمحادثة.
في يوم الثلاثاء، أطلقت شركة OpenAI وضعًا صوتيًا متقدمًا لبرنامج ChatGPT، مما يوفر للمستخدمين أول تجربة لهم مع قدرات الصوت الواقعية للغاية لبرنامج GPT-4o. في البداية، ستكون النسخة المحسنة متاحة لمجموعة محدودة من مستخدمي ChatGPT Plus، مع اشتراك بسعر 20 دولارًا (74 درهمًا إماراتيًا تقريبًا) شهريًا.
ومع ذلك، فإنهم يخططون لتوسيع هذه الميزة لجميع المستخدمين المتميزين تدريجيًا من سبتمبر إلى نوفمبر.
ويعد الإصدار الجديد بقدرات محسنة ودقة متزايدة وتجربة تفاعل أكثر إنسانية، مع مجموعة التحسينات الأحدث لتحويل الطريقة التي يتفاعل بها المستخدمون مع الذكاء الاصطناعي، من خلال محادثات صوتية في الوقت الفعلي.
إن استخدام OpenAI لتركيب الصوت شديد الواقعية يعني أن ChatGPT يمكنه إنتاج كلام يحاكي عن كثب نغمة الصوت والإيقاع والعاطفة البشرية. سيجد المستخدمون أن تفاعلات الصوت للذكاء الاصطناعي جذابة وبديهية، مع استجابات تبدو بشرية بشكل ملحوظ. يمثل هذا التطور خطوة كبيرة إلى الأمام في جعل الذكاء الاصطناعي أكثر سهولة في الوصول إليه وسهل الاستخدام.
وضع الصوت المتقدم
ربما تكون على دراية بالفعل بوضع الصوت المتوفر حاليًا في ChatGPT، ولكن وضع الصوت المتقدم الجديد من OpenAI يوفر ترقية ملحوظة.
يركز هذا الإصدار بشكل كبير على جعل التفاعلات مع روبوت ChatGPT تبدو أكثر طبيعية وشبه بشرية. عملت OpenAI على تحسين نبرة المحادثة للروبوت، مما يجعله قادرًا على فهم وتكرار أنماط مختلفة من التواصل. سواء كان المستخدم يفضل نبرة رسمية للتفاعلات التجارية أو محادثة غير رسمية وودودة، فإن وضع الصوت الجديد سيكون قادرًا على التكيف وفقًا لذلك.
في السابق، اعتمد ChatGPT على ثلاثة نماذج منفصلة لميزة الصوت: نموذج لنسخ صوتك إلى نص، ونموذج GPT-4 لمعالجة المدخلات، ونموذج آخر لتحويل النص مرة أخرى إلى كلام. وعلى النقيض من ذلك، سيتم بناء GPT-4o على نظام متعدد الوسائط يتعامل مع كل هذه المهام داخليًا، مما يؤدي إلى انخفاض كبير في زمن الوصول أثناء المحادثات. سيؤدي هذا إلى معدل استجابة أسرع بكثير، مما يجعله أقرب إلى التفاعل البشري في الحياة الواقعية.
بالإضافة إلى ذلك، تؤكد OpenAI أن GPT-4o يمكنه أيضًا اكتشاف النغمات العاطفية في صوتك، مثل الحزن أو الإثارة أو حتى الغناء.
الاعتبارات الأمنية والأخلاقية
تم الإعلان عن ميزة الصوت الجديدة في مايو/أيار الماضي، لكنها أُطلقت بعد شهر من الموعد المخطط لها. وقد أرجأت شركة OpenAI إطلاق الميزة لتعزيز إجراءات السلامة، وضمان قدرة النموذج على اكتشاف المحتوى غير اللائق ورفضه بشكل فعال.
كما هو الحال مع أي تقدم في مجال الذكاء الاصطناعي، فإن إدخال قدرات الصوت يجلب معه اعتبارات أخلاقية وتحديات أمنية. وتقول شركة OpenAI إنها نفذت ضمانات لمنع إساءة استخدام ميزة الصوت، والتي تتضمن تدابير للكشف عن المحتوى غير اللائق والتخفيف من حدته، فضلاً عن أنظمة لضمان التعامل مع بيانات الصوت بأمان وخصوصية.
أعلنت شركة OpenAI على X: “لقد قمنا باختبار قدرات الصوت في GPT-4o مع أكثر من 100 من أعضاء الفريق الأحمر الخارجيين عبر 45 لغة. لحماية خصوصية الأشخاص، قمنا بتدريب النموذج على استخدام الأصوات الأربعة المحددة مسبقًا فقط وطورنا أنظمة لمنع أي مخرجات تنحرف عن تلك الأصوات. بالإضافة إلى ذلك، قمنا بتنفيذ حواجز أمان لمنع طلبات المحتوى العنيف أو المحمي بحقوق الطبع والنشر”.
في محاولة لمنع إساءة استخدام النموذج لإنشاء مقاطع صوتية مزيفة، والتي أصبحت تشكل تهديدًا كبيرًا لاقتصاد المعلومات في الآونة الأخيرة، طورت OpenAI أربعة أصوات محددة مسبقًا بالتعاون مع ممثلين صوتيين. تم تصميم خيارات الصوت المتقدمة بطريقة تتجنب انتحال شخصيات أفراد آخرين.
عندما عرضت OpenAI لأول مرة قدرات صوت GPT-4o في مايو، أثار الصوت المسمى Sky انتقادات كبيرة بسبب تشابهه الوثيق مع صوت الممثلة سكارليت جوهانسون. صرحت الممثلة علنًا أن OpenAI طلبت إذنها لاستخدام صوتها، الأمر الذي رفضته. بعد سماع التشابه في عرض العارضة، تعاقدت مع مستشار قانوني لحماية حقوقها.
الصورة: OpenAI
تلتزم OpenAI أيضًا بالشفافية وموافقة المستخدم. يتم إعلام المستخدمين عند التفاعل مع الأصوات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي، مما يضمن إدراكهم عندما يتواصلون مع كيان اصطناعي.
ومع ذلك، لا تزال هناك تحديات قائمة. إذ أن احتمال إساءة استخدام الذكاء الاصطناعي المحادثة، مثل توليد معلومات مضللة أو ضارة، يتطلب مراقبة مستمرة وتحسين التكنولوجيا.
كما هو الحال مع أي ميزة جديدة، بمجرد طرح وضع الصوت المتقدم على مستوى كبير وتجميع تعليقات المستخدمين في الوقت الفعلي، سيكون المرء قادرًا على قياس المخاطر المحتملة في السلامة والأمان.