التكنولوجيا

Story: هواوي تكشف عن معيار “Claw-Anything” الذي يضع GPT-5.5 عند نسبة نجاح 34.5%

By Dan Saada

1 / 15

ما الذي يختبره معيار Claw-Anything بالفعل. صممت هواوي معيار Claw-Anything خصيصًا لاختبار المساعدات الذكية في إدارة الحياة الرقمية.

2 / 15

لماذا تُعد نسبة 34.5% أمرًا هامًا. هناك إغراء لقراءة نتيجة معيار ورفع الكتفين. المعايير يمكن التلاعب بها. الاختبارات تُنتقد.

3 / 15

إلى أين يتجه تطوير الذكاء الاصطناعي من هنا. قضت صناعة الذكاء الاصطناعي الكثير من الوقت مؤخرًا في الحديث عن الوكلاء — النماذج التي لا تجيب فقط…

4 / 15

الأسئلة الشائعة

5 / 15

ما هو معيار Claw-Anything؟. Claw-Anything هو معيار صممته هواوي لاختبار المساعدات الذكية من خلال وضعها في بيئات رقمية محاكاة،…

6 / 15

كيف كان أداء GPT-5.5 على معيار Claw-Anything؟. حقق GPT-5.5، وهو حاليًا النموذج الأكثر تقدمًا المتاح، نسبة نجاح 34.

7 / 15

أنشأت هواوي معيارًا جديدًا يُسمى "Claw-Anything". والنتائج كانت صعبة على صناعة الذكاء الاصطناعي.

8 / 15

اختبر المعيار المساعدات الذكية في بيئات رقمية محاكاة — في الأساس نسخ مزيفة ولكن مفصلة من نوع الحياة الرقمية التي يديرها الشخص يوميًا.

9 / 15

صممت هواوي معيار Claw-Anything خصيصًا لاختبار المساعدات الذكية في إدارة الحياة الرقمية. المعيار لا يقتصر على تقديم ألغاز منطقية للنموذج أو طلب كتابة كود.

10 / 15

هذا يختلف عن معظم معايير الذكاء الاصطناعي. العديد من الاختبارات القياسية تكافئ التفكير الخام أو مطابقة الأنماط. يبدو أن Claw-Anything يهتم أكثر بالتكيف.

11 / 15

GPT-5.5 لم يستطع في الغالب. أو على الأقل، استطاع فقط في حوالي ثلث الوقت.

12 / 15

الفجوة بين ما يطلبه المعيار وما قدمه النموذج واسعة. تصميم هواوي يسأل بشكل أساسي: إذا سلمنا لك حياة رقمية لشخص ما لتديرها، كم مرة ستنجح في ذلك؟ الجواب، لأفضل نموذج متاح حاليًا، هو…

13 / 15

More context: ارتفاع الرافعة المالية في بيتكوين إلى منطقة الخطر مع تزايد المضاربين الأفراد

14 / 15

ليس الأمر أن GPT-5.5 نموذج سيء. وفقًا لمعظم المقاييس القياسية، هو الأفضل المتاح حاليًا. النقطة هي أن "الأفضل المتاح" لا يزال بعيدًا عن ما سيكون مطلوبًا لإدارة وجود رقمي بشكل…

15 / 15

وهذه الفجوة مهمة لأي شخص يفكر بجدية في وكلاء الذكاء الاصطناعي، المساعدات الذكية، أو الفكرة الأوسع لتسليم الذكاء الاصطناعي استقلالية ذات مغزى على المهام الرقمية.

The Currency Analytics

Want the full story?