درجة ثقة المجتمعموثّق
أنشأت هواوي معيارًا جديدًا يُسمى “Claw-Anything”. والنتائج كانت صعبة على صناعة الذكاء الاصطناعي.
اختبر المعيار المساعدات الذكية في بيئات رقمية محاكاة — في الأساس نسخ مزيفة ولكن مفصلة من نوع الحياة الرقمية التي يديرها الشخص يوميًا. الجدولة، اتخاذ القرارات، تنفيذ المهام، تبديل السياقات. الأشياء التي يقوم بها البشر دون تفكير. نموذج GPT-5.5، الذي يُعتبر حاليًا الأكثر تقدمًا، نجح فقط في 34.5% من مهام المعيار. ليس خطأً مطبعيًا. أربعة وثلاثون ونصف بالمائة. بالنسبة لنموذج يُفترض أن يمثل قمة ما يمكن للذكاء الاصطناعي القيام به حاليًا، فإن هذا رقم يصعب التلاعب به.
ليس جيدًا.
ما الذي يختبره معيار Claw-Anything بالفعل
صممت هواوي معيار Claw-Anything خصيصًا لاختبار المساعدات الذكية في إدارة الحياة الرقمية. المعيار لا يقتصر على تقديم ألغاز منطقية للنموذج أو طلب كتابة كود. بل يحاكي نوع اتخاذ القرارات المعقدة والمعتمد على السياق الذي تتطلبه الحياة الرقمية الحقيقية — الشيء الذي يعتمد فيه الجواب الصحيح على من أنت، وما كنت تفعله قبل خمس خطوات، وما تحاول تحقيقه لاحقًا.
هذا يختلف عن معظم معايير الذكاء الاصطناعي. العديد من الاختبارات القياسية تكافئ التفكير الخام أو مطابقة الأنماط. يبدو أن Claw-Anything يهتم أكثر بالتكيف. هل يمكن للنموذج التعامل مع موقف لم يره من قبل بشكل نظيف؟ هل يمكنه إدارة الأولويات المتنافسة دون فقدان الخيط؟ هل يمكنه التصرف، بشكل أساسي، مثل شخص يتنقل في يوم رقمي عادي؟
GPT-5.5 لم يستطع في الغالب. أو على الأقل، استطاع فقط في حوالي ثلث الوقت.
الفجوة بين ما يطلبه المعيار وما قدمه النموذج واسعة. تصميم هواوي يسأل بشكل أساسي: إذا سلمنا لك حياة رقمية لشخص ما لتديرها، كم مرة ستنجح في ذلك؟ الجواب، لأفضل نموذج متاح حاليًا، هو أقل من أربع مرات من أصل عشر.
هذا هو العنوان الرئيسي.
لماذا تُعد نسبة 34.5% أمرًا هامًا
هناك إغراء لقراءة نتيجة معيار ورفع الكتفين. المعايير يمكن التلاعب بها. الاختبارات تُنتقد. الأرقام تُعاد صياغتها. لكن 34.5% من الصعب إعادة صياغتها كأي شيء آخر غير مشكلة سقف للأنظمة الحالية للذكاء الاصطناعي.
ليس الأمر أن GPT-5.5 نموذج سيء. وفقًا لمعظم المقاييس القياسية، هو الأفضل المتاح حاليًا. النقطة هي أن “الأفضل المتاح” لا يزال بعيدًا عن ما سيكون مطلوبًا لإدارة وجود رقمي بشكل حقيقي كما يفعل الإنسان. من المحتمل أن النموذج يمكنه التعامل مع المهام المنفصلة بشكل جيد بما فيه الكفاية. إنها التكامل — الإدارة المستمرة، التكيفية، الواعية بالسياق لبيئة رقمية كاملة — حيث تنهار الأمور.
وهذه الفجوة مهمة لأي شخص يفكر بجدية في وكلاء الذكاء الاصطناعي، المساعدات الذكية، أو الفكرة الأوسع لتسليم الذكاء الاصطناعي استقلالية ذات مغزى على المهام الرقمية. نتائج Claw-Anything هي تحقق من الواقع. ربما يكون تحققًا ضروريًا.
لم تصدر هواوي تعليقًا فوريًا على الخطوات التالية بعد صدور نتائج المعيار. لا خارطة طريق، ولا جدول زمني للمتابعة. من غير الواضح ما إذا كانت هناك تخطيطات لمزيد من التكرارات للاختبار أو ما إذا كانت النتائج ستغذي مباشرة توجيهات تطوير النموذج.
إلى أين يتجه تطوير الذكاء الاصطناعي من هنا
قضت صناعة الذكاء الاصطناعي الكثير من الوقت مؤخرًا في الحديث عن الوكلاء — النماذج التي لا تجيب فقط على الأسئلة ولكنها تقوم فعليًا بأشياء نيابة عنك. حجز الاجتماع. تقديم الوثيقة. إدارة البريد الوارد. التعامل مع سير العمل. العرض مغرٍ. نتائج Claw-Anything تذكرنا بأن العرض والواقع لا يزالان بعيدين عن بعضهما البعض.
لكي يعمل الذكاء الاصطناعي كمدير حقيقي للحياة الرقمية، ربما يحتاج إلى أن يصبح أفضل بكثير في بعض الأشياء المحددة. الذاكرة السياقية — تتبع ما حدث سابقًا ولماذا يهم الآن. تحديد الأولويات التكيفية — معرفة ما يهم أكثر عندما تتنافس المهام. وشيء أصعب في التسمية ولكنه سهل التعرف عليه، القدرة على التعامل مع الغموض دون الانحراف إلى إجابة خاطئة بثقة.
GPT-5.5 بنسبة 34.5% يعني أن الجيل الحالي من النماذج لم يحل هذه المشاكل. ليس حتى قريبًا، في الواقع.
المعايير مثل Claw-Anything مفيدة بالضبط لأنها صعبة التلاعب. عندما يحاكي الاختبار بيئة رقمية كاملة بدلاً من مهارة ضيقة، لا يمكن للنماذج أن تتطابق مع الأنماط فقط لتحقيق درجة عالية. يجب أن تؤدي فعليًا. والأداء، في الوقت الحالي، محدود.
من المحتمل أن تولي مجتمع تطوير الذكاء الاصطناعي اهتمامًا لهذه النتائج. معيار هواوي هو نوع محدد من اختبار الضغط، وسقف 34.5% على النموذج الأعلى هو نوع من النقاط البيانية التي تشكل المكان الذي تذهب إليه أموال البحث والجهود الهندسية التالية.
ما إذا كان الجيل القادم من النماذج سيؤدي بشكل أفضل بشكل ملموس في Claw-Anything — غير واضح. لم يقل أحد. لكن العتبة وضعت الآن، وهي عند 34.5%.
الأسئلة الشائعة
ما هو معيار Claw-Anything؟
Claw-Anything هو معيار صممته هواوي لاختبار المساعدات الذكية من خلال وضعها في بيئات رقمية محاكاة، وتقييم قدرتها على إدارة المهام واتخاذ القرارات بالطريقة التي يقوم بها الشخص في سياق رقمي حقيقي.
كيف كان أداء GPT-5.5 على معيار Claw-Anything؟
حقق GPT-5.5، وهو حاليًا النموذج الأكثر تقدمًا المتاح، نسبة نجاح 34.5% على معيار Claw-Anything، وهو أعلى درجة بين النماذج التي تم اختبارها.