BNB $622.26 -5.94%
XRP $1.20 -1.62%
ETH $1,806.57 -5.56%
BTC $65,398.44 -2.90%
BNB $622.26 -5.94%
XRP $1.20 -1.62%
ETH $1,806.57 -5.56%
BTC $65,398.44 -2.90%
عاجل
انهيار XRP إلى 1.22 دولار مع تصفية 18 مليون دولار وخلل هامش بنسبة 1614% غرايسكيل تقدم التعديل الثالث لصندوق BNB وتخصص الرمز GBNB ريڤولت تسعى لتقديم خدمات العملات المستقرة لعملائها في الولايات المتحدة وسط تحولات مصرفية بقيادة الرئيس جيفري كيندريك من ستاندرد تشارترد يتوقع تفوق إيثريوم على بيتكوين بنسبة 40% هذا العام إطلاق جرايسكيل لصندوق HYPG للستيكينغ بتكلفة 0.29%، الأرخص في الولايات المتحدة هبوط بيتكوين دون $70,000 يثير قلق المتداولين في يونيو انهيار XRP إلى 1.22 دولار مع تصفية 18 مليون دولار وخلل هامش بنسبة 1614% غرايسكيل تقدم التعديل الثالث لصندوق BNB وتخصص الرمز GBNB ريڤولت تسعى لتقديم خدمات العملات المستقرة لعملائها في الولايات المتحدة وسط تحولات مصرفية بقيادة الرئيس جيفري كيندريك من ستاندرد تشارترد يتوقع تفوق إيثريوم على بيتكوين بنسبة 40% هذا العام إطلاق جرايسكيل لصندوق HYPG للستيكينغ بتكلفة 0.29%، الأرخص في الولايات المتحدة هبوط بيتكوين دون $70,000 يثير قلق المتداولين في يونيو
التكنولوجيا

هواوي تكشف عن معيار “Claw-Anything” الذي يضع GPT-5.5 عند نسبة نجاح 34.5%

هواوي تكشف عن معيار “Claw-Anything” الذي يضع GPT-5.5 عند نسبة نجاح 34.5%
هواوي تكشف عن معيار "Claw-Anything" الذي يضع GPT-5.5 عند نسبة نجاح 34.5%

درجة ثقة المجتمعموثّق

93%
حقيقي
موثّق41 أصوات
آخر تحديث 7 أيام مضت

أنشأت هواوي معيارًا جديدًا يُسمى “Claw-Anything”. والنتائج كانت صعبة على صناعة الذكاء الاصطناعي.

اختبر المعيار المساعدات الذكية في بيئات رقمية محاكاة — في الأساس نسخ مزيفة ولكن مفصلة من نوع الحياة الرقمية التي يديرها الشخص يوميًا. الجدولة، اتخاذ القرارات، تنفيذ المهام، تبديل السياقات. الأشياء التي يقوم بها البشر دون تفكير. نموذج GPT-5.5، الذي يُعتبر حاليًا الأكثر تقدمًا، نجح فقط في 34.5% من مهام المعيار. ليس خطأً مطبعيًا. أربعة وثلاثون ونصف بالمائة. بالنسبة لنموذج يُفترض أن يمثل قمة ما يمكن للذكاء الاصطناعي القيام به حاليًا، فإن هذا رقم يصعب التلاعب به.

ليس جيدًا.

إعلان

ما الذي يختبره معيار Claw-Anything بالفعل

صممت هواوي معيار Claw-Anything خصيصًا لاختبار المساعدات الذكية في إدارة الحياة الرقمية. المعيار لا يقتصر على تقديم ألغاز منطقية للنموذج أو طلب كتابة كود. بل يحاكي نوع اتخاذ القرارات المعقدة والمعتمد على السياق الذي تتطلبه الحياة الرقمية الحقيقية — الشيء الذي يعتمد فيه الجواب الصحيح على من أنت، وما كنت تفعله قبل خمس خطوات، وما تحاول تحقيقه لاحقًا.

هذا يختلف عن معظم معايير الذكاء الاصطناعي. العديد من الاختبارات القياسية تكافئ التفكير الخام أو مطابقة الأنماط. يبدو أن Claw-Anything يهتم أكثر بالتكيف. هل يمكن للنموذج التعامل مع موقف لم يره من قبل بشكل نظيف؟ هل يمكنه إدارة الأولويات المتنافسة دون فقدان الخيط؟ هل يمكنه التصرف، بشكل أساسي، مثل شخص يتنقل في يوم رقمي عادي؟

GPT-5.5 لم يستطع في الغالب. أو على الأقل، استطاع فقط في حوالي ثلث الوقت.

الفجوة بين ما يطلبه المعيار وما قدمه النموذج واسعة. تصميم هواوي يسأل بشكل أساسي: إذا سلمنا لك حياة رقمية لشخص ما لتديرها، كم مرة ستنجح في ذلك؟ الجواب، لأفضل نموذج متاح حاليًا، هو أقل من أربع مرات من أصل عشر.

هذا هو العنوان الرئيسي.

لماذا تُعد نسبة 34.5% أمرًا هامًا

هناك إغراء لقراءة نتيجة معيار ورفع الكتفين. المعايير يمكن التلاعب بها. الاختبارات تُنتقد. الأرقام تُعاد صياغتها. لكن 34.5% من الصعب إعادة صياغتها كأي شيء آخر غير مشكلة سقف للأنظمة الحالية للذكاء الاصطناعي.

ليس الأمر أن GPT-5.5 نموذج سيء. وفقًا لمعظم المقاييس القياسية، هو الأفضل المتاح حاليًا. النقطة هي أن “الأفضل المتاح” لا يزال بعيدًا عن ما سيكون مطلوبًا لإدارة وجود رقمي بشكل حقيقي كما يفعل الإنسان. من المحتمل أن النموذج يمكنه التعامل مع المهام المنفصلة بشكل جيد بما فيه الكفاية. إنها التكامل — الإدارة المستمرة، التكيفية، الواعية بالسياق لبيئة رقمية كاملة — حيث تنهار الأمور.

وهذه الفجوة مهمة لأي شخص يفكر بجدية في وكلاء الذكاء الاصطناعي، المساعدات الذكية، أو الفكرة الأوسع لتسليم الذكاء الاصطناعي استقلالية ذات مغزى على المهام الرقمية. نتائج Claw-Anything هي تحقق من الواقع. ربما يكون تحققًا ضروريًا.

لم تصدر هواوي تعليقًا فوريًا على الخطوات التالية بعد صدور نتائج المعيار. لا خارطة طريق، ولا جدول زمني للمتابعة. من غير الواضح ما إذا كانت هناك تخطيطات لمزيد من التكرارات للاختبار أو ما إذا كانت النتائج ستغذي مباشرة توجيهات تطوير النموذج.

إلى أين يتجه تطوير الذكاء الاصطناعي من هنا

قضت صناعة الذكاء الاصطناعي الكثير من الوقت مؤخرًا في الحديث عن الوكلاء — النماذج التي لا تجيب فقط على الأسئلة ولكنها تقوم فعليًا بأشياء نيابة عنك. حجز الاجتماع. تقديم الوثيقة. إدارة البريد الوارد. التعامل مع سير العمل. العرض مغرٍ. نتائج Claw-Anything تذكرنا بأن العرض والواقع لا يزالان بعيدين عن بعضهما البعض.

لكي يعمل الذكاء الاصطناعي كمدير حقيقي للحياة الرقمية، ربما يحتاج إلى أن يصبح أفضل بكثير في بعض الأشياء المحددة. الذاكرة السياقية — تتبع ما حدث سابقًا ولماذا يهم الآن. تحديد الأولويات التكيفية — معرفة ما يهم أكثر عندما تتنافس المهام. وشيء أصعب في التسمية ولكنه سهل التعرف عليه، القدرة على التعامل مع الغموض دون الانحراف إلى إجابة خاطئة بثقة.

GPT-5.5 بنسبة 34.5% يعني أن الجيل الحالي من النماذج لم يحل هذه المشاكل. ليس حتى قريبًا، في الواقع.

المعايير مثل Claw-Anything مفيدة بالضبط لأنها صعبة التلاعب. عندما يحاكي الاختبار بيئة رقمية كاملة بدلاً من مهارة ضيقة، لا يمكن للنماذج أن تتطابق مع الأنماط فقط لتحقيق درجة عالية. يجب أن تؤدي فعليًا. والأداء، في الوقت الحالي، محدود.

من المحتمل أن تولي مجتمع تطوير الذكاء الاصطناعي اهتمامًا لهذه النتائج. معيار هواوي هو نوع محدد من اختبار الضغط، وسقف 34.5% على النموذج الأعلى هو نوع من النقاط البيانية التي تشكل المكان الذي تذهب إليه أموال البحث والجهود الهندسية التالية.

ما إذا كان الجيل القادم من النماذج سيؤدي بشكل أفضل بشكل ملموس في Claw-Anything — غير واضح. لم يقل أحد. لكن العتبة وضعت الآن، وهي عند 34.5%.

الأسئلة الشائعة

ما هو معيار Claw-Anything؟

Claw-Anything هو معيار صممته هواوي لاختبار المساعدات الذكية من خلال وضعها في بيئات رقمية محاكاة، وتقييم قدرتها على إدارة المهام واتخاذ القرارات بالطريقة التي يقوم بها الشخص في سياق رقمي حقيقي.

كيف كان أداء GPT-5.5 على معيار Claw-Anything؟

حقق GPT-5.5، وهو حاليًا النموذج الأكثر تقدمًا المتاح، نسبة نجاح 34.5% على معيار Claw-Anything، وهو أعلى درجة بين النماذج التي تم اختبارها.

مؤشر ثقة المجتمعثقة عالية
93%
حقيقي
حقيقي93%7%مزيف
41 إشارة من المجتمع

Dan Saada

دان سعادة حاصل على ماجستير في التمويل من مدرسة إيسيج للأعمال (فرنسا). ومع سنوات من الخبرة في تغطية الأصول الرقمية، يتخصص دان في تحليل سوق العملات المشفرة، وتكنولوجيا البلوكشين، والتمويل اللامركزي.

إعلان

قصص ذات صلة