1 - 10 - 2024
کارشناسان هوش مصنوعی «آخرین امتحان بشریت» را آماده میکنند
زهرا صالحی – تیمی از کارشناسان فناوری روز دوشنبه یک تماس جهانی صادر کردند و به دنبال سختترین سوالات برای مطرح کردن سیستمهای هوش مصنوعی بودند؛ سیستمهایی که به طور فزایندهای تستهای معیار محبوبی مانند بازی کودکان را انجام میدهند. این پروژه که «آخرین امتحان بشریت» نام دارد، به دنبال تعیین زمان ورود هوش مصنوعی در سطح متخصص است. به گفته سازماندهندگان، یک سازمان غیرانتفاعی به نام مرکز ایمنی هوش مصنوعی (CAIS) و استارتاپ Scale AI، هدف آن حفظ ارتباط حتی با پیشرفت قابلیتها در سالهای آینده است. «دن هندریکس»، مدیر اجرایی CAIS و مشاور استارتاپ xAI ایلان ماسک گفت: «این تماس چند روز پس از آن صورت میگیرد که سازنده ChatGPT یک مدل جدید به نام«OpenAI o1» را پیشنمایش کرد که «محکمترین معیارهای استدلال را از بین برد».
«هندریکس» در سال 2021 دو مقاله را نوشت که آزمایشهایی از سیستمهای هوش مصنوعی را پیشنهاد کرد که اکنون به طور گسترده مورد استفاده قرار میگیرند، یکی از آنها در مورد دانش سطح کارشناسی موضوعاتی مانند تاریخ ایالاتمتحده و دیگری توانایی مدلها برای استدلال از طریق ریاضی در سطح رقابت را بررسی میکند. این آزمون به سبک کارشناسی بیش از هر مجموعه داده دیگری از مرکز هوش مصنوعی آنلاین Hugging Face بارگیری شده است. در زمان انتشار آن مقالات، هوش مصنوعی به سوالات امتحانات پاسخهای تقریبا تصادفی میداد. هندریکس به رویترز گفت: «آنها اکنون خرد شدهاند.» به عنوان یک مثال، مدلهای کلود از آزمایشگاه هوش مصنوعی Anthropic از حدود 77درصد در آزمون مقطع کارشناسی در سال 2023 به تقریبا 89درصد یک سال بعد، براساس جدول امتیازات برجسته تواناییها رسیدهاند. در نتیجه این معیارهای رایج معنای کمتری دارند. براساس گزارش شاخص هوش مصنوعی دانشگاه استنفورد در ماه آوریل، به نظر میرسد هوش مصنوعی در تستهای کمتر مورد استفاده شامل فرمولبندی طرح و پازلهای تشخیص الگوی بصری امتیاز ضعیفی کسب کرده است. به عنوان مثال، سازماندهندگان ARC روز جمعه گفتند که OpenAI o1 در یک نسخه از تست ARC-AGI تشخیص الگو حدود 21 درصد امتیاز کسب کرد. از طرفی برخی محققان هوش مصنوعی استدلال میکنند نتایجی مانند این نشان میدهد که برنامهریزی و استدلال انتزاعی معیارهای بهتری برای هوش هستند، اگرچه هندریکس گفت که جنبه بصری ARC آن را برای ارزیابی مدلهای زبانی مناسبتر میکند. او گفت که «آخرین امتحان بشریت» به استدلال انتزاعی
نیاز دارد.
ناظران صنعت میگویند که پاسخهای معیارهای رایج ممکن است به دادههای مورد استفاده برای آموزش سیستمهای هوش مصنوعی ختم شده باشد. هندریکس گفت که برخی سوالات مربوط به «آخرین امتحان بشریت» خصوصی باقی خواهند ماند تا مطمئن شود که پاسخهای سیستمهای هوش مصنوعی از حفظ نیست. این آزمون شامل حداقل 1000سوال با منبع جمعی خواهد بود که در تاریخ اول نوامبر برگزار میشود که پاسخ دادن به آنها برای افراد غیرمتخصص دشوار است. «الکساندر وانگ» مدیرعامل Scale در آخر گفت: «شدیدا به آزمایشهای سختتر برای مدلهای سطح متخصص برای اندازهگیری پیشرفت سریع هوش مصنوعی نیاز داریم.»
منبع:رویترز
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد