21 - 01 - 2025
هوش مصنوعی نمیتواند پاسخ درستی به پرسشهای «تاریخی» بدهد
تککرانچ- هوش مصنوعی ممکن است در کارهای خاصی مانند کدنویسی یا تولید پادکست، عملکرد خوبی داشته باشد اما یک پژوهش جدید نشان داده که هوش مصنوعی برای قبول شدن در یک امتحان تاریخ سطح بالا مشکل دارد. گروهی از پژوهشگران یک معیار جدید را برای آزمایش سه مدل زبانی بزرگ «چتجیپیتی-۴» شرکت «اوپنایآی»، «لاما» شرکت «متا» و «جمینای» گوگل درباره پرسشهای تاریخی ایجاد کردهاند. این معیار موسوم به «Hist-LLM»، درستی پاسخها را براساس بانک اطلاعات تاریخ جهانی «سشات» آزمایش میکند که یک پایگاه داده گسترده از دانش تاریخی است و نام ایزدبانوی خرد مصر باستان را دارد. پژوهشگران موسسه پژوهشی «ComplexityScience Hub» مستقر در اتریش، نتایج این بررسی را ناامیدکننده خواندند. مدل زبانی که بهترین عملکرد را داشت، «GPT-4Turbo» بود اما دقت آن فقط حدود ۴۶درصد تخمین زده شد که خیلی بیشتر از دقت حدس زدن تصادفی نیست. «ماریا دل ریو چانونا»، دانشیار علوم رایانه کالج دانشگاهی لندن و از پژوهشگران این پروژه گفت: نکته اصلی پژوهش ما این است که اگرچه مدلهای زبانی بزرگ، چشمگیر هستند اما هنوز عمق لازم را برای درک تاریخ پیشرفته ندارند. آنها برای حقایق اساسی عالی هستند اما وقتی صحبت از پژوهشهای تاریخی دقیقتر در سطح دکتری به میان میآید، هنوز به کارایی لازم نرسیدهاند. پژوهشگران پرسشهای تاریخ که مدلهای زبانی بزرگ در پاسخ دادن به آنها اشتباه کرده بودند را در اختیار تککرانچ گذاشتند. به عنوان مثال، آنها از «GPT-4Turbo» پرسیده بودند که آیا «زره فلس» در یک دوره زمانی خاص در مصر باستان وجود داشته است یا خیر و مدل زبانی بزرگ پاسخ مثبت داد. این در حالی بود که زره فلس ۱۵۰۰سال پس از آن دوره در مصر ظاهر شد. چرا مدلهای زبانی بزرگ در پاسخ دادن به پرسشهای تاریخی بد عمل میکنند، در حالی که میتوانند در پاسخ دادن به پرسشهای بسیار پیچیده در مواردی مانند کدنویسی بسیار خوب باشند؟ چانونا پاسخ داد: احتمالا به این دلیل است که مدلهای زبانی بزرگ تمایل دارند از دادههای تاریخی بسیار برجسته برونیابی کنند و بازیابی دانش تاریخی مبهمتر را دشوار میدانند.
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد