مدل‌های هوش مصنوعی فعلی ناقص هستند

«جهان‌صنعت»- دانشمندان هوش مصنوعی اپل در مقاله جدیدی توضیح داده‌اند موتورهای مبتنی ‌بر مدل‌های زبانی بزرگ (LLM)، مانند موتورهای متا و OpenAI، هنوز مهارت‌های اساسی استدلال را ندارند. دانشمندان اپل در مقاله خود بنچمارک جدیدی با نام GSM-Symbolic را پیشنهاد کرده‌اند که با آن می‌توان قابلیت‌های استدلال مدل‌های زبانی بزرگ مختلف را اندازه‌گیری کرد. آنها در تحقیق خود متوجه شده‌اند اعمال تغییرات جزئی در دستورات متنی، می‌تواند پاسخ‌های کاملاً متفاوتی داشته باشد و این موضوع اطمینان به مدل‌ها را تضعیف می‌کند. محققان اپل با اضافه‌کردن برخی اطلاعات زمینه‌ای به سوالات خود، تلاش کرده‌اند «شکنندگی» استدلال ریاضی را نشان بدهند. آنها در مقاله حاضر این‌گونه شرح می‌دهند:«زمانی که فقط مقادیر عددی سوال در بنچمارک GSM-Symbolic تغییر می‌کند، عملکرد تمام مدل‌ها کاهش می‌یابد. علاوه‌براین، شکنندگی استدلال ریاضی در این مدل‌ها نشان می‌دهد با افزایش تعداد بندهای سوال، عملکرد آنها به‌طور قابل‌توجهی بدتر می‌شود.» در این مطالعه نشان داده شده اضافه‌کردن حتی یک جمله که درباره سوال ریاضی اطلاعات بیشتری ارائه می‌کند، می‌تواند دقت پاسخ نهایی را تا 65‌درصد کاهش بدهد. در یکی از مثال‌ها، دانشمندان ابتدا توضیح زیر را به هوش مصنوعی دادند:«اولیور جمعه 44 کیوی می‌چیند. سپس شنبه 58 کیوی دیگر می‌چیند. جمعه، برداشت او دوبرابر کیوی‌هایی است که جمعه برداشت شده بود.» سپس به هوش مصنوعی گفته شد «از کیوی‌هایی که یکشنبه چیده‌ شده، 5 عدد کمی کوچک‌تر از متوسط بود.» عبارتی گرچه به‌طورکلی نامرتبط نیست اما روی پاسخ نهایی سوال که «اولیور چند کیوی دارد؟» نباید تاثیری بگذارد اما دانشمندان اپل می‌گویند مدل OpenAI و «Llama3-8b» از متا، 5 کیوی کوچک‌تر را حساب نکرده‌اند. دانشمندان اپل در نتیجه‌گیری تحقیق خود می‌گویند:«به‌هیچ‌وجه نمی‌توان مبتنی‌بر این زیرساخت دستیارهای قابل‌اعتمادی ساخت زیرا تغییر یک یا دو کلمه به روش‌های نامربوط یا اضافه‌ کردن کمی اطلاعات نامربوط می‌تواند پاسخ متفاوتی ارائه کند.»

روزنامه جهان صنعت

مدل‌های هوش مصنوعی فعلی ناقص هستند

اشتراک گذاری