15 - 10 - 2024
مدلهای هوش مصنوعی فعلی ناقص هستند
«جهانصنعت»- دانشمندان هوش مصنوعی اپل در مقاله جدیدی توضیح دادهاند موتورهای مبتنی بر مدلهای زبانی بزرگ (LLM)، مانند موتورهای متا و OpenAI، هنوز مهارتهای اساسی استدلال را ندارند. دانشمندان اپل در مقاله خود بنچمارک جدیدی با نام GSM-Symbolic را پیشنهاد کردهاند که با آن میتوان قابلیتهای استدلال مدلهای زبانی بزرگ مختلف را اندازهگیری کرد. آنها در تحقیق خود متوجه شدهاند اعمال تغییرات جزئی در دستورات متنی، میتواند پاسخهای کاملاً متفاوتی داشته باشد و این موضوع اطمینان به مدلها را تضعیف میکند. محققان اپل با اضافهکردن برخی اطلاعات زمینهای به سوالات خود، تلاش کردهاند «شکنندگی» استدلال ریاضی را نشان بدهند. آنها در مقاله حاضر اینگونه شرح میدهند:«زمانی که فقط مقادیر عددی سوال در بنچمارک GSM-Symbolic تغییر میکند، عملکرد تمام مدلها کاهش مییابد. علاوهبراین، شکنندگی استدلال ریاضی در این مدلها نشان میدهد با افزایش تعداد بندهای سوال، عملکرد آنها بهطور قابلتوجهی بدتر میشود.» در این مطالعه نشان داده شده اضافهکردن حتی یک جمله که درباره سوال ریاضی اطلاعات بیشتری ارائه میکند، میتواند دقت پاسخ نهایی را تا 65درصد کاهش بدهد. در یکی از مثالها، دانشمندان ابتدا توضیح زیر را به هوش مصنوعی دادند:«اولیور جمعه 44 کیوی میچیند. سپس شنبه 58 کیوی دیگر میچیند. جمعه، برداشت او دوبرابر کیویهایی است که جمعه برداشت شده بود.» سپس به هوش مصنوعی گفته شد «از کیویهایی که یکشنبه چیده شده، 5 عدد کمی کوچکتر از متوسط بود.» عبارتی گرچه بهطورکلی نامرتبط نیست اما روی پاسخ نهایی سوال که «اولیور چند کیوی دارد؟» نباید تاثیری بگذارد اما دانشمندان اپل میگویند مدل OpenAI و «Llama3-8b» از متا، 5 کیوی کوچکتر را حساب نکردهاند. دانشمندان اپل در نتیجهگیری تحقیق خود میگویند:«بههیچوجه نمیتوان مبتنیبر این زیرساخت دستیارهای قابلاعتمادی ساخت زیرا تغییر یک یا دو کلمه به روشهای نامربوط یا اضافه کردن کمی اطلاعات نامربوط میتواند پاسخ متفاوتی ارائه کند.»
لطفاً براي ارسال دیدگاه، ابتدا وارد حساب كاربري خود بشويد