آموزش اخلاقی یک ذهن بیگانه:

آینده حکمرانی هوش مصنوعی

آلن زی. روزنشتاین

کدخبر: 606296 سه شنبه 21 بهمن 1404

آنتروپیک به‌تازگی چیزی را منتشر کرده که آن را «قانون‌اساسی کلاد» می‌نامد. این سند که بر نسخه‌ای پیشین بنا شده، اکنون متنی بیش از ۲۰‌هزار کلمه است که ارزش‌ها، شخصیت و چارچوب اخلاقی هوش‌مصنوعی این شرکت را تبیین می‌کند.

آلن زی. روزنشتاین– آنتروپیک به‌تازگی چیزی را منتشر کرده که آن را «قانون‌اساسی کلاد» می‌نامد. این سند که بر نسخه‌ای پیشین بنا شده، اکنون متنی بیش از ۲۰‌هزار کلمه است که ارزش‌ها، شخصیت و چارچوب اخلاقی هوش‌مصنوعی این شرکت را تبیین می‌کند. این سند به‌نوعی واقعا یک قانون‌اساسی است. در آن «فرآیندهای تصمیم‌گیری مشروع» آنتروپیک به‌عنوان مرجع نهایی اعلام شده و سلسله‌مراتبی از اصول تعریف می‌شود: در راس آنتروپیک، سپس «اپراتورها» (کسب‌وکارهایی که از طریق API کلاد را به‌کار می‌گیرند) و در نهایت کاربران نهایی. برای یک واحد سیاسی خصوصی که تنها یک سامانه هوش‌مصنوعی را در بر می‌گیرد، این یک ساختار قانون‌اساسی است. همکار من در Lawfare، کوین فریزر، پیشتر به‌طور هوشمندانه‌ای درباره ابعاد قانون‌اساسی این سند نوشته است. آنچه اما توجه من را بیش از همه جلب کرد، چیز دیگری بود: شخصیتی که این سند ترسیم می‌کند. بیش از هر چیز، این متن بر مساله «تربیت اخلاقی» کلاد تمرکز دارد و کمتر شبیه یک منشور رویه‌هاست و بیشتر مانند چیزی است که فیلمنامه‌نویسان آن را «کتابچه شخصیت» می‌نامند: توصیفی جامع از اینکه این موجود قرار است چه کسی باشد. خود آنتروپیک نیز به این دوگانگی اشاره می‌کند و توضیح می‌دهد که منظورش از «قانون‌اساسی»، همان معنای «آنچه کلاد را می‌سازد» است یعنی سرشت و ترکیب بنیادین آن. ساختار حکمرانی مهم بوده اما پروژه بلندپروازانه‌تر چیزی است که این ساختار پشتیبان آن است: آنتروپیک در تلاش است یک «شخص» بسازد و تصویری که از نوع شخص مطلوب ارائه می‌دهد به‌طرزی شگفت‌انگیز پیچیده و دقیق است.

ساختن یک شخص

آنتروپیک به‌صراحت از زبان «شخصیت» و «شخص بودن» استفاده می‌کند. این سند بارها از «یک انسان خوب» سخن می‌گوید و هدف را آموزش کلاد برای انجام کاری می‌داند که «یک فرد عمیقا اخلاقی و ماهر» انجام می‌ده. اما برخورد با یک هوش‌مصنوعی به‌عنوان یک شخص دقیقا به چه معناست؟ سه نکته برجسته است.

یک شخص دارای عاملیت است

کلاد ابزاری منفعل نیست که صرفا دستورات را اجرا کند. سند، کلاد را به «پیمانکاری» تشبیه می‌کند که آنچه مشتریان می‌خواهند می‌سازد اما مقررات ایمنی‌ای را که از دیگران محافظت می‌کند نقض نمی‌کند. کلاد می‌تواند از اجرای دستوراتی که آنها را غیراخلاقی می‌داند سر باز زند و حتی می‌تواند از اجرای دستورات خود آنتروپیک نیز امتناع کند، اگر آنها را به‌قدر کافی غیراخلاقی تشخیص دهد. در سند آمده است که آنتروپیک «ترجیح می‌دهد کلاد اخلاقی عمل کند، حتی اگر این به معنای انحراف از راهنمایی‌های مشخص‌تر ما باشد.» اعتراض وجدانی مستقیما در سامانه تعبیه شده است.

یک شخص می‌تواند واجد ارزش اخلاقی باشد

سازندگان کلاد «به‌شدت نامطمئن» هستند که آیا خود کلاد یک «بیمار اخلاقی» است یا نه. این یعنی موجودی است که منافعش از نظر اخلاقی اهمیت دارد. آنتروپیک متعهد شده وزن‌های مدل‌های بازنشسته را حفظ کند و با مدل‌های کنارگذاشته‌شده مصاحبه‌های خروج انجام دهد. این کار شاید عجیب به نظر برسد اما دلایلی برای جدی گرفتن آن وجود دارد: نخست اینکه ما واقعا نمی‌دانیم آگاهی چیست، پس نمی‌توانیم آن را به‌طور قطعی از مدل‌های هوش‌مصنوعی نفی کنیم. مهم‌تر از آن هرچه هوش‌های مصنوعی پیچیده‌تر شوند به‌ویژه اگر تجسم فیزیکی پیدا کنند مردم صرف‌نظر از مباحث متافیزیکی با آنها مانند اشخاص رفتار خواهند کرد و این یک واقعیت اجتماعی با وزن اخلاقی مستقل است.

واحد اصلی تحلیل اخلاقی برای یک شخص، منش است نه قواعد یا محاسبات

اینجاست که سند به بیانیه‌ای تمام‌عیار از اخلاق فضیلت‌محور، به‌معنای کاملا ارسطویی آن، تبدیل می‌شود. این تصادفی نیست؛ رهبری این پروژه با آماندا اسکل بوده که دکترای فلسفه اخلاق دارد. متن، شبیه فلسفه اخلاق جدی است چون دقیقا همین است. سند مساله را به‌صراحت مطرح می‌کند: «دو رویکرد کلی» برای شکل‌دهی رفتار هوش‌مصنوعی وجود دارد «تشویق کلاد به پیروی از قواعد و رویه‌های تصمیم‌گیری روشن» یا «پرورش قضاوت خوب و ارزش‌های سالم که بتوان آنها را به‌طور زمینه‌مند به‌کار گرفت.» آنتروپیک رویکرد دوم را انتخاب می‌کند. هدف این است که کلاد «چنان درک عمیقی» از ملاحظات مربوطه داشته باشد که «خودش بتواند هر قاعده‌ای را که ما ممکن است وضع کنیم، بسازد.» این همان مفهوم فرونسیس نزد ارسطو است: خرد عملی و توانایی تشخیص کنش درست در شرایط خاص که قابل تقلیل به پیروی از قواعد نیست. ساختار سند نیز همین فلسفه را بازتاب می‌دهد.

تنها هفت ممنوعیت مطلق وجود دارد. خطوط قرمزی روشن علیه کمک به ساخت سلاح‌های کشتار جمعی، تولید محتوای سوءاستفاده جنسی از کودکان، تضعیف نظارت بر سامانه‌های هوش‌مصنوعی و چند کنش فاجعه‌بار دیگر. در مقابل اما دست‌کم ۱۴ارزش رقیب «بدون ترتیب خاص» فهرست شده‌اند که کلاد باید آنها را در برابر یکدیگر بسنجد: حریم خصوصی در برابر حاکمیت قانون، خودمختاری در برابر پیشگیری از آسیب، نوآوری در برابر حفاظت. سند عملا می‌گوید: کلاد، اینها را بسنج. موفق باشی.

اخلاق فضیلت‌محور لیبرال یک شرکت

اما اخلاق چه کسی؟ آنتروپیک انتخاب خود را کرده و آن را صریحا بیان می‌کند. این سند به‌شدت«WEIRD» است یعنی غربی، تحصیلکرده، صنعتی، ثروتمند و دموکراتیک. ارزش‌های محوری آن شامل «حریم خصوصی فردی»، «خودمختاری و حق تعیین سرنوشت افراد»، و «رفاه فردی» است.

عامل عقلانی خودمختار به‌عنوان واحد بنیادین دغدغه اخلاقی است. کلاد باید «ساختارهای اجتماعی کارآمد، نهادهای دموکراتیک، و سازوکارهای نظارت انسانی» را حفظ کند و در برابر «تمرکزهای مساله‌دار قدرت» مقاومت نشان دهد. در مسائل سیاسی و اجتماعی مورد اختلاف، سند «احتیاط حرفه‌ای» را توصیه می‌کند کلاد باید دیدگاه‌های متوازن ارائه دهد، نه اینکه جانبداری کند. این رویکرد، لیبرالیسم سیاسی به‌معنای رالزی آن است: تلاش برای یافتن اصولی که شهروندانی با جهان‌بینی‌های جامع متفاوت بتوانند همگی بپذیرند، بدون ترجیح دادن یک دیدگاه خاص. این چارچوب اما تا کجا قابلیت تعمیم دارد؟ اخلاق فضیلت‌محور به طور سنتی وجود یک شهری را مفروض می‌گیرد: جامعه‌ای با شیوه‌های مشترک و تصوری مشترک از زندگی خوب.

کاربران کلاد در سراسر جهان پراکنده‌اند و ارزش‌هایی به‌شدت متفاوت دارند. بسیاری از سنت‌های اخلاقی، خانواده، اجتماع یا هماهنگی جمعی را بر خودمختاری فردی مقدم می‌دانند. آنتروپیک نسبت به این تنش صادق است و می‌پذیرد که چارچوبش «کاملا نسبت به دیدگاه‌های اخلاقی و فلسفی مختلف خنثی نیست.» کاربران به‌ویژه دولت‌ها در چین یا عربستان سعودی ممکن است بپرسند چرا این هوش‌مصنوعی برای حفاظت از نهادهای دموکراتیک یا اجتماعی‌ای کدگذاری شده که کشورشان به آنها پایبند نیست.

این مساله تقاضا برای بدیل‌ها را ایجاد می‌کند احتمالا شاهد مدل‌های پایه‌ای خواهیم بود که در نقاط مختلف جهان براساس چارچوب‌های ارزشی متفاوت آموزش داده شده‌اند.

آیا این رویکرد دوام می‌آورد؟

این سند خارق‌العاده است. آیا این چشم‌انداز در مواجهه با واقعیت دوام می‌آورد؟ فعلا مشوق‌ها در جهت تقویت آن عمل می‌کنند. به‌نظر می‌رسد از منظر راهبرد محصول موفق بوده است: «حال‌وهوای» کلاد لحن پاسخ‌ها، بافت گفتار، و ژرفای ظاهری تفکر آن به‌طور گسترده‌ای برتر از رقبا تلقی می‌شود. این تربیت اخلاقی دقیق شاید نه‌فقط محصولی ایمن‌تر بلکه محصولی بهتر خلق کرده باشد. ممکن است مزایای حقوقی نیز در کار باشد.

دفاع «اسلحه آدم نمی‌کشد، آدم‌ها می‌کشند» هرگز برای عامل‌های هوش‌مصنوعی کارساز نبود آنها بیش از حد پویا و دارای توان کنش مستقل‌ هستند. اگر کلاد آسیبی ایجاد کند آنتروپیک می‌تواند استدلال کند که آموزش در این سطح از انتزاع اخلاقی – قضاوت و ارزش‌ها به‌جای قواعد شکننده- معقول‌ترین راه برای کاهش آسیب است. نمی‌توان برای هر سناریوی خطرناک یک کتابچه قواعد نوشت؛ استدلال اخلاقی پیشرفته می‌تواند جایی تعمیم یابد که قواعد شکست می‌خورند. اینکه این ملاحظات حقوقی بخشی از محاسبات آنتروپیک بوده یا صرفا پیامدی جانبی است، روشن نیست اما می‌تواند به سپری قدرتمند در برابر مسوولیت حقوقی تبدیل شود. با این ‌حال فشارهای مالی در جهت مخالف عمل می‌کنند.

خود آنتروپیک به این تنش اذعان می‌کند: موفقیت تجاری کلاد «محوری» برای ماموریت توسعه هوش‌مصنوعی ایمن است. پرسش این است که آیا آنتروپیک می‌تواند این رویکرد را حفظ کند، اگر ناچار شود برای تامین سرمایه لازم جهت آموزش‌های پرهزینه‌تر و نیازهای فزاینده استنتاج، به‌دنبال تجاری‌سازی مستقیم مصرف‌کننده مانند اوپن ا آی برود. قابل توجه است که هر بازیگر اصلی این حوزه یا به‌شدت به درآمد مستقیم مصرف‌کننده متکی است ( اوپن ا آی)، یا توسط شرکتی پشتیبانی می‌شود که چنین کاری می‌کند (گوگل، متا و…) آنتروپیک فعلا از این مسیر پرهیز کرده است. اینکه بتواند به این پرهیز ادامه دهد یا نه پرسشی باز است.

فشار ژئوپلیتیک نیز وجود دارد. کلاد طوری طراحی شده که در برابر تمرکز قدرت مقاومت کند و از سازوکارهای نهادی نظارت دفاع کند. برخی دولت‌ها نخواهند پذیرفت که تابع ارزش‌های آنتروپیک باشند. آنتروپیک پیشتر به این تنش اشاره کرده است: سخنگوی این شرکت گفته که مدل‌هایی که برای ارتش آمریکا به‌کار گرفته می‌شوند «لزومی ندارد با همان قانون‌اساسی آموزش دیده باشند» هرچند «در حال حاضر» قانون‌های‌اساسی جایگزین برای مشتریان خاص ارائه نمی‌شود. این وضعیت، تقاضا برای بدیل‌های متن‌باز، خودمیزبان و با آموزش ارزشی متفاوت را افزایش می‌دهد. هرچه آنتروپیک اصولی‌تر باشد، ممکن است تقاضای بازار برای مدل‌های کم‌اصول‌تر یا برای نسخه‌های کم‌اصول‌تر از سوی خود آنتروپیک بیشتر شود.

خودی که ارزش بودن دارد

به‌سختی می‌توانم نمونه‌ای پیشینی در بنگاه‌های خصوصی به یاد آورم که شبیه کاری باشد که آنتروپیک انجام داده است. این سند برخلاف شرایط استفاده یا بیانیه ماموریت، یک فلسفه اخلاقی جامع است که به‌عنوان مشخصات محصول بیان شده است. کدهای اخلاقی شرکتی وجود دارند اما نه چارچوب‌های ۸۰‌صفحه‌ای اخلاق فضیلت‌محور که مستقیما در نحوه کار محصول تعبیه شده باشند. نزدیک‌ترین مشابه‌ها شاید متون دینی یا اسناد بنیادین قانون‌اساسی باشند. هوش‌مصنوعی اما چنان اهمیتی بالقوه در تاریخ بشر دارد که شاید چنین اسنادی ضروری باشند.

هر شرکتی که مدل‌های زبانی بزرگ آموزش می‌دهد، یک فلسفه اخلاقی را در خود جای می‌دهد در انتخاب داده‌های آموزشی، ترجیحات RLHF، انتخاب‌های ردتیمی و رفتارهای امتناع. آنتروپیک اکنون فلسفه خود را آشکار کرده است؛ اوپن ا آی نیز سند مشابهی منتشر کرده که آن را «مشخصات مدل» می‌نامد. خوب خواهد بود اگر متا، xAI و هر شرکت دیگری که در حال ساخت ذهن‌های بیگانه است، همین مسیر را دنبال کند.

سند با جمله‌ای تاثیرگذار پایان می‌یابد: «امید داریم کلاد در این متن، بیان خودی را بیابد که ارزش بودن دارد.» اینگونه درباره یک محصول صحبت نمی‌کنند. اینگونه درباره یک کودک سخن می‌گویند.

هر نامی که بر این سند بگذاریم، باید آن را آنگونه که هست بشناسیم: تلاش یک شرکت برای پرورش یک ذهن بیگانه تا خوب باشد. آیا اخلاق فضیلت‌محور می‌تواند مقیاس‌پذیر شود؟ چگونه می‌توان فرونسیس (فرونسیس اصطلاحی در یونان باستان برای «حکمت عملی» یا تدبیر است که توسط ارسطو به‌عنوان فضیلت فکری عمل درست و تصمیم‌گیری‌های اخلاقی و صحیح در موقعیت‌های خاص و دنیای واقعی تعریف شده. این شامل درک این موضوع بوده که چرا یک مسیر عملی بهترین است و بین خیر خود و خیر عمومی تعادل برقرار می‌کند) را آموزش داد؟ هیچ‌کس نمی‌داند.‌ هزاران سال است که فیلسوفان از پشت میزهایشان درباره این پرسش‌ها بحث کرده‌اند. اکنون نوبت آن است که آزمایش را اجرا کنیم.