شباهت‌ها، چالش‌ها و پیامدهای تنظیم‌گری:

داده به‌مثابه نفت جدید

اسفندیار جهانگرد
کدخبر: 553108
اسفندیار جهانگرد– در سپتامبر ۲۰۲۴ در تورنتوی کانادا کنفزانسی تحت عنوان «اقتصاد سیاسی هوش مصنوعی» برگزار شد که انتشارات دانشگاه شیکاگو به نشر آن اقدام کرد.  اجای آگراوال، جاشوا گنز، آوی گلدفارب و کاترین تاکر  مجموعه‌ای از مقالات دعوتی و دیدگاه‌های ارائه ‌شده در آن کنفرانس  را در سه محور اصلی سازمان  دادند. این سه
داده به‌مثابه نفت جدید

اسفندیار جهانگرد– در سپتامبر ۲۰۲۴ در تورنتوی کانادا کنفزانسی تحت عنوان «اقتصاد سیاسی هوش مصنوعی» برگزار شد که انتشارات دانشگاه شیکاگو به نشر آن اقدام کرد.  اجای آگراوال، جاشوا گنز، آوی گلدفارب و کاترین تاکر  مجموعه‌ای از مقالات دعوتی و دیدگاه‌های ارائه ‌شده در آن کنفرانس  را در سه محور اصلی سازمان  دادند. این سه محور اصلی عبارتند از:

– اقتصاد سیاسی مقررات‌گذاری هوش مصنوعی

– هوش مصنوعی و قدرت نظامی

– هوش مصنوعی و هویت سیاسی

آنها  مطرح کردند که با روشن‌تر شدن ظرفیت‌های اقتصادی هوش مصنوعی، پرسش‌های متعددی در خصوص اثر آن بر محیط سیاسی مطرح می‌شود؛ ازجمله در زمینه مقررات‌گذاری، رقابت میان کشورها و ترجیحات سیاسی. برای ایجاد چارچوبی در ادبیات اقتصادی آینده در این زمینه‌ها، آنها در سپتامبر‌۲۰۲۴ کنفرانسی توسط دفتر ملی پژوهش‌های اقتصادی در تورنتو برگزار کردند. هدف برگزاری این بوده که «دستور کار پژوهشی اقتصاد را  با تاکید بر اینکه هوش مصنوعی چگونه ممکن است بر نظام‌های اقتصادی، حکمرانی آنها و توازن قدرت میان افراد و کشورها اثر بگذارد ترسیم کنند.» آنها گروهی از اقتصاددانان و دانشمندان علوم سیاسی را گردهم آوردند تاپرسش‌های باز را شناسایی کرده و چارچوب‌هایی برای پژوهش‌های آینده ارائه دهند. مطلبی در این کتاب  در مورد شباهت داده و نفت  توسط چیارا فاروناتو از دانشگاه ‌هاروارد ارائه شده است که در ادامه می آید.

تاثیر نوآوری فناورانه اغلب به بهره‌برداری از منابعی وابسته است که پیشتر نادیده گرفته شده یا به‌درستی استفاده نشده‌اند، همانطور که در پیشرفت تاریخی نفت و نقش امروزی داده مشاهده می‌شود. همانطور که توسعه فناوری‌های حفاری و پالایش در نیمه دوم قرن نوزدهم کارکرد نفت را متحول کرد، مجموعه‌ای از پیشرفت‌های فناورانه در دهه‌های اخیر-که به‌تازگی در ظهور هوش مصنوعی مولد نمود یافته‌اند-در حال آشکارسازی ظرفیت‌های جدیدی از داده‌ها هستند. این رشته از نوآوری‌ها،  نهاده‌های خام-نفت‌‌خام و داده خام-را به ستانده‌های ارزشمند تبدیل کرده و صنایع را به‌ صورت بنیادین دگرگون ساخته‌اند. با این حال ظهور چنین فناوری‌هایی، پرسش‌های اساسی درباره حقوق مالکیت و سایر اشکال مقررات‌گذاری را نیز به همراه دارد. استعاره «داده نفت جدید است» اغلب در بحث‌ها، هم در محافل علمی و هم در خارج از آن مطرح می‌شود. در این مقاله کوتاه، به این قیاس می‌پردازیم و شباهت‌ها و تفاوت‌های میان نفت و داده به‌عنوان منابع تحول‌آفرین را بررسی می‌کنیم.

این قیاس میان داده و نفت معمولا به کلایو‌هامبی، ریاضیدان و دانشمند داده بریتانیایی نسبت داده می‌شود. در سال ۲۰۰۶، ‌هامبی تاکید کرد که داده، همانند نفت خام تنها زمانی ارزشمند است که با فناوری‌هایی ترکیب شود که آن را به ستانده‌های مفید تبدیل کنند-خواه بینش‌هایی درباره رفتار مصرف‌کننده برای بهبود محصولات یا پیشنهاداتی در پاسخگویی به مشتریان باشد- این استعاره، مسیر مشترک نفت و داده را برجسته می‌کند: هر دو تنها از طریق پیشرفت‌های فناورانه چشمگیر به منابعی تحول‌آفرین تبدیل شده‌اند اما این قیاس همچنین یک چالش مهم را نمایان می‌سازد. همانطور که استخراج و استفاده از نفت، مسائل پیچیده‌ای در حوزه تنظیم‌گری و اجتماعی پدید آورد، ظهور داده به‌عنوان منبعی ارزشمند نیز پرسش‌های پیچیده‌ای در همین زمینه‌ها مطرح می‌کند.

اینکه نوآوری، عدم قطعیت‌های مقرراتی به همراه می‌آورد، موضوع تازه‌ای نیست. در واقع، کسب‌وکارهای نوظهور اغلب از خلأهای قانونی برای پیشبرد نوآوری استفاده می‌کنند. نمونه‌های زیادی از این وضعیت در عصر دیجیتال اخیر وجود دارد.

تجارت الکترونیکی در روزهای ابتدایی خود از مزیت مالیاتی برخوردار بود چرا که رای دادگاه عالی آمریکا در سال ۱۹۹۲ ایجاب می‌کرد که برای اعمال مالیات فروش، کسب‌وکار باید در یک ایالت حضور فیزیکی داشته باشد. از این رو، شرکت‌هایی چون «آمازون» و «ای‌بی» می‌توانستند قیمت‌های پایین‌تری نسبت به خرده‌فروشان فیزیکی ارائه دهند و این موضوع به رشد آنها کمک کرد. سرانجام در سال ۲۰۱۸ دیوان عالی حکم قبلی خود را لغو کرد و به ایالت‌ها اجازه داد از خرده‌فروشان آنلاین مالیات فروش دریافت کنند. در سال‌های اخیر نیز، پلتفرم‌های حمل‌ونقل اشتراکی و اجاره کوتاه‌مدت، بدون رعایت مقررات حاکم بر بازیگران سنتی وارد بازار شدند. حداقل در ابتدا، اوبر و لیفت از الزامات مربوط به مدالیون‌های تاکسی(مجوز رسمی برای فعالیت تاکسی)، مجوزهای تجاری و بیمه عبور کردند. به ‌طور مشابه، ایر‌بی‌ان‌بی از مالیات‌های اقامتی معاف بود و ملزم به رعایت قوانین منطقه‌بندی نبود. در نهایت، نهادهای تنظیم‌گر به این ارائه‌دهندگان از طریق اعمال مقررات موجود بر آنها یا تدوین مقررات جدید یا حتی ممنوع کردن فعالیت آنها به خدمات جدید رسیدند .

این مثال‌ها یک ویژگی مشترک دارند: رویکرد نوآوران بر بهره‌برداری از خلأها و ابهامات موجود در قوانین فعلی متکی بوده است. در چنین زمینه‌هایی، معمولا نمی‌توان پیشاپیش مقررات قابل اجرا را به ‌روشنی مشخص کرد. نخست آنکه طرف‌های نوآور باید با آنها قرارداد ببندد، آن هم بسیار زیاد و پراکنده‌اند: مانند ایالت‌ها در مورد مالیات فروش و حوزه‌های قضایی محلی در مورد مالیات اقامت و مجوز تاکسی. دوم آنکه، نهادهای مقررات‌گذار اغلب تحت‌تاثیر بازیگران تثبیت ‌شده‌ای هستند و منابع لابی‌گری بیشتری دارند و به‌شدت به حفظ وضعیت موجود علاقه‌مندند. در نهایت تدوین مقررات ممکن است زمان‌بر باشد که هزینه سرمایه‌گذاری و خطر منسوخ‌ شدن نوآوری را افزایش می‌دهد. برای نمونه، خبرخوان‌هایی مانند Google News در اوایل دهه ۲۰۰۰ ظهور کردند اما مقررات مربوط به استفاده این خبرخوان‌ها از بخش‌هایی از اخبار و پیوندهای ناشران اصلی تا سال ۲۰۱۹ در اتحادیه اروپا تصویب نشد و در برخی کشورها حتی بعدتر نیز تصویب نشد.

نفت و داده از این جهت شبیه به‌هم هستند که نوآوری‌های بنیادین از این نهاده‌ها بهره برده‌اند اما باید توجه داشت که این ظرفیت نه از یک نوآوری واحد بلکه از مجموعه‌ای از نوآوری‌ها آزاد شده است. برای نفت، حفر چاه به‌تنهایی کافی نبود. در واقع کمی پس از آنکه ادوین دریک در سال ۱۸۵۹ نخستین چاه نفت را در تایتوسویل پنسیلوانیا حفر کرد، چاه به دلیل عدم سوددهی تعطیل شد. قیمت نفت خام- که عمدتا تنها به‌عنوان سوخت چراغ قابل استفاده بود- بسیار پایین بود و پروژه را توجیه نمی‌کرد. پس از آن مجموعه‌ای از پیشرفت‌های فناورانه طی دهه‌های بعدی پدید آمد-از تقطیر تا کراکینگ و پالایش‌های پیچیده‌تر-که امکان تبدیل نفت به محصولات قابل استفاده (و بسیار ارزشمند) مانند بنزین و پلاستیک را فراهم کرد .

از این منظر، استعاره «داده به‌مثابه نفت» کاملا مناسب است. به گفته‌ ‌هامبی در سال ۲۰۰۶، بیش از یک دهه پیش از انقلاب  هوش مصنوعی مولد، احتمالا با الهام از کاربردهای اولیه علم داده و یادگیری ماشین در تجارت الکترونیکی بیان شده است. الگوریتم رتبه‌بندی صفحه گوگل یکی از نخستین نمونه‌های استفاده از اطلاعات درباره صفحات وب برای رتبه‌بندی نتایج جست‌وجو بود. آمازون نیز با استفاده از فیلترسازی مشارکتی، محصولات را براساس رفتار مشتریان و کاربران مشابه پیشنهاد می‌داد . همچون نفت، زنجیره تامین پالایش داده شامل مجموعه‌ای پیچیده از فرآیندهاست که طی دهه‌های اخیر شاهد دگرگونی‌های فناورانه متعددی بوده است. به‌تازگی نیز شبکه‌های تقابلی زاینده و ترنسفورمرها به همراه فناوری‌های محاسباتی مانند واحدهای پردازش گرافیکی که امکان پردازش موازی و مقیاس‌پذیری مدل‌های عظیم را فراهم می‌کنند، به این روند شتاب بخشیده‌اند. این تحول باعث شده است که داده بتواند بینش‌های بیشتری را در زمینه‌های کاربردی گسترده‌تری تولید کند. هیچ دلیلی وجود ندارد که تصور کنیم امروز پایان این مسیر است.

در این نقطه شباهت‌های میان نفت و داده پایان می‌یابد. این دو در چندین بعد اساسی با یکدیگر تفاوت دارند که بر نحوه تعریف حقوق مالکیت و سایر اشکال مقررات در عصر هوش مصنوعی تاثیرگذار خواهند بود. در مورد داده، وظیفه تنظیم حقوق مالکیت از نفت نیز دشوارتر است چرا که با مساله بنیادی قیمت‌گذاری اطلاعات مواجهیم؛ چیزی که با عنوان «پارادوکس اطلاعات آرو» شناخته می‌شود. داده، اطلاعاتی را تولید می‌کند که ارزش آن تنها پس از آگاهی از نوع اطلاعات قابل ارزیابی است. پیشاپیش بسیار دشوار است که بدانیم آیا یک مدل هوش مصنوعی اطلاعاتی تولید می‌کند که واقعا ارزشمند باشد یا خیر. برای مثال حتی اکنون که مدل‌های زبانی بزرگ مدتی است در دسترس قرار دارند، «توهمات» (مواردی که مدل‌ها خروجی نادرست یا بی‌ربط ولی ظاهرا معتبر تولید می‌کنند) هنوز یکی از حوزه‌های مهم تحقیق هستند.

علاوه بر این، داده‌ها دست‌کم در دو نوع وجود دارند: داده‌هایی که معمولا ایستا یا کندتغییر هستند، مانند تاریخ تولد یا نشانی یک فرد و داده‌هایی که مکررا و به‌صورت پویا تغییر می‌کنند، مانند جست‌وجوهای اخیر آنلاین یا خریدهای انجام ‌شده توسط فرد. نوع نخست شباهت بیشتری به نفت دارد. داده‌های ایستا به‌مرور زمان قابلیت خود را برای تولید بینش حفظ می‌کنند و بنابراین تعیین ارزش آنها (و در نتیجه قیمت مبادله‌شان) آسان‌تر است. در مقابل، داده‌های رفتاری یا پویای اخیر، معمولا بسیار دشوارتر ارزشگذاری می‌شوند چرا که ارزش آنها به شرایط و زمان خاص وابسته است و با تغییر رفتارها یا موقعیت‌ها، اهمیت خود را به‌ سرعت از دست می‌دهند.

این تمایز یکی از چالش‌های اصلی در تعریف حقوق مالکیت داده را برجسته می‌کند: داده‌های ایستا به‌دلیل پایداری نسبی با مفاهیم سنتی مالکیت و قابلیت انتقال شباهت بیشتری مشابه دارایی‌های ملموسی چون نفت دارند اما داده‌های رفتاری یا پویا گذرا، وابسته به زمینه و اغلب حاصل تعامل چندین نهاد (مانند پلتفرم‌ها و کاربران) هستند که به ‌شکلی درهم‌ تنیده با یکدیگر مشارکت می‌کنند.

ماهیت ترکیبی و بازترکیبی مدل‌های هوش‌مصنوعی، به‌ویژه در مورد هوش مصنوعی مولد، مساله را پیچیده‌تر می‌کند چرا که ارزیابی سهم هر منبع داده مجزا را دشوار می‌سازد. هوش مصنوعی مولد به ‌طور همزمان از نهاده‌های خرد و متنوع فراوانی یاد می‌گیرد و این امر موجب می‌شود تعیین ارزش هر منبع به‌صورت مستقل بسیار دشوار باشد. این مساله، با ابهام در مورد قابلیت جایگزینی یا مکمل ‌بودن منابع مختلف داده شدت می‌یابد زیرا اثر ترکیبی آنها ممکن است با اثرات انفرادی بسیار متفاوت باشد.

با وجود تفاوت‌های ذاتی‌شان، داده‌های ایستا و پویا هر دو با مفاهیم سنتی مالکیت و انتقال‌پذیری ناسازگارند چرا که ذاتا «غیررقابتی» هستند بدین معنا که می‌توان آنها را کپی به اشتراک گذاشت و مجددا استفاده کرد بدون آنکه از ارزش اولیه‌شان کاسته شود. این ویژگی تعیین حقوق مالکیت انحصاری برای آنها را بسیار دشوارتر می‌سازد، برخلاف دارایی‌های فیزیکی. در زمینه هوش‌مصنوعی مولد، شاید مرتبط‌ترین شکل حقوق مالکیت، حق نشر (کپی‌رایت) باشد که از آثار خلاقانه نظیر مقاله‌های خبری، تصاویر و موسیقی محافظت می‌کند. تعداد بالای دعاوی حقوقی علیه شرکت‌های هوش مصنوعی مولد نشان می‌دهد که صاحبان کپی‌رایت (نظیر روزنامه نیویورک تایمز و شرکت Getty Images استفاده از آثارشان برای آموزش مدل‌های هوش مصنوعی مولد را خارج از دکترین استفاده منصفانه می‌دانند.

گرچه ارزیابی دقیق اینکه آیا مفهوم استفاده منصفانه در زمینه هوش مصنوعی مولد مصداق دارد یا نه، فراتر از حیطه این مقاله است اما تاکید بر پیامدهای اقتصادی چنین نوآوری‌هایی بر بازار آثار خلاقانه اهمیت دارد‌. از یک سو، ممکن است بازدهی حاصل از تولید آثار خلاقه کاهش یابد چرا که بخشی از تقاضا به ‌سمت خروجی مدل‌های هوش مصنوعی مولد منحرف می‌شود. برای مثال، ممکن است برخی افراد به‌جای مراجعه به نیویورک تایمز برای اطلاع از رویدادهای گذشته، از چت جی‌پی‌تی استفاده کنند. از سوی دیگر، ممکن است هزینه تولید و انتشار آثار خلاقانه کاهش یابد. برای نمونه، نویسندگان نیویورک‌تایمز می‌توانند با کمک چت جی‌پی‌تی سریع‌تر درباره رویدادهای جاری بنویسند. یا کسی که به‌دنبال اطلاعات درباره رخدادهای گذشته است از طریق چت جی‌پی‌تی به مقاله‌های نیویورک تایمز هدایت شود. این دو نیروی متضاد، اثرات متفاوتی بر انگیزه تولید آثار خلاقه دارند و با توجه به محدودیت‌های کنونی کپی‌رایت، مشخص نیست که آیا باید آن را تقویت یا تضعیف کرد تا سطح فعلی تولید آثار خلاقه حفظ شود (فرض بر اینکه سطح فعلی اصلا مطلوب است.)

همانگونه که پیشتر اشاره شد، چند سال قبل خبرخوان‌ها  نیز موضوع بحث‌های مشابهی بودند. مسائل کپی‌رایت پیرامون خبرخوان‌هایی مانند Google News  به استفاده آنها از تیتر، خلاصه و پیوندهای اخبار بدون پرداخت هزینه به ناشران مربوط می‌شد. ناشران استدلال می‌کردند که این اقدامات ناقض کپی‌رایت بوده و باعث کاهش ترافیک به وب‌سایت‌های آنان و در نتیجه کاهش درآمدهای تبلیغاتی و اشتراک‌ها می‌شود. در مقابل، خبرخوان‌ها ادعای استفاده منصفانه داشتند و معتقد بودند که خلاصه‌ها ماهیتی واقعی دارند و خدمات‌شان موجب افزایش ترافیک به منابع اصلی به‌ویژه برای ناشران کوچک می‌شود. سرانجام قوانین خود را با مدل کسب‌وکار خبرخوان‌ها تطبیق دادند. از جمله مقررات جدید، دستورالعمل کپی‌رایت اتحادیه اروپا در سال ۲۰۱۹ بود که پیوندهای بدون مجوز و خلاصه‌های کوتاه را مجاز دانست، در حالی که استرالیا (در ۲۰۲۱) و کانادا (در ۲۰۲۳) از طریق «مالیات پیوند» خبرخوان‌ها را موظف به جبران هزینه برای ناشران کردند.

نکته مهم دیگر آن است که داده برخلاف نفت که مقدار آن نسبتا ثابت است به ‌طور درون‌زا تولید می‌شود. اگرچه نسل اول مدل‌های هوش مصنوعی از داده‌های «طبیعی» مانند متون کتاب‌های کلاسیک یا نقاشی‌های رنسانس استفاده می‌کردند اما به ‌احتمال زیاد در آینده این امر ادامه نخواهد یافت. چنانچه مدل‌های هوش مصنوعی برای تولید آثار خلاقه جدید به‌کار روند، نوعی چرخه داده- ستانده میان داده آموزشی و خروجی مدل‌ها شکل می‌گیرد. به‌عبارت دیگر نسخه‌های قبلی مدل‌های هوش‌مصنوعی بر فرآیند تولید داده‌هایی تاثیر می‌گذارند که خوراک مدل‌های بعدی خواهند شد. این دایره بازخورد  پرسش‌های اساسی را درباره کیفیت و تنوع داده‌های آموزشی در نسخه‌های بعدی مدل‌ها مطرح می‌کند و نیز مسائل حقوق مالکیت بیشتری را درباره مالک آن داده‌ها ایجاد می‌کند.

در اینجا آخرین شباهت میان داده و نفت که شایان توجه است به مقوله «آثار جانبی منفی»  مربوط می‌شود. برای نفت، این آثار جانبی شامل آلودگی محیط‌زیست است اما در مورد داده‌ها، خطر فرسایش حریم خصوصی و سوءاستفاده‌های احتمالی مانند تولید دیپ‌فیک‌ها مصداق دارد. همان‌طور که استفاده گسترده از نفت به تخریب محیط‌زیست و تغییرات اقلیمی انجامیده، جمع‌آوری و استفاده وسیع از داده‌ها نیز می‌تواند هزینه‌های اجتماعی قابل‌توجهی به همراه داشته باشد. این هزینه‌ها شامل خطر نظارت گسترده، نشت اطلاعات و تداوم سوگیری‌ها در فرآیندهای تصمیم‌گیری الگوریتمی است.

در هر دو مورد، آثار جانبی اغلب بر دوش افراد و جوامع تحمیل می‌شود نه شرکت‌ها و نهادهایی که از این منابع منتفع می‌شوند. این عدم‌تعادل، نیاز به مداخله تنظیم‌گرانه و راه‌حل‌های نوآورانه برای مقابله با آن را ایجاب می‌کند.

اگرچه قیاس میان نفت و داده می‌تواند بینش‌هایی مفید درباره ظرفیت دگرگون‌ساز آنها ارائه دهد اما شناسایی تفاوت‌های بنیادین‌شان ضروری است.

برخلاف نفت که منبعی محدود است و عمدتا به استخراج فیزیکی وابسته است، داده منبعی درون‌زا و غیررقابتی است. ارزش داده به ‌شدت وابسته به فناوری‌ها و زمینه‌هایی است که در آنها به‌کار گرفته می‌شود. افزون بر این، آثار جانبی نفت عمدتا زیست‌محیطی هستند در حالی‌که خطرات اجتماعی ناشی از داده شامل تضعیف حریم خصوصی، اخبار جعلی، نظارت و سوگیری‌های الگوریتمی است. این تمایزها نشان می‌دهند که چالش‌ها و راه‌حل‌های مربوط به تنظیم‌گری داده و تعیین حقوق مالکیت آن باید به ‌طور اساسی با آنچه در مورد نفت به‌کار می‌رود، متفاوت باشند.

وب گردی