داده بهمثابه نفت جدید

اسفندیار جهانگرد– در سپتامبر ۲۰۲۴ در تورنتوی کانادا کنفزانسی تحت عنوان «اقتصاد سیاسی هوش مصنوعی» برگزار شد که انتشارات دانشگاه شیکاگو به نشر آن اقدام کرد. اجای آگراوال، جاشوا گنز، آوی گلدفارب و کاترین تاکر مجموعهای از مقالات دعوتی و دیدگاههای ارائه شده در آن کنفرانس را در سه محور اصلی سازمان دادند. این سه محور اصلی عبارتند از:
– اقتصاد سیاسی مقرراتگذاری هوش مصنوعی
– هوش مصنوعی و قدرت نظامی
– هوش مصنوعی و هویت سیاسی
آنها مطرح کردند که با روشنتر شدن ظرفیتهای اقتصادی هوش مصنوعی، پرسشهای متعددی در خصوص اثر آن بر محیط سیاسی مطرح میشود؛ ازجمله در زمینه مقرراتگذاری، رقابت میان کشورها و ترجیحات سیاسی. برای ایجاد چارچوبی در ادبیات اقتصادی آینده در این زمینهها، آنها در سپتامبر۲۰۲۴ کنفرانسی توسط دفتر ملی پژوهشهای اقتصادی در تورنتو برگزار کردند. هدف برگزاری این بوده که «دستور کار پژوهشی اقتصاد را با تاکید بر اینکه هوش مصنوعی چگونه ممکن است بر نظامهای اقتصادی، حکمرانی آنها و توازن قدرت میان افراد و کشورها اثر بگذارد ترسیم کنند.» آنها گروهی از اقتصاددانان و دانشمندان علوم سیاسی را گردهم آوردند تاپرسشهای باز را شناسایی کرده و چارچوبهایی برای پژوهشهای آینده ارائه دهند. مطلبی در این کتاب در مورد شباهت داده و نفت توسط چیارا فاروناتو از دانشگاه هاروارد ارائه شده است که در ادامه می آید.
تاثیر نوآوری فناورانه اغلب به بهرهبرداری از منابعی وابسته است که پیشتر نادیده گرفته شده یا بهدرستی استفاده نشدهاند، همانطور که در پیشرفت تاریخی نفت و نقش امروزی داده مشاهده میشود. همانطور که توسعه فناوریهای حفاری و پالایش در نیمه دوم قرن نوزدهم کارکرد نفت را متحول کرد، مجموعهای از پیشرفتهای فناورانه در دهههای اخیر-که بهتازگی در ظهور هوش مصنوعی مولد نمود یافتهاند-در حال آشکارسازی ظرفیتهای جدیدی از دادهها هستند. این رشته از نوآوریها، نهادههای خام-نفتخام و داده خام-را به ستاندههای ارزشمند تبدیل کرده و صنایع را به صورت بنیادین دگرگون ساختهاند. با این حال ظهور چنین فناوریهایی، پرسشهای اساسی درباره حقوق مالکیت و سایر اشکال مقرراتگذاری را نیز به همراه دارد. استعاره «داده نفت جدید است» اغلب در بحثها، هم در محافل علمی و هم در خارج از آن مطرح میشود. در این مقاله کوتاه، به این قیاس میپردازیم و شباهتها و تفاوتهای میان نفت و داده بهعنوان منابع تحولآفرین را بررسی میکنیم.
این قیاس میان داده و نفت معمولا به کلایوهامبی، ریاضیدان و دانشمند داده بریتانیایی نسبت داده میشود. در سال ۲۰۰۶، هامبی تاکید کرد که داده، همانند نفت خام تنها زمانی ارزشمند است که با فناوریهایی ترکیب شود که آن را به ستاندههای مفید تبدیل کنند-خواه بینشهایی درباره رفتار مصرفکننده برای بهبود محصولات یا پیشنهاداتی در پاسخگویی به مشتریان باشد- این استعاره، مسیر مشترک نفت و داده را برجسته میکند: هر دو تنها از طریق پیشرفتهای فناورانه چشمگیر به منابعی تحولآفرین تبدیل شدهاند اما این قیاس همچنین یک چالش مهم را نمایان میسازد. همانطور که استخراج و استفاده از نفت، مسائل پیچیدهای در حوزه تنظیمگری و اجتماعی پدید آورد، ظهور داده بهعنوان منبعی ارزشمند نیز پرسشهای پیچیدهای در همین زمینهها مطرح میکند.
اینکه نوآوری، عدم قطعیتهای مقرراتی به همراه میآورد، موضوع تازهای نیست. در واقع، کسبوکارهای نوظهور اغلب از خلأهای قانونی برای پیشبرد نوآوری استفاده میکنند. نمونههای زیادی از این وضعیت در عصر دیجیتال اخیر وجود دارد.
تجارت الکترونیکی در روزهای ابتدایی خود از مزیت مالیاتی برخوردار بود چرا که رای دادگاه عالی آمریکا در سال ۱۹۹۲ ایجاب میکرد که برای اعمال مالیات فروش، کسبوکار باید در یک ایالت حضور فیزیکی داشته باشد. از این رو، شرکتهایی چون «آمازون» و «ایبی» میتوانستند قیمتهای پایینتری نسبت به خردهفروشان فیزیکی ارائه دهند و این موضوع به رشد آنها کمک کرد. سرانجام در سال ۲۰۱۸ دیوان عالی حکم قبلی خود را لغو کرد و به ایالتها اجازه داد از خردهفروشان آنلاین مالیات فروش دریافت کنند. در سالهای اخیر نیز، پلتفرمهای حملونقل اشتراکی و اجاره کوتاهمدت، بدون رعایت مقررات حاکم بر بازیگران سنتی وارد بازار شدند. حداقل در ابتدا، اوبر و لیفت از الزامات مربوط به مدالیونهای تاکسی(مجوز رسمی برای فعالیت تاکسی)، مجوزهای تجاری و بیمه عبور کردند. به طور مشابه، ایربیانبی از مالیاتهای اقامتی معاف بود و ملزم به رعایت قوانین منطقهبندی نبود. در نهایت، نهادهای تنظیمگر به این ارائهدهندگان از طریق اعمال مقررات موجود بر آنها یا تدوین مقررات جدید یا حتی ممنوع کردن فعالیت آنها به خدمات جدید رسیدند .
این مثالها یک ویژگی مشترک دارند: رویکرد نوآوران بر بهرهبرداری از خلأها و ابهامات موجود در قوانین فعلی متکی بوده است. در چنین زمینههایی، معمولا نمیتوان پیشاپیش مقررات قابل اجرا را به روشنی مشخص کرد. نخست آنکه طرفهای نوآور باید با آنها قرارداد ببندد، آن هم بسیار زیاد و پراکندهاند: مانند ایالتها در مورد مالیات فروش و حوزههای قضایی محلی در مورد مالیات اقامت و مجوز تاکسی. دوم آنکه، نهادهای مقرراتگذار اغلب تحتتاثیر بازیگران تثبیت شدهای هستند و منابع لابیگری بیشتری دارند و بهشدت به حفظ وضعیت موجود علاقهمندند. در نهایت تدوین مقررات ممکن است زمانبر باشد که هزینه سرمایهگذاری و خطر منسوخ شدن نوآوری را افزایش میدهد. برای نمونه، خبرخوانهایی مانند Google News در اوایل دهه ۲۰۰۰ ظهور کردند اما مقررات مربوط به استفاده این خبرخوانها از بخشهایی از اخبار و پیوندهای ناشران اصلی تا سال ۲۰۱۹ در اتحادیه اروپا تصویب نشد و در برخی کشورها حتی بعدتر نیز تصویب نشد.
نفت و داده از این جهت شبیه بههم هستند که نوآوریهای بنیادین از این نهادهها بهره بردهاند اما باید توجه داشت که این ظرفیت نه از یک نوآوری واحد بلکه از مجموعهای از نوآوریها آزاد شده است. برای نفت، حفر چاه بهتنهایی کافی نبود. در واقع کمی پس از آنکه ادوین دریک در سال ۱۸۵۹ نخستین چاه نفت را در تایتوسویل پنسیلوانیا حفر کرد، چاه به دلیل عدم سوددهی تعطیل شد. قیمت نفت خام- که عمدتا تنها بهعنوان سوخت چراغ قابل استفاده بود- بسیار پایین بود و پروژه را توجیه نمیکرد. پس از آن مجموعهای از پیشرفتهای فناورانه طی دهههای بعدی پدید آمد-از تقطیر تا کراکینگ و پالایشهای پیچیدهتر-که امکان تبدیل نفت به محصولات قابل استفاده (و بسیار ارزشمند) مانند بنزین و پلاستیک را فراهم کرد .
از این منظر، استعاره «داده بهمثابه نفت» کاملا مناسب است. به گفته هامبی در سال ۲۰۰۶، بیش از یک دهه پیش از انقلاب هوش مصنوعی مولد، احتمالا با الهام از کاربردهای اولیه علم داده و یادگیری ماشین در تجارت الکترونیکی بیان شده است. الگوریتم رتبهبندی صفحه گوگل یکی از نخستین نمونههای استفاده از اطلاعات درباره صفحات وب برای رتبهبندی نتایج جستوجو بود. آمازون نیز با استفاده از فیلترسازی مشارکتی، محصولات را براساس رفتار مشتریان و کاربران مشابه پیشنهاد میداد . همچون نفت، زنجیره تامین پالایش داده شامل مجموعهای پیچیده از فرآیندهاست که طی دهههای اخیر شاهد دگرگونیهای فناورانه متعددی بوده است. بهتازگی نیز شبکههای تقابلی زاینده و ترنسفورمرها به همراه فناوریهای محاسباتی مانند واحدهای پردازش گرافیکی که امکان پردازش موازی و مقیاسپذیری مدلهای عظیم را فراهم میکنند، به این روند شتاب بخشیدهاند. این تحول باعث شده است که داده بتواند بینشهای بیشتری را در زمینههای کاربردی گستردهتری تولید کند. هیچ دلیلی وجود ندارد که تصور کنیم امروز پایان این مسیر است.
در این نقطه شباهتهای میان نفت و داده پایان مییابد. این دو در چندین بعد اساسی با یکدیگر تفاوت دارند که بر نحوه تعریف حقوق مالکیت و سایر اشکال مقررات در عصر هوش مصنوعی تاثیرگذار خواهند بود. در مورد داده، وظیفه تنظیم حقوق مالکیت از نفت نیز دشوارتر است چرا که با مساله بنیادی قیمتگذاری اطلاعات مواجهیم؛ چیزی که با عنوان «پارادوکس اطلاعات آرو» شناخته میشود. داده، اطلاعاتی را تولید میکند که ارزش آن تنها پس از آگاهی از نوع اطلاعات قابل ارزیابی است. پیشاپیش بسیار دشوار است که بدانیم آیا یک مدل هوش مصنوعی اطلاعاتی تولید میکند که واقعا ارزشمند باشد یا خیر. برای مثال حتی اکنون که مدلهای زبانی بزرگ مدتی است در دسترس قرار دارند، «توهمات» (مواردی که مدلها خروجی نادرست یا بیربط ولی ظاهرا معتبر تولید میکنند) هنوز یکی از حوزههای مهم تحقیق هستند.
علاوه بر این، دادهها دستکم در دو نوع وجود دارند: دادههایی که معمولا ایستا یا کندتغییر هستند، مانند تاریخ تولد یا نشانی یک فرد و دادههایی که مکررا و بهصورت پویا تغییر میکنند، مانند جستوجوهای اخیر آنلاین یا خریدهای انجام شده توسط فرد. نوع نخست شباهت بیشتری به نفت دارد. دادههای ایستا بهمرور زمان قابلیت خود را برای تولید بینش حفظ میکنند و بنابراین تعیین ارزش آنها (و در نتیجه قیمت مبادلهشان) آسانتر است. در مقابل، دادههای رفتاری یا پویای اخیر، معمولا بسیار دشوارتر ارزشگذاری میشوند چرا که ارزش آنها به شرایط و زمان خاص وابسته است و با تغییر رفتارها یا موقعیتها، اهمیت خود را به سرعت از دست میدهند.
این تمایز یکی از چالشهای اصلی در تعریف حقوق مالکیت داده را برجسته میکند: دادههای ایستا بهدلیل پایداری نسبی با مفاهیم سنتی مالکیت و قابلیت انتقال شباهت بیشتری مشابه داراییهای ملموسی چون نفت دارند اما دادههای رفتاری یا پویا گذرا، وابسته به زمینه و اغلب حاصل تعامل چندین نهاد (مانند پلتفرمها و کاربران) هستند که به شکلی درهم تنیده با یکدیگر مشارکت میکنند.
ماهیت ترکیبی و بازترکیبی مدلهای هوشمصنوعی، بهویژه در مورد هوش مصنوعی مولد، مساله را پیچیدهتر میکند چرا که ارزیابی سهم هر منبع داده مجزا را دشوار میسازد. هوش مصنوعی مولد به طور همزمان از نهادههای خرد و متنوع فراوانی یاد میگیرد و این امر موجب میشود تعیین ارزش هر منبع بهصورت مستقل بسیار دشوار باشد. این مساله، با ابهام در مورد قابلیت جایگزینی یا مکمل بودن منابع مختلف داده شدت مییابد زیرا اثر ترکیبی آنها ممکن است با اثرات انفرادی بسیار متفاوت باشد.
با وجود تفاوتهای ذاتیشان، دادههای ایستا و پویا هر دو با مفاهیم سنتی مالکیت و انتقالپذیری ناسازگارند چرا که ذاتا «غیررقابتی» هستند بدین معنا که میتوان آنها را کپی به اشتراک گذاشت و مجددا استفاده کرد بدون آنکه از ارزش اولیهشان کاسته شود. این ویژگی تعیین حقوق مالکیت انحصاری برای آنها را بسیار دشوارتر میسازد، برخلاف داراییهای فیزیکی. در زمینه هوشمصنوعی مولد، شاید مرتبطترین شکل حقوق مالکیت، حق نشر (کپیرایت) باشد که از آثار خلاقانه نظیر مقالههای خبری، تصاویر و موسیقی محافظت میکند. تعداد بالای دعاوی حقوقی علیه شرکتهای هوش مصنوعی مولد نشان میدهد که صاحبان کپیرایت (نظیر روزنامه نیویورک تایمز و شرکت Getty Images استفاده از آثارشان برای آموزش مدلهای هوش مصنوعی مولد را خارج از دکترین استفاده منصفانه میدانند.
گرچه ارزیابی دقیق اینکه آیا مفهوم استفاده منصفانه در زمینه هوش مصنوعی مولد مصداق دارد یا نه، فراتر از حیطه این مقاله است اما تاکید بر پیامدهای اقتصادی چنین نوآوریهایی بر بازار آثار خلاقانه اهمیت دارد. از یک سو، ممکن است بازدهی حاصل از تولید آثار خلاقه کاهش یابد چرا که بخشی از تقاضا به سمت خروجی مدلهای هوش مصنوعی مولد منحرف میشود. برای مثال، ممکن است برخی افراد بهجای مراجعه به نیویورک تایمز برای اطلاع از رویدادهای گذشته، از چت جیپیتی استفاده کنند. از سوی دیگر، ممکن است هزینه تولید و انتشار آثار خلاقانه کاهش یابد. برای نمونه، نویسندگان نیویورکتایمز میتوانند با کمک چت جیپیتی سریعتر درباره رویدادهای جاری بنویسند. یا کسی که بهدنبال اطلاعات درباره رخدادهای گذشته است از طریق چت جیپیتی به مقالههای نیویورک تایمز هدایت شود. این دو نیروی متضاد، اثرات متفاوتی بر انگیزه تولید آثار خلاقه دارند و با توجه به محدودیتهای کنونی کپیرایت، مشخص نیست که آیا باید آن را تقویت یا تضعیف کرد تا سطح فعلی تولید آثار خلاقه حفظ شود (فرض بر اینکه سطح فعلی اصلا مطلوب است.)
همانگونه که پیشتر اشاره شد، چند سال قبل خبرخوانها نیز موضوع بحثهای مشابهی بودند. مسائل کپیرایت پیرامون خبرخوانهایی مانند Google News به استفاده آنها از تیتر، خلاصه و پیوندهای اخبار بدون پرداخت هزینه به ناشران مربوط میشد. ناشران استدلال میکردند که این اقدامات ناقض کپیرایت بوده و باعث کاهش ترافیک به وبسایتهای آنان و در نتیجه کاهش درآمدهای تبلیغاتی و اشتراکها میشود. در مقابل، خبرخوانها ادعای استفاده منصفانه داشتند و معتقد بودند که خلاصهها ماهیتی واقعی دارند و خدماتشان موجب افزایش ترافیک به منابع اصلی بهویژه برای ناشران کوچک میشود. سرانجام قوانین خود را با مدل کسبوکار خبرخوانها تطبیق دادند. از جمله مقررات جدید، دستورالعمل کپیرایت اتحادیه اروپا در سال ۲۰۱۹ بود که پیوندهای بدون مجوز و خلاصههای کوتاه را مجاز دانست، در حالی که استرالیا (در ۲۰۲۱) و کانادا (در ۲۰۲۳) از طریق «مالیات پیوند» خبرخوانها را موظف به جبران هزینه برای ناشران کردند.
نکته مهم دیگر آن است که داده برخلاف نفت که مقدار آن نسبتا ثابت است به طور درونزا تولید میشود. اگرچه نسل اول مدلهای هوش مصنوعی از دادههای «طبیعی» مانند متون کتابهای کلاسیک یا نقاشیهای رنسانس استفاده میکردند اما به احتمال زیاد در آینده این امر ادامه نخواهد یافت. چنانچه مدلهای هوش مصنوعی برای تولید آثار خلاقه جدید بهکار روند، نوعی چرخه داده- ستانده میان داده آموزشی و خروجی مدلها شکل میگیرد. بهعبارت دیگر نسخههای قبلی مدلهای هوشمصنوعی بر فرآیند تولید دادههایی تاثیر میگذارند که خوراک مدلهای بعدی خواهند شد. این دایره بازخورد پرسشهای اساسی را درباره کیفیت و تنوع دادههای آموزشی در نسخههای بعدی مدلها مطرح میکند و نیز مسائل حقوق مالکیت بیشتری را درباره مالک آن دادهها ایجاد میکند.
در اینجا آخرین شباهت میان داده و نفت که شایان توجه است به مقوله «آثار جانبی منفی» مربوط میشود. برای نفت، این آثار جانبی شامل آلودگی محیطزیست است اما در مورد دادهها، خطر فرسایش حریم خصوصی و سوءاستفادههای احتمالی مانند تولید دیپفیکها مصداق دارد. همانطور که استفاده گسترده از نفت به تخریب محیطزیست و تغییرات اقلیمی انجامیده، جمعآوری و استفاده وسیع از دادهها نیز میتواند هزینههای اجتماعی قابلتوجهی به همراه داشته باشد. این هزینهها شامل خطر نظارت گسترده، نشت اطلاعات و تداوم سوگیریها در فرآیندهای تصمیمگیری الگوریتمی است.
در هر دو مورد، آثار جانبی اغلب بر دوش افراد و جوامع تحمیل میشود نه شرکتها و نهادهایی که از این منابع منتفع میشوند. این عدمتعادل، نیاز به مداخله تنظیمگرانه و راهحلهای نوآورانه برای مقابله با آن را ایجاب میکند.
اگرچه قیاس میان نفت و داده میتواند بینشهایی مفید درباره ظرفیت دگرگونساز آنها ارائه دهد اما شناسایی تفاوتهای بنیادینشان ضروری است.
برخلاف نفت که منبعی محدود است و عمدتا به استخراج فیزیکی وابسته است، داده منبعی درونزا و غیررقابتی است. ارزش داده به شدت وابسته به فناوریها و زمینههایی است که در آنها بهکار گرفته میشود. افزون بر این، آثار جانبی نفت عمدتا زیستمحیطی هستند در حالیکه خطرات اجتماعی ناشی از داده شامل تضعیف حریم خصوصی، اخبار جعلی، نظارت و سوگیریهای الگوریتمی است. این تمایزها نشان میدهند که چالشها و راهحلهای مربوط به تنظیمگری داده و تعیین حقوق مالکیت آن باید به طور اساسی با آنچه در مورد نفت بهکار میرود، متفاوت باشند.