نزدیک به یک قرن پیش، جان مینارد کینز از یک آزمایش فکری معروف به «مسابقه زیبایی» استفاده کرد تا توضیح دهد انسانها چگونه در شرایطی تصمیمگیری میکنند که موفقیت آنها به حدس زدن رفتار دیگران وابسته است.
در این آزمایش، ترفند انتخاب گزینه مورد علاقه شخصی نبود، بلکه پیشبینی انتخاب جمع اهمیت داشت؛ یعنی حدس زدن حدس دیگران، سپس حدس زدن حدسِ حدس آنها و همینطور ادامه دادن این زنجیره.
اقتصاددانان بعدها این ایده را به بازیهای استراتژیک سادهای تبدیل کردند که میزان عمق تفکر ما درباره ذهن دیگران را میسنجند. چنین بازیهایی دقیقاً از آن دسته مسائلی هستند که به نظر میرسد چتباتهای امروزی، که برای پیشبینی و تطبیق طراحی شدهاند، باید در حل آنها بسیار موفق باشند.
چتباتها انسانها را بیشازحد منطقی فرض میکنند
تیمی از پژوهشگران دانشگاه HSE این فرض را بهطور تجربی آزمایش کردند. نتیجه، خطایی ثابت و تا حدی جالب توجه بود: مدلهای زبانی پیشرفته مانند ChatGPT-4o و Claude-Sonnet-4 معمولاً برای انسانها سطحی از آیندهنگری عقلانی قائل میشوند که در عمل وجود ندارد.
در نسخه کلاسیک «حدس عدد» از مسابقه کینزی، بازیکنان عددی بین ۰ تا ۱۰۰ انتخاب میکنند و برنده کسی است که عددش به کسری مشخص از میانگین کل اعداد نزدیکتر باشد؛ معمولاً یکدوم یا دوسوم.
در این بازی، مدلهای زبانی اغلب «بیشازحد هوشمندانه» بازی میکردند. آنها فرض میکردند رقبای انسانیشان چندین لایه استدلال منطقی را طی میکنند، سپس عددی انتخاب میکردند که بتواند آن جمع خیالی را شکست دهد. نتیجه اما اغلب شکست در برابر رفتار واقعی انسانها بود؛ رفتاری که بهطور متوسط، پیچیدگی بسیار کمتری دارد.
این آزمایش چگونه انجام شد؟
دیمیتری داگایف و همکارانش صرفاً چتباتها را در برابر یک نمونه تصادفی قرار ندادند. آنها ۱۶ آزمایش شناختهشده «حدس عدد» را که پیشتر در ادبیات علمی منتشر شده بود، بازسازی کردند؛ آزمایشهایی با گروههای شرکتکننده و زمینههای شناختی متفاوت.
رقبا شامل دانشجویان سال اول اقتصاد، شرکتکنندگان کنفرانسهای آشنا با نظریه بازیها، گروههایی با حالتهای احساسی القاشده مانند خشم یا اندوه، و افرادی با توصیف «تحلیلی» یا «شهودی» بودند.
در هر مرحله، مدلها قوانین بازی و توضیحی کوتاه درباره افرادی که قرار بود با آنها «بازی کنند» دریافت میکردند. سپس باید یک عدد انتخاب میکردند و منطق تصمیم خود را توضیح میدادند.
انطباق هوشمندانه، کالیبراسیون نادرست
چتباتها بهخوبی به زمینه توجه نشان میدادند. زمانی که به آنها گفته میشد با جمعی از متخصصان نظریه بازیها روبهرو هستند، اعداد بسیار پایینی را انتخاب میکردند.
این همان اعدادی است که معمولاً در حالتی برنده میشوند که همه شرکتکنندگان منطق بازی را بارها تکرار میکنند؛ زنجیرهای از استدلال که در نهایت به عددی نزدیک به صفر همگرا میشود.
وقتی رقبا بهعنوان دانشجویان کمتجربه توصیف میشدند، مدلها حدسهای بالاتری ارائه میدادند.
به بیان دیگر، این سیستمها انعطافپذیر هستند. آنها خود را با توصیفهای مختلف از سطح پیچیدگی شناختی انسانها تطبیق میدهند و تصمیمهایشان را با روایتهای استراتژیک منسجم توجیه میکنند.
اما مشکل اصلی در «کالیبراسیون» ظاهر میشود. در تمام شرایط، مدلها تعداد مراحلی از تفکر را که یک فرد متوسط واقعاً طی میکند، بیشازحد برآورد میکردند.
بسیاری از انسانها پس از یک یا دو گام متوقف میشوند؛ مثلاً فکر میکنند دیگران ۵۰ را انتخاب میکنند، پس دوسوم آن حدود ۳۳ است. عدهای حتی همین مقدار هم پیش نمیروند. «بیشاستدلالی» مدلها باعث میشد عدد انتخابی آنها اغلب پایینتر از بازه برنده باشد.
این وضعیت شبیه آوردن استراتژیهای یک تورنمنت شطرنج به یک دورهمی خانوادگی بازی دوز است.
مدلهای زبانی چه چیزی را از دست میدهند؟
نکته جالب دیگر در نسخههای سادهتر دو نفره مشاهده شد. در این حالتها، چتباتها در شناسایی یک استراتژی غالب دچار مشکل بودند.
آنها استدلالهای روشنی ارائه میدادند و خود را با توصیف رقیب تطبیق میدادند، اما بهطور مداوم به حرکتی که طبق قواعد بازی باید غالب باشد، همگرا نمیشدند.
این یافته نشان میدهد حتی زمانی که فضای انتخابها کوچک است، مدلهای زبانی فعلی ممکن است تعادلهایی را از دست بدهند که برای نظریهپردازان باتجربه بدیهی به نظر میرسد.
تنظیم هوش مصنوعی بر اساس واقعیت انسانی
مسابقه زیبایی کینزی صرفاً یک بازی ذهنی نیست. این آزمایش استعارهای از نحوه عملکرد بازارها است.
معاملهگران چیزی را نمیخرند که شخصاً دوست دارند. آنها سعی میکنند چیزی را بخرند که فکر میکنند دیگران فردا آن را دوست خواهند داشت.
اگر یک دستیار هوش مصنوعی در میز معاملات، موتور قیمتگذاری یا ابزار مذاکره، بهطور سیستماتیک رفتار طرف مقابل را بیشازحد عقلانی فرض کند، تصمیمهایی میگیرد که روی کاغذ زیبا هستند اما در عمل عملکرد ضعیفی دارند.
درس اصلی این پژوهش «استفاده نکردن از هوش مصنوعی» نیست، بلکه «تنظیم هوش مصنوعی بر اساس واقعیت انسانی» است.
سازگار کردن چتباتها با انسانها
نکته کلیدی تیم HSE کاملاً بهموقع است. هوشهای مصنوعی در حال ورود به نقشهایی هستند که تصمیمهای آنها پیامدهای اجتماعی و اقتصادی دارد.
در بسیاری از این نقشها، هدف هوش فراانسانی نیست، بلکه رفتاری سازگار با انسان اهمیت دارد.
این میتواند به معنای آموزش و ارزیابی مدلها بر اساس دادههایی باشد که توزیع واقعی عمق استدلال انسانی را نشان میدهند، یا طراحی پرامپتها و سیاستهای سیستمی که بهطور آگاهانه از بیشتکرار منطقی جلوگیری کنند.
علاوه بر این، مدلهای زبانی باید با ماژولهای کمکی ترکیب شوند که سطح پیچیدگی شناختی طرف مقابل را از زمینه استنباط میکنند، نه صرفاً از قوانین بازی.
این پژوهش چه چیزی درباره مدلهای فعلی به ما میگوید؟
مدلهای زبانی بزرگ، در هسته خود، تطبیقدهنده الگو هستند. وقتی توصیفی از یک بازی و پروفایلی از رقیب به آنها داده میشود، زنجیرهای معقول از استدلال تولید میکنند و حرکتی پیشنهاد میدهند که با الگوهای آموزشیشان سازگار است.
این ویژگی آنها را در نوعی «استدلالِ انگار» بسیار توانمند میکند؛ آنها شبیه استراتژیستها صحبت میکنند و اغلب شبیه آنها عمل میکنند.
اما بدون بازخورد واقعی از بازی انسانها، و بدون محافظهایی که با عقلانیت محدود انسانی تنظیم شده باشد، چتباتها بهسمت استراتژیهای فوقعقلانی منحرف میشوند؛ استراتژیهایی که در دنیای واقعی شکست میخورند.
مسیر پیشرو
این مطالعه نمیگوید هوشهای مصنوعی نمیتوانند رفتار انسان را پیشبینی کنند. بلکه میگوید آنها به پیشفرضهای بهتری درباره ما نیاز دارند.
کالیبره کردن مدلها بر اساس سطوح واقعبینانه از عمق استراتژیک، اعتبارسنجی آنها با گروههای متنوع انسانی، و آزمونهای فشار در بازیهای دو نفرهای که استراتژی غالب دارند، همگی گامهای عملی و ضروری هستند.
اگر میخواهیم هوش مصنوعی به ما در هدایت بازارها، مذاکرات و تصمیمهای جمعی روزمره کمک کند، باید به آن چیزی را بیاموزیم که اقتصاددانان مدتهاست میدانند: انسانها باهوشاند، اما نه آنقدر، نه همیشه، و نه همگی به یک شکل.
«ما اکنون به مرحلهای رسیدهایم که مدلهای هوش مصنوعی در بسیاری از عملیات جایگزین انسانها میشوند و بهرهوری اقتصادی را افزایش میدهند. با این حال، در وظایف تصمیمگیری اغلب لازم است مدلهای زبانی رفتاری انسانگونه داشته باشند.»
داگایف در پایان افزود:
«در نتیجه، تعداد فزایندهای از زمینهها وجود دارد که در آنها رفتار هوش مصنوعی با رفتار انسان مقایسه میشود. انتظار میرود این حوزه پژوهشی در آیندهای نزدیک بهسرعت رشد کند.»
این مطالعه در مجله Journal of Economic Behavior & Organization منتشر شده است.
اگر به تأثیر هوش مصنوعی بر اقتصاد و تصمیمگیری علاقهمند هستید، مقالههای مرتبط ما را بخوانید یا نظر خود را در بخش دیدگاهها با ما به اشتراک بگذارید.