نگاهی به نظریه بازی، بخش سوم

این نوشته دارای پیش‌نیاز است

نگاهی به نظریه بازی، بخش دوم

پیشنهاد می‌شود قبل از خواندن این نوشته، قسمت دوم آن را مطالعه کنید

در بخش قبلی با بازی‌هایی مثل «بازی چیکن» و «نبرد علایق» آشنا شدیم و فهمیدیم که؛ تعادل نش به این معنیه که بازیکنان هم‌زمان بهترین جواب به انتخاب‌های همدیگه رو می‌دن. این قسمت با معروف‌ترین مسئله در تئوری بازی‌ آشنا می‌شیم.

فهرست

برای شروع تولید فهرست مطالب، یک سربرگ اضافه کنید

معمای زندانی‌ها (Prisoner’s Dilemma)

این بازی یکی از معروف‌ترین و تأثیرگذارترین بازی‌های تئوری بازی‌هاست که داستان سنتی‌ش این‌جوری تعریف می‌شه:

آلیس و باب، دو گانگستر تو شیکاگوی دهه‌ی ۱۹۲۰ هستن.
دادستان می‌دونه که اونا یه جرم بزرگ مرتکب شدن، ولی فقط وقتی می‌تونه محکومشون کنه که یکی از اونا اعتراف کنه.

پیشنهاد دادستان:

اگه اعتراف کنید و شریکتون اعتراف نکنه، آزاد می‌شید.
اگه شریکتون اعتراف کنه و شما نه، به حداکثر زندان محکوم می‌شید.
اگه هر دو اعتراف کنید، زندانی می‌شید، ولی حداکثر مجازات اعمال نمی‌شه.
اگه هیچ‌کدوم اعتراف نکنید، فقط به جرم فرار مالیاتی محکوم می‌شید.

همکاری یا خیانت؟

نسخه‌ی ساده‌تر از معمای زندانی:

فرض کنید:

آلیس و باب هرکدوم به یه ظرف پول که توش ۴ دلار هست، دسترسی دارن.
هر بازیکن مستقلاً تصمیم می‌گیره که:
- ۲ دلار به بازیکن مقابل بده (استراتژی نوع‌دوستانه)
- ۱ دلار برای خودش برداره (استراتژی خودخواهانه).

جدول پرداخت‌ها:

این پرداخت‌ها بر اساس دلاری که هر بازیکن می‌گیره یا از دست می‌ده، محاسبه شده:

اگه هر دو نوع‌دوست باشن، هر بازیکن در نهایت ۲ دلار داره.
اگه آلیس نوع‌دوست باشه و باب خودخواه، آلیس ۰ دلار و باب ۳ دلار داره.
اگه هر دو خودخواه باشن، هرکدوم ۱ دلار دارن.
اگه آلیس خودخواه باشه و باب نوع‌دوست، آلیس ۳ دلار و باب ۰ دلار داره.

تعادل نش: در هر دو نسخه، تنها تعادل نش این است که هر دو خیانت کنند.

با اینکه اگه هر دو همکاری کنن، سود بیشتری نصیبشون می‌شه، ولی ترس از خیانت طرف مقابل باعث می‌شه هر بازیکن استراتژی خودخواهانه‌ی خیانت رو انتخاب کنه.

باب ریسک نمی‌کنه که سکوت کنه چون در این صورت اگر آلیس اعتراف کنه همه‌ی تقصیرات گردن باب می‌افته و به اشد مجازات دچار می‌شه. همچنین آلیس هم می‌دونه اگر 2 دلار به باب بده ممکنه سرش کلاه بره و هیچی دستش رو نگیره.

نسلی از پژوهشگرا این ایده رو پذیرفتن که معمای زندانی جوهره‌ی مسئله‌ی همکاری انسانی رو نشون می‌ده. برای همین، خودشونو درگیر تلاش بیهوده‌ای کردن تا دلایلی بیارن که چرا راه‌حل نظریه‌ی بازی‌ها به‌خاطر این به‌اصطلاح «پارادوکس عقلانیت» اشتباهه. اما نظریه‌پردازای بازی این دیدگاه رو کاملاً نادرست می‌دونن که “معمای زندانی اون چیزی که تو همکاری انسانی مهمه رو درست نشون می‌ده” برعکس، این معما موقعیتی رو نشون می‌ده که توش شرایط به بدترین شکل ممکن علیه پیدایش همکاری تنظیم شده.

اگه بازی بزرگ زندگی که توسط گونه‌ی انسانی انجام می‌شه، درست با معمای زندانی مدل‌سازی شده بود، ما هیچ‌وقت به‌عنوان موجودات اجتماعی تکامل پیدا نمی‌کردیم! پس نیازی نمی‌بینیم که یه پارادوکس خیالیِ عقلانیت رو حل کنیم، همون‌طور که نیازی نیست توضیح بدیم چرا آدما تو دریاچه‌ی میشیگان غرق می‌شن اگه پاهاشون تو بتن فرو رفته باشه. هیچ پارادوکسی تو عقلانیت وجود نداره. بازیکنای عقلانی تو معمای زندانی همکاری نمی‌کنن، چون شرایط لازم برای همکاری عقلانی وجود نداره. (اگه هر دو از تصمیم همدیگه آگاه بودن و بهم اعتماد ۱۰۰ درصدی داشتن، شرایط فرق می‌کرد.)

خوشبختانه، مرحله‌ی «پارادوکس عقلانیت» تو تاریخ نظریه‌ی بازی تقریباً به پایان رسیده. تلاش‌های زیادی که تو گذشته برای اثبات این که همکاری تو معمای زندانی عقلانیه انجام شده، امروزه بیشتر به‌عنوان نمونه‌هایی سرگرم‌کننده از چیزی که روانشناس‌ها«استدلال جادویی» می‌گن، نقل می‌شه. مواردی که توش منطق برای رسیدن به نتیجه‌ی مطلوب تحریف می‌شه. نمونه‌ی موردعلاقه‌ی من ادعای ایمانوئل کانت هست که عقلانیت رو مستلزم تبعیت از امر مطلق خودش می‌دونست. تو معمای زندانی، بر این اساس، بازیکنای عقلانی همگی استراتژی «صلح‌جویانه» رو انتخاب می‌کردن، چون این استراتژی در صورتی که همه ازش پیروی کنن، بهترین گزینه می‌شه.

برای اینکه از اول سوال رو درست مطرح کنیم، اول باید بپرسیم این سود و زیان‌هایی که اولویت‌های بازیکنان رو توی معمای زندانی نشون می‌ده، از کجا میان؟ نظریه‌ی ترجیحات آشکار می‌گه که جواب رو باید با مشاهده‌ی انتخاب‌هایی که آلیس و باب در حل مسائل تصمیم‌گیری یک‌نفره انجام می‌دن (یا انجام می‌دادن)، پیدا کنیم.

به استراتژی مصالحه بدون درگیری dove یعنی کبوتر و به استراتژی رقابت و جنگیدن برای داشتن منابع بیشتر hawk یعنی شاهین می‌گن.

وقتی می‌نویسیم سود بیشتری توی خونه‌ی پایین-چپ جدول برای آلیس نسبت به خونه‌ی بالا-چپ وجود داره، یعنی اگه آلیس از قبل می‌دونست که باب استراتژی سکوت (کبوتر) رو انتخاب می‌کنه، تصمیم می‌گرفت که اعتراف (شاهین) کنه. همین‌طور، نوشتن سود بیشتر توی خونه‌ی پایین-راست جدول یعنی آلیس شاهین رو انتخاب می‌کنه وقتی بدونه که باب هم شاهین رو بازی می‌کنه.

تعریف بازی به همین سادگی می‌گه که اعتراف (شاهین) بهترین پاسخ آلیس هم وقتی باب سکوت (کبوتر) و هم وقتی اعتراف (شاهین) هست. پس آلیس نیازی نداره بدونه که باب واقعاً قراره چی بازی کنه تا بهترین پاسخ خودش رو انتخاب کنه. براش منطقیه که اعتراف (شاهین) ، فارغ از اینکه باب چه برنامه‌ای داره، بهترینه.

این شرایط خاصی که پیش میاد، ما می‌گیم استراتژی اعتراف (شاهین) بر استراتژی‌های جایگزین آلیس غلبه می‌کنه.

دو تا اعتراض رایج به این تحلیل وجود داره:

اعتراض اول: این که آلیس توی نسخه‌ی گانگستری معمای زندانی، وقتی بدونه که باب همکاری کرده، به خیانت دست نمی‌زنه. دلایل مختلفی هم برای این ادعا آورده می‌شه، که بستگی به برداشت آدم از شرایط توی شیکاگوی آل‌کاپون داره. ولی این اعتراض اصلاً اصل موضوع رو نمی‌گیره. اگه آلیس حاضر نباشه خیانت کنه وقتی بدونه باب همکاری کرده، پس اصلاً معمای زندانی رو بازی نمی‌کنه! توی اینجور مواقع و جاهای دیگه، مهمه که داستان‌هایی که برای توضیح بازی‌ها گفته می‌شن رو زیادی جدی نگیریم. چیزی که معمای زندانی رو تعریف می‌کنه، جدول منفعت‌ها در شکل هست، نه داستان‌های مضحک و دراماتیکی که باهاش همراه می‌شن.

اعتراض دوم: همیشه برام عجیبه! می‌گن که ارجاع به نظریه‌ی ترجیحات آشکار باعث می‌شه ادعا که خیانت توی معمای زندانی منطقیه، تبدیل به یک درست‌نما (tautology) بشه. از اونجایی که درست‌نما هیچ محتوای حقیقی نداره، این ادعا هم قابل چشم‌پوشیه! اما کی می‌گه 2 + 2 = 4 رو باید نادیده گرفت؟

یه جواب جایگزین اینه که اصلاً مهم نیست توی معمای زندانی چه چیزی منطقیه، چون آزمایش‌های آزمایشگاهی نشون می‌دن که آدم‌های واقعی بیشتر از این که خیانت کنن، رفیق‌بازی می‌کنن. توی این آزمایش‌ها معمولاً منفعت‌ها با استفاده از نظریه ترجیحات آشکار تعیین نمی‌شن و تقریباً همیشه پول نقد هستن، ولی نتایجشون باز هم خیلی آموزنده‌ست.

شرکت‌کننده‌های بی‌تجربه واقعاً یه کم بیشتر از نصف مواقع همکاری می‌کنن، ولی شواهد نشون می‌ده که توی بازی‌هایی مثل معمای زندانی، نرخ خیانت کم‌کم زیاد می‌شه. تا جایی که بعد از حدود ۱۰ دور بازی، فقط ۱۰٪ از شرکت‌کننده‌ها هنوز به همکاری ادامه می‌دن.

یه سری شبیه‌سازی‌های کامپیوتری هم مطرح می‌شن که ظاهراً نشون می‌دن تکامل در نهایت همکاری رو توی معمای زندانی ایجاد می‌کنه. ولی منتقدهای این ماجرا معمولاً معمای زندانی رو با نسخه تکرار نامحدودش قاطی می‌کنن، نسخه‌ای که واقعاً توش همکاری می‌تونه یه تعادل نش باشه.

این قسمت، بخش پایانی فصل مقدمه کتاب بود. در فصل بعدی به موضوع هیجان انگیز شانس می‌رسیم.

ستوده کریمخان

مهندس شبکه‌های کامپیوتری