چرا پیروزی گوگل در بازی Go بزرگ ست؟

نویسنده:

۰۱:۱۰:۱۶

برد دراماتیک DeepMind از بازیکن افسانه‌ای بازی Go لی سه دُل لحظه بزرگ در تاریخ هوش‌مصنوعی ست، چیزی که خیلی ‌ها پیش‌بینی می‌کردند که چندین دهه با آن فاصله داریم. "خیلی شکه شدم" این را لی بیان کرد "فکر نمی‌کردم که ببازم. فکر نمی‌کردم که AlphaGo بازی را در این حد عالی بازی کند."

ولی چرا اینقدر این چشمگیر است که برنامه  آلفاگو گروه دیپ‌مایند، که توسط قدرت عظیم گوگل پشتیبانی می‌شود، توانسته یکی از بزرگترین بازیکنان این بازی را شکست دهد؟  برای درک این،  باید ریشه‌های بازی را درک کنید،  و اینکه چگونه دیپ‌مایند آلفاگو را ساخته تا آنها را ریشه کن  کند.

گو، شناخته شده با نام weiqi در چین، igo در ژاپن، و baduk در کره،  یک بازی رو تخته انتزاعی ست که ۳۰۰۰ سال قدمت دارد. این یک بازی استراتژیک می‌باشد که در یک جدول ۱۹ در ۱۹ صورت می‌گیرد؛ بازیکنان به نوبت سنگ‌هایی سیاه و سفید را برای پر کردن مکان‌ها در جدول و گرفت قلمرو حریف در جدول قرار می‌دهند. با وجود اینکه قوانین بسیار کمی دارد، چالشی با عمق، و اختلافات جزئی ظریف فوق‌العاده‌ای ایجاد می‌کند.

"این یکی از بزرگترین بازی‌های فکری جهان است،" این را Toby Manning خزانه‌دار انجمن گو و دوار بازی پیروزمندانه آلفاگو با قهرمان اروپا Fan Hui  در سال گذشته بیان می‌کند. " قوانینی بسیار ساده  داره، اما این قوانین باعث پیچیدگی بسیار زیادی می‌شوند." مننینگ یک گفته‌ای از یک بازیکن سرشناس شطرنج و گو قرن ۲۰ میلادی با نام Edward Lasker را نقل قول می‌کند: " در حالیکه قوانین بی‌تناسب شطرنج تنها توسط انسانها می‌توانند ساخته شده باشند، قوانین گو آنقدر زیبا،  بنیانی و به شدت منطقی هستند که اگر گونه‌های حیات هوشمند در جاهای دیگر کیهان وجود داشته باشند، مطمئنا گو باز می‌کنند."

بخاطر پیچیدگی عمیق گو، بازیکنان انسانی در طی سالها تمرین، به حد عالی رساندن درک خود و یاد گرفت الگوهای بازی حرفه‌ای می‌شوند. جذب اولیه بخاطر قوانین ساده و قابل درک آن است، اما جذب طولانی در آن بخاطر این است که از این بازی خسته نمی‌شوید به خاطر عمق زیاد آن" این را Lee Ha-jin دبیر کل انجمن Baduk کره بیان می‌کند. "باوجود آنکه وقت زیادی را صرف می‌کنید،  همیشه چیز جدیدی برای یاد گرفتن وجود دارد و این احساس را دارید که قویتر وبهتر خواهید شد."

بعد شروع کردن بازی در سن پنج ساگی Lee Ha-jin چنان سطحی از استعداد را نشان داد که پدر و مادر او را به مدرسه خصوصی گو در سئول فرستادند. او با معلم خود زندگی کرد، به مدرسه معمولی در طول روز می‌رفت، و بر‌می‌گشت و گو را برای چندین ساعت هر شب بازی می‌کرد. لی در آخر در ۱۶ سالگی حرفه‌ای شد.

دیداری از محل کار فعلی او، انجمن Baduk کره، بزرگی بازی را در این کشور نشان می‌دهد. اعضای لیگ بادوک زنان کره در سکوت مطلق در یک طبقه بازی می‌کنند. در طبقه دیگر جامهای زیادی  وجود دارد که بیشتر آنها شکل دست‌های عجیب و غریب هستند. (یک اسم استعاری برای بازی "صحبت دست" ترجمه می‌شود). و در زیرزمین، یک مرکز سیستم کنترل کامل برای تلویزیون بادوک است، یک کانال کابلی برای بازی گو. یکی از استودیوها دارای صحنه‌ای ساخته شده برای مسابقات نهایی گو است،  جاییکه این کانال می‌تواند مسابقات را برای تحلیل بیشتر بازسازی کند.

هر بازیکن گو که تا به حال با آن صحبت کرده‌ام چیز یکسانی را می‌گوید: جذب آن رسیدن به عمق زیاد از طریق سادگی ست. و این نیز به توضیح اصلی آن برای اینکه چرا آموزش آن برای کامپیوتر سخت است می‌رسد. داده کمی تنها با نگاه کردن به تخته وجود دارد و انتخاب یک حرکت به درک و بینش زیادی نیاز دارد.

"شطرنج و بازی چکرز نیاز به توابع ارزیابی پیچیده‌ای ندارند" این را Jonathan Schaeffer یک دانشمند علوم کامپیوتر در دانشگاه آلبرتا که کتاب Chinook در رابطه با اولین برنامه حل بازی چکرز را نوشته است بیان می‌کند. "روش‌های ذهنی ساده (Simple heuristics) بیشتر کاری که می‌خواهید را انجام می‌دهد. برای مثال در شطرنج و چکرز ارزش قطعات  بر دیگر دانسته‌ها حکمفرمایی می‌کند،  اگر من یک رخ  بیشتر از شما در شطرنج داشته باشم، پس تقریبا من همیشه می‌برم گو هیچ روش ذهنی حکمفرما ندارد. از دیدگاه انسانی،  دانش بر اساس الگو می‌باشد، پیچیده، و بسیار سخت در برنامه‌ریزی. تا قبل از آلفاگو، هیچکس نتوانسته بود یک تابع ارزیابی موثر را بنویسد."

خب دیپ‌مایند چطور توانست این کار را بکند؟ آلفاگو از یک شبکه عصبی و آموختن عمیق استفاده می‌کند تا به خود بازی کردن را یاد بدهد. درست همانطور که گوگل Photos به شما این توان را می‌دهد که به دنبال تمام عکس‌های خود با یک گربه در آنها بگردید زیرا حافظه‌ای از تعداد بیشماری از عکس‌های گربه را در خود دارد که تا سطح پیکسلی پردازش شده‌اند، هوش آلفاگو بر پایه نشان دادن میلیون‌ها حالت و حرکت در  گو  از بازی‌های انسانی می‌باشد.

نقطه فرق آن این است که دیپ‌مایند بصورت دائم توانایی  سیستم را از طریق  بازی کردن در برابر مدلی تغییر یافته از خود بهبود و قدرت می‌بخشد. این یک شبکه "سیاست" را تمرین می‌دهد تا به آلفاگو در پیش‌بینی حرکت بعدی کمک کند،  که در عوض شبکه "مقداری" را تمرین می‌دهد که آن حرکت‌ها را معلوم و ارزیابی می‌کند. آلفاگو حرکت و تبدیل‌های ممکن پیش‌رو را بررسی می‌کند و در نتایج گوناگونی را بررسی می‌کند قبل از اینکه حرکت  را انتخاب کند که احتمال برد بیشتری را دارد. شبکه‌های ترکیب شده عصبی از کار کردن اضافی آلفاگو جلوگیری می‌کنند: شبکه سیاست وسعت جستجوی حرکت را کاهش می‌دهد،  در حالیکه شبکه مقدار از بازیکردن تمام بازی برای رسیدن به یک نتیجه جلوگیری می‌کند.

این سیستم آموختن قوی شده آلفاگو  را بسیار بیشتر شبیه به انسان می‌کند و در واقع هوش مصنوعی قویتری از چیزی مانند Deep Blue  شرکت IBM که استاد بزرگ شطرنج گری کاسپاروف توسط محاسبات شدید کامپیوتری برای پیدا کردن بهترین حرکت شکست داد می‌باشد، چیزی که در گو کاربردی نیست. و همچنین دلیل این می‌باشد که دیپ‌مایند نمی‌تواند آلفاگو را در بین مسابقات تغییر دهد،  و آنجایی که سیستم تنها با آموزش به خود بهبود می‌یابد، یک مسابقه در روز تاثیر شگرفی در آموختن آن ندارد. موسس دیپ‌مایند Demis Hassabis بیان می کند که با وجود اینکه آلفاگو از زمان شکست Fan Hui در اکتبر بهتر شده است،  از قدرت تقریبا شبیه یکسانی در مسابقات لی سه دُل استفاده می‌کند، که از این نظر به نقطه کاهش بازدهی برخورده است.

این به این معنا نیست که آلفاگو در وضعیت فعلی  سیستم بهتری برای شطرنج است، بر طبق گفته یک نفر از سازندگان دیپ‌ بلو "من پیش‌بینی می‌کنم که ممکن است بتواند برنامه‌ای را تولید کند که از تمام استاد بزرگ‌ها بهتر باشد" این را دانشمند محقق IBM به نام Murray Campbell, بیان می‌کند، که آلفاگو را به عنوان برنامه‌ای "بسیار چشمگیر" تعریف می‌کند. "ولی من فکر نمی‌کنم بهترین چیز باشد، ولی دلیلی که این را بیان می‌کنم این است که شطرنج از نظر کیفیتی بازی متفاوت از دیدگاه جستجو می‌باشد، جستجو در شطرنج  بسیار مهم‌تر  از گو است. مطمئنا قسمت‌هایی در گو وجود دارد که نیاز به جستجوی عمیق دارند اما این بازی بیشتر بازی بینش و شهود  و ارزیابی  خصیصه‌ها و مشاهده تعامل آنهاست. در شطرنج هیچ جایگزینی برای جستجو و برنامه‌های مدرن وجود ندارد، بهترین که می شناسم برنامه به نام Komodo است، و بسیار در جستجوی حرکت های ممکن و جستجوی عمیق بسیار موثر است. به نظر من این برای  یک مکانیزم کلی که در آلفاگو طراحی شده باشد و در شطرنج بکار رود بسیار مشکل خواهد بود،  من فکر می‌کنم که نمی‌تواند آن  جستجو را بازسازی کند  و نیاز به دست‌یابی به  موفقیت دیگری دارد."

با این وجود دیپ‌مایند بر این باور است که اصولی که در آلفاگو بکار می‌برد نتایج بزرگتر نسبت به گو دارند. Hassabis تمایزی را بین هوش‌مصنوعی‌های "محدود" مانند دیپ‌ بلو و هوش" کلی" مصنوعی (AGI) ایجاد می‌کند،  که نوع دوم انعطاف بیشتری دارد و وقف بیشتری می‌گیرد. در نهایت واحد گوگل روشهای آموختن ماشین آن را در روباتیک، سیستمهای  دستیار‌ تلفن‌های هوشمند و بهداشت مفید می‌داند؛  ماه گذشته دیپ‌مایند اعلام کرد که قراردادی را با سازمان بهداشت ملی انگلیس بسته است.
امروز البته تمرکز بر روی گو می‌باشد و به دلایل خوبی،  اولین برد از لی سه دُل  خبر بزرگی ست حتی اگر آلفاگو مسابقات بعدی را ببازد. " گو یک سلاح بزرگ را از دست خواهد داد، " این را Lee Ha-jin به من گفت زمانیکه از شکست لی سه دُل  از او سوال کردیم که چه معنای کلی برای بازی دارد. "ما همیشه افتخار می‌کردیم که گو تنها بازی است که نمی‌تواند توسط کامپیوتر‌ها شکست داده شود،  ولی دیگر نمی‌توانیم این را بگوییم،  پس این کمی ناامید کننده است."

اما آلفاگو می‌توانند برای بازی راه‌های دیگری باز کند. اعضای جامعه گو از روش خلاقانه و هجومی که آلفاگو برای پیروزی استفاده کرد بالاتر از نکته‌ای که حتی پیروز شد شکه شدند. "چند حرکت‌ در اول وجود داشت، شما در مورد این سه حرکت‌ در راست روی خط پنجم چه می‌گویید؟ "  رییس انجمن گو آمریکا Andy Okun  از نایب رئیس  عملیاتی Andrew Jackson پرسید،  که همچنین مهندس نرم‌افزار در گوگل است. " همانطور که از پشت پیشروی می‌کند" جکسن پاسخ داد "اگر من آن حرکت‌ها رو انجام می‌دادم…" اوکان ادامه داد. "معلم‌های من محکم روی دست من می‌زدند." جکسن موافقت کرد. "می‌زدند تو گوشم" اوکان بیان کرد. "آدم از عقب در خط پنجم پیشروی نمی‌کنه!"
"ما واقعا شکه شدیم" جکسن گفت. "اما یک سوال واقعی اینجا وجود داره. ما یک ارتدکسی گو پذیرفته شده را داریم،  پس این چه چیزی را در بعد برای ما نمایان میکنه؟  آیا همه چیز را تغییر خواهد داد؟ یا اینکه این چیزهایی که فکر می‌کردیم حقیقت داره،  و این چیزهایی که فکر می کنی که می‌دونی  اما اینطور نیست؟ "
 
 
 

برگرفته از
AlphaGo
لینک کوتاه