ولی چرا اینقدر این چشمگیر است که برنامه آلفاگو گروه دیپمایند، که توسط قدرت عظیم گوگل پشتیبانی میشود، توانسته یکی از بزرگترین بازیکنان این بازی را شکست دهد؟ برای درک این، باید ریشههای بازی را درک کنید، و اینکه چگونه دیپمایند آلفاگو را ساخته تا آنها را ریشه کن کند.
گو، شناخته شده با نام weiqi در چین، igo در ژاپن، و baduk در کره، یک بازی رو تخته انتزاعی ست که ۳۰۰۰ سال قدمت دارد. این یک بازی استراتژیک میباشد که در یک جدول ۱۹ در ۱۹ صورت میگیرد؛ بازیکنان به نوبت سنگهایی سیاه و سفید را برای پر کردن مکانها در جدول و گرفت قلمرو حریف در جدول قرار میدهند. با وجود اینکه قوانین بسیار کمی دارد، چالشی با عمق، و اختلافات جزئی ظریف فوقالعادهای ایجاد میکند.
"این یکی از بزرگترین بازیهای فکری جهان است،" این را Toby Manning خزانهدار انجمن گو و دوار بازی پیروزمندانه آلفاگو با قهرمان اروپا Fan Hui در سال گذشته بیان میکند. " قوانینی بسیار ساده داره، اما این قوانین باعث پیچیدگی بسیار زیادی میشوند." مننینگ یک گفتهای از یک بازیکن سرشناس شطرنج و گو قرن ۲۰ میلادی با نام Edward Lasker را نقل قول میکند: " در حالیکه قوانین بیتناسب شطرنج تنها توسط انسانها میتوانند ساخته شده باشند، قوانین گو آنقدر زیبا، بنیانی و به شدت منطقی هستند که اگر گونههای حیات هوشمند در جاهای دیگر کیهان وجود داشته باشند، مطمئنا گو باز میکنند."
بخاطر پیچیدگی عمیق گو، بازیکنان انسانی در طی سالها تمرین، به حد عالی رساندن درک خود و یاد گرفت الگوهای بازی حرفهای میشوند. جذب اولیه بخاطر قوانین ساده و قابل درک آن است، اما جذب طولانی در آن بخاطر این است که از این بازی خسته نمیشوید به خاطر عمق زیاد آن" این را Lee Ha-jin دبیر کل انجمن Baduk کره بیان میکند. "باوجود آنکه وقت زیادی را صرف میکنید، همیشه چیز جدیدی برای یاد گرفتن وجود دارد و این احساس را دارید که قویتر وبهتر خواهید شد."
بعد شروع کردن بازی در سن پنج ساگی Lee Ha-jin چنان سطحی از استعداد را نشان داد که پدر و مادر او را به مدرسه خصوصی گو در سئول فرستادند. او با معلم خود زندگی کرد، به مدرسه معمولی در طول روز میرفت، و برمیگشت و گو را برای چندین ساعت هر شب بازی میکرد. لی در آخر در ۱۶ سالگی حرفهای شد.
دیداری از محل کار فعلی او، انجمن Baduk کره، بزرگی بازی را در این کشور نشان میدهد. اعضای لیگ بادوک زنان کره در سکوت مطلق در یک طبقه بازی میکنند. در طبقه دیگر جامهای زیادی وجود دارد که بیشتر آنها شکل دستهای عجیب و غریب هستند. (یک اسم استعاری برای بازی "صحبت دست" ترجمه میشود). و در زیرزمین، یک مرکز سیستم کنترل کامل برای تلویزیون بادوک است، یک کانال کابلی برای بازی گو. یکی از استودیوها دارای صحنهای ساخته شده برای مسابقات نهایی گو است، جاییکه این کانال میتواند مسابقات را برای تحلیل بیشتر بازسازی کند.
هر بازیکن گو که تا به حال با آن صحبت کردهام چیز یکسانی را میگوید: جذب آن رسیدن به عمق زیاد از طریق سادگی ست. و این نیز به توضیح اصلی آن برای اینکه چرا آموزش آن برای کامپیوتر سخت است میرسد. داده کمی تنها با نگاه کردن به تخته وجود دارد و انتخاب یک حرکت به درک و بینش زیادی نیاز دارد.
"شطرنج و بازی چکرز نیاز به توابع ارزیابی پیچیدهای ندارند" این را Jonathan Schaeffer یک دانشمند علوم کامپیوتر در دانشگاه آلبرتا که کتاب Chinook در رابطه با اولین برنامه حل بازی چکرز را نوشته است بیان میکند. "روشهای ذهنی ساده (Simple heuristics) بیشتر کاری که میخواهید را انجام میدهد. برای مثال در شطرنج و چکرز ارزش قطعات بر دیگر دانستهها حکمفرمایی میکند، اگر من یک رخ بیشتر از شما در شطرنج داشته باشم، پس تقریبا من همیشه میبرم گو هیچ روش ذهنی حکمفرما ندارد. از دیدگاه انسانی، دانش بر اساس الگو میباشد، پیچیده، و بسیار سخت در برنامهریزی. تا قبل از آلفاگو، هیچکس نتوانسته بود یک تابع ارزیابی موثر را بنویسد."
خب دیپمایند چطور توانست این کار را بکند؟ آلفاگو از یک شبکه عصبی و آموختن عمیق استفاده میکند تا به خود بازی کردن را یاد بدهد. درست همانطور که گوگل Photos به شما این توان را میدهد که به دنبال تمام عکسهای خود با یک گربه در آنها بگردید زیرا حافظهای از تعداد بیشماری از عکسهای گربه را در خود دارد که تا سطح پیکسلی پردازش شدهاند، هوش آلفاگو بر پایه نشان دادن میلیونها حالت و حرکت در گو از بازیهای انسانی میباشد.
نقطه فرق آن این است که دیپمایند بصورت دائم توانایی سیستم را از طریق بازی کردن در برابر مدلی تغییر یافته از خود بهبود و قدرت میبخشد. این یک شبکه "سیاست" را تمرین میدهد تا به آلفاگو در پیشبینی حرکت بعدی کمک کند، که در عوض شبکه "مقداری" را تمرین میدهد که آن حرکتها را معلوم و ارزیابی میکند. آلفاگو حرکت و تبدیلهای ممکن پیشرو را بررسی میکند و در نتایج گوناگونی را بررسی میکند قبل از اینکه حرکت را انتخاب کند که احتمال برد بیشتری را دارد. شبکههای ترکیب شده عصبی از کار کردن اضافی آلفاگو جلوگیری میکنند: شبکه سیاست وسعت جستجوی حرکت را کاهش میدهد، در حالیکه شبکه مقدار از بازیکردن تمام بازی برای رسیدن به یک نتیجه جلوگیری میکند.
این سیستم آموختن قوی شده آلفاگو را بسیار بیشتر شبیه به انسان میکند و در واقع هوش مصنوعی قویتری از چیزی مانند Deep Blue شرکت IBM که استاد بزرگ شطرنج گری کاسپاروف توسط محاسبات شدید کامپیوتری برای پیدا کردن بهترین حرکت شکست داد میباشد، چیزی که در گو کاربردی نیست. و همچنین دلیل این میباشد که دیپمایند نمیتواند آلفاگو را در بین مسابقات تغییر دهد، و آنجایی که سیستم تنها با آموزش به خود بهبود مییابد، یک مسابقه در روز تاثیر شگرفی در آموختن آن ندارد. موسس دیپمایند Demis Hassabis بیان می کند که با وجود اینکه آلفاگو از زمان شکست Fan Hui در اکتبر بهتر شده است، از قدرت تقریبا شبیه یکسانی در مسابقات لی سه دُل استفاده میکند، که از این نظر به نقطه کاهش بازدهی برخورده است.
این به این معنا نیست که آلفاگو در وضعیت فعلی سیستم بهتری برای شطرنج است، بر طبق گفته یک نفر از سازندگان دیپ بلو "من پیشبینی میکنم که ممکن است بتواند برنامهای را تولید کند که از تمام استاد بزرگها بهتر باشد" این را دانشمند محقق IBM به نام Murray Campbell, بیان میکند، که آلفاگو را به عنوان برنامهای "بسیار چشمگیر" تعریف میکند. "ولی من فکر نمیکنم بهترین چیز باشد، ولی دلیلی که این را بیان میکنم این است که شطرنج از نظر کیفیتی بازی متفاوت از دیدگاه جستجو میباشد، جستجو در شطرنج بسیار مهمتر از گو است. مطمئنا قسمتهایی در گو وجود دارد که نیاز به جستجوی عمیق دارند اما این بازی بیشتر بازی بینش و شهود و ارزیابی خصیصهها و مشاهده تعامل آنهاست. در شطرنج هیچ جایگزینی برای جستجو و برنامههای مدرن وجود ندارد، بهترین که می شناسم برنامه به نام Komodo است، و بسیار در جستجوی حرکت های ممکن و جستجوی عمیق بسیار موثر است. به نظر من این برای یک مکانیزم کلی که در آلفاگو طراحی شده باشد و در شطرنج بکار رود بسیار مشکل خواهد بود، من فکر میکنم که نمیتواند آن جستجو را بازسازی کند و نیاز به دستیابی به موفقیت دیگری دارد."
با این وجود دیپمایند بر این باور است که اصولی که در آلفاگو بکار میبرد نتایج بزرگتر نسبت به گو دارند. Hassabis تمایزی را بین هوشمصنوعیهای "محدود" مانند دیپ بلو و هوش" کلی" مصنوعی (AGI) ایجاد میکند، که نوع دوم انعطاف بیشتری دارد و وقف بیشتری میگیرد. در نهایت واحد گوگل روشهای آموختن ماشین آن را در روباتیک، سیستمهای دستیار تلفنهای هوشمند و بهداشت مفید میداند؛ ماه گذشته دیپمایند اعلام کرد که قراردادی را با سازمان بهداشت ملی انگلیس بسته است.
امروز البته تمرکز بر روی گو میباشد و به دلایل خوبی، اولین برد از لی سه دُل خبر بزرگی ست حتی اگر آلفاگو مسابقات بعدی را ببازد. " گو یک سلاح بزرگ را از دست خواهد داد، " این را Lee Ha-jin به من گفت زمانیکه از شکست لی سه دُل از او سوال کردیم که چه معنای کلی برای بازی دارد. "ما همیشه افتخار میکردیم که گو تنها بازی است که نمیتواند توسط کامپیوترها شکست داده شود، ولی دیگر نمیتوانیم این را بگوییم، پس این کمی ناامید کننده است."
اما آلفاگو میتوانند برای بازی راههای دیگری باز کند. اعضای جامعه گو از روش خلاقانه و هجومی که آلفاگو برای پیروزی استفاده کرد بالاتر از نکتهای که حتی پیروز شد شکه شدند. "چند حرکت در اول وجود داشت، شما در مورد این سه حرکت در راست روی خط پنجم چه میگویید؟ " رییس انجمن گو آمریکا Andy Okun از نایب رئیس عملیاتی Andrew Jackson پرسید، که همچنین مهندس نرمافزار در گوگل است. " همانطور که از پشت پیشروی میکند" جکسن پاسخ داد "اگر من آن حرکتها رو انجام میدادم…" اوکان ادامه داد. "معلمهای من محکم روی دست من میزدند." جکسن موافقت کرد. "میزدند تو گوشم" اوکان بیان کرد. "آدم از عقب در خط پنجم پیشروی نمیکنه!"
"ما واقعا شکه شدیم" جکسن گفت. "اما یک سوال واقعی اینجا وجود داره. ما یک ارتدکسی گو پذیرفته شده را داریم، پس این چه چیزی را در بعد برای ما نمایان میکنه؟ آیا همه چیز را تغییر خواهد داد؟ یا اینکه این چیزهایی که فکر میکردیم حقیقت داره، و این چیزهایی که فکر می کنی که میدونی اما اینطور نیست؟ "
1 نظر
سلام
خسته نباشید
خیلی عالی بود