¡ãÁö±Ý±îÁöÀÇ ¾ËÆÄ°í¿Í´Â ¿ÏÀüÈ÷ ´Ù¸¥ '¾ËÆÄ°í Á¦·Î(AlphaGo Zero)'. ¾ËÆÄ°í Á¦·Î°¡ ¹ÙµÏ ÀÔ¹®À» ÇÏ´Â °ÍºÎÅÍ ¿ª´ë ÃÖ°ÀÌ µÇ±â±îÁöÀÇ °úÁ¤À» º¸°í ÀÖÀ¸¸é ¹ÙµÏÀÌ·ÐÀÇ ÁøÈ¸¦ ÇÑ´«¿¡ º¸´Â µíÇÑ ´À³¦ÀÌ µç´Ù. [À̹ÌÁö | ±¸±Û]
Àΰ£ÀÇ ±âº¸¸¦ ÀüÇô ÇнÀÇÏÁö ¾ÊÀº ¾ËÆÄ°í »õ ¹öÀü '¾ËÆÄ°í Á¦·Î(AlphaGo Zero)'°¡ º£ÀÏÀ» ¹þ°í ¼¼»óÀ» ³î¶ó°Ô Çϰí ÀÖ´Ù.
Áö±Ý±îÁöÀÇ ¾ËÆÄ°í´Â Àΰø½Å°æ¸Á ¼Ó¿¡¼ ÁöµµÇнÀ(supervised learning)À̶ó´Â Àΰ£±âº¸ ÇнÀÀ» °ÅÃÆÁö¸¸ ¾ËÆÄ°í Á¦·Î´Â ÀÌ °úÁ¤À» °ÅÄ¡Áö ¾Ê¾Ò´Ù. ¿ÀÁ÷ ½º½º·Î ´ë±¹ÇÏ¸é¼ °ÈÇнÀ(reinforcement learning)À¸·Î¸¸ ½Ç·ÂÀ» Ű¿ü´Ù. ¹ÙµÏÀÇ ±âº» ±ÔÄ¢À» Á¦¿ÜÇϰí, ¾ËÆÄ°í Á¦·ÎÀÇ ÇнÀ¿¡ Àΰ£ÀÇ °³ÀÔÀÌ ¾ø´Â °ÍÀÌ´Ù.
ÀÌ·¸°Ô 'µ¶ÇÐÇÑ' ¾ËÆÄ°í Á¦·Î´Â Áö±Ý±îÁö °¡Àå °ÇÏ´Ù°í ¾Ë·ÁÁ® ¿Ô´ø '¾ËÆÄ°í ¸¶½ºÅÍ(AlphaGo Master)' ¹öÀüÀ» ¾ÐµµÀûÀ¸·Î À̱â´Â °ÍÀ¸·Î ³ªÅ¸³ª Ãæ°ÝÀ» ÁØ´Ù.
¾ËÆÄ°í Á¦·Î´Â °¢°¢ °°Àº ¿¬»ê·Â(TPU 4´ë¸¦ °®Ãá ½Ì±Û¸Ó½Å)¿¡ Á¦Çѽð£ 2½Ã°£ÀÇ Á¶°ÇÀ¸·Î ¾ËÆÄ°í ¸¶½ºÅÍ¿Í 100ÆÇÀ» °Ü·ï 89½Â11ÆÐ Çß´Ù. ¾à 90%ÀÇ ½Â·üÀÌ´Ù. ¾ËÆÄ°í ¸¶½ºÅÍ´Â ¿Ã ÃÊ Àΰ£ °í¼öµéÀ» »ó´ë·Î 60Àü Àü½ÂÀ» °ÅµÐ µÚ 5¿ù ¼¼°è ÃÖ° Ä¿Á¦¸¦ 3-0À¸·Î Á¦¾ÐÇß´ø ¹öÀüÀε¥ ¾ËÆÄ°í Á¦·Î ¾Õ¿¡¼´Â »ó´ëµµ ¾È µÇ´Â ¼ÀÀÌ´Ù. (¾ËÆÄ°í Á¦·Î´Â, À̼¼µ¹°ú °Ü·ð´ø ¾ËÆÄ°í ¹öÀü¿¡´Â 100Àü 100½ÂÀ» ±â·ÏÇß´Ù.)
¾ËÆÄ°í Á¦·Î ¾Ë°í¸®Áò°ú Å×½ºÆ® °á°ú µîÀ» ´ãÀº ³í¹® 'Àΰ£ Áö½Ä ¾øÀÌ ¹ÙµÏÀ» ¸¶½ºÅÍÇÏ´Ù(Mastering the game of Go without human knowledge)'°¡ 19ÀÏ(Çѱ¹½Ã°¢) °úÇÐÇмúÁö ³×ÀÌó(Nature)¿¡ °ÔÀçµÆ´Ù. µ¥¹Ì½º ÇÏ»çºñ½º µö¸¶Àεå â¾÷ÀÚ °â ÃÖ°í°æ¿µÀÚ¸¦ Æ÷ÇÔÇÑ ¾ËÆÄ°í Á¦ÀÛ»ç ±¸±Û µö¸¶ÀÎµå ¿¬±¸¿ø 17¸íÀÌ °øµ¿ÀúÀÚ´Ù.
#¹«(Ùí)¿¡¼ ½ÃÀÛÇÑ ¾ËÆÄ°íÀÇ ÁøÈ¼Óµµ´Â ³î¶ó¿ü´Ù
¾ËÆÄ°í Á¦·Î´Â ±×¾ß¸»·Î ¾Æ¹«µ¥³ª µÎ´Â(¿Ïº®ÇÑ ¹«ÀÛÀ§ Âø¼ö) °ÍÀ¸·ÎºÎÅÍ ½ÃÀÛÇÑ µÚ ¹ÙµÏÀÇ °³³ä(Æ÷¼®, ¸Æ, ÆÐ, ³¡³»±â, ¼ö»óÀü, ¼±¼ö, ¸ð¾ç, ¼¼·Â, Áý µî)À» Á¤±³ÇÏ°Ô ÀÌÇØÇÏ´Â ´Ü°è·Î ³ª¾Æ°¥ ¶§±îÁö, ¸Å¿ì ºü¸¥ ¼Óµµ·Î Áøº¸ÇÏ¿´´Ù.
¾Æ¹«·± »çÀü Áö½Ä ¾øÀÌ ¿ÀÁ÷ ¹ÙµÏ ±ÔÄ¢¸¸ ÀÔ·ÂµÈ ¾ËÆÄ°í Á¦·Î´Â ÈÆ·ÃÀ» ½ÃÀÛÇÏ¸é¼ 18±Þ¸¸µµ ¸øÇÑ ¹ÙµÏÀ» º¸¿©Áá´Ù. '1ÀÇ1'¿¡µµ °Åħ¾øÀÌ µ×´Ù.
¡ã±âº¸¸¦ Çѹøµµ º¸Áö ¾Ê¾Ò´Ù. ±×Àú ÀÚ±â ÀڽŰú ¹ÙµÏÀ» µÎ¸é¼ ¿ª´ë ÃÖ°ÀÇ ¹ÙµÏ ½Ç·ÂÀ» °®Ãâ ¶§±îÁö ¾ËÆÄ°í Á¦·Î¿¡°Ô ÇÊ¿äÇÑ ¼¼¿ùÀº ºÒ°ú 40ÀÏÀ̾ú´Ù.[À̹ÌÁö | ±¸±Û]
3½Ã°£ÀÌ Áö³ªÀÚ ¹ÙµÏ¿¡ °« ÀÔ¹®ÇÑ »ç¶÷ÀÇ ¼öÁØÀÌ µÇ¾ú´Ù. ¿ÀÁ÷ »ó´ë µ¹À» ÀâÀ¸·¯ ´Ù´Ï´Â µ¥ Ç÷¾ÈÀÌ µÈ ¸ð½ÀÀ» º¸¿´´Ù.
19½Ã°£ÀÌ °æ°úÇÏ¸é¼ ±âº»±â°¡ °®ÃçÁö°í Á¡Â÷ »çȰ¡¤¼¼·Â¡¤Áý°ú °°Àº ¹ÙµÏÀü·«ÀÇ ¿ä¼Ò¸¦ ÀÌÇØÇϱ⠽ÃÀÛÇß´Ù.
3ÀÏÀÌ Áö³ª¸é¼ '¾ËÆÄ°í ¸®(AlphaGo Lee,À̼¼µ¹ 9´ÜÀ» ÀÌ±ä ¾ËÆÄ°í ¹öÀüÀ» ÁöĪ)'¼öÁØÀ» ³Ñ¾î¼±â ½ÃÀÛÇß´Ù.
21ÀÏÀÌ °æ°úÇÏÀÚ ¾ËÆÄ°í ¸¶½ºÅÍ¿Í ºñ½ÁÇÑ ¼öÁØ¿¡ À̸£·¶´Ù.
40ÀÏ µ¿¾È ¾à 3õ¸¸ ´ë±¹À» ÈÆ·ÃÇÑ µÚ¿£ ¾ËÆÄ°í ¸¶½ºÅ͸¦ Å©°Ô À̰å´Ù. ÀÌ ´Ü°è°¡ µÇÀÚ ¾ËÆÄ°í Á¦·Î´Â ±âÁ¸ Á¤¼®À» ¼±È£ÇÏÁö ¾Ê´Â °æÇâÀ» º¸¿´°í »ç¶÷ ¼öÁØ¿¡¼ ¿¹ÃøÇϱ⠾î·Á¿î Âü½ÅÇÑ º¯È°¡ Áõ°¡Çß´Ù.
#Àΰ£ÀÇ ±âº¸¸¦ ¾È °ÅÃÆ´õ´Ï ¿Ö ´õ °ÇØÁ³À»±î
¾ËÆÄ°í Á¦·Î´Â Elo·¹ÀÌÆÃ 5,185Á¡À» ±â·ÏÇϰí ÀÖ´Ù. ¾ËÆÄ°í ¸¶½ºÅÍ 4,858Á¡, ¾ËÆÄ°í ¸® 3,739Á¡, ¾ËÆÄ°í ÆÇ(ÆÇÈÄÀÌ) 3,144Á¡ ¼øÀÌ´Ù.
¾ËÆÄ°í Á¦·Î°¡ Àΰ£ÀÇ ±âº¸·Î ÇнÀÇÑ ±âÁ¸ ¾ËÆÄ°í¸¦ ¾ÐµµÇÏ´Â ÀÌÀ¯¸¦ ³õ°í ¿¬±¸ÁøÀº "»ç¶÷ÀÌ ±×°£ ½×¾Æ¿Â ¹ÙµÏ¿¡ ´ëÇÑ Á¢±Ù¹ý°ú´Â ÁúÀûÀ¸·Î ´Ù¸¥ Àü·«À» ¾ËÆÄ°í Á¦·Î°¡ ±úÄ£ °ÍÀ¸·Î º¸ÀδÙ"°í ¤¾ú´Ù.
¡ã¾ËÆÄ°í Á¦·Î, ±×¸®°í ±âÁ¸ ¾ËÆÄ°í ¹öÀüµéÀÇ Elo·¹ÀÌÆÃ ºñ±³. [À̹ÌÁö | ±¸±Û]
³í¹®ÀÇ °øµ¿ÀúÀÚ µ¥À̺ñµå ½Ç¹ö(David Siver)´Â "Àΰ£ Áö½ÄÀÇ ÇѰ迡 ´õ ÀÌ»ó ¾ô¸ÅÀÌÁö ¾Ê±â ¶§¹®"À̶ó°í °Á¶Çß´Ù.
ÀÌ ¹Û¿¡ Á¤Ã¥¸Á(policy network, ´ÙÀ½ ¼ö¸¦ ¼±ÅÃ) °¡Ä¡¸Á(value network, ½ÂÀÚ¸¦ ¿¹Ãø)À¸·Î ¾Ë·ÁÁø µÎ °³ÀÇ ½Å°æ¸ÁÀ» Çϳª·Î ÅëÇÕÇÏ¿© ÈÆ·Ã°ú Æò°¡¿¡ È¿À²¼ºÀ» ³ôÀÎ °Íµµ ÀÌÀ¯ÀÇ Çϳª·Î ²ÅÈù´Ù.
#±¹°¡´ëÇ¥ÆÀ "¾ËÆÄ°í Á¦·ÎÀÇ ±âº¸, ÇØ¼® ¾î·Á¿ö"
¾ËÆÄ°í Á¦·ÎÀÇ ±âº¸¸¦ Á¢ÇÑ ±¹°¡´ëÇ¥»óºñ±ºµéÀº ¿©·¯°¡Áö ¹ÝÀÀÀ» º¸¿´´Ù.
"Àΰ£ÀÇ ±âº¸¸¦ ÀüÇô º¸Áö ¾Ê°í ÈÆ·ÃÇߴµ¥µµ Àΰ£ÀÇ ¹ÙµÏó·³ ƲÀÌ ÀâÈ÷´Â º¯Ãµ °úÁ¤ÀÌ ½Å±âÇÏ´Ù."
"½Å¼±ÇÏ´Ù. ÇÏÁö¸¸ ÀÌÀü ¾ËÆÄ°í ¸¶½ºÅÍ ¹öÀüÀÇ ¼¿ÇÁ´ë±¹ 55±¹ÀÌ ¿ö³« ÆÄ°ÝÀûÀ̾ú±â¿¡ Ãæ°ÝÆÄ´Â ±×·¸°Ô±îÁö Å©Áö ¾Ê´Ù."
"¾ËÆÄ°í ¸¶½ºÅÍÀÇ ¹ÙµÏ°ú ºñ±³ÇØ º¸¸é ¿ÀÈ÷·Á ¾ËÆÄ°í Á¦·Î°¡ ´õ Àΰ£°ú ºñ½ÁÇØ º¸À̱⵵ ÇÑ´Ù." µîÀÇ ¹ÝÀÀÀ» º¸¿´´Ù.
ÇÑÆí "¿ì¸®°¡ ¾ËÆÄ°í Á¦·Î°¡ ¾ó¸¶³ª °ÇÑÁö Æò°¡ÇÏ´Â °ÍÀº ¸¶Ä¡ 18±ÞÀÌ Á¤»ó±Þ ÇÁ·Î±â»çµéÀ» ºñ±³ÇÏ´Â °ÍÀ̳ª ¸¶Âù°¡Áö" ¶ó¸ç "¾ËÆÄ°í Á¦·ÎÀÇ »ç°í¹æ½ÄÀÌ µµ¿òÀ» ÁÖ´Â ºÎºÐµµ ¾î´À Á¤µµ ÀÖÁö¸¸ ´ëºÎºÐÀº ÇØ¼®Á¶Â÷ ½±Áö ¾Ê´Ù."´Â ¸ñ¼Ò¸®µµ ³ª¿Ô´Ù.