為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」
作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 |
DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。
DeepMind之前開發的AlphaZero,儘管可以玩圍棋、西洋棋和日本將棋,但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處,就在藉鑑之前經驗迅速適應新環境。
但類化能力不是一蹴而就,就像玩遊戲,也是先做簡單任務,逐步升級到複雜任務。《空洞騎士》(Hollow Knight)一開始只需要隨意走動揮刀砍怪,但噩夢級難度的「苦痛之路」關,沒有前面累積的技巧,只能玩寂寞。
多任務宇宙
DeepMind此次採用「課程學習」,讓智慧體於不斷擴展升級的開放世界學習。也就是說,AI新任務(訓練資料)是基於舊任務不斷生成。智慧體可盡情鍛鍊自己,簡單的如「靠近紫色立方體」,複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」,甚至和其他智慧體玩耍,如捉迷藏──「找到對方,且不要被對方發現」。
每個小遊戲存在世界小角落,千千萬萬個小角落拼成龐大的物理模擬世界,如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三要素關係,決定任務的複雜度。
複雜度的判斷有四個維度:競爭性、平衡性、可選項、探索難度。
比如「搶方塊」遊戲,藍色智慧體需要把黃色方塊放到白色區域,紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾,因此競爭性較強;同時雙方條件對等,平衡性比較高;因目標簡單,所以可選項少;DeepMind把探索難度評為中上,可能是因定位區域算較複雜的場景。
再如「球球喜歡和方塊一起玩」遊戲,藍色和紅色智慧體有共同目標,讓相同顏色的球體和方塊放在相近位置。
這時競爭性自然很低,平衡性毋庸置疑很高的;可選項比上面遊戲高很多;探索難度沒有定位區域,智慧體隨便把球體和方塊放哪都行,難度就變小了。
基於這四個維度,DeepMind打造超大規模「宇宙」任務空間,幾何「地球」也只是這宇宙的小角落,是四維任務空間的一點。DeepMind將「宇宙」命名為XLand,包含數十億個任務。
來看XLand的全貌,由一系列遊戲組成,每個遊戲在許多模擬世界進行,這些世界的拓樸和特徵平滑變化。
終生學習
數據有了,接下來得找到合適的算法。 DeepMind發現,目標注意代理(GOAT)可學習更通用的策略。
具體來說,智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後,生成中間輸出,傳遞給GOAT模組,會根據智慧體目前目標處理中間輸出的特定部分,邏輯分析目標。
邏輯分析是指,每個遊戲可藉由一些方法,構建另一個遊戲,並限制策略的價值函數的最優值上限或下限。
DeepMind提出一個問題:對每個智慧體,什麼樣的任務是最好的?換句話說,打怪升級時,什麼樣的關卡設置才讓玩家順利升級為「真」高手,而不是一刀9999?
DeepMind的答案是,每個新任務都基於舊任務生成,「不會太難,也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。
訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀,而是鼓勵終身學習,即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法,在新任務和舊任務之間彈性連接。
怎麼不讓智慧體做新任務時不適應而「暴死」?進化學習就提供很好的靈活性。總體來說,新任務和舊任務同時進行,且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體,會選拔到新任務繼續學習。
新任務中,舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製,參與新一輪「競爭」。除了舊任務的優秀智慧體,還有很多新人參與,這就引進隨機性、創新性、靈活性,不用擔心「暴死」問題。
當然,因任務不斷生成、動態變化,一個任務可訓練不同長處的智慧體,並往不同方向演化(隨著智慧體相對性能和強健性進行)。最終每個智慧體都會形成擅長任務的集合,就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小,簡直是模擬地球。
DeepMind表示,「這種組合學習系統的特性是,不最佳化有界性能指標,而是更新定義的通用能力範圍,這使智慧體開放式學習,僅受環境空間和智慧體的神經網路表達能力的限制。」
智慧初現
最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種?DeepMind說,智慧體有很明顯的零樣本學習能力,比如使用工具、合圍、數數、合作+競爭等。
來看具體例子。首先智慧體學會臨機應變。目標有三個:
黑色金字塔放到黃色球體旁邊
紫色球體放到黃色金字塔旁邊
黑色金字塔放到橙色地板
AI一開始找到一個黑色金字塔,想拿到橙色地板(目標3),但搬運過程瞄見黃色球體,瞬間改變主意,「我可以實現目標1啦」,將黑色金字塔放到黃色球體旁邊。
第二個例子是,不會跳高,怎麼拿到高台上的紫色金字塔?智慧體需要想辦法突破障礙,取得高台上的紫色金字塔,高台周邊並沒有類似階梯、斜坡的路。
因不會跳高,所以智慧體「掀桌子」,把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊,「等等,這不就是我要的階梯嗎?」這過程是否體現了慧體的智慧,還無法肯定,可能只是一時幸運。關鍵還是,要看統計數據。
經過5代訓練,智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲,涉及340萬個獨立任務,最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務,除了少數即使人類也無法完成的任務。
DeepMind的研究,或許一定程度體現「密集學習」重要性。也就是說,不僅資料量要大,任務量也要大。這也使得智慧體在類化能力有很好表現,如資料顯示,只需對一些新複雜任務進行30分鐘集中訓練,智慧體就可快速適應,而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。
往後我們也期待這「宇宙」更複雜和生機勃勃,AI經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。
資料來源:https://technews.tw/2021/07/30/deepmind_xland/
同時也有1部Youtube影片,追蹤數超過2萬的網紅KINUKURO,也在其Youtube影片中提到,遊戲 東周列萌志 Philosophic Love / 實況者 鬼怒川+長右﹝@SandM2013﹞ / 類型 哲學戀愛 / 主旨 比子聚更會說奇怪台詞的人出現了 作者:離水三尺工作室 下載:https://store.steampowered.com/app/528060/_Philosoph...
百家爭鳴春秋戰國 在 李怡 Facebook 的最佳解答
舊作選篇(之45)
端午與屈原
(以下是由2017年和2010年端午節寫的兩篇文章,彙合而成。)
發表在2017年5月30日的文章。
端午節,又稱詩人節,紀念中國第一位詩人屈原。
屈原(約公元前340-前278)是戰國時代楚國人。與中原各國文化相比,楚文化有顯著不同。屈原之前,中國的詩篇只有無法考證作者是誰的《詩經》,屈原是第一位詩人。魯迅《漢文學史綱要》:「戰國之世……在韻言則有屈原起於楚,被讒放逐,乃作《離騷》。逸響偉辭,卓絕一世。後人驚其文采,相率仿效,以原楚產,故稱『楚辭』。較之於《詩》(即《詩經》),則其言甚長,其思甚幻,其文甚麗,其旨甚明,憑心而言,不遵矩度。……其影響於後來之文章,乃甚或在(《詩經》)三百篇以上。」中國後來成為詩的王國,可說是屈原帶動的。
由於語言年代久遠,《楚辭》也像《詩經》一樣,讀來不似唐宋詩詞那樣流暢易明。但《詩經》中的「昔我往矣,楊柳依依,今我來思,雨雪霏霏」,會啟動你無限遐想;《楚辭》中的「秋蘭兮青青,綠葉兮紫莖;……悲莫悲兮生別離,樂莫樂兮新相知」,今天讀來仍然艷麗感人。又想起《紅樓夢》中「襲人」這名字,最早典故應該是屈原《九歌》的「綠葉兮素華,芳菲菲兮襲予」。花氣襲予,帶來一陣淒美。
屈原最動人的詩篇當然是《離騷》了,其中一些句子,我年輕時讀後深思,就抄在筆記本上:「世溷濁而不分兮,好蔽美而嫉妒」;「長太息以掩涕兮,哀民生之多艱」;「亦余心之所善兮,雖九死其猶未悔」;「路漫漫其脩遠兮,吾將上下而求索」那份對百姓和家國的深情,對追求良政的執着,終句是:「國無人,莫我知兮,又何懷乎故都?既莫足以為美政兮,吾將從彭咸之所居。」彭咸,是殷代賢大夫,諫君不聽,於是投水而死。屈原這個結句預示了他會作出與彭咸相同選擇,並因此而為後世留下悲壯的傳說和端午節的種種習俗。
近年有大陸學者對屈原之自沉,認為是不懂得政治需要妥協的不智,一死無助於政治的改進,反而忍辱妥協還能夠伺機施行良政。這或許是當今一些知識人為與極權政治合作而尋找的心理托詞。但屈原在《漁父》中已作了回答:「舉世皆濁我獨清,眾人皆醉我獨醒……寧赴湘流,葬於江魚之腹中;安能以皓皓之白,而蒙世俗之塵埃乎!」既然是舉世皆濁、眾人皆醉,混入權力層中,除了同濁同醉之外,還能夠有甚麼作為?
不知道從甚麼時候開始,屈原就被稱為「愛國詩人」。他的「愛國」,不是愛統一的中國,而是愛周朝各諸侯國之一的楚國。他畢生的政治追求,是抗擊強秦的侵略,維護楚國的獨立,實行清明的政治。實際上,分離狀態的春秋戰國時期,才是中國文化、思想、學術百家爭鳴的最輝煌時期。秦統一之後,焚書坑儒,百家寂滅,楚文化也消失了。
抗暴秦,避秦,移民潮,讓人想起屈原的《哀郢》。
2007年 6月19日端午節,我發表的一篇文章,講到《哀郢》。89年六四後,畫家黃永玉畫了一幅題為《哀郢》的大畫,全畫是穿大紅袍蓄長髮伏地吟詠的屈大夫,畫的上方,畫家抄下了屈原全首《哀郢》,最後畫家寫:己巳年仲夏日黃永玉接家書後奮筆作之於山之半居。己巳年即89年,這年夏天何以有此奮筆之作?當年我初看此畫,心中已戚戚然。詩句中的「去故鄉而就遠兮,遵江夏以流亡。」和結句的「鳥飛反故鄉兮,狐死必首丘。信非吾罪而棄逐兮,何日夜而忘之?」使人聯想到當時的中國局勢,並引起共鳴。
一年來,香港局勢大變,兩制的人身安全和自由的保障,日日向一國靠攏。《哀郢》的「去故鄉而就遠兮,遵江夏以流亡。」是香港人成為中國人之後,擺脫不掉的秦以後專制時代中國人的宿命。
百家爭鳴春秋戰國 在 基金黑武士 Facebook 的最佳解答
#建置派 #共和君主論 #袁世凱稱帝
上一篇文章談到,打倒建置派的人,最終成為了建置派,那麼如何避免這樣的惡行循環?
我們從袁世凱稱帝時所發表的《共和與君主論》,裡面非常強調的一件事情,就是民智未開,不適合民主制度,中國不能沒有皇帝,因為中國人民智未開。那麼什麼造就了整個中國人幾千年來的奴性與民智未開?
中國思想最開放的時代,莫過於春秋戰國,分裂的時代,思想自由、百家爭鳴。只有真的好的、有用的思想才能勝出,因為各國交戰,必須要非常實用的學問才會獲得重用。沒用的、廢的學問,就只能周遊列國而不得志。
秦始皇統一天下後為什麼要焚書坑儒,因為思想太過自由不利統治。後來的漢武帝深知這個道理,但是他也看到了秦始皇焚書坑儒,獲得了極大的民怨與罵名。因此他就找了春秋戰國當中最廢,但是統治(洗腦)人民最有效的學說,就是孔子與他的儒家思想。用儒家思想控制人民,因為儒家思想主要都是保守,且不反抗的思維。這就是後來史學家所稱,罷黜百家、獨尊儒術。
自此、華夏民族就進入了一個思想的禁錮,中國人都以儒家思想為依歸,科舉制度也都是考儒家思想,自然而然的,學習其他學派的人就會少的很多。有趣的是,連北方遊牧民族統治大陸這塊土地的時候,也維持科舉制度鞏固儒家思想,因為他們發現,原來這塊土地已經有非常完善的洗腦系統,他們只要維持這套洗腦的體系,就能夠安穩的統治這塊大陸。這就是為什麼幾千年來,大陸這塊土地上人,都維持這套思考的系統,包含台灣自蔣介石統治時代也是沿用這套系統。
相對而言,西方國家自14世紀文藝復興以來,他們開始不斷的思考,開始不斷地追求事情的真理。思想上是自由的、開放的,大幅推進了整個西方世界的思想,也造就了目前中西方思想上有著極大的差異。從最簡單的角度來講,西方的教育著重思考,東方的教育就是死背為主。
因此所謂的中國人『民智未開』,其實只是統治者幾千年來便於統治的手法,而不是中國人從根本上就是笨蛋。人民必須要從思想上被解放,不再受到『傳統思維』的禁錮,能夠自由的思考,追求事務的真理,如此才能打破這個惡性循環。
百家爭鳴春秋戰國 在 KINUKURO Youtube 的最佳貼文
遊戲 東周列萌志 Philosophic Love / 實況者 鬼怒川+長右﹝@SandM2013﹞ / 類型 哲學戀愛 / 主旨 比子聚更會說奇怪台詞的人出現了
作者:離水三尺工作室
下載:https://store.steampowered.com/app/528060/_Philosophic_Love/
百家爭鳴春秋戰國 在 知史- 春秋戰國時期為什麼會出現百家爭鳴的原因 的推薦與評價
百家爭鳴 出現的原因概括起來是以下幾點因素: 其一,政治因素。當時處於社會大變革時期,社會動盪不安,各諸侯國林立紛爭。各諸侯國的國君 ... ... <看更多>
百家爭鳴春秋戰國 在 [討論] 光靠商鞅變法跟遠交近攻就能一統天下? - 看板C_Chat 的推薦與評價