近日,由北京大學(xué)人工智慧研究院、工學(xué)院、電腦學(xué)院和倫敦國王學(xué)院共同完成的論文——《大規(guī)模多智慧體系統(tǒng)的高效強化學(xué)習》在國際學(xué)術(shù)期刊《自然·機器智慧》上發(fā)表。這一成果首次在大規(guī)模多智慧體系統(tǒng)中實現(xiàn)高效去中心化協(xié)同決策,有利於提升人工智慧決策演算法的擴展性和適用性。
多智慧體系統(tǒng)主要以龐大的智慧體交互數(shù)據(jù)為基礎(chǔ),利用大量計算資源驅(qū)動每個智慧體學(xué)習如何與其他智慧體合作執(zhí)行複雜任務(wù),其核心範式是多智慧體強化學(xué)習。
“比如一個無人機編隊,每架無人機都由人工智慧控制,我們把每架飛機的控制器叫作智慧體,這個無人機編隊由多個智慧體構(gòu)成,就是一個多智慧體系統(tǒng)。”論文第一作者、北京大學(xué)人工智慧研究院博士生馬成棟解釋。
馬成棟説,在真實大規(guī)模系統(tǒng)中,各個控制單位之間、控制單位與環(huán)境之間的交互成本往往非常高昂。這些系統(tǒng)中經(jīng)常存在客觀通信限制,如通信距離太遠、全局通信有隱私?jīng)讹L險、通信能耗限制等。控制單位之間難以實現(xiàn)全局資訊交換,阻礙了人工智慧決策演算法在大規(guī)模系統(tǒng)中的擴展和應(yīng)用。
當前,去中心化的多智慧體強化學(xué)習成為國際學(xué)術(shù)界的研究熱點,其旨在探索一種演算法,即在有限數(shù)據(jù)和資源條件下,將決策能力擴展到包含大量智慧體的複雜真實系統(tǒng)中。
馬成棟説,去中心化的多智慧體強化學(xué)習,以不依賴全局資訊的方式讓每個智慧體實現(xiàn)高效去中心化協(xié)同決策,展現(xiàn)出獨特優(yōu)勢。
論文通訊作者、北京大學(xué)人工智慧研究院助理教授楊耀東介紹,研究團隊通過網(wǎng)路化結(jié)構(gòu)解耦系統(tǒng)的全局動態(tài)特性,使智慧體能獨立學(xué)習局部狀態(tài)轉(zhuǎn)移、鄰域資訊價值和去中心化策略,將複雜的大規(guī)模決策難題轉(zhuǎn)化為更容易求解的問題。得益於此,即使在樣本數(shù)據(jù)和資訊交互受限的情況下,大型人工智慧系統(tǒng)也能展現(xiàn)令人滿意的決策性能。
研究團隊在較為複雜的城市交通和電力網(wǎng)路中,對包含數(shù)百個智慧體的場景進行了測試。結(jié)果顯示,與中心化多智慧體學(xué)習方法相比,去中心化的方法可將資訊交換成本降低70%或更多。而且,隨著智慧體數(shù)量不斷增長,這一比例還會顯著下降。同時,樣本效率可提升50%以上。
“這一研究成果對於將人工智慧模型擴展到大型電力網(wǎng)路、城市交通信號控制等大規(guī)模多智慧體系統(tǒng)具有重要價值。”馬成棟舉例説,在大型電網(wǎng)系統(tǒng)中,節(jié)點之間資訊交換和傳輸過於頻繁,難免會産生干擾。某些節(jié)點一旦發(fā)生故障,就會嚴重影響其他節(jié)點的性能。去中心化可以降低這一風險,提高電網(wǎng)系統(tǒng)穩(wěn)定性和安全性。
責任編輯:夏巖