取法乎上,僅得其中。機器像人,路漫漫。
軍備競賽,只要有一個國家邁出第一步,緊接著就會出現第二個國家,第三個國家……最終結成一張緊張又隱晦的霸權關系大網,
裹挾在人類歷史上最大的內卷之中,各國軍隊開發作戰機器人的意圖是什么?站在軍事變革的時代長河中,作戰機器人的技術實際進展到了哪一步?人工智能會不會成為軍備競賽中的重要一環?我們惴惴不安的是軍備競賽的恐怖,還是前沿領域激發機器人的意識潛力?
從技術發展的角度看,許多高科技都是借助軍事契機向前發展。1968年,阿帕網(ARPA網)誕生,有一個流傳甚廣的說法是,阿帕網是美國國防部為抵御前蘇聯的核打擊而建造的通訊網路,即使部分指揮點被摧毀后,其它點仍能正常通訊工作,
這個最初由美國國防部高級研究計劃局用于軍事研究目的局域網,被認為是現今互聯網(Internet)的前身,從此之后,互聯科技便開始了從局部互聯到廣域互聯,從軍用到民用的發展過程,
但著眼國際上成效顯著的AI落地項目,人工智能技術在醫療健康領域大顯身手,其因不僅是醫療領域有大量的數據可供機器學習,更為重要的是醫療問題多有明確的邊界,AI運行極其隱秘且規整。在這種數據密集、知識密集、腦力勞動密集為特征的領域中,機器學習更像是設定好收益以及減益目標,通過無限窮舉,并且依托強大算力的超級電腦,但是距離人們認知的“智能”,還有太大差距。
在現實世界中,少有存在明確邊界的問題,
軍事作戰地形復雜,作戰環境依附作戰雙方的機動戰術,在這種軟規則和硬規則的約束條件下成長起來的機器人,能否依據軍事作戰的特殊約束條件,提高機器人的自主決策能力,成長為配合士兵作戰的鋼鐵智能?
一、世界軍事強國對機器人部隊的構想
英國正計劃在2030年建機器人大軍,部署12萬個”終結者”機器人用于下一代戰爭。根據英軍國防參謀長尼克·卡特將軍的說法,在未來十年或2030年代,約有四分之一的英國軍隊可能是機器人,
與此同時,美國正在研制機器人戰車,用來提升陸軍作戰能力。到21世紀30年代,這些快速、強力的車輛將在戰場上巡邏,配合陸軍進行作戰,
發達國家率先將機器人作為軍備一部分,多數人并不驚訝,機器人可能會補充新兵的缺口,減少對人類士兵的依賴,并可能多元擴充國家的軍事力量。在以美國為首的許多國家已經增加了對機器人技術的軍事投資,機器人很可能成為未來任何國家軍事武器庫中的關鍵部分。
從歷史的長河看,社會形態開始向智能化演變的時候,戰爭形態必將隨之向智能化演變,從冷兵器時代刀、槍、劍、戟,強調士兵近戰肉搏,到熱兵器時代槍林彈雨重視戰略戰術,我們是否要馬上迎來資訊戰、信號戰、無人作戰時代?
目前,美國陸軍研究實驗室(Army Research Lab,ARL)正訓練機器人在崎嶇的地形(上、中)測試自主導航技術,目標是能協同人類隊友。ARL還在開發具有操作能力的機器人,這種機器人可與物體交互,替代人類作戰冗余行為。
然而,機器人的底層技術到了望而生畏的地步了嗎,帶著這些問題,IEEE Spectrum的高級編輯,Even Ackerman(埃文·阿克曼),近期前往了馬里蘭州阿德爾菲實驗室中心( Adelphi Laboratory Center),以第一視角寫下了這篇文章。AI科技評論將其整理,與大家一同探索軍地作戰機器人的真實能力。
二、美國陸軍研究實驗室的陸地作戰機器人
- 在混亂環境中,機器人表現糟糕
“我可能不應該站得這么近,”當機器人慢慢靠近我面前地板上的一根大樹枝時,我對自己說。讓我緊張的不是樹枝的大小,而是這個自主操作的機器人,雖然我知道它應該做什么,但我完全不確定它接下來會做什么。
如果一切都像ARL的機器人專家預料的那樣,機器人接下來會識別出樹枝的存在,抓住樹枝,并把樹枝拖到道路的一旁,這些機器人很清楚自己正在做什么,但我站在它們面前,還是心生恐懼,所以我往后退了一小步,
這款機器人的名字叫“RoMan”(Robotic Manipulation),意為“機器操作”,和一臺大型的割草機差不多大,有一個履帶底座,可以應對大多數不同的路況,它的前部有一個矮小的軀干,配備了攝像頭和深度傳感器;還有一對手臂,手臂的原型來自災難響應機器人 RoboSimian,最初由NASA的噴氣推進實驗室(Jet Propulsion Laboratory,JPL)為美國 DARPA 的機器人競賽開發,執行與災難相關的任務,
RoboSimian
今天,羅曼的任務是清理道路。這是一項多步驟的任務,ARL希望機器人盡可能自主完成,操作員不會指示機器人以什么方式抓住目標物體、或將目標物移動到某個特定的位置,而是告訴RoMan要“清理出一條干凈的道路”,然后由機器人自主決定如何完成這項任務,
“自主決策的能力”,本就是機器人之所以可以稱為機器“人”的原因所在。我們重視機器人,是因為它們能夠感知周圍所發生的事情,根據感知的資訊做決定,然后在沒有人類干預的情況下采取有效的行動,在過去,機器人的決策是遵循高度結構化的規則。在像工廠一樣結構化的環境中,機器人能很好地工作,但在混亂、陌生或定義不明確的環境中,比如戰場,那么,對規則的依賴則會使機器人“笨手笨腳”,因為機器人無法提前精確預測與作規劃。
- 深度學習:一塊“絆腳石”
和許多機器人(包括家用吸塵器、無人機和自動駕駛汽車等)一樣,RoMan是通過人工神經網路來應對在半結構環境中遇到的挑戰。大約在十年前,人工神經網路開始應用于各種各樣的半結構化數據,此前,這些半結構化數據一直是基于規則編程(也就是所謂的“符號推理”)來運行的計算機的難題。
人工神經網路不是識別特定的數據結構,而是識別數據模式,找出與網路先前遇到的數據相似但不完全相同的新數據。人工神經網路的部分吸引力,就在于它們是通過實例進行訓練,通過讓神經網路學習標記的數據,形成自己的識別模式,具有多層抽象的神經網路,則稱為“深度學習”,
盡管人類參與了訓練的過程,人工神經網路也受到了人類大腦神經網路的啟發,但從根本上看,深度學習系統的識別模式與人類看待世界的方式是不同的。我們經常無法理解深度學習系統的輸入數據與輸出數據之間的關系,所以深度學習系統也往往被稱為“黑盒子”模型,
深度學習的這種“黑盒子”不透明決策特性,給像 RoMan 這樣的機器人和 ARL 實驗室造成了一些問題。這種不透明性也意味著,我們要必須謹慎使用依賴深度學習系統的機器人。
深度學習系統擅長識別模式,但缺乏人類對世界的理解能力,也就無法像人類一樣做出合乎情理的決策,這就是為什么深度學習在一些定義良好且范圍小的應用中能取得最出色的表現,
“當你同時擁有構造良好的輸入和輸出,并且可以在這些輸入與輸出中完整地表達你的問題,那么深度學習就很有用,”美國羅徹斯特大學部機器人與人工智能實驗室主任 Tom Howard 談道。此前,Tom Howard為RoMan和其他地面機器人開發了許多自然語言交互算法,“問題是,在為智能機器人編程時,這些依賴深度學習系統的機器人實際存在的大小是多少?”
Howard解釋說,當你將深度學習應用到更高層次的問題時,輸入的數據量可能非常大,處理大規模數據會十分困難,尤其當研究的對象是一個170公斤重的雙臂軍用機器人時,它在執行任務中可能出現的不可預測或無法解釋的行為就變得無比關鍵,
幾分鐘后,羅曼還沒有動——它仍然坐在那里,對著樹枝沉思,手臂像螳螂一樣擺動。在過去的10年里,ARL的機器人技術合作聯盟(Robotics Collaborative Technology Alliance ,RCTA)一直與來自卡內基梅隆大學部、佛羅里達州立大學部、General Dynamics Land Systems公司、JPL、MIT、QinetiQ North America、中佛羅里達大學部、賓夕法尼亞大學部和其他頂級研究機構共同開發用于未來地面作戰的機器人自主能力,RoMan就在這個大項目中的一個代表,
RoMan正在思考的“清出一條路”的任務對機器人來說是很困難的,因為這個任務太抽象了。在這個任務中,羅曼需要識別可能擋住去路的物體,推斷這些物體的物理性質,弄清楚如何抓住它們,以及采用哪種最佳的操作技巧(推、拉、提等等),然后將這些行為完整地執行出來,對于一個本就對世界了解有限的機器人來說,這個任務的步驟實在太多,且充滿未知,
- “模塊化”理解世界
ARL操縱和移動項目的人工智能首席科學家Ethan Stump 談道:“讓機器人逐漸理解世界,正是ARL所開發的機器人與其他依賴于深度學習的機器人所不同的地方,”
“軍隊也許會在世界上的任何地方執行任務,但我們不可能收集應用到機器人的所有地域的詳細數據,我們也許會被派去地球另一側從未涉足的森林,但我們也要表現地就像在自家后院一樣出色,”他介紹,但大多數深度學習系統只能在它們受訓的領域和環境中可靠地運行。此外,如果軍隊作戰機器人的深度學習系統表現不好,他們并不能通過簡單地收集更多的數據來解決問題,數據量有限。
ARL的機器人還需要意識到自己在做什么。Stump 解釋:“在一項任務的標準執行順序中,你有目標、約束條件、表達指揮官意圖的話術,”換句話說,RoMan 可能需要快速地清理一條道路,也可能需要安靜地清理一條道路,這取決于任務的具體要求。即使對目前最先進的機器人來說,這也是一個很高的要求。
在我看著的時候,RoMan再次搬運樹枝,ARL的自主方法是模塊化的,其中,深度學習與其他技術結合,讓 RoMan 幫助ARL確定什么任務適合什么技術,
目前,RoMan 正在測試兩種從3D傳感器數據中識別物體的不同方法:賓夕法尼亞大學部的方法是基于深度學習,而卡耐基梅隆大學部使用的是一種通過搜索來感知的方法,這種方法依賴于更傳統的3D模型資料庫,只有事先確定要尋找的對象,搜索感知方法才有效,但這種方法的訓練要快得多,因為每個物體只需要一個模型,而且,即使物體很難被感知,比如物體的一部分被遮擋或被顛倒,搜索感知方法也能準確地識別物體。ARL同時測試兩種方法,讓兩種方法同時運行、相互競爭,以選出最通用和最有效的方法,
感知是深度學習擅長的事情之一。ARL的計算機科學家 Maggie Wigness 說:“得益于深度學習,計算機視覺領域已經取得了極大進展,我們已經成功地將一些只在一個環境中訓練的深度學習模型很好地泛化到新的環境中。”
ARL的模塊化方法是將幾種技術的優勢結合起來。例如,基于深度學習視覺對地形進行分類的感知系統,可與基于逆強化學習方法(inverse reinforcement learning)的自動駕駛系統一起工作,在逆強化學習方法中,模型可以通過人類士兵的觀察迅速創建或優化,而傳統的強化學習基于既定的獎勵函數來優化解決方案,通常只有在你不確定什么是最佳行為的時候使用。這和作戰思維不謀而合,這種思維通常認為訓練有素的人在一旁指導機器人才是正確的做事方式,
“所以我們想要一種技術,讓士兵干預,結合一些戰場實例。如果我們需要新的行為,就可以更新系統,深度學習技術需要更多的數據和時間,”Wigness說。
- 如何安全運行?
深度學習要面臨的,不僅僅是數據稀疏和快速適應的問題,還有魯棒性、可解釋性和安全性等問題,Stump說:“這些問題并不是只有在作戰機器人中才會出現,但在軍隊作戰時尤其重要,因為它所引起的后果可能是致命的。” 需要明確的是,ARL目前并不是在研究致命的自主武器系統,而是在為美國軍方的自主系統奠定基礎,在未來,作戰機器人可能就如RoMan一樣行動,
Stump還表示,安全永遠是優先考慮的問題,但目前還沒有一種明確的方法來確保深度學習系統的安全性。“在安全的約束下進行深度學習是一項重要的研究工作,但將這些約束條件添加到系統中確實困難重重,因為你不知道系統中已有的約束條件是從哪里來的。所以,當任務變化,或環境變化時,約束條件就很難處理,
這甚至不是一個數據問題,而是一個架構問題。”無論ARL的模塊化架構是使用深度學習的感知模塊,還是使用逆強化學習的自動駕駛模塊,它都可以構成更廣的自動系統的一部分,并滿足軍隊對安全性和適應性的要求,
整合起來的深度學習系統就能作戰?
Nicholas Roy 是 MIT 機器人小組的負責人。他形容自己是一個“煽動者”,因為他覺得深度學習不應該被神化,所以他同意ARL機器人專家的觀點,即深度學習方法往往無法應對軍隊所面臨的挑戰,
“陸軍時時深入新的環境,而且敵軍總是嘗試不斷改變環境,所以機器人所經歷的訓練過程根本無法與軍隊的需求相匹配,” Roy說,”因此,很大程度上,深度網路的需求與陸軍作戰的任務是不匹配的,這是一個問題。”
在RCTA(Rear Cross Traffic Alert,后方橫向來車警示系統)任務中,Roy強調地面機器人的抽象推理。他認為,當深度學習被用于具有明確函數關系的問題時,它就是一項有用的技術,但當你開始研究抽象概念時,就不清楚深度學習是否可行,”
Roy說:“我對神經網路和深度學習如何以一種支持更高級的推理方式進行組裝非常感興趣,歸根到底,這是如何結合多個低級神經網路來表達更高層次概念的問題,但目前我們還不知道怎么做到這一點,”
Roy給出了使用兩個獨立神經網路的例子,一個用來檢測汽車,另一個用來檢測紅色的物體。與使用基于邏輯關系的、帶有結構化規則的符號推理系統相比,將這兩個網路合并成一個更大的網路來檢測紅色汽車要困難得多。“很多人都在研究這個問題,但我還沒有看到成功推動這種抽象推理形成的研究,”
在可預見的未來,ARL將通過讓人類參與高級推理和偶爾的低級建議,來確保自主系統的安全性和魯棒性。人類可能不會一直參與機器人系統的研究,但當人類和機器人作為一個團隊一起工作時,它們的效率會更高,當機器人合作技術聯盟項目(Robotics Collaborative Technology Alliance)的最新階段在2009年開始時,ARL已經在伊拉克和阿富汗呆了很多年,在那里,機器人經常被當作工具使用,我們一直在想,我們要怎么做才能讓機器人從工具變成球隊中的隊友,”
當人類指出抓取哪個區域的樹枝最有效時,RoMan確實得到了一點幫助。機器人對樹枝并沒有認知,這種世界知識(即人們常說的“常識”)的無知是所有自主決策系統的通病,但如果有一個人能利用我們人類的豐富經驗,稍微點撥一下RoMan,那么它工作起來就會容易地多,這一次,RoMan成功地抓住了樹枝,并將樹枝拖走了。
把一個機器人變成一個好隊友很難,因為要賦予機器人何種程度的自主權是十分棘手的。機器人的自主權太少,就需要人投入大量的精力來管理,這適用于處理爆炸物等特殊情況,但在其他情況下則效率低下,但如果給予機器人太多的自主權,則會有信任、安全和可解釋性等方面的隱患,
Stump解釋:“我認為我們要找的標準是,機器人的操作水平相當于工作犬,它們清楚地知道在有限的環境下,我們需要它們做什么;如果它們去到新的環境,還會有少量的靈活性和創造力,但我們不期望它們用創新的方法解決問題,如果它們需要幫助,它們可以向我們求助。”
- 對自主系統的探索要延續下去
即使是作為人類團隊的一員,RoMan也不太可能馬上在野外獨立執行任務。RoMan更像是一個研究平臺,借由這個研究契機,可以探索深度學習的一系列復雜問題,但是,ARL正在為RoMan和其他機器人開一個軟體,名為“自適應規劃參數學習”( Adaptive Planner Parameter Learning,APPL),可能會首先用于自動駕駛,然后是更復雜的機器人系統,包括像RoMan這樣的移動操控員。
APPL將不同的機器學習技術(包括逆強化學習和深度學習)分層排列在經典的自主導航系統之下,可以將高級的目標和約束應用在低級編程上。人類可以使用遠程操作演示、矯正干預和評估反饋來幫助機器人適應新環境,同時,機器人可以使用無監督強化學習來調整自己的行為參數。
結果就是,一個自主系統可以兼具機器學習的多個優勢,同時也提供了軍隊需要的安全性和可解釋性,有了APPL,像RoMan這樣的基于學習的系統,即使在不確定的情況下也可以采用可預測的方式運行,如果它處于與訓練環境十分不同的環境中,則需要依靠人類調優或人類演示,
商業和工業自動駕駛系統(比如自動駕駛汽車)的快速發展,難免使人們好奇:為什么軍隊會在先進技術的洪流中處于落后地位?Stump 的看法是,自主系統中有很多難題,軍隊的難題與工業難題不同。比如說,軍隊就沒有配備大量數據的結構化環境來操作機器人。未來,人類很可能仍然是ARL正在開發的自主框架中的關鍵角色。
三、結語:不要在發明棍子之前,困于對暴力的忌憚
從上述分析中可以看出,全球軍事機器人研究并沒有停滯不前而是在積極向前發展,人們更希望軍事機器人開發者能夠在戰斗和智能自動化方面找到平衡,
我們的時代軌跡是真正實現人機共融,而從機器人一隅來看,人和機之間的關系,漸次為輔助、協同、替代、擴展,輔助和協同已經實現,人的主體地位就要擺在更顯眼的位置了。