作為人形機器人的鐵粉,黃仁勛這兩天又放了一個大招:
算力高達2070TFLOPS的端側算力Jetson T5000,專為人形機器人打造。
至此,造芯片的黃仁勛,又將人形機器人的端側算力拉升到了一個新高度。
一個在不依賴云計算情況下,可以在本地執(zhí)行更多AI推理計算和多模態(tài)傳感器數據實時工作處理的高度。
這意味著,模型側和傳感器上的最新產研成果,在人形機器人上有了更快落地的可能。
這是我們看到的,2000多T的端側算力,能為人形機器人產業(yè)帶來的好處。
當然,這更多類似數學推導公式,是理論上的可行。
那么,實際上,現在的人形機器人又需要多大的算力?
01
無人不喜機器人
作為幾乎所有科技產品的終極形態(tài),機器人,尤其是人形機器人,在科技領域的地位是絕無僅有,也讓很多科技大佬神往。
這其中,有兩位科技大佬對人形機器人的推崇,直接讓原本處于邊緣地帶的人形機器人,飆升到了如今科技領域的頭牌。
一位是科技狂人馬斯克,那個成功發(fā)射了商業(yè)運載火箭、搞出了衛(wèi)星互聯網、研發(fā)了自動駕駛汽車,同時還在搞腦機接口的“造物主”。
在2021年的首屆AI Day上官宣要進入人形機器人領域后,僅用一年就造出了人形機器人原型機。
由于馬斯克創(chuàng)造了太多奇跡,做成了太多大家想都不敢想的事,當他官宣要造人形機器人時,直接將人形機器人這一經歷過諸多坎坷的概念,重新拉回到了歷史舞臺中央。
另一位則是掌管著全球第一家4萬億美元市值公司英偉達的創(chuàng)始人,黃仁勛。
黃仁勛是一個鐵腕管理者,同樣也是一位對技術極為敏感的企業(yè)家,在英偉達的企業(yè)發(fā)展史上,黃仁勛在技術萌芽期相信過兩個重要技術趨勢:
一個是人工智能,在深度學習還沒成為潮流的2014年,黃仁勛就關注到了人工智能,并相信人工智能就是未來。
于是,英偉達設計的GPU在隨后幾年里成了那些美國老教授訓練神經網絡的利器,黃仁勛甚至在GTC 2015上直接喊話,“我們不是硬件公司,我們是AI公司?!?/span>
人工智能就此被寫入了英偉達的企業(yè)戰(zhàn)略。
另一個正是機器人,英偉達面向機器人領域研發(fā)的Jetson系列計算平臺,遠早于這波人形機器人浪潮。
英偉達第一代Jetson系列計算平臺,是2014年發(fā)布的Jetson TK1,作為Jetson系列計算平臺首款產品,Jetson TK1的發(fā)布成了英偉達面向嵌入式AI和機器人領域戰(zhàn)略轉型的起點。
在這之后的十年里,我們看到,英偉達Jetson系列平臺持續(xù)演進,從最初不到1TFLOPS算力的Jetson TK1,一直演進到了如今擁有2070 FP4 TFLOPS算力的Jetson AGX Thor。
在此過程中,Xavier、Orin、Thor又成了英偉達在機器人產業(yè)中濃墨重彩的三代計算平臺。
以Jetson AGX Xavier為例,京東和美團就曾基于這一產品打造了自家的物流配送機器人,主流工業(yè)機器人廠商如發(fā)那科這樣的企業(yè),同樣有采用這款產品打造工業(yè)機械臂。
隨后,擁有100 TFLOPS算力的Orin系列產品,更是成了如今國內諸如智元、宇樹等企業(yè)人形機器人明星產品背后的AI算力平臺。
從某種意義上來看,如果說馬斯克讓全世界看到了人形機器人的商業(yè)價值,那么,黃仁勛則是一步步拔高了機器人算力平臺的性能,讓人形機器人在端側有了越來越強的算力平臺可用。
不過,即便是對機器人如此偏愛的黃仁勛,也依然覺得機器人這個概念不夠性感,至少在現在來看已經不夠獨特,所以,黃仁勛造了一個新概念——物理AI(Physical AI)。
相較于英偉達現在在虛擬世界里的絕對霸主地位,物理AI也體現了黃仁勛更大的野心。
02
既要大算力,也要小模型
人形機器人需要多少端側算力?
這是我在過去這幾個月和行業(yè)里專家聊天時,都會提到的一個問題,當然,也是一個注定不會有統(tǒng)一答案的問題。
從目前市面上人形機器人搭載的端側算力來看,大都是在100-200T。
這倒不是因為100T的算力是人形機器人的頂配,而是這樣的算力對于現在的人形機器人而言,已經完全夠用。
關于人形機器人的技能,現在倒是有一個共識,那就是,人形機器人依然停留在執(zhí)行抓取、分揀這樣的簡單動作,在具身模型加持下,正在不斷突破長程任務的執(zhí)行。
訓練、執(zhí)行這樣的任務,100T的算力做AI推理已經基本夠用。
如果要涉及更復雜的多傳感器數據處理與融合計算,以及更大參數規(guī)模的端到端模型的運行,100T算力就顯得有些捉襟見肘,而以往的方法是啟用云端算力。
當然,還有另一個思路,一個必然是未來主流技術路徑的思路——將端側模型做得更小。
就在前不久,機器人界的網紅波士頓動力在網上公布了Atlas的近況視頻,采用端到端LBM模型的Atlas已經能夠在加入各種干擾情況下,很好地執(zhí)行抓取、分揀、折疊等任務。
據波士頓動力官方透露,此次LBM模型采用的是基于Transformer架構的4.5億參數規(guī)模的模型,結合流匹配目標,就可以將包括30Hz圖像、人體感覺、語言指令等輸入信息轉化為控制Atlas運動的動作指令。
相較于動輒十億、百億參數規(guī)模的大模型,4.5億參數規(guī)模只能算是小模型,而這樣的小模型在計算負載上帶來的減壓,讓人形機器人有更多算力用于實時數據采集和處理。
實際上,不只是波士頓動力,即便是不斷在提升計算平臺算力上限的英偉達,也在積極主張端側小模型這條路子。
英偉達研究員在近期發(fā)布的一篇標題為《小模型是智能體的未來》的論文中就指出,小模型通過優(yōu)化硬件資源和智能體規(guī)劃設計,可以更高效地執(zhí)行智能體任務。
在大部分智能體執(zhí)行任務時,智能體需要大模型進行工具調用、任務拆解、流程控制、推理規(guī)劃等操作,而其執(zhí)行任務時,往往并不需要大模型來執(zhí)行簡單重復的任務,而是為每個子任務選擇合適的工具。
英偉達研究員認為,與其用通用大模型處理這些任務,還不如將多個經過專業(yè)微調的小模型執(zhí)行每個特定任務。
這樣的方法自然也適用于當下對算力有著獨特需求的人形機器人領域。
這樣的思路聽上去也很“波士頓動力”,好似又回到了程序化的“定式”里,但卻是大模型范式下的“程序化定式”。
而在推理調度不斷優(yōu)化、大模型推理系統(tǒng)持續(xù)模塊化發(fā)展的未來,這一范式也不失為未來十年,人形機器人產業(yè)化落地一條必不可少的先導路徑。