對標特斯拉Optimus,這家公司3年後要落地萬臺人形機器人

Ofweek光電信息網
04-25

作者 | 向欣

現下,端到端 VLA 已成爲具身智能領域公認的技術範式之一。

今年 2 月,一個可以控制人形機器人上半身,並使其識別、拾取幾乎所有家庭物品的端到端 VLA(視覺-語言-動作模型)——Helix,讓其研發公司 Figure AI 獲得投資人的熱捧。該公司目前正在進行一輪高達 15 億美元(約合人民幣108億)的融資。

其實,有一家中國企業比 Figure AI 更早提出並應用了端到端 VLA。

而且,他們最近還把 VLA 做了一次大升級。

這家企業是智平方科技。4 月 17 日,智平方科技發佈了兩款新的技術成果:

具身大模型 Alpha Brain:VLA 模型全面進化版,搭載了具備從桌面到開放環境,從單臂到全身協同,從簡單任務到長程推理能力的全域全身 VLA(GOVLA)。

通用智能機器人 AlphaBot 2(愛寶 2):全身自由度 34+,無需訓練即可完成多種任務。

智平方新品最大的突破在於,把 VLA 拓展到了對人形機器人全身的控制,並且賦予了它應對多場景、多任務的能力。

從這兩個新品的發佈,不難看出智平方走的是軟硬一體的路線,他們既做大模型,也做人形機器人本體。

公司也是行業中最早強調並堅持軟硬垂直整合的團隊,在技術研發方面有深度積累。

智平方成立於 2023 年 4 月,公司創始人郭彥東博士畢業於美國普渡大學,曾任美國微軟總部研究員、小鵬汽車首席科學家、OPPO 首席科學家,完整經歷了 PC、手機和汽車三大智能終端的創新週期,在 AI 與硬件的深度結合上擁有豐富的量產經驗。

在新品發佈會上,智平方也提出了自己的商業化目標:2028 年實現機器人的萬臺場景應用,2033 年拓展至百萬臺規模。

今年以來,人形機器人商業化應用的戰略價值持續凸顯。誰能最先打通從模型到機器人的閉環,誰就掌握了主動權。

智平方選擇了走難而正確的路——不是做 Demo,而是從一開始就向着“能用”的終局走去。

業內首次突破

新模型可控制人形機器人全身

智平方在大模型方面有兩個研究方向:端到端 VLA、空間智能模型。

端到端 VLA 是一種視覺-語言-動作模型,能夠將視覺輸入、語言指令直接輸出爲動作指令。

空間智能模型則專注於空間感知、建模與推理,解決機器人在 3D 環境中的定位、導航、交互等問題。

本次發佈的大模型 Alpha Brain,是這兩個技術的融合體。

Alpha Brain 由智平方原有具身大模型品牌 AI2R Brain 升級而來,它的核心構成是智平方全棧自研的 GOVLA 大模型(GOVLA:Global & Omni-body Vision-Language-Action)。

可以用全域、全身這兩個關鍵詞理解 GOVLA 大模型,這也是該模型的兩個重要突破:

全域:具備空間和任務的泛化能力,可以執行從桌面到開放環境、從簡單任務到需要長程複雜推理能力的任務。

全身:可以控制從單個機械臂到機器人全身的動作。

其中,爲了幫助機器人更好地實現對長程複雜任務的理解和分析,智平方還將 DeepSeek 的技術融入到 VLA 大模型的構建過程中。

在機器人領域,多數 VLA 僅支持 6-7 自由度的單臂控制,動作範圍固定,覆蓋桌面等單一場景,主要適配抓取、放下等簡單的任務。

由於人形機器人自由度更高,一般爲 20~60 個,關節數量多,全身協同動作複雜,運動控制難度更高,且獲取訓練數據也更困難,如何將 VLA 模型部署於人形機器人,並進行有效訓練,使其具備完成任務的能力一直是具身大模型的難點。

此前美國人形機器人獨角獸 Figure AI 發佈的 Helix 模型,就是實現了對人形機器人整個上半身的控制,可協調 35 個自由度,故而在具身智能領域引起轟動,也獲得了投資人的高度關注。

Helix 應用於 Figure 人形機器人,整理家庭物品但 Figure AI 在視頻中展示的收納食品、分揀物流的操作任務也限於桌面,未能展現跨區域的移動能力。

GOVLA 大模型更進一步,首次提出了輸出全身控制和移動軌跡。

意思就是,GOVLA 大模型可控制人形機器人全身的動作,並根據任務需求在不同區域進行移動,不僅限於桌面。

郭彥東博士舉了一個機器人做早餐的例子:

搭載常規 VLA 大模型的機器人,需要人把食材放到桌面,放到機器人的可視範圍內,因爲它只能看到桌面,只能在桌面操作,做完之後還需要人去給機器人提供服務。

而搭載 GOVLA 大模型的機器人能夠 360°感知周圍環境,可以自己去冰箱取食材,自己配比健康早餐,做完之後還可以送到餐桌,完成一個管家的全流程服務。這是一個機器人管家和一個自動化設備的最大的區別。

在架構層面,GOVLA 大模型由空間交互基礎模型、慢系統和快系統三部分組成,雙系統分工協作:

空間交互基礎模型:接收、處理環境信息;

慢系統 System2:負責複雜邏輯推理、任務拆解,輸出語言交互內容;

快系統 System1:輸出機器人全身控制動作與移動軌跡,兼顧實時響應與複雜決策能力。

這種架構與 Figure AI 的 Helix 模型存在共通之處,Helix 由兩個系統組成:

系統 2 負責“慢思考”,理解場景和語言;

系統 1 負責“快反應”,實時執行和調整行動。

Figure AI Helix 模型架構

不同之處在於,智平方的 GOVLA 大模型將環境信息感知、處理這一功能分給了空間交互基礎模型,提升環境信息處理的獨立性,以應對多樣化的複雜環境。

雖然 GOVLA 的架構與 Helix 相似,但端到端 VLA 這一技術架構,其實由智平方更早提出。

其實,在模型研發中,前瞻性是智平方一貫以來的特點。

端到端 VLA 成爲具身智能領域的技術範式,由兩個關鍵性事件推動。

一是 2024 年 6 月,美國具身智能公司 Physical Intelligence(PI)聯合斯坦福大學等高校與機構,發佈了端到端 VLA 模型 OpenVLA。

OpenVLA 是一個開源模型,加速了技術的擴散。

二是 2024 年 10 月,PI 發佈了新模型π0,π0 讓機械臂成功執行了疊衣服的任務,實現了對衣物這種柔軟、易形變的複雜對象的操作,以及長程任務的處理。

自此具身智能大模型的技術路線開始向端到端 VLA 方向收斂。

在端到端 VLA 方向上,智平方先於 PI 以及 Figure AI,聯合北京大學,在 2024 年 6 月發佈了端到端 VLA 模型 RoboMamba。

RoboMamba 不僅比 OpenVLA 更早發表並公開應用,還在未見任務(指模型從未接觸過的全新任務類型或場景)的泛化能力上顯著超越 Google 的 RT 系列模型。

在智平方的另一模型研發方向:空間智能上,智平方也領先於行業。

空間智能這一技術是在 2024 年 4 月,“AI 教母”李飛飛成立了聚焦空間智能研發的 World Labs 後才獲得廣泛關注。

而智平方早在 2023 年初就開始佈局,經過一年多發展,其研發的空間感知基礎模型在多個任務上超越了硅谷頭部企業的 SOTA 模型。

憑藉前瞻性佈局與全棧自研能力,智平方正在把人形機器人從單一場景中的“能動手”帶向多場景“會服務”的新階段。

機器人無需訓練

即可幹活 8 年後要落地百萬臺

隨着機器人任務邊界持續拓展、應用場景日益多元,各行業對其智能性、泛化能力與實時響應提出了更高要求。

機器人系統複雜性不斷提升,軟硬件之間的協同程度也越來越高。

相比過去單項技術的獨立突破,如今的具身智能發展更依賴於軟硬件深度融合。“軟硬一體”正逐漸成爲具身智能企業的發展趨勢。

一個典例就是,Figure AI 在今年 2 月宣佈與爲其提供模型方面技術支持的 Open AI 終止合作。

Figure AI 創始人表示,終止合作的原因之一是公司意識到必須要垂直整合機器人的軟硬件系統,他們無法將模型交給外部企業來完成。

與自動駕駛不同,只做軟件,對於尚未形成標準化產品的具身智能機器人,尤其是人形機器人來說,存在硬件適配、實時控制和數據閉環上的深度耦合問題。

實現軟硬件高度協同,不僅是提升性能的關鍵,也是企業實現規模化落地的基礎。

因此,智平方在研發大模型時,也同步研發人形機器人本體。

智平方一共推出過三代通用智能機器人,分別是 Alpha Bot、Alpha Bot 1S、AlphaBot 2,均爲輪式可升降人形機器人。

在 2024 世界機器人大會期間,Alpha Bot 1S 在現場進行了工作、生活場景的真實演示,能夠精準放置零件、爲人提供咖啡。

最新發布的 AlphaBot 2 較前代有了更大的提升:

靈活度:全身自由度 34+

續航:可連續工作 6h+

操作範圍:採用腰腿升降結構,垂直工作範圍 0-2.4m,單臂臂展 70cm(不含末端夾具)

感知能力:360°×360°全空間探測感知

AlphaBot 2 最大的亮點在於其操作、學習能力的提升。

機器人無需訓練即可完成多種任務,可快速掌握新任務,適應各種變化,適配汽車製造、半導體制造、公共服務、生物科技等多樣化任務。

在智平方發佈的視頻中,AlphaBot 2 與人交流,並通過人類的肢體動作理解其意圖,完成泡茶、準備文房四寶等家庭場景中的任務。

例如當人說“我渴了”,機器人會推薦喝茶,並且根據時令推薦茶品,或是通過人的搖頭、點頭動作意識到肯定與否定的態度,從而改變自己的策略。

除了遠期要落地的家庭場景,智平方的智能機器人目前主要面向“汽車+半導體+生物科技”三大核心製造場景。

在汽車製造場景,AlphaBot 直接對標特斯拉 Optimus,拿下國際頭部車企訂單。

在半導體製造場景,今年 3 月,智平方與吉利科技旗下晶能微電子達成戰略合作,在晶能微電子的智能化半導體生產基地,AlphaBot 可執行上下料、產線間物料轉運等任務。今年雙方將推動 AlphaBot 系列在半導體製造場景的大規模使用。

在生物科技領域,智平方宣佈與全球生物科技龍頭華熙生物戰略合作。智平方機器人未來將在華熙生物的工廠實現物料協同轉運、智能拆包消毒、智能視覺檢驗、多物料協同智能供料等操作。機器人可替代人工,避免交叉污染,降低微生物污染的風險。

智平方曾在今年 1 月宣佈已獲得大量商業訂單,並於 2024 年實現數千萬確認收入,成爲國內最早進行商業推廣的通用智能機器人公司。

此外,智平方機器人還計劃在今年第三、四季度分別進入機場、社區(示範小區)等公共服務場景,爲大衆提供服務。

爲了實現多場景落地的目標,智平方已啓動自有產線建設,並給出了一個具體的階段性商業化目標:

2028 年實現萬臺場景應用;

2030 年力爭爲南山區產值貢獻一個百分點;

2033 年拓展至百萬臺規模,覆蓋工業、物流、家庭服務等多元化場景。

3 年後實現萬臺落地,8 年後實現百萬臺應用,這樣的量產目標,不僅需要企業具備強大的製造與交付能力,也要擁有高效部署產品,搭建產品運維體系的能力。

智平方團隊在成熟的量產級端側部署經驗豐富,曾支撐數億智能終端(涵蓋車機、手機、IoT 等)的穩定本地運行,並與國內外主流芯片廠商深度合作,具備跨平臺高性能部署能力,可適配不同算力的芯片環境。

近年來,從國外 Figure AI 的高額融資到國內各家展示機器人超強運動性能的視頻刷屏,具身智能正在成爲全球科技圈的流量熱點。

具身智能並不缺熱鬧,缺的是系統性的解法。

智平方沒有停留在秀模型能力、或是硬件性能的階段,而是選擇同步構建具身智能的底座,打造一套從感知到控制、從軟件到硬件的工程體系。

他們沒有被某一類示範效應牽着走,而是用自研模型和機器人硬件的逐步提升,試着把人形機器人從設想推向現實。

從行業角度看,智平方不是最早進入公衆視野的公司,卻可能是少數幾個走在正確軌道上的團隊。

免責聲明:投資有風險,本文並非投資建議,以上內容不應被視為任何金融產品的購買或出售要約、建議或邀請,作者或其他用戶的任何相關討論、評論或帖子也不應被視為此類內容。本文僅供一般參考,不考慮您的個人投資目標、財務狀況或需求。TTM對信息的準確性和完整性不承擔任何責任或保證,投資者應自行研究並在投資前尋求專業建議。

熱議股票

  1. 1
     
     
     
     
  2. 2
     
     
     
     
  3. 3
     
     
     
     
  4. 4
     
     
     
     
  5. 5
     
     
     
     
  6. 6
     
     
     
     
  7. 7
     
     
     
     
  8. 8
     
     
     
     
  9. 9
     
     
     
     
  10. 10