中新網上海3月10日電(記者 李姝徵)上海首家人形機器人量產企業——智元機器人10日發布通用具身模型基座:智元啟元大模型(Genie Operator-1,簡稱GO-1)。
智元機器人是由“稚暉君”彭志輝創辦的人形機器人初創公司,也是上海首家實現人形機器人量產的企業。該企業2024年已下線1000臺人形機器人,并將在2025年實現數千臺的年產量。
智元機器人2024年已下線1000臺人形機器人,并將在2025年實現數千臺的年產量。中新網記者 湯彥俊 攝智元具身研究中心常務主任任廣輝當日接受記者采訪時表示,GO-1大模型借助人類和多種機器人數據,讓機器人獲得了革命性的學習能力,可泛化應用到各類的環境和物品中,快速適應新任務、學習新技能。同時,它還支持部署到不同的機器人本體,高效地完成落地,并在實際的使用中持續不斷地快速進化。
任廣輝介紹,GO-1大模型的特點可歸納為4個方面。首先是人類視頻學習。GO-1大模型可以結合互聯網視頻和真實人類示范進行學習,增強模型對人類行為的理解。
第二是小樣本快速泛化。GO-1大模型具有強大的泛化能力,能夠在極少數據甚至零樣本下泛化到新場景、新任務,不僅降低了具身模型的使用門檻,也大大了降低后訓練成本。以“倒水”這一動作為例,如果人形機器人沒有搭載大模型,完成該動作的訓練需要1萬至5萬條數據采集;搭載大模型后,完成該動作僅需1000條左右數據采集。
第三是“一腦多形”。作為通用機器人策略模型,GO-1大模型能夠在不同機器人形態之間遷移,快速適配到不同本體,類似“群體升智”。
第四是持續進化。任廣輝介紹,搭配一整套數據回流系統,GO-1大模型可以從實際執行遇到的問題數據中持續進化學習,“越用越聰明”。
3月10日,智元機器人發布通用具身模型基座:智元啟元大模型(Genie Operator-1,簡稱GO-1)。智元機器人 供圖如何達成這些?智元機器人合伙人、具身智能事業部總裁姚卯青介紹,這源于GO-1的Vision-Language-Latent-Action(ViLLA,即視覺-語言-隱式-動作)架構,該架構由VLM(多模態大模型)+ MoE(混合專家)組成。
“VLM借助海量互聯網圖文數據獲得通用場景感知和語言理解能力,MoE中的Latent Planner(隱式規劃器)借助大量跨本體和人類操作數據獲得通用的動作理解能力,MoE中的Action Expert(動作專家)借助百萬真機數據獲得精細的動作執行能力。”姚卯青介紹,通過三者環環相扣,讓GO-1可利用人類視頻學習,完成小樣本快速泛化。
“例如,用戶給出指令告訴機器人要做的事情,比如‘掛衣服’,模型就可以根據看到的畫面,理解這句話對應的任務要求。”任廣輝表示,該模型可根據之前訓練時看過的掛衣服數據,設想這個過程應該包括哪些操作步驟,最后執行這一連串的步驟,完成整個任務的操作。
距離人形機器人進入家庭“打工”還有多久?“我們目前發布的技術處于從G3到G4的過渡階段。”任廣輝表示,人形機器人走進家庭創造價值,還需5年左右。(完)