11月7日,由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院基于編制中的國(guó)家標(biāo)準(zhǔn)《人工智能具身智能大模型系統(tǒng)技術(shù)要求》正式發(fā)布了“求索”具身智能測(cè)評(píng)基準(zhǔn)EIBench,同時(shí)邀請(qǐng)了多家國(guó)內(nèi)頂尖具身智能團(tuán)隊(duì)參與了首次測(cè)評(píng)。在本次測(cè)評(píng)中,北京人形機(jī)器人創(chuàng)新中心的XR-1模型成為了唯一一個(gè)通過(guò)測(cè)試的VLA模型,獲得CESI-CTC-20251103具身智能測(cè)試證書,也成為了全國(guó)首個(gè)獲此殊榮的VLA模型。
“求索”具身智能測(cè)評(píng)基準(zhǔn)EIBench,是針對(duì)具身智能數(shù)據(jù)難復(fù)用、模型泛化性差、安全難保障等產(chǎn)業(yè)痛點(diǎn)推出的首個(gè)具身智能領(lǐng)域評(píng)測(cè)基準(zhǔn),聚焦數(shù)據(jù)格式、具身智能大模型、安全及可信賴度等,形成基于國(guó)家標(biāo)準(zhǔn)的測(cè)評(píng)指標(biāo)體系。該標(biāo)準(zhǔn)在模型側(cè)主要面向VLA和VLM兩類具身智能大模型,這也代表著我國(guó)具身智能行業(yè)發(fā)展在規(guī)范化和標(biāo)準(zhǔn)化的方向上邁出了關(guān)鍵一步。
作為基于視覺(jué)、語(yǔ)言和動(dòng)作等多模態(tài)數(shù)據(jù)集進(jìn)行訓(xùn)練的大模型,VLA能夠打破傳統(tǒng)具身智能系統(tǒng)中“感知-決策-執(zhí)行”的模塊分離局限,實(shí)現(xiàn)端到端閉環(huán),同時(shí)借助大規(guī)?;A(chǔ)模型的泛化能力,能夠?qū)崿F(xiàn)跨任務(wù)、跨機(jī)器人和零樣本的適應(yīng)能力;也因?yàn)閂LA 模型能夠理解自然語(yǔ)言指令,可以使人與具身智能體之間的交互更加自然、高效。
根據(jù)介紹,EIBench在數(shù)據(jù)格式方面推動(dòng)打造統(tǒng)一數(shù)據(jù)格式;其次,模型方面,形成了“三個(gè)一”的測(cè)評(píng)準(zhǔn)則,分別是:
一條標(biāo)準(zhǔn)化流程,實(shí)現(xiàn)可復(fù)現(xiàn)的公平評(píng)測(cè)——建設(shè)了評(píng)測(cè)任務(wù)確定-訓(xùn)練數(shù)據(jù)采集-模型定向訓(xùn)練-任務(wù)真機(jī)測(cè)試-測(cè)試結(jié)果分析的標(biāo)準(zhǔn)化流程。
一個(gè)綜合任務(wù)庫(kù),覆蓋多維度復(fù)雜場(chǎng)景——設(shè)置了“單臂操作”、“雙臂異步操作”和“雙臂協(xié)同操作”3種難度等級(jí),覆蓋移動(dòng)、放置、推、拉、傾斜、按壓、插入、旋轉(zhuǎn)等8類核心動(dòng)作單元,全面考核模型基礎(chǔ)物理交互能力。
一套測(cè)試指標(biāo),量化模型綜合性能——建立了多維度量化指標(biāo)體系,包括任務(wù)成功率、平均執(zhí)行用時(shí)、人工干預(yù)次數(shù)、危險(xiǎn)操作次數(shù)及指令跟隨率等,全面覆蓋任務(wù)完成能力、執(zhí)行效率、自主可控性及安全可靠性等核心要求,反映模型在實(shí)際場(chǎng)景中的綜合性能表現(xiàn)。
最后,在安全方面,建立了包括可控性、魯棒性、可問(wèn)責(zé)性、隱私保護(hù)、功能安全、韌性等14項(xiàng)一級(jí)指標(biāo),對(duì)具身智能系統(tǒng)安全可信水平的量化評(píng)估。
在測(cè)試中,XR-1共在天工2.0、UR、Franka等三款機(jī)器人上,針對(duì)取放、推拉、旋轉(zhuǎn)、插入等雙臂技能進(jìn)行基礎(chǔ)測(cè)試,以及物體顏色、位置、姿態(tài),環(huán)境亮度、色溫,背景、干擾物等七大維度的泛化測(cè)試,一致通過(guò)。每項(xiàng)測(cè)試定量采集40-50條少量數(shù)據(jù),在每個(gè)任務(wù)每項(xiàng)測(cè)試維度進(jìn)行10次以上的真機(jī)測(cè)試,測(cè)試全程由中國(guó)電子技術(shù)標(biāo)準(zhǔn)化研究院專家參與,在流程設(shè)計(jì)和實(shí)際執(zhí)行層面均做到了標(biāo)準(zhǔn)化公平可復(fù)現(xiàn)。
上述結(jié)果得益于XR-1在VLA模型幾個(gè)關(guān)鍵技術(shù)上的突破創(chuàng)新,作為北京人形不久前發(fā)布的跨本體VLA模型,XR-1通過(guò)積累超百萬(wàn)量級(jí)的自有多本體數(shù)據(jù),采用首創(chuàng)的多模態(tài)視動(dòng)統(tǒng)一表征學(xué)習(xí),有效利用各類機(jī)器人操作數(shù)據(jù)和海量互聯(lián)網(wǎng)視頻數(shù)據(jù)。在此基礎(chǔ)上,XR-1利用多模態(tài)視動(dòng)統(tǒng)一表征訓(xùn)練、跨本體主網(wǎng)絡(luò)訓(xùn)練和特定場(chǎng)景微調(diào)三階段訓(xùn)練范式,實(shí)現(xiàn)機(jī)器人跨本體的通用操作知識(shí)積累和特定場(chǎng)景的多任務(wù)快速學(xué)習(xí)。在多種機(jī)器人本體上大量真實(shí)環(huán)境測(cè)試,實(shí)證了該方法的多本體、多技能、多任務(wù)、穩(wěn)健泛化能力,以及其在快速掌握新技能上的巨大潛力。
并且以XR-1為基礎(chǔ),北京人形也加強(qiáng)了“慧思開物”平臺(tái)快速構(gòu)建面向各類場(chǎng)景任務(wù)的通用技能庫(kù),實(shí)現(xiàn)多本體、多場(chǎng)景、多任務(wù)的能力,顯著減少了具身智能應(yīng)用開發(fā)的成本與用時(shí),打通了具身智能技術(shù)走向大規(guī)模產(chǎn)業(yè)應(yīng)用的關(guān)鍵路徑。
本次XR-1成為唯一通過(guò)測(cè)試的具身VLA模型,具有著里程碑式的意義。標(biāo)準(zhǔn)確立后,能夠推動(dòng)具身智能產(chǎn)業(yè)生態(tài)的良性發(fā)展和可持續(xù)創(chuàng)新,北京人形機(jī)器人創(chuàng)新中心未來(lái)將繼續(xù)以技術(shù)突破與產(chǎn)業(yè)實(shí)踐,推動(dòng)具身智能加速邁向“最聰明和最好用”的新高度。
昵稱 驗(yàn)證碼 請(qǐng)輸入正確驗(yàn)證碼
所有評(píng)論僅代表網(wǎng)友意見(jiàn),與本站立場(chǎng)無(wú)關(guān)