近日,一場(chǎng)被一些業(yè)內(nèi)人士視作是“中國(guó)具身智能路線之爭(zhēng)”的學(xué)術(shù)爭(zhēng)論,引起了機(jī)器人行業(yè)的討論。
一位討論參與者是許華哲,來(lái)自清華大學(xué)交叉信息研究院(簡(jiǎn)稱(chēng)“清華叉院”),是中國(guó)科技頂尖人才培養(yǎng)機(jī)構(gòu)的助理教授,同時(shí)也是機(jī)器人企業(yè)星海圖的聯(lián)合創(chuàng)始人。另一位則是亞洲第一個(gè)獲得IEEE T-RO最佳論文獎(jiǎng)的周博宇,他是獲得該機(jī)器人領(lǐng)域頂級(jí)期刊獎(jiǎng)項(xiàng)的“亞洲第一人”,同時(shí)也是南方科技大學(xué)的助理教授、博士生導(dǎo)師。知乎平臺(tái)中,他們圍繞“機(jī)器人領(lǐng)域特殊任務(wù)研究是否有價(jià)值”等話(huà)題展開(kāi)了討論。
前者主張“特殊任務(wù)研究”于學(xué)科有益,但對(duì)于推動(dòng)具身智能的發(fā)展“幾乎沒(méi)有用處”。后者則主張無(wú)用之用方為智能基石。5月23日,第一財(cái)經(jīng)記者分別采訪了許華哲、周博宇以及其他業(yè)內(nèi)人士后了解到,在二者觀點(diǎn)的分歧和共識(shí)之外,這場(chǎng)爭(zhēng)論折射出了學(xué)界對(duì)技術(shù)決定論的警惕,更直接對(duì)行業(yè)進(jìn)行了“糾偏”。
在資本追捧大模型、企業(yè)砸錢(qián)秀肌肉的浪潮中,究竟該押注通用顛覆,還是深耕工業(yè)現(xiàn)場(chǎng)那些“不夠性感”的工程細(xì)節(jié)?這是每一位具身智能從業(yè)者必須親自探索的命題。
針對(duì)“特殊任務(wù)”的研究是否有意義?
整場(chǎng)討論的原點(diǎn),是許華哲在知乎上發(fā)表了一篇名為《具身智能需要從ImageNet做起嗎?》的文章。
許華哲在其中提到,傳統(tǒng)機(jī)器人學(xué)有相當(dāng)一部分的研究重點(diǎn)在于“特別”的機(jī)器人或者“特別”的任務(wù)。比如一個(gè)蛇形機(jī)器人、一個(gè)老鼠機(jī)器人,或是讓機(jī)器人去包餃子、抖落衣服。這類(lèi)“特殊任務(wù)研究”的任務(wù)對(duì)科學(xué)雖然有用,但對(duì)“推動(dòng)具身智能的發(fā)展幾乎沒(méi)有用處”。
“我認(rèn)為這種觀點(diǎn)顯然不對(duì)。”在《具身智能:一場(chǎng)需要謙遜與耐心的科學(xué)遠(yuǎn)征》中,周博宇直接指出,具身智能本身是跨學(xué)科產(chǎn)物,它的發(fā)展必須依賴(lài)具體科學(xué)問(wèn)題的突破。他以波士頓動(dòng)力和蛇形機(jī)器人的研究為例,指出波士頓動(dòng)力早期研究足式機(jī)器人時(shí),沒(méi)有人能預(yù)見(jiàn)其動(dòng)態(tài)平衡算法會(huì)成為現(xiàn)代人形機(jī)器人的核心;蛇形機(jī)器人研究中的柔性驅(qū)動(dòng)技術(shù),也直接推動(dòng)了醫(yī)療內(nèi)窺鏡機(jī)器人的發(fā)展。“這些看似無(wú)用的特別任務(wù),都推動(dòng)了科學(xué)的進(jìn)步,以及具身智能的進(jìn)步。”
針對(duì)特定場(chǎng)景的研究,對(duì)于行業(yè)來(lái)說(shuō)的意義究竟有多大,成為了二者討論的核心矛盾。在許華哲看來(lái),按照深度學(xué)習(xí)、計(jì)算機(jī)視覺(jué)領(lǐng)域的發(fā)展規(guī)律,推動(dòng)力主要來(lái)自ImageNet這樣的標(biāo)準(zhǔn)化數(shù)據(jù)集以及ResNet或Transformer這樣的通用模型。例如流水線分揀、零件拋光打磨等“特別的任務(wù)”,短期內(nèi)有經(jīng)濟(jì)價(jià)值、創(chuàng)業(yè)需求,但長(zhǎng)期會(huì)被具身智能的進(jìn)展淹沒(méi)。
許華哲向第一財(cái)經(jīng)記者進(jìn)一步解釋?zhuān)詸C(jī)器人的局部運(yùn)動(dòng)為例,在強(qiáng)化學(xué)習(xí)為主導(dǎo)的方案興起前,人們利用控制手段也能讓機(jī)器人完成特定任務(wù),如在草地上行走、跳舞等。“不過(guò),直到強(qiáng)化學(xué)習(xí)應(yīng)用于此,機(jī)器人才具備了從平地到草地、山地、跨臺(tái)階等只用一套系統(tǒng)就能應(yīng)對(duì)的能力。”
“只要通用智能做成,各種細(xì)分領(lǐng)域的問(wèn)題也將迎刃而解”的觀點(diǎn),被周博宇視作是“通用大腦優(yōu)越論”。他提到,即便是人類(lèi)自身,在掌握某項(xiàng)特定技能時(shí),也必須經(jīng)歷反復(fù)錘煉,方能得心應(yīng)手。“通用智能無(wú)疑是一個(gè)宏偉的目標(biāo),但與此同時(shí),我也希望青年學(xué)生與工程師們能關(guān)注到一些更為具體、務(wù)實(shí)的產(chǎn)業(yè)需求。”
汽車(chē)總裝車(chē)間中亟待解決的線束整理難題、半導(dǎo)體封裝環(huán)節(jié)對(duì)高精度和高穩(wěn)定性的嚴(yán)苛要求……“這些看似‘不夠性感’的工程細(xì)節(jié),恰恰是錘煉真正智能的淬火池。”周博宇說(shuō)。
在“不夠性感”的工程細(xì)節(jié)里尋找技術(shù)拐點(diǎn)
二者的討論發(fā)出后,很快引起了業(yè)內(nèi)多位人士的轉(zhuǎn)發(fā)。
科大訊飛機(jī)器人首席科學(xué)家季超告訴第一財(cái)經(jīng)記者,自己對(duì)二者的觀點(diǎn)都很認(rèn)同。對(duì)技術(shù)迭代的追求和工程化落地的能力,對(duì)于現(xiàn)階段的具身智能而言同樣重要。“表面上看,一個(gè)驚艷的模型或巧妙的算法,可能令人眼前一亮,但如果缺乏長(zhǎng)期工程化落地的經(jīng)驗(yàn)積累、真實(shí)場(chǎng)景中的反復(fù)打磨,以及對(duì)細(xì)節(jié)極致追求的‘臟活累活’,這種優(yōu)勢(shì)很容易被復(fù)制甚至超越。”
杭州鈦維云創(chuàng)的創(chuàng)始人兼CEO張磊也很快轉(zhuǎn)發(fā)了二者的討論。作為聚焦于紡織行業(yè)的具身智能企業(yè),在大部分的工作時(shí)間里,張磊都在處理一些“不夠性感”的工程細(xì)節(jié)。“機(jī)器人的夾爪怎么去抓牛仔、棉麻、絲綢等質(zhì)地不同的布料,怎么遷移、縫紉,這些都需要我們針對(duì)特定的任務(wù)和場(chǎng)景進(jìn)行重復(fù)訓(xùn)練。”
但在贊同周博宇“通用性無(wú)法脫離具體性而存在”的觀點(diǎn)之外,張磊也同樣認(rèn)同許華哲對(duì)機(jī)器人數(shù)據(jù)和仿真訓(xùn)練環(huán)境的觀點(diǎn)。
“就像許華哲說(shuō)的那樣,在虛擬世界中的仿真訓(xùn)練和海量的數(shù)據(jù)并不是萬(wàn)能解藥。”他告訴記者,在機(jī)器人的訓(xùn)練里,模擬不同狀態(tài)物體所需要的數(shù)據(jù)量不同。如果想要訓(xùn)練出一個(gè)能夠操作五個(gè)自由參數(shù)量的剛體機(jī)器人模型,仿真環(huán)境需要模擬的數(shù)量級(jí)可能在十的五次方。
但如果想要訓(xùn)練機(jī)器人“大腦”,也就是搭載在實(shí)體硬件上的大模型操作柔性物體,由于柔性物體參數(shù)可能有上百個(gè),那么模擬環(huán)境數(shù)量的量級(jí)可能就會(huì)指數(shù)級(jí)增加,成本和技術(shù)難度都有所飆升。“因此,我們現(xiàn)在會(huì)采用真實(shí)數(shù)據(jù)‘反標(biāo)’的手段,來(lái)補(bǔ)償虛擬環(huán)境缺失的精度和真實(shí)性,用50%的真實(shí)數(shù)據(jù)和50%的仿真數(shù)據(jù)來(lái)訓(xùn)練大模型。”
不過(guò),就未來(lái)的發(fā)展方向而言,張磊坦言“自己也沒(méi)有理清”。他告訴記者,具身智能仍然處在一個(gè)探索的初級(jí)階段,自己無(wú)法打包票哪一種技術(shù)方案更好、會(huì)走到最后。
當(dāng)前,在大模型落地的方案中,出于安全和穩(wěn)定性考慮,張磊將整個(gè)流程85%-90%的部分都采用了基于經(jīng)典控制理論的建模方法,剩下的10%-15%則采用了基于強(qiáng)化學(xué)習(xí)的智能學(xué)習(xí)算法。“相比VLA(Vision-Language-Action,視覺(jué)語(yǔ)言動(dòng)作)或者端到端的模型,客戶(hù)更注重安全性,這也是我們采取這個(gè)方式的主要理由。”
盡管如此,張磊仍然和許華哲、周博宇一樣,相信機(jī)器學(xué)習(xí)會(huì)成為具身智能未來(lái)的主流。周博宇說(shuō),“設(shè)想如果我們能徹底理解人腦的工作機(jī)制,甚至創(chuàng)造出超越人腦的新架構(gòu),那我們就有望僅憑少量數(shù)據(jù)快速掌握多種技能,突破傳統(tǒng)模塊化系統(tǒng)的性能天花板,這是很符合自然的。”他認(rèn)為,這不僅依賴(lài)于AI本身的發(fā)展,還需要腦科學(xué)、類(lèi)腦計(jì)算等多學(xué)科的協(xié)同突破。
觀點(diǎn)競(jìng)合糾偏行業(yè)發(fā)展
第一財(cái)經(jīng)記者看到,討論雙方的觀點(diǎn)并非全部“針?shù)h相對(duì)”。許華哲也向第一財(cái)經(jīng)記者坦言,傳統(tǒng)的機(jī)器人訓(xùn)練方法在今天依然有他的價(jià)值。周博宇也在交談中告訴記者,當(dāng)學(xué)者在探索一些此前從未有人想過(guò)的東西時(shí),有機(jī)會(huì)激發(fā)產(chǎn)業(yè)需求,帶來(lái)技術(shù)的收斂。
談及周博宇對(duì)自己觀點(diǎn)的討論,許華哲告訴記者,這正是自己發(fā)表文章的目的之一。“我本身也很期待有人跟我展開(kāi)討論這些觀點(diǎn),我和周老師私交很好,除了周老師以外,還有不少人主動(dòng)跟我私聊。”
而另一邊,周博宇也表示,自己這篇文章“醞釀了很久”。“近兩年,這個(gè)行業(yè)的發(fā)展超過(guò)了我和身邊朋友的預(yù)期,在這個(gè)過(guò)程中會(huì)有一些激進(jìn)、極端,甚至有一些喧嘩的聲音,學(xué)術(shù)討論本身能夠起到一個(gè)糾偏的作用。”
立德智庫(kù)數(shù)據(jù)顯示,2025年4月,中國(guó)機(jī)器人行業(yè)融資數(shù)量超過(guò)45起,環(huán)比增長(zhǎng)9.3%。根據(jù)已披露金額及行業(yè)估值測(cè)算,預(yù)估總?cè)谫Y金額達(dá)60.5億-71.5億元,較3月的18.5億-25.3億元實(shí)現(xiàn)了2-3倍增長(zhǎng)。
從技術(shù)路徑上來(lái)講,VLA模型已經(jīng)成為了各家企業(yè)“秀肌肉”的重點(diǎn)。今年年初以來(lái),F(xiàn)igure AI、Physical Intelligence、英偉達(dá)、靈初智能等多家企業(yè)都發(fā)布了VLA模型。在這些VLA模型的展示demo中,大多數(shù)都體現(xiàn)了語(yǔ)言交互和語(yǔ)言動(dòng)作跟隨的能力。
“語(yǔ)言理解雖是直觀的智能表現(xiàn),但執(zhí)行層面的薄弱讓技術(shù)難以落地。”周博宇以工業(yè)、醫(yī)療等場(chǎng)景舉例,他認(rèn)為,在這些場(chǎng)景當(dāng)中,高精度運(yùn)動(dòng)控制、觸覺(jué)力覺(jué)反饋等能力遠(yuǎn)比語(yǔ)言交互關(guān)鍵。周博宇提到,他擔(dān)憂(yōu)過(guò)度聚焦語(yǔ)言會(huì)導(dǎo)致資源錯(cuò)配,“企業(yè)為了融資,不得不分散精力做‘秀肌肉’的功能,反而忽略了場(chǎng)景的真實(shí)需求”。
在許華哲和周博宇的觀點(diǎn)里,“長(zhǎng)坡厚雪”是他們對(duì)這個(gè)行業(yè)的共識(shí)。這場(chǎng)爭(zhēng)論的價(jià)值,或許正在于撕開(kāi)技術(shù)理想主義的面紗,讓行業(yè)在狂熱中看清現(xiàn)實(shí)。在具身智能技術(shù)拐點(diǎn)到來(lái)之前,機(jī)器人的競(jìng)爭(zhēng)與合作,不僅僅在企業(yè)渲染的demo視頻中,更在那些“不夠性感”的工程細(xì)節(jié)里。
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。