熱門:
訂單狂飆概念股飛漲!人形機器人真要爆發(fā)?閆維新:規(guī)模落地任重道遠(yuǎn)
億元級訂單密集落地,百億規(guī)?;鸺铀偃雸觯度谫Y與IPO不斷涌現(xiàn),資本市場的追捧推動相關(guān)概念股輪番飛漲。2025年,人形機器人產(chǎn)業(yè)正迎來前所未有的集體高光時刻。
9月29日,優(yōu)必選再度簽下3000萬元人形機器人大單,總訂單金額逼近4.3億元。更早之前,7月11日,中國移動旗下中移(杭州)信息技術(shù)有限公司的人形雙足機器人代工服務(wù)采購項目在業(yè)內(nèi)引發(fā)關(guān)注,項目預(yù)算高達(dá)1.24億元,成為國內(nèi)迄今最大單筆公開招標(biāo)訂單。
資本市場與產(chǎn)業(yè)鏈的熱度相互推高。然而另一面,真正的規(guī)?;涞厝杂泻芏嗦芬?。上海交通大學(xué)博士生導(dǎo)師,上海人工智能研究院首席科學(xué)家閆維新在接受時代周報記者專訪時直言,目前頭部人形機器人公司2025年已能實現(xiàn)百至千臺級批量交付,多用于教育、交互服務(wù)和數(shù)據(jù)采集等用途,離真正的規(guī)?;笈可a(chǎn)還有距離。
在人形機器人領(lǐng)域,閆維新有著長期的學(xué)術(shù)與實踐積累,主持和參與過多個國家級重大項目,亦多次獲得國內(nèi)外科研獎項。他坦言,人形機器人復(fù)雜性遠(yuǎn)超以往任何智能設(shè)備。它需要集成機械設(shè)計、傳感器技術(shù)、動力系統(tǒng)、控制算法、人工智能等多領(lǐng)域技術(shù)。
然而,當(dāng)前不同企業(yè)的硬件接口互不兼容,軟件平臺各自獨立,數(shù)據(jù)格式千差萬別。這不僅造成大量的重復(fù)建設(shè)和資源浪費,也極大提高系統(tǒng)集成和產(chǎn)業(yè)協(xié)作的成本,延緩了技術(shù)創(chuàng)新和產(chǎn)品迭代的速度。
在閆維新看來,人形機器人是未來的燈塔,是帶動若干行業(yè)一起發(fā)展的指明燈。“要邊做、邊落地、邊推出。過程中凝練出的關(guān)鍵技術(shù)點,完全可以向其他行業(yè)遷移?!彼f。
需要上億萬條數(shù)據(jù)
時代周報:具身智能訓(xùn)練面臨最大問題是缺乏真實數(shù)據(jù)。你認(rèn)為突破點在哪里,是依賴更多物理環(huán)境采集,還是通過虛擬仿真、世界模型來補足?
閆維新:具身智能的數(shù)據(jù)問題確實是當(dāng)前最大的瓶頸之一,目前整個行業(yè)嚴(yán)重缺乏數(shù)據(jù),擁有的具身智能交互數(shù)據(jù)只有幾百萬條,實際所需的規(guī)模可能在上千萬甚至上億萬條。
和大語言模型(LLM)的 “數(shù)據(jù)邏輯” 完全不同,LLM 的數(shù)據(jù)主要來自網(wǎng)上的文本、書籍、圖像,是過去幾十年積累的 “靜態(tài)數(shù)據(jù)”,維度清晰、獲取難度低;但機器人需要的是 “動態(tài)交互數(shù)據(jù)”,比如手指在抓東西時的力反饋、走路時身體的微調(diào)。這樣的數(shù)據(jù)不僅稀缺,更難以定義。到底采什么,是機器人的運動軌跡、人的操作動作,還是視覺、力的變化?行業(yè)里目前還沒有統(tǒng)一的標(biāo)準(zhǔn),各自為政,數(shù)據(jù)自然沒法互通。
同時,不同構(gòu)型的機器人在參數(shù)和動作方式上差異明顯,使得通用數(shù)據(jù)集難以直接復(fù)用。真實數(shù)據(jù)天然存在采樣偏差,難以覆蓋所有可能情況。更麻煩的是,數(shù)據(jù)的格式也沒統(tǒng)一,不同公司采的數(shù)據(jù)完全不能共用,只能重復(fù)造輪子。
數(shù)據(jù)采集方法方面,目前流行遙操作去采集,數(shù)據(jù)質(zhì)量參差不齊?,F(xiàn)在有些人嘗試采用采集人的操作數(shù)據(jù),再映射到機器人,這方向沒錯,但問題在于力很難復(fù)現(xiàn)——人拿杯子時到底用了多大勁,機器人怎么才能精確還原,這是核心難題。
我認(rèn)為,仿真數(shù)據(jù)提供了一種潛在解決方案,但其自身也存在明顯局限性。無論物理引擎如何精進(jìn),都無法完全復(fù)刻真實世界的如復(fù)雜摩擦、材料變形、光線散射、傳感器噪聲等所有物理效應(yīng)和不可預(yù)測的人類行為。
將真實數(shù)據(jù)和仿真數(shù)據(jù)相融合,是目前比較行之有效的突破口。它的關(guān)鍵是新型采集技術(shù)的突破,改變真實數(shù)據(jù)采集的成本結(jié)構(gòu)和效率水平。業(yè)界正在形成關(guān)于真實數(shù)據(jù)與仿真數(shù)據(jù)混合比例的共識,沒有一刀切的最優(yōu)解,需要根據(jù)具體應(yīng)用場景和需求靈活調(diào)整。
時代周報:目前人形機器人初創(chuàng)公司眾多,底層硬件、軟件體系比較分散。你覺得是否有必要推動統(tǒng)一標(biāo)準(zhǔn)?現(xiàn)在業(yè)內(nèi)有沒有相關(guān)嘗試?
閆維新:在人形機器人技術(shù)快速演進(jìn)的不確定期,過早或過度的標(biāo)準(zhǔn)化可能帶來一系列風(fēng)險。其中最主要的是技術(shù)路徑鎖定風(fēng)險——一旦某種技術(shù)被確立為標(biāo)準(zhǔn),即使后續(xù)出現(xiàn)更優(yōu)秀的技術(shù)方案,也難以替代已經(jīng)形成生態(tài)的現(xiàn)有標(biāo)準(zhǔn)。這種風(fēng)險在人形機器人發(fā)展的當(dāng)前階段尤為突出,因為許多基礎(chǔ)技術(shù)仍在快速迭代中。
這種情況下,分級分類的標(biāo)準(zhǔn)推進(jìn)策略成為一種平衡之道。這種策略根據(jù)不同技術(shù)成熟度和應(yīng)用領(lǐng)域,采取不同的標(biāo)準(zhǔn)化節(jié)奏和方法。對于技術(shù)相對成熟的領(lǐng)域,可以積極推進(jìn)標(biāo)準(zhǔn)制定。尤其在人形機器人數(shù)據(jù)格式、通信協(xié)議、安全要求等方面,技術(shù)已經(jīng)相對穩(wěn)定,標(biāo)準(zhǔn)化條件較為成熟。對于技術(shù)尚在快速演進(jìn)的核心領(lǐng)域,則宜采取更為靈活的標(biāo)準(zhǔn)策略??梢韵劝l(fā)布技術(shù)指南或最佳實踐,為行業(yè)提供參考而不強制統(tǒng)一。
時代周報:世界模型和VLA模型都被認(rèn)為是關(guān)鍵技術(shù),你認(rèn)為哪條路線更有前景?兩者是否可能互補?
閆維新:人工智能正經(jīng)歷從感知智能向決策智能的重大轉(zhuǎn)變,其中世界模型(World Model)和視覺-語言-行動模型(Vision-Language-Action,VLA)是兩條備受關(guān)注的技術(shù)路線。
世界模型以視覺與運動數(shù)據(jù)為基礎(chǔ),通過生成式建模技術(shù)預(yù)測環(huán)境變化和行為后果。它具備強大的時空預(yù)測能力,能夠?qū)Νh(huán)境變化和車輛運動進(jìn)行高精度預(yù)測。世界模型在難例場景構(gòu)建方面表現(xiàn)出色,能夠處理那些在現(xiàn)實世界中罕見但至關(guān)重要的極端情況,如緊急避障、極端天氣條件下的駕駛等。世界模型的響應(yīng)速度極快,不過也面臨一些挑戰(zhàn)。比如,世界模型對算力需求極高,硬件成本比VLA模型高40%以上。
VLA模型通過融合視覺輸入和自然語言指令,直接生成可執(zhí)行的物理動作。它通過語言和文字這一中間環(huán)節(jié),將具象化的路況、圖像進(jìn)行歸類并進(jìn)行“抽象化”,而不只是單純地對看過的數(shù)據(jù)“死記硬背”,從而使模型能取得更好的泛化能力。
世界模型與VLA模型雖然技術(shù)路徑不同,但存在顯著的互補潛力。世界模型擅長環(huán)境動態(tài)預(yù)測和物理規(guī)律理解,而VLA模型強于多模態(tài)融合和語義推理,兩者的結(jié)合可以構(gòu)建更加強大和全面的智能系統(tǒng)。
世界模型與VLA模型融合的核心是 “場景化裁剪 + 功能互補”。第一,不要做覆蓋全場景的 “大而全” 世界模型,而是針對具體應(yīng)用場景做 “模型包”。比如汽車裝配場景,只保留 “螺絲、扳手、車身” 相關(guān)的物理引擎模塊,砍掉無關(guān)的比如 “布料模擬” 模塊,這樣能把算力需求降低 70%。
第二,讓世界模型負(fù)責(zé) “預(yù)測”,VLA模型負(fù)責(zé) “實操”。比如機器人要擰螺絲,先讓世界模型預(yù)測 “擰螺絲需要的扭矩、角度”,再讓 VR 模型根據(jù)視覺圖像定位螺絲的位置,兩者協(xié)同工作,既保證操作的準(zhǔn)確性,又降低算力成本。
時代周報:行業(yè)常說人形機器人要在 100—300 毫秒內(nèi)完成反饋,但大模型推理延遲往往是秒級。你覺得解決延遲問題更可能依靠算力架構(gòu)優(yōu)化,還是在模型側(cè)做優(yōu)化?
閆維新:我認(rèn)為,人形機器人的延遲問題來源于一個復(fù)雜的技術(shù)鏈條:環(huán)境感知、數(shù)據(jù)處理、決策推理、運動控制。每個環(huán)節(jié)都可能成為延遲的貢獻(xiàn)者,而大模型推理只是整個鏈條中的一個環(huán)節(jié),雖然是當(dāng)前最突出的瓶頸。
目前,基于“云-邊-端”的協(xié)同計算將成為解決實時響應(yīng)的方案,未來的人工智能系統(tǒng)不會是純粹的端側(cè)或云側(cè),而是分層協(xié)同、動態(tài)優(yōu)化的智能體系。云端負(fù)責(zé)復(fù)雜大規(guī)模模型的訓(xùn)練、海量數(shù)據(jù)融合、模型版本管理和下發(fā)。邊緣節(jié)點作為區(qū)域中心,處理多個端側(cè)設(shè)備匯聚的數(shù)據(jù),運行比端側(cè)更大、比云端更敏捷的模型。端側(cè)負(fù)責(zé)極致低延遲的實時推理和高隱私要求的任務(wù)。
這種技術(shù)發(fā)展趨勢將帶來端側(cè)大模型的興起,將經(jīng)過裁剪和優(yōu)化后的模型直接部署在終端上。實現(xiàn)完全離線的智能控制、交互對話、文本摘要、內(nèi)容生成等功能,隱私性極佳、響應(yīng)瞬間完成。
缺乏商業(yè)吸引力
時代周報:機器人要想真正大規(guī)模進(jìn)入工業(yè)、服務(wù)等場景,你覺得在“大腦—小腦”協(xié)同體系中,還缺哪幾個關(guān)鍵環(huán)節(jié)?
閆維新:“大腦”決策與“小腦”控制之間的協(xié)同銜接,決定了機器人能否在復(fù)雜不確定的環(huán)境中高效、可靠地完成任務(wù)。
我認(rèn)為,機器人大規(guī)模進(jìn)入工業(yè)、服務(wù)等場景首先缺失的是統(tǒng)一的世界模型與物理推理。人類大腦能夠構(gòu)建一個一致且持續(xù)更新的環(huán)境心理模型,并基于此進(jìn)行物理常識推理,預(yù)測行動后果。而現(xiàn)有機器人系統(tǒng)往往缺乏這種能力,導(dǎo)致其在面對新場景或需要物理直覺的任務(wù)時表現(xiàn)不佳。
其次是自適應(yīng)運動規(guī)劃與控制,它是小腦的核心功能,但目前還未達(dá)到真正自適應(yīng)的能力。人類小腦能夠根據(jù)任務(wù)需求、環(huán)境變化和身體狀態(tài)自動調(diào)整控制策略,實現(xiàn)從粗大運動到精細(xì)操作的平滑過渡。而現(xiàn)有機器人系統(tǒng)往往需要在精度、速度和魯棒性之間進(jìn)行權(quán)衡,難以適應(yīng)動態(tài)變化的環(huán)境。
再次是人類意圖理解與多模態(tài)交互,尤其是在服務(wù)場景中,機器人與人類的自然交互能力至關(guān)重要,而當(dāng)前系統(tǒng)在理解人類意圖和進(jìn)行多模態(tài)交互方面仍存在不足。人類大腦能夠從模糊的指令、手勢、眼神甚至語境中推斷他人意圖,而現(xiàn)有機器人系統(tǒng)往往需要明確、結(jié)構(gòu)化的指令。非語言指令理解是一個關(guān)鍵缺失環(huán)節(jié)。
最后是能耗效率與實時性能。人類大腦功耗僅約20瓦,卻能實現(xiàn)復(fù)雜的認(rèn)知和運動控制功能,而現(xiàn)有機器人系統(tǒng)往往需要高昂的能耗和計算資源才能實現(xiàn)相對簡單的任務(wù)。計算資源分配優(yōu)化是關(guān)鍵挑戰(zhàn)。
時代周報:電池續(xù)航不足會不會成為人形機器人商業(yè)化的主要瓶頸?在提高電池本身續(xù)航能力,以及降低整體能耗方面,業(yè)內(nèi)目前有哪些探索?
閆維新:當(dāng)前大多數(shù)人形機器人單次充電僅能工作1-2小時,而實際工業(yè)應(yīng)用通常需要至少4-8小時的持續(xù)工作時間。更嚴(yán)峻的是,人形機器人在高負(fù)載任務(wù)中瞬時功率可高達(dá)30KW,對電池放電能力提出極高要求。這種能量需求與供應(yīng)能力之間的差距,直接影響了人形機器人的實用性和經(jīng)濟性。
核心是解決 “高功率密度” 和 “高能量密度” 的矛盾:高功率密度需要瞬間爆發(fā)力(如雙足跳躍),高能量密度需要長續(xù)航(如 8 小時連續(xù)工作),現(xiàn)有磷酸鐵鋰、三元鋰電池都無法同時滿足。未來的方向是 “異構(gòu)電池系統(tǒng)”:用不同類型電池搭配,再通過 BMS(電池管理系統(tǒng))實現(xiàn)智能切換。
時代周報:現(xiàn)在人形機器人更多是表演、導(dǎo)覽等場景。要真正大規(guī)模走向產(chǎn)業(yè)應(yīng)用,還缺哪幾塊關(guān)鍵拼圖?
閆維新:在我看來,人形機器人要真正實現(xiàn)產(chǎn)業(yè)化應(yīng)用,需要克服技術(shù)、成本、生態(tài)、政策等多重障礙。
在技術(shù)上,許多演示場景中的舞蹈動作是預(yù)設(shè)提前訓(xùn)練的,并不具備真實場景決策能力。這種“偽智能”困局嚴(yán)重限制了機器人在復(fù)雜產(chǎn)業(yè)環(huán)境中的適用性。人形機器人需要處理高度復(fù)雜和動態(tài)變化的場景,現(xiàn)有系統(tǒng)往往需要重新采集數(shù)據(jù)并進(jìn)行訓(xùn)練,這個過程可能耗時數(shù)天,無法滿足實時性要求高的生產(chǎn)環(huán)境。
成本與商業(yè)化瓶頸方面,當(dāng)前高端人形機器人單機成本在20-40萬元之間,投資回報周期長達(dá)15-30個月,缺乏商業(yè)吸引力。此外,測試驗證體系不完善是人形機器人產(chǎn)業(yè)化的另一個障礙。產(chǎn)業(yè)應(yīng)用對可靠性和安全性要求極高,但缺乏權(quán)威的測試平臺和評估標(biāo)準(zhǔn)來驗證機器人在各種場景下的性能。
(文章來源:時代周報)
(原標(biāo)題:訂單狂飆,概念股飛漲!人形機器人真要爆發(fā)?閆維新:規(guī)模落地任重道遠(yuǎn))
(責(zé)任編輯:6)
將天天基金網(wǎng)設(shè)為上網(wǎng)首頁嗎? 將天天基金網(wǎng)添加到收藏夾嗎?
關(guān)于我們|資質(zhì)證明|研究中心|聯(lián)系我們|安全指引|免責(zé)條款|隱私條款|風(fēng)險提示函|意見建議|在線客服|誠聘英才
天天基金客服熱線:95021 |客服郵箱:vip@1234567.com.cn|人工服務(wù)時間:工作日 7:30-21:30 雙休日 9:00-21:30
鄭重聲明:天天基金系證監(jiān)會批準(zhǔn)的基金銷售機構(gòu)[000000303]。天天基金網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前請核實,風(fēng)險自負(fù)。
中國證監(jiān)會上海監(jiān)管局網(wǎng)址:www.csrc.gov.cn/pub/shanghai
CopyRight 上海天天基金銷售有限公司 2011-現(xiàn)在 滬ICP證:滬B2-20130026 網(wǎng)站備案號:滬ICP備11042629號-1
- D
- 德邦基金德邦證券資管大成基金東財基金達(dá)誠基金東方阿爾法基金東方紅資產(chǎn)管理東方基金東莞證券東?;?/a>東海證券東吳基金東吳證券東興基金東興證券第一創(chuàng)業(yè)東證融匯證券資產(chǎn)管理
- G
- 光大保德信基金國都證券廣發(fā)基金廣發(fā)資產(chǎn)管理國海富蘭克林基金國海證券國金基金國聯(lián)安基金國聯(lián)基金格林基金國聯(lián)民生國聯(lián)證券資產(chǎn)管理國融基金國壽安保基金國泰海通資管國泰基金國投瑞銀基金國投證券國投證券資產(chǎn)管理國新國證基金國信證券國新證券股份國信證券資產(chǎn)管理工銀瑞信基金國元證券