Josherich's Blog

HOME SHORTS TRANSCRIPT SOFTWARE DRAWING ABOUT RSS

访谈它石创始人陈亦伦:具身的三道曙光和第一道关卡

16 Jan 2026

访谈它石创始人陈亦伦:具身的三道曙光和第一道关卡

其實在自動駕駛時代,我的觀感是,我一點都不覺得特斯拉是遙遙領先的,我會認為說在具身智能時代,美國的創業者不會是中國創業者的競爭對手,完全不會。

我在上項目是壓的很多個人職業風險在上面,因為我們需要採集大量的人類駕駛數據,在那個時候其實是沒有人這麼做的。

就是重劍無鋒,大巧不工,越複雜的系統,越多的數據,往往它的算法結果就會越簡單,它會返璞歸真,它才能經得住這麼大數據的沖刷。

我反而覺得GPT最偉大的事情是,他們想出的Next Token Prediction,這個訓練任務。

歡迎收聽晚點聊,我是曼琪

今天的嘉賓是它石智航創始人陳亦倫,他曾擔任大疆的機器視覺總工程師華為自動駕駛部門首席科學家

2021年,智能輔助駕駛即將爆發的前夕,陳亦倫在華為擔著職業風險,開始採集大量真實的駕駛數據,用深度學習代替過去自動駕駛的規則方法。

這是華為探索端到端智能駕駛的起點。

歡迎收聽晚點聊,我是曼琪。

今天的嘉賓是它石智航創始人陳亦倫。

她曾擔任大疆的機器視覺總工程師,華為自動駕駛部門首席科學家。

2021年,智能輔助駕駛即將爆發的前夕。

當時在華為開發自動駕駛的陳亦倫,開始帶團隊採集大量真實的駕駛數據,用深度學習代替過去自動駕駛規則方法。

陳亦倫說,“那一刻他覺得自己找到了自動駕駛的鑰匙,而他還想用這把鑰匙去探索一個年少時就種下的更大的夢想,通用智能機器人,也就是具身智能。”

2025年,陳亦倫和百度原資深副總裁、百度智能駕駛事業群負責人李震宇,一起創立了它石智航

在最初兩輪融資中,籌集了超過2.4億美元,創下中國具身智能領域的首輪融資記錄。

這期節目,陳亦倫向我講述了他從自動駕駛到具身智能的多年技術探索和研發實踐,他看到的具身智能的三道曙光與三道關卡,以及怎麼先越過其中的第一道關卡——數據。

一些人認為,即使在中國有過命面優勢的具身智能領域,大部分創新仍然來自海外。

而陳亦倫說,這種觀點馬上會被扭轉。

她看到了什麼?我們正式進入本期節目吧。

陳亦倫,您可以和我們的聽友簡單打個招呼,介紹一下自己。

陳亦倫:我是它石智航的創始人。從去年開始,我跟我們的創始團隊一起成立一家公司,公司今年2月5號正式成立。

然後我們希望用具身智能,在具身智能時代,能夠用AI,真的做出有用的機器人,能夠比較大的改變我們工作、生活的方式。

你自己關注到具身智能,或者說通用機器人這個領域是什麼時候?

陳亦倫: 從我上學的時候。

那可以講一講,上學的時候,在清華對吧?

陳亦倫:對,因為我從小是物理競賽的保送生,所以說我對物理極極喜歡。

我在清華去了電子系,然後後來我去美國讀博士,當時讀的是機器學系。

那個時候,我在美國其實非常羨慕我的室友們做的事情,因為他們做的東西很多是機械,這個東西它能動。

對於我來說,我那時候研究的其實全是算法。

我也會做電路板,我喜歡能動的東西。

所以我那個時候就非常非常喜歡機器人這個東西。

然後機器人,包括電動車,那時候我在美國07年的時候,看到博士人動力,他們有一個壓的機械狗,可以在冰面上保持體穩定。

那個讓我驚呆了,我覺得太有意思了。

後來看到特斯拉電動車做得非常好,我覺得也是非常非常了不起的一件事情。

所以說當時我博士畢業後,我其實沒有選擇一個非常主流的,對於學人工智能的一條路,我反而進入到了機電領域。

我可能在第一家公司裡,那家公司是做機電系統的非常有名的一家公司。

我在裡面學會了怎麼做電機,學會怎麼做伺服控制。

我甚至學會怎麼做夜壓,因為當時我認為機器人應該是夜壓來做的。

博士頓很早的時候是夜壓的。

那個時候,夜壓的經驗做法,這些都是我在第一家公司,自己親自帶過的產品。

其實我一直想法就是說我要做機器人。

但是因為我自己是學算法的,我知道那個時候它不 ready。

你只能寫出一些比較簡單的機器人,但不是我想要的那種機器人。

所以我覺得我自己的整個工作經歷一直在串插著,我覺得有某一天我要做機器人,做成我想要的那種機器人。

所以我當時覺得最接近於我看到我想要機器人的那一刻,是在2021年。

那個時候我們已經整個團隊研發了兩三年了。

那個時候我第一次嘗試了一次端到端系統。

那是一個非常瘋狂的一個操作。

我們當時整個代碼有兩百萬行代碼,非常複雜的一套系統。

兩百萬行代碼也能工作的很好。

它可以做一些非常複雜的城市動作。

我跟丁文超博士還有幾個同事。

我們想在20年的時候試一下,說能不能訓練一個神經網絡,讓我不要用兩百萬行代碼,可能用兩萬甚至三萬行代碼。

最終我們用三萬行代碼,訓練一個網絡,讓網絡直接去給泊車去規劃軌跡。

那時候就是最早的端到端自動駕駛,只不過那時候我們做的是兩段式。

2021年做這個事是因為你自己想到了,還是受到了什麼行業趨勢的啟發?

那時候沒有行業趨勢。

端道端的概念並沒有深入人心。

我們實際上是在20年開始做。

你們20年開始做這件事情的時候,當時特斯拉20年那個AI Day有召開嗎?

沒有。

特斯拉20年沒有講端到端。

他講的是視覺,講怎麼視覺恢復三維環境。

但對我們來說,就是怎麼視覺恢復三立環境。

那時候是我們已經知道怎麼做的一個事情。

當然我們沒有選擇像特斯拉來講發布AI Day。

當時擺在我最頭疼的問題,其實都不是感知。

那時候我們可能把資本價值簡單分成:

  • 感知
  • 規控

擺在我面前最疼的問題是規控。

規控最複雜的問題是說:

  • 你的AI產生的每個動作會影響到下一時刻的環境和觀察。
  • 比如說你去加塞別人了,對方可能讓你了,可能是搶你的,行為完全不一樣,會改變環境。

所以它是一個閉環AI

這個閉環AI我們心裡怎麼做,是沒有把握的。

當時也沒有人有把握。

但是我們想要用AI做這件事情。

因為當時代碼已經到200萬行,實在堆不下去了,發現問題的速度遠超過了解決速度。

所以沒有辦法繼續下去。

當時我跟丁博士一起,自己啟動了端到端神經網絡項目

我們需要採集大量的人類駕駛數據。

比較大規模採集人類駕駛數據,在那時候沒有人這麼做。

所以我們把整個車隊一半用來幹這件事情。

認真採集數據。

丁博士每天教司機怎麼開車,說:

“你應該這樣開,你應該那樣開,這樣才是一個好司機。”

一半車隊當時是多少車?

大概100輛車左右。

接下來我們積累數據。

剛開始積累數據出來,沒有特別顯著的發現。

後來數據積累到幾千個小時,情況不太一樣了。

網絡真的學到了一些東西,越積累越厲害。

我們選了一個特別難的測試場景。

這個場景是一個非常人車複雜的城中村,完全非結構化的環境,人車混行,車輛搶來搶去。

這種場景用規則幾乎永遠沒辦法寫過去。

我們非常膽大地用神經網絡嘗試這件事。

當時原則是盡量不要用後處理,後處理越少越好。

結果非常流暢串行過去了。

所以從那一刻開始,當時還沒有GPT,可能大家不會講GPT moment。

但是對我來說,讓我感覺:

“哇,AI可以做 Planning 了。”

那是非常強烈的感覺。

我知道自動駕駛之後一定會往這個方向走。

而且這不光是自動駕駛的事。

這一刻是對我非常強烈的一個信號。

這是2021年發生的事情

為什麼第二年你就離開華為了?

因為那時候外界看,高級輔助駕駛進入一個質變,競爭或上量變得越來越快。

覺得正是行業應該發展的時候。

但你卻回到清華。

陳亦倫:

我覺得我已經搞明白了自動駕駛,或者解鎖L2自動駕駛、高級輔助駕駛的鑰匙在哪裡。

這個題我已經解完了。

接下來是個不斷工程化的過程。

我怎麼用 AI 解決 L4,當時我不知道。

現在可能有些思路,但當時不知道。

但怎麼用AI解決L2問題,我覺得我已經想明白了。

當時組織有足夠的能力持續推向一流產品化水準。

當時那段端到端自動駕駛的work事情,對我的震撼非常大。

讓我看見這個機器人,可以從 AI 做 Planning,斷到斷有非常大可能性。

所以我走的時候,跟所有領導和同事說:

“我要去做機器人。”

他們很意外,因為那時候是重視自動駕駛干得最好的時候。

行業裡覺得我有點急流勇退的意思。

但我一直在想機器人這事。

我非常認真地跟離職時的每個領導說我要做機器人。

他們覺得不可思議,問:

“你真的是要做機器人嗎?”

我說是。

那機器人來說,我知道這把鑰匙一定會在之後的每個實力節點慢慢開啟。

所以我選擇回到學校,仔細看究竟在哪個時間點開啟。

但是你覺得2022年那時直接創業,其實並不ready?

對。

為什麼?

我覺得機器人創業跟做科研不太一樣。

我認為創業是打造一個企業,提供看到的產品解決客戶問題。

我需要明白服務的市場和用戶,他們為什麼需要這技術解決問題。

當時整個市場並不ready。

我在自駕看到的那個moment,可能預示機器人也會往下一階段走,但還沒走到。

只是可能性。

很多問題還沒被研究明白怎麼解決。

所以我想給自己時間搞明白。

後來我去了清華。

清華的AIR本身是個與產業界和工業界結合比較緊密的機構。

是的。

所以你在22年到24年籌備踏實過程中,這兩年你看到什麼變化,讓你覺得到24年下半年開始籌備是一個好的時間點?

對,真的來做創業了。

我在22年,感覺有幾件事情是非常正向的。

第一是:

  • 2021年技術行業,大家已經解鎖了四足狗怎麼通過AI控制。
  • 大家現在看到local motion。

那時候機器狗的整個控制:

  • 以前是WBC,非常複雜。
  • 你會發現那些狗只能很矮板地跑過來,給你回歸手,轉一下身子就沒了。 但是一提是他們那個組來說的話,ETH(蘇黎世聯邦理工學院)。所以我們走通的一種模式是說,你可以用RL的這種方式(強化學習方式),你至少可以把自己的locomotion這個問題能解決掉

所以當時我覺得幾乎是沒有懸念說,首先狗會跑得越來越出神入化,其次人也會走得越來越好,而且以至於說走得越來越順滑,以至於大家沒有人會再會擔心locomotion是一個問題的。

正好可以回顧一下,就是狗它達到這種狀態,是哪些重要的技術進展帶來的。你剛提到ETH就是蘇黎世聯邦理工學院,他們有一些貢獻。然後再更早是19年的時候,MIT開源的Mini Cheetah

那個Milli Cheetah是嗎?我覺得Cheetah當時其實最主要的貢獻是,給大家打開了這一整套軟硬件系統應該怎麼做。

然後我覺得ETH是找到了真的一把金鑰匙,是說你確實可以用神經網絡方式,然後直接控制整個全身運動,使得說它達到你想要的任意的自由活動的這麼一個效果。

所以當時我看到這個事情我覺得非常好,我覺得這個很靠譜沒有什麼意外,它一定是適用於各種各樣的機器人都可以做到這一點。而且它的技術說在外也不太複雜。

就是你如果現在來看Locomotion來說的話,它有兩個關鍵的一個模塊:

  • 一個是你要找到一個非常可擴展,高度併發度非常高的simulator(仿真器)。你可能當時是有CPU版本,後來因為大家起的很大的作用,它發展的GPU版本,你可以把它併發度刷得非常高,以至於你可以在里頭獲得很多很多數據。

  • 第二個來說的話是說,如果你是做一個硬件公司來說的話,因為我們講有一個Digital to physical gap(數字到物理的鴻溝),就是我們在軟件裡面總形化,把電機模擬成理想電機,在硬件上它不是。

但是你如果是個硬件公司來說的話,你可以通過設計各種各樣的方式,把這個gap最小化。這樣來說的話,你的訓練出來的AI,部署到頭來說的話,幾乎就可以直接流暢地運行。

就是這個Sim2real的gap,給它最小化。後來大家把它叫Sim2real的gap

所以就是這一條線上的進展,就是我們現在看到的一些人型機器人,它可以很流暢地跳舞、打武術

對,然後你會發現,什麼樣的公司能夠最流暢的,它都是硬件公司。硬件公司,硬件見長的公司。

對,因為它核心就是把Sim跟real兩邊越來越靠近。你可以在Sim上靠近,但Sim大家其實已經努力到一定階段了,所以就再把它從real到Sim上靠近,這是硬件公司做的。

所以這是其中一條,就是Locomotion

對,Locomotion。

所以當然我看到Locomotion,它在技術上已經是完全摸清楚門道的,它其實只是需要一個時間把它發酵發酵,它就會越來越好。

包括我覺得像明年Locomotion也會繼續,基本到一個出神入化的地步。所以Locomotion我覺得這第一件事情是OK的,它需要時間來發酵。

然後第二件事情是GPT,GPT是22年。

就是GPT它解決的是具身智能的另外一個問題,按照我們以前技術的說法叫Task Planning

就我還是以自動駕駛為例,你想自動駕駛的時候的話,你說我給自動駕駛下一個指令,說我要去東方明珠

你想這是一個非常複雜的事情,它怎麼知道我應該怎麼走去東方明珠呢?

所以它要把它拆下來,它走到第一個路口,說向右轉,下路口向左轉,一段段拆下來以後,它就能走過去了。

但是自動駕駛也是一個被祝福的原因,因為這件事情並不需要大模型去做,這件事情需要導航Google Map、百度Map這個共享數據庫,大家已經在上一個時代解決好了,你就直接計程好了。

那麼機器人沒有這個祝福。

你想機器人來說,我說我想到另外一家公司去,或者我想做這個事情,這是多簡單的一句話。

那麼它應該怎麼知道一步步完成呢?其實它如果沒有自動駕駛那套共享地理信息系統,它是很難做到的。

但是大模型出來以後它不太一樣。

所以它非常擅長幹這件事情,它非常擅長幹Task Planning。任務規劃。

所以這個相當於是第二道曙光就已經起來了。

然後第三道曙光就是我自己親自解鎖出來的端到端。

就是說我們所有做機器人來說的話,機器人最終它做的事情都是一樣的。

就是從傳感器,從輸入的信息指令,一直到這個Action

這個都是一模一樣的事情。但是因為傳感器它是一個極其高位的東西,指令又是個極其低位的東西,你要把它對列在一起。

其實我們在之前自動駕駛時代,我們就花了很多小方格,每個方格都有各種各樣的技巧,專業領域的人,再把這個方格穿在一起。

這就是所謂大家現在說的規則

但是規則這件事情,自動駕駛已經很難了,要遷移到機器人幾乎不可能。

但是端到端這件事情是OK的

所以端到端是非常重要的第三個技術。

所以說我當時拿到自己跑動自駕端到端,我當時是非常非常具有很大的觸動的。

我覺得我同時看到了三件事情。

其實自駕的端到端是讓你看到它解決L2的這個鑰匙

對,你們找到了。

對。

那這個時刻現在在具身智能領域是已經到了嗎?還是正在大家往這個方向做了?

其實是在2019年的時候,我就已經決定往這個方向去做了。

但那個時候呢,就是我做各種各樣的推測,我覺得是合理的。

但是我沒有看到效果。

我當時也是很忐忑,我不知道能不能看到效果。

但事實上我在2021年看到的效果,我覺得很棒。

然後現在具身來說的話,相當於又回到了2019年的狀態。

就是我覺得這一切都是合理的,都是沒有問題的。

但是我現在心情更強了,因為我畢竟在它的一個子問題上,我看到了效果。

你說自動駕駛是整個通用機器人的一個子問題。

對。

而且我這一年,我跟我們團隊幹了一年下來,我們心情指數越來越高。

因為各種各樣的效果,我們都已經開始逐漸展露出來了。

我沒有看到跟我預期以外的東西。

我們可以展開來說,就是你看到了這個領域的第三道曙光。

領域的第三道曙光是端到端這件事情

對。

你覺得它現在算是一個行業比較主流的方法嗎?

如果整體來說,行業就是要實現巨身大腦,有哪幾種方法?

對。

其實我覺得端到端現在是大家每個人都會說的事情

是的。

就現在這個時間點就是,大家已經,這個跟當年自動駕駛不一樣。

當年自動駕駛是說,端到端很多人是半信半疑的,直到你把效果做出來以後,大家開始呼應而上。

具身其實現在是反過來的。

端到端是大家每個人都在說的事情,但是你看效果呢,其實大家都覺得不好。

陳亦倫:

我喜歡的方式就是說:

“我為什麼要用端到端?是我想做出讓我驚喜的效果,是我用上一代技術做不到的這個效果。而我用新一代技術,它是我的一個解鎖這種效果的姿勢。”

那麼這一刻我會認為是它的啊哈moment,或者它的GPTmoment

我相信最後GPT出來以後,它哪怕是用BERT出來的話,大家還是會覺得啊哈。

對吧。

是。

所以說這個啊哈效果的moment,我覺得是非常重要。

對,所以你同意,就說大家現在至少在表達上,都是在說端到端的。

對。

就它看起來是一個很主流的方法。

對。

那這個端到端它和VLA和比如說和世界模型。因為這個領域有非常多的這種buzzword。

對。

這都是什麼關係啊?

對,其實端到端是個更大的概念

端到端其實反而是一個非常泛的一個概念。

端到端意思是說盡量用神經網絡解決所有的問題,就是端到端。

曼琪:

當然是這樣子。

當然是這樣子。

對吧。

然後具體說你用神經網絡解決來說的話,你有不同的方式。

你可以用模仿學習做,也可以用強化學習做。

所以說它大家裡頭圍繞裡頭可能會定義很多的概念。

比如說你像VLA,我覺得它們之間其實都是互相有交錯的方向,像蘋果跟香蕉。

然後VLA說什麼問題呢?

VLA是說,反正是我最終的有這麼一個網絡。我輸入的是Video跟Language,我輸出的是Action。

然後中間怎麼做的怎麼訓練呢?

其實我也不是特別管,反正只是一家網絡。

那當然這是沒問題的。

當然說是這樣子。

曼琪:

然後呢,世界模型是什麼意思呢?

世界模型定義的就更加多。

然後有的人認為世界模型是說:

  • 我可以有一個模型,然後我告訴他我想在任意視角去觀察它。

  • 它可以預測出這個視角的照片應該長什麼樣。

  • 或者說這個世界模型,這裡頭有一個世界它在動態發展。

  • 我可以讓他去預測未來可能是什麼什麼樣。

但這個很多人他會在計算機視覺的角度上去看,把它當作一個空間感的一個視頻生成器。

它是個視頻生成器。這是一種定義。

那有人定義。

那有人定義來說的話,是說他希望這個模型能夠學會這個世界交付的規律。

比如說你捏這個東西它就會被捏扁等等等等。它可能也是一種世界模型。

所以這個世界模型,從它的控制來說,從它的這個信念論來說它不複雜。

它其實就是你輸入這個時候的狀態,輸入這個時候它的action,它可以預測下一時刻的狀態。

這個就是典型的一個世界模型。

但這個狀態是什麼?裝的是什麼東西?大家定義的定義不一樣。

對。

以及說你有這個世界模型以後,或者你有這個世界演化系以後,你到底怎麼用它?大家也是千奇百怪。

有的人就說:

  • 我不管它,我可能是給元宇宙定義的,或者給遊戲定義的。

  • 我就是為了生成不同量的內容,那也沒錯。

那有的人說:

  • 我想在機器學習裡頭用它,那你怎麼用?那也是另外一個問題。

所以說,這件事情就是,我覺得大家把這個任務,還有方法這件事情,目前沒有形成一個統一的定義

所以說大家每次看VLA,然後世界模型,最後發現說,其實講得好像也不太一樣。

那你們自己現在的方法,或者說你們對端到端的理解是什麼?

我自己認為,就是首先非常明確的是,端到端它一定要通過神經網絡來串在一起,它要通過數據來解決問題,它要獲得下一代難以匹配的性能在上面。

所以說我會堅持用端到端來解決它。

然後呢,我認為所有的端到端來解決,就是用完全AI方式來解決這個問題。

然後我自己的觀點是說,AI要解決一個大型複雜問題,我們大家需要突破三道牆:

第 一 道 牆:數據牆
   就是說你如果有足夠多的數據,你才能讓它長成足夠複雜的網絡。
   所以在重量的時代,我們會非常努力地去獲得數據,我們設計商業模式怎麼獲得數據。
   GPT我覺得它是在被祝福的領域,它的數據就在那,就是互聯網數據本來就很多,預料本來就很多。

第 二 道 牆:算法算力牆
   往往其實是算力。
   為什麼呢?因為按照我們之前的經驗,其實是越複雜的系統,越複雜的系統,越多的數據,往往它的算法結果就會越簡單。
   它會反腐歸身,它才能抗得住這麼大數據的沖刷。
   所以那個時候大家都會進入到一個算力比拼的時代。
   然後接下來呢,其實它的任何的scaling都會有停止的一天。
   所以你在算力局局膨脹的時候,你會發現說算力其實也不夠用。
   所以你仔細發現的問題來說,其實它也不是完全靠去訓練能夠解決的事情。

第 三 道 牆:後訓練
   後訓練的意思就是說,你正在找這個問題好好解決。

要把問題好好打穿。這件事情來說的話呢,它會進入到一個非常有創造力的一個時代。

所以說,它會經過這三件事情。你說第三個會進入一個有創造力的時代,就是說這個時候是比較考驗你的一些方法上的巧思,或者說一些創新能力的什麼。

對,而且你需要針對你的問題能夠想明白說,你究竟是應該用什麼樣的方法去解決它。比如說我舉個例子,自動駕駛現在我認為已經過了第二階段,已經過了第二階段了,要接種到第三階段。

第三階段它遇到的非常頭部的問題是什麼了?它最頭部的問題是說:

我應該怎麼樣跟其他的車去交互。

因為大家是在共享路圈的。我換到的時候,我究竟應該是在這個時間點激進一點還是保守一點?在這個時候我究竟是應該沙車還是在讓行等等?它需要處理。

第一為什麼?因為它每一個決策都影響了整個周圍的緩提人怎麼開車,也就是說你其實影響了世界,那麼世界的行為就會急不再影響到你。

所以自動駕駛來說的話,就是說為什麼有的公司在提VLA,有的公司在提世界模型。它解決的是不一樣的問題。

在提世界模型的公司,它解決的是怎麼我跟其他車輛去交互的問題。所以說我需要知道一個駕駛行為的直接模型。我如果往前這樣走,我可能推演出來周邊的人應該怎麼開車。所以它解決的是跟這個世界交互的問題。

如果說你的自動駕駛是要解決跟其他社會車輛人怎麼交互的問題,你需要用世界模型,你需要用強化學習

這個是,如果說你認為你的頭部問題是要解決交互問題的話,你的自動駕駛的下階段就是世界模型。

如果說你認為說你解決問題是一個開放世界的問題。開放世界的問題是說,

  • 我發現其實我也沒有很多導航信息,
  • 我可能都是看周圍的環境,看牌子,看礁石,
  • 然後我可能發現我有很多未知的障礙物,
  • 可能地面上會有一道大水坑,我也不知道能不能走,
  • 然後我會遇到很多我以前不知道的東西。

你已經沒辦法用一些抽象的一些變量來描繪你的世界了,你必須用一個更複雜的語言體系來描繪你的世界的時候,那你應該夠VLA。所以你看它解決是兩個不一樣的問題。

所以從自動駕駛來說的話,從目前的出問題的統計數字來說,那接下來我自己看到的現象是說,大門的問題來自於跟其他的車輛的抽象的交過。所以你應該用世界模型解決它。

而且這個世界模型不一定需要是開集的。你可以是一個封閉體系的世界模型,因為你只需要建模的是說,你跟其他車跟其他人怎麼去交互。所以它是個封閉體系的,所以沒問題了。

但是它需要有很好的記錄,平行世界演化的能力

那好,如果說你把這個問題解決了,我覺得大概的L3/L4能力就達到了。那接下來來說的話,你會發現不夠,我需要用一個更開放的體系,我需要借助語言的力量。那這個是我認為是L4/L5的結果

所以說,每個技術是為了解決它的問題而生。

那回到具身的話,是不是還在第一道關卡?我覺得具身毫無疑問是在第一道關卡。其實基本上我覺得它是一個很大的關口

就是說你有數據以後,你會享受到第一層數據的Screen Law。數據Screen Law是最容易享受到的鴻利。然後接下來,有了數據以後,你會充分的享受到算力的Screen Law

因為你有很多數據,你有更好的算力去吸收它、Digest它,然後它就像一個超級的一個函數壓鈔器。然後這個時候你會發現說,它好智能

因為很簡單,每一個智能的動作背後都能找到,溯源到它的相應的一個原子動作的一個數據。這個時候你覺得它非常智能。

但這個時候非常智能它還不夠,因為你會發現它的智能只是體現在說,你通過觀察,然後讓網絡聯想到了我某一條宣言數據,它是這樣做的,於是我也要這樣做。

但是網絡在這個過程中,它不會認真的去思考說:

為什麼我這樣做會成功。

然後如果解決,接下來就要解決下一重。下一重就是要跟世界去交付的問題。

怎麼我認為說我做這個動作,改變世界它會成功。然後它的成功力會直接往上提,然後再往線跌來小一層。

所以你覺得現在在具身這個領域,其實實際上最核心的,還是我們怎麼更低成本、更高效率、更大規模的獲得數據。而我們討論的很多,比如說不同的技術路線,這個可能是後面階段,才會更重要的事情。

對,其實你看,我的貓的language,它都是為了解決它想解決的問題。但是在第一階段沒有的時候,其實你是無能為力的。

但第一階段解決以後,往往你會收到最好的一波紅利在上面,而且你會發現性能極具突威猛。

所以這個是我對這個行愛,一直會有非常樂觀的這個態度。你現在就是覺得,其實不用那麼擔心說,未來最後這個算法實際上是怎麼樣是嗎?

你覺得這個是來自於你過去的經驗,你覺得它肯定會有一個簡單的算法,能去把這個數據裡的東西給學出來。

我覺得算法其實它本質上是一個認知問題。因為你要知道在神經網絡裡,它跟傳統的算法不太一樣。

傳統算法是說你每一步的一些戰術級操作,都需要仔細去推敲,它應該怎麼怎麼做怎麼做。

在神經網絡來說的話,因為神經網絡本質上它是一個函數。你說你定一個函數,最重要的事情是什麼呢?你要定義函數的入口是什麼、出口是什麼,你就把這個函數的功能框住了。

所以說它在神經網絡裡的算法設計,往往是更多的像一套架構設計。就是它的考驗的認知問題,我怎麼樣把這套東西把它搭出來。而且它往往是一個系統級的架構問題

對,我為什麼有這個問題,是可能類比大語言模型的發展。

對。就是你會觀察到其實在此前,互聯網的語料數據就已經非常豐富了,然後同時GPU的算力也是比較豐富的。

對。但大家會覺得它有一個拐點是來自於2017年那個論文,它提出了Transformer這種架構,包括後面GPT又在BERT,就是它有編碼器有解碼器的技術上,它又給它簡化成了只有解碼器。

對。大家覺得看起來這個架構的出現是一個轉折點

對。其實我是從另外一個視角來理解這個問題的,就是我反而覺得GPT最偉大的事情,或者我本來當時最偉大的事情是,他們想出的Next Token Prediction這個訓練任務。

因為確實互聯網書記都在那邊,有很多很多文本。你也可以設計各種各樣網絡,但這個網絡說它幹什麼呢?你怎麼去設計這個任務,使得說它能夠引導它,讓你走向你想達到它的終點。

就是OpenAI這些人,包括Elia這些人,實際上它想打造出個AGI。那對它來說,它需要思考說:

我到底怎麼樣能夠有一個合適的路径,讓它打造AGI。

你讓一個網絡不停地去做完全填控,或者不停地預測下一個詞,它居然能夠走向目前GPT這樣的一個能力。

這是一個非常不可思議的事情。

我記得當時還挺有意思,因為美國有一個非常好的、非常有名的人叫Android Capacity。之前他其實也在OpenAI,對吧?

之前他自己寫了一個Blog,他不是論文,它只是一個Blog,它都就是說,非常令人驚訝的這個RNN的能力

其實他做的事情很簡單,他做的事情就是用了一個不是特別大的一個循環神經網絡,去不停地預測下一個詞。

然後他在那個Blog裡頭,他展示出來說:

哦,他原來可以寫詩,他還可以去寫代碼,如果說我不停地給他關代碼,他可以幹這個。

就是你知道那個時候,大家沒有人在討論GPT什麼之類的。安卓卡佩茨也沒有去特斯拉去的FSD,他是OpenAI的一個研究員。然後他發現RNN可以一直預測下一個詞。他覺得極其驚訝。

當然我看到他,我也覺得極其驚訝。因為我當然第一個反應是,能不能用他來做宗教史。

所以說你看,這件事情是一個非常了不起的事情。他是說:

哦,原來你只是訓練了一個任務,他可能不斷地預測你下一段,然後他就可以展現出讓你驚訝的能力。

我覺得這個是非常了不起的一件事情。

對,而且他當時用的不是Transformer,是RNN。是RNN,對,所以這件事情我覺得是非常了不起的一件事情。

Transformer呢?我認為什麼呢?

Transformer其實我非常喜歡這個東西。它就是我自己的整個從業經驗來說,或者訓練大型AI網絡來說的話,我自己的教訓就是說:

越複雜的任務,越大型的數據,它的網絡結果就會越簡單,越反腐為真。

你會發現,越簡單的東西,它能夠衝刷,聽得住大型網絡的衝刷。

那麼,之前來說的話,有很多人他試圖設一些非常複雜的網絡結構,非常精巧的結構,但是你發現,實際上你在大型數據衝刷上來說的話,計算效率最高的、最優的、實驗最簡單、最不容易出錯的,往往是最好的方法。

所以我會認為Transformer,它是負責在這種情況下,它而生的,在上面。

Transformer其實很多時候在小數益級上,它並不是很占優勢,但是它在大數益級上,因為它非常的簡單,它非常的好實現,因為簡單它不容易出錯,所以說它往往能夠經得起大數益的成熟

所以說在大數益級上,大家都不予要同的走向的穿梭。

所以總結一下就是,如果類比當時大語言模型的發展:

  • 一個是我們把預測下一個Token作為目標,這個時候是很重要的。
  • 然後另外就是這個,比較簡單的結構,它更能經受大的數據去訓練。

對吧,對。

那如果回到你們現在在做的這個事情,你覺得在具身領域的一個合適的目標是什麼?一個訓練的任務是什麼?包括行業裡大家是怎麼理解?

因為我估計可能也沒有那麼受理,可能大家也有不同的想法。對。

我覺得這是一個特別好的一個問題,所以我經常會回過頭再思考,在以前大家遇到這樣的問題的時候,大家會怎麼想,以及哪些地方它是非常關鍵Creative的,東西在上面。

比如說我會認為在GPT來說,或者十大語言模型,Next Token Prediction,Awesome,然後Transformer,Awesome。

然後我同樣講自動駕駛,也有兩個Awesome的東西,

  • 一個叫BEV, Bird Eye Real

對,這個是20年的特撒的AID上講的。

對,這個是BEV

為什麼BEV非常Awesome呢?就是我們現在在講斷道端的時候,其實很多時候大家不會去分,說這個斷道端到底是從一段視頻,比方機器人一段視頻直接到了動作映射,還是一段視頻映射到了空間,再到了動作映射。

但在自動駕駛你會發現,你會發現不管大家怎麼做斷道端,這個問題是極其明確的,你必須先有一個空間映射,然後再到最後的動作。

所以BEV Bird Eye Real,其實它指的是一種空間映射。

你第一步先要重建你的空間,你重建完空間以後,再從這個空間裡頭,把自己的整個的規劃,再把它長出來。

所以不管怎麼做,BEV這一步逃不掉。

就現在有直接做這種斷道端的,也有通過VLA做斷道端的,但是你會發現它再怎麼Langue什麼之類,BEV它逃不掉。

為什麼呢?它效果太好

你一旦有空間重建來說的話,你會發現你在後面訓練planning,訓練各種各樣的重策,做出一些非常高技巧的動作,非常容易。

然後但是你如果沒有空間重建的這個概念,沒有BEV這一層來說的話, 你會發現這個網絡似乎只是在單調記憶中的你的動作。發現你有這段視頻我就應該怎麼做。他不理解這件事情。

所以說,這件事情是一個非常好的一個東西。那這件事情其實是自動駕駛它獨有的,但是它獨有的,跟大語言模型沒有關係。你把大語言模型它接受的是text,沒有這個東西。

那機器人來說的話,我們一開始也是這樣的信念,包括我們現在非常明確的是這麼一個觀察,也是空間這件事情對它來說極其概念,極其重要。其實某種意義上,你從一個更本質的角度去理解它,就是什麼樣的任務,或者什麼樣的表達是最好的。

其實物理定義告訴你,最精進的表達是最好的。你看物理公式都極其簡單。就是我們這個世界來說的話,你可以用圖像方式去理解它。

那麼你每個像素都是一個四材質,你會發現你有無數的銅像。但是你在各個視角的圖像攝像頭去看它,你會發現它看的是同一個東西。

這個東西它是什麼呢?

  • 第一它有時空的概念,它在這個時刻,在這個空間上它被占據了。這個就是自動駕駛要解決的問題,防撞吧。
  • 第二個來說的話,它之間有關系的概念。
  • 然後第三個關鍵,第三個是說你如果去動它的話,它有力學的概念。力學的概念會引導它,下一次會變成什麼樣子。

那麼你如果在物理空間上去展示發,你會發現你有一個特別精簡的表達。它的精簡表達程度,遠遠比RGB要來的精簡的多,因為它更本質。

所以我覺得自動駕駛跟基建在說,它都是物理空間AI。為什麼我們特別喜歡把它叫物理視點AI呢?因為本質上它的變量全是物理的東西。你要用物理的東西去刻畫它,讓石精元學到這些物理的東西。

那麼這件事情就會讓你很多任務都變得非常非常容易。所以說我覺得這個是一個非常重要的一個認知。

然後第二類來說的話,其實這個也是自動駕駛去身智能跟大模型,在這個階段其實大家都逃不開的一個問題,就是你怎麼跟這個視野交互

如果一個語言模型你不跟人交互的話,它就相當於是一個無頭腦,不停的嗶嗶嗶嗶嗶嗶嗶,說了下一段東西。其實你也不知道它所說的所願。

但是它真正是給你展現智能是說,你不停的問它,它再回答你,再問它,再回答你。這個是它跟你就有交互了。

那麼其實是它內在會對你有一個模型可畫,它知道怎麼交互會合得更好的反饋。

那麼機器人更難的,核心難內也是這個東西。現在其實我們拿到一個跟我們不可互相交互的東西,其實容易的。

比方說我去拿一個方塊,跟它不可交互,我找到一個地點捏它拿起來,我走到哪走到哪,沒有任何可交互性。

你說不可交互指的是,它是一個硬的東西,還是指什麼?對,你無法改變它。但事實上抓起來說你也改變它,因為你改變它的位置,但位置是這個維度非常低,而且事實上你只要抓得老的話,你也不用改變它,你走哪來跟哪,所以你並沒有再改變它。

但是你如果是打個比方,你在操縱一個布料,你可以說去拿一針刺去刺繡它,或者你再柔軟一個線來,或者是你在操縱任何一個東西,你在改變一個指定,你就在改變它。

你怎麼想像說,你想把它操作到你要的一個效果,你就要跟它去交互。所以這件事情是非常難的,這件事情是整個AI設計師非常需要關注的一件事情

所以你剛才說兩個比較關鍵的,你可以叫任務也好,也可以叫認知也好,一個就是這個空間,空間感是很重要的,另一個就是你和世界和你要去處理的那些物體之間的交互。

對,其實對於自動駕駛來說空間非常重要,因為自動駕駛它本身是一個不碰撞系統,它只是在空間中怎麼擺的問題,碰撞的一刻已經出世了。

對於機械人來說它是個接觸系統,所以除了空間之上還有一層東西,就除了XYZ之間還有力跟力矩在上面。

所以說這個為什麼是接觸力、空間這些東西,基本上物理量它會變得非常的關鍵。

因為像大語言模型它把任務設置成我們預測下一個token,然後之後它居然非常驚奇地出現了一些更加通用的能力,就是當時大家說的智能涌現對吧。

對,那在具身這個領域就比如說我們去重視空間,我們去重視這個它和世界的交互,它是為了具身的什麼,就更遠的什麼效果去做的。

其實也是為了讓它展現出讓你驚訝的能力。

其實大語言模型你要知道,比如說你很多時候你project它各種各樣的問題,你會發現它其實回答得很得當,而且說出來一套一套的,你覺得很驚訝。

但其實這驚訝的背後原因是什麼呢?因為你問它的,你給它說的任何一句話,你其它的回答,它都能在它歷史的訓練數據中找到某一個片段。這個片段跟這件事情是有關係的。

然後它把這個片段給你調出來以後,然後你會覺得很令人驚訝。因為發現它通過這種組合,它產生了你看似的比較新的數據片段。

但是實際上對於神經網絡的時候,它只是一個內插。你看似比較新,它只是一個內插。

所以說這個時候就會給大家一種感覺說,「哇, 它湧現了。」但實際上它通過各種各樣方式,它回溯到一些數據片段。這個是它的第一階段。

對,所以我想就是說你可以描述一下,如果把剛才這些任務設定的比較好,在具身上能看到什麼效果,就具體的。

對,就是你會發現它的整個的這些行為,首先來說的話,它會越來越讓你覺得是一個人在操作它。

我打個比方,我覺得最簡單的一個評價效率就是,

  • 比方說你給一個機器人,你要穿件衣服,戴個帽子,你可能也分不清楚它是人還是機器人。
  • 然後只有你看它的動作,你不太容易去分辨出,它是人還是機器人。

這件事情就是所謂的圖靈測試,對吧。其實衡量所有AI來說的話,都是圖靈測試。

你想測試一個聊天機器人,它背後是人還是機器人,就是你的測試者已經分不清楚,它最近是人在聊天機器人在給你打字。好,這個圖靈測試就過了。

具身智能也是,也要做到這一點。

那它具體在比如說完成的任務的類型上,以及學習新任務上,能做到什麼程度,這是下一階段才解決的問題嗎?

對,首先這個場景也不能太簡單,但我覺得能在一定的場景上,能夠展現出這樣的能力。並且這個方法論是可以泛化的,這件事情就很好。

其實我自己認為說越大的模型,它真正泛化的其實是背後的方法論。

我打個比方,比如說,我們現在大家用大語言模型對吧?大語言模型可能現在被證實一個非常落地的應用,是做AI coding,用它來寫程序。

那麼你做一個大語言AI coding的這麼一個模型,理論上說你也不用讓它去讀莎士比亞,讓它讀各種各樣的珠子百家,你反而非常關注的是它應該讀各種各樣代碼。

那麼這個時候你可以認為它是一個垂域模型,它是一個代碼級別的垂域模型。

但是它整個背後的方法論,它跟大家想通過語言模型達到的AGI,它完全是一套方法論。也就是說你可以用這個方法論來說的話,類似方法論讓它去解決數學問題,解決物理問題,解決跟其他的這個問題,它背後是一套方法論。

自動駕駛其實也是一樣,你在中國訓練好的一個,開了特別溜的一個AI,自動駕駛是FSD,你到美國來說不一定開的溜,到日本來說也不一定開的溜,到印度可能就更恐怖了。

但是它背後的方法論是一套方法論,也就是說我如果想用它來擴展到解決這件事情上,我就用同樣方法論給它擴充數據,讓流化效果,它就可以把它延展下去。

所以機器人它也是一樣了,就是說你可能最後一個機器人,你可能在這個任務上做得非常棒,那個任務上可能你真正都沒有接觸的數據,但是也沒關係,你的方法論是可以支撐你泛化的,就可以。

方法的支撑泛化,數據能夠無限擴充,然後當你模型越來越大,你其實就是可以適應Multitask,但是你在部署的那一刻來說的話,你其實也不要真的需要把它做那麼大。

這是你從小心中想的真正的機器人的樣子嗎?

對。

但是我理解在你說的這個邏輯裡面,它其實是肯定是可以應用的,對吧?

對。

它甚至可以比如說,比較高效率的大規模的商業化應用,因為我可以通過補充數據的方式,讓它去適應不同的任務。

但是很多人心理想的機器人,可能是他真的像人一樣會直接學新任務,就用現在的範式是不是還做不到?

你說的對,前一陣子Ilya他有一個talk。很好看。我看都是Cash和他的一個talk。

Ilya是非常非常牛,他每個talk都值得非常認真地去看。

我認為其實到最後,不管是做具身智能,還是做大語言模型,還是做具身智能自動駕駛,大家都會收斂到這麼一件事情上。

因為現在的整個這道方式來說的話,還是too high way。

本質上其實我們是在做兩階段:

1. 做一個瘋狂的數據生存器  
2. 再做一個瘋狂的數據模擬器,就是數據逼近器  

然後但是人不是這樣子,人會在主動的過程中,依靠自己的一些鮮豔的判斷,非常高效地找到你所需要的數據,並且吸收根學習到它。

所以比如說像Ilya來說的話,他覺得人的value function是非常厲害的東西。價值函數。

對,也許這個東西是人類多少年的進化,祖先給我們的寶貴財富。

它沒有直接給我們數據,也沒有給我們直接一個現成的神經網絡。但是它給我們很好的value function,指導我們在自己的生活中高效地去學習。

但這個問題解決來說,我認為它是一個具有非常重大影響力的。它會讓整個AI的學習效率都會往上翻很多很多。

但在目前這個階段,其實大家已經找到的真正能夠展現強大效果的東西,還是我剛才說的那種比較暴力的方式——找到一個非常厲害的數據生成的方法,找到一個非常厲害的數據擬合的方法。

OK,那我們就回到現在這個方法。

因為你們這次發的一個很關鍵的東西,也是你們一開始就講的,就是human centric,具身數據引擎

對。

然後我看到它的最後的形態,其實就是一個可穿戴的設備,一個很輕量化的手套,然後加上第一視角的攝像機。

然後人們戴著這個東西,就可以去做各種工作來採集數據。

對。

你可以講講這個東西它是怎麼運轉的,包括我們看到全世界範圍內也有一些類似的操作。

比如說三類robotics有一個skill capture glove,技能捕獲手套,應該可以這麼翻譯。就比如說大家在獲得這種高效率的數據上有些什麼時間。

對。

我覺得我們應該是從所謂的第一性原理,就是認真的正想想,想到這件事情了。而且我們是把這件事情想明白以後,我們才下場創業的。

所以你是24年就已經想明白這個事?

對。

我的第一份商業融資計劃書裡頭,就非常清晰地寫了這個東西,當時飽受質疑。飽受質疑。

那主要質疑的原因點是什麼了?

因為當時一些比較有名的公司,比如說像Physical Intelligence這些,它們一直都在用搖操作。然後人遙控一個機械臂,然後去做一件事情。然後它們會把這個機械臂的全量信息,包括它的傳染信息全部都拿下來,然後用來做這個訓練。

那可能再往前追溯,因為我認為可能大家都看到了特斯拉某年的Tag Day,也對人戴VR眼鏡去做,大家可能覺得搖操作這件事情,它可能是收集數據的很好的方式。

然後呢,我們認為這件事情就是No.1需要解決的事情。因為還是我跟你說的,我當時的那個moment。

我當時回想出來的moment是說,我當時冒了那麼大的壓力,頂了那麼大的風險,錯過了一萬個小時。然後我看到了不一樣的東西。 那麼自動駕駛現在大家拿到一個產品可用的一個好東西,一個好系統,它背後需要多少小時支撑呢?一般都是10萬到100萬,好了公司都會有100萬小時以上的數據

那麼才能做出一個自動駕駛這麼複雜的一個AI。那麼軍事智能需要多少數據呢?那肯定比這個東西要高一個數量級。

1000萬小時的意思嗎?我覺得至少是。

因為其實很多其他我們當時在做這件事情的第一天,我們就自己想數據的活的方式。因為在現在的AI的范式下,它就是你要想清楚數據,想清楚跟體制匹配的任務跟算法。

那麼我們正在講這個AI軍事智能AI,我們新入的AI,肯定比我們當年打造的自動駕駛AI可要厲害多了。它是一個升尾板。

那麼既然它的能力比這個要強,可能10倍。那它可能背後要支撑的數據,就要比它強10倍。

而且在自動駕駛的過程中呢,我們當時做出了很多選擇體。這選擇體很多時候是否定體在上面。你要把很多的數據方式把它關掉。

比如說當在自動駕駛的時候,我們試過了很多東西。

  • 一互聯網數據
    我們當時扒了很多行車記錄儀的視頻。YouTube會有很多國內的人,會喜歡在外面去旅遊。它會把自己的行車記錄在平臺上放上去,也有很多數據在上面。

但這些數據時,你仔細發現了它有幾個問題。

第一呢,它其實真的量沒那麼大。你如果真的傳上去訓它,你很快就超過它。

然後第二個就是,這些數據它是孤立的,它並不能解決你遇到的問題。

比如說現在我覺得一個問題是說,我這個十字路口我就過不去。但是我可以給它灌很多數據時,別人到西藏旅遊的數據。它這些數據供的問題,它無法建立映射关系。

所以說這些互聯網數據是,所以它就是一個靜態的數據,而且它的量也沒有那麼大。

所以說這些數據它說的話,剛才是很多公司,包括很多學者,甚至現在很多做具身智能穿越的學者,他們在上學的時候,他們甚至還做過這樣的互聯網自動駕駛數據的視頻。

後來他們都紛紛都棄坑了,就覺得這件事情確實很難做下去。

當時我記得Berkeley,有一個叫BDDBerkeley Drive Data Site,它其實就在幹着。你會看到當時的那个Alson那些學生們,其實現在也都開始做機器人了。

那BDD就是一個,你做了數據集以後,你會發現其實也沒有什麼用它,因為它很難展現很好的效果。

不過現在倒是有不少公司也會說,他們找到了一種方式,可以從視頻數據裡來學習。

對,但這件事情我們是篩選過的,因為我們在它的一個子問題上,自動駕駛上已經收穫到足夠多的教訓。

然後核心問題就是我剛才跟你說的兩點。

  • 第一:它其實也沒有大家想像那麼多,質量也沒有大家想像那麼好。
  • 第二:真正的價值數據是要跟你的問題能夠匹配起來的。

所以這個是互聯網數據。

第二類數據可能就是仿真數據

仿真數據在做自動駕駛的時候,當時我記得我們專門有一個團隊,我們一個團隊30多個人,非常優秀的工程師。擅長做各種各樣的Graphics仿真

然後我們可以把上海很大一個區域的仿真都重建出來,然後會有很好的展示效果。

同樣一段街道,下雨了,下雪了,它都有不一樣,路面積水。那個效果做出來還太棒了。

但是事實上,它對於自動駕駛的這個任務來說,用處不大。因為我的核心任務不是在幹這件事情。

因為很多時候仿真它有幾重仿真在上面。

  • 第一重仿真是說想把圖像給你渲染得非常的逼真。
    那麼你的核心任務其實是在解決感知問題,對吧。

但感知問題其實往往不是大家非常頭疼的問題。感知你努力的都能解決好的。

大家解決的,你像自動駕駛說我們解決最難的問題,還是說我到底應該怎麼做?我應該怎麼跟這個世界去交互?是這方面的問題。

那這方面來說的話,又沒有這樣的仿真器。

然後第二類可能就是用一些,就是以前的一些像有限元呀,一些就是試圖把物理威力揭秘出來的physical的一些 simulator

它比如說你要仿一個線怎麼彎,它就把線劈成很多小段,每段是個小彈簧,也有個楊氏模量,把它們全部都串起來。

這些是科研裡頭經常用。

但是你會發現你在做這件事情的時候,花到的精力和方法論的先進程度,還不如你的下游,你的用户。它已經在AI解決問題了,你還在用規則,在用調參數,在解決這個問題。

所以仿真條路也被我們關掉了。

仿真裡頭唯一一個我覺得確實有用,它有一套足够簡單的系統,但是它很有用,比如說local motion的仿真

因為locomotion的仿真,比如說機器人或者機器狗它怎麼走路,它不用關心環境。

目前來說,它們現在主要做法,不用關心環境。它只需要把自己的運動學、多關節體,它的動力學仿真好就可以了。

這個是一個非常簡單的問題。

但你看,就這麼簡單的問題,行業也花了兩年時間,才把它做得比較好。

所以仿真這件事情,我們從務實的角度來說,我們也先把它關掉了。

曼琪:

所以你覺得仿真去解決操作的問題是比較難的?不太可能。

陳亦倫:

現在所謂的仿真解決操作的問題,更多是一些非常簡單的操作問題。

簡單的操作,比如說我要去抓放,就是我要抓一個東西,我可能想知道它的抓點在哪裡,然後我怎麼去捏它。

這個本質上其實還是一個感知問題,它是個比較簡單的問題。

所以說這裡頭,你要找到源源不斷的海量的數據,能怎麼找呢?

所以說,我就從以前的AI去想辦法。我覺得比較大型的、廣泛被人所用的AI,我認為有兩個AI:

- 一個是大語言模型
- 一個是自動駕駛

那麼,自動駕駛我非常熟。自動駕駛它最終的數據的本質是什麼?它的本質是你開車我記錄你。

它是個行車記錄儀。不管你在前面放一個攝像頭,放八個攝像頭,它的本質是個行車記錄儀。

曼琪:

自動駕駛來說,其實它是在記錄你的行為。

自動駕駛來說,其實它是在記錄你的行為。

它也是在不同的時間階段,它的彩數據有不一樣的階段。

第一個來說的話,當時最難的問題是,沒有人相信,只用視覺的數據,就可以足以把整個的自動駕駛行為記錄下來。

其實應該是這麼解。

馬斯克講的第一性原理,是他認為攝像頭,這件事情是夠的,只靠攝像頭開車就夠了。

其實他另外一個解讀是說,你信不信,只靠攝像頭,就可以獲得到你的全量信息,就可以把你的所有的駕駛行為,全部都重現出來。

但是另外一個解讀是這樣子的。

其實你仔細想想,當然是對的,對吧,你只靠攝像頭就可以獲得整個的全量信息。

但是當時為什麼只有特斯拉一個人堅持用全攝像頭呢?

因為這個過程很難。

如果你用一個激光雷達來說的話,它重建你恢復你的視野環境,或者你激光雷達跟攝像頭混用來說的話,這些事情就會讓工程上變得非常可行。

所以說當時我們選擇方式就是激光跟攝像頭混用,這樣它很快的就能把整個視野重建出來。

但是它採数据的方式來說,它只是在嫉妒你的開車行為。

其實技術如果發展到今天,今天我可能激光雷達我也就不裝了,我可能八個攝像頭都不裝了,我可能會選擇在每一個滴滴打車的車隊上,看他能不能把它的前面那個行車記錄儀給我,一個小小的行車記錄儀,就能夠採集海量的數據,就可以足夠你做很多很多事情了。

所以說自動駕駛它真正獲得的數據的方式,其實它是在用最好最小的代價在記錄人的駕駛行為。

那麼大語言模型呢,它其實它為什麼是被祝福呢?

它反正它數據已經在那了。

但是你看數據怎麼產生的,那其實都是人一個個敲上去的嘛。

它其實是在人通過數字的鍵盤,或者是這種其他方式,在記錄自己的生活,記錄自己的思考想法。

它也都是人產生的數據。

那些人從day one來說的話,其實被design來說,就是它能夠幫助我們幹我們想幹的事。它能夠服務好我們。

曼琪:

本質上來說的話,你希望它的行為越來越像一個人。

本質上來說的話,你希望它的行為越來越像一個人。

那麼我們就在想,你需要用最小代價能夠記錄你整個人的行為信息。

所以這些信息還都是從人出來的。

我覺得整個數據來說的話,其實基本上它只有兩個源頭:

  • 一個從人身上出來
  • 一個從世界出來

但是往往大家順理成章,不管是不是從世界出來,還是先從人出來,再從人轉到這個世界。

所以從人出來以後,是一個非常直接的,能夠快速增長的一個數據方式。

那這裡面需要真正自己去思考的是說,這些數據其實都是傳感器數據

那麼你應該怎麼樣去設計自己的傳感器,讓人能夠非常自然的把這些數據拿到。

曼琪:

這些數據來說,還有一些東西就是說,我們講究是這樣的。

就第一個呢,非常重要的一件事情是,數據要從真實場景弄出

真實場景。

真實場景。

你覺得遙槽是不符合這個?

遙槽在很多地方是沒辦法做真實場景。

我打個比方,比如說,我現在想做一個機器人到工廠去打工對吧。

比如說你用一個可穿戴的一套東西來說的話,那人家打工的人穿上來以後,他就把你的行為記錄下來就OK了。

那你遙槽來說,你也把這個人請走,推上一個機器人過來,用一個tie drop的方式,遙槽方式讓他一邊臉坐。

然後,因為遙槽他現在,確實遙槽有岩石啊,有各種各樣的問題啊,它操作就很慢。

所以你其實在干擾別人的掌握。

就是真實場景的,比如說客戶方或者擁有方不允許,這樣看。

對,比較打擾別人,比如說我想知道大家是怎麼做咖啡的。

那我推個機器人過去,然後遙槽他,你會給所有人都添亂。

那你怎麼看?其實也有很多人在做很大型的蔬菜工廠。

對,蔬菜工廠來說,一定要為什麼真實場景,我打個比方啊。

你像我們當時在做自動駕駛的時候,有很多人在做一個專門的自動駕駛測試廠。

做得很大,裡面各種各樣的路,什麼環形路都修了。

然後呢,裡面還有什麼之類的,感覺像一個小世界一樣。

但你覺得在裡面瘋狂開車,訓練出了神經網絡,它敢上路嗎?

它肯定不敢上路啊。

所以自動駕駛,當然我記得在二二年、二三年的時候,大家都在牵到一個叫開城

說哪個公司開城快?

什麼叫開城?

本身上就在採集這個城市的數據。

你想它在北京採完數據以後,你放到雲南是不是能夠開?

你在中國採完數據以後,放到日本是不是能夠開?

你一個機器人如果只是在一個大家是給你設計好的環境裡頭去做。

除非你的任務就是在這幹這個事情。

我不怕你到其他地方肯定是有問題的。

所以場景是真實場景的一件事情,是非常非常重要的。

第二個來說的話,就是說真實動作

真實動作是什麼呢?

你做機器人或者是做任何的,完成任務就是為了任務,能夠順應地完成。

而且他應該按照正確的方式去完成。

所以說你在人做所有的事情的時候,你都是在完成這個任務。

他這件事實上沒有意義在上面。

但是你用機器人人為的去給他搖槽來說的話,你得讓操作員瞬間化身為這個技能的工人,那個技能的服務員,那個技能這樣子。

然後你會發現他做很多事情是虛假動作。

所以他不夠真實,他不代表這個任務是被完成的。

所以這兩件事是非常重要的。

所以你想清楚這件事之後,你就覺得只能通過可穿戴设备這種方式來?

我覺得首先我想的是,它這個數據必須得從人身上獲得。

當然最極端的方式,如果說我有NewerLink,我也許可有另外一種非常Smart的數據方式,但是現在不具備。

我們還是就思考說, 很多時候我們人大家都在解決什麼問題。就是, 人其實基本上在解決這麼幾件事情, 就是大家說的移動操作, 感知在上面

移動這件事情我們覺得還好,移動這件事情我們有成熟方法的,知道怎麼去做它。然後操作這件事情,本身上人所有的操作都是通過他的雙手來操作的。那所有雙手就是把它,每個手當作一個小型的機械臂,它有五個小型機械臂,放到手掌上,打打打打打,這樣把它做出來。

比如說,你知道人怎麼操作這些信息拿出來以後,我們做一個假想實驗:

  • 我人戴了手套
  • 戴了摄像頭去看人之所看,感人之所感。
  • 然後把這個手套跟摄像頭放到機器人身上。

那機器人其實理論上說,它也是一樣的,看人之所看,感人之所感。那這樣來說的話,它就可以有能力,這種複合方式不是通過摇像頭的方式,它是一種更好的方式,是人踩大量的數據,把它變成一個AI,然後記憶人從AI一頭去撈,人的整個的經驗跟能力。

這樣相當於把機能就通過AI,轉移到了機器人身上。

摇像作其實是,把人的動作通過信號的方式,轉移到了機器人身上。你們從這些數據里,獲得的關鍵的維度是什麼?

  • 視覺肯定是一部分
  • 還有些什麼東西?

對,我覺得就是,能夠全信息的刻畫一個手的動作。這也是非常關鍵的維度。

什麼叫全信息的刻畫手?

  • 首先手本身來說的話,它是一個終端機構,所以手本身的位置它應該在哪,姿態在哪裏。
  • 第二個來說的話就是,你手要做動作,你手的所有的手指,手指它的這個姿態在哪裏。
  • 第三個來說的話,你可能不光需要知道它的位置,你還需要它是壓多大的力。

那麼這些力來說的話,就通過觸覺這種東西,再把它再拿到。

那麼這些東西來說的話,其實你就掌握了一個人在做任何操作的時候,它的一個全量信息了。

這個你們是靠一個手套就實現了什麼?就是它不用戴到你的手臂上。

  • 對,不用戴到手臂上。
  • 我們靠手套,其實我們做了很多方式,為了非常容易的獲得,讓人不難受的信號,我們叫被動采集
  • 它可以非常穩定的,拿到指尖的位置,拿到我想要的指尖信號等等。

這個位置是靠配合你們的,第一視角的攝像機,看到手和人的相對位置,來確定它的位置。

它其實不是這麼簡單,因為你如果用人看的來說的話,打個比方,你像疊被子,你手套在被窝裡的,你是不知道你手在哪兒,也看不見它。

就是我們會通過一系列的這種,設計的方式,保證我能夠拿到一個非常可靠的,準確的有數據。

所以這個是為什麼我們自己要做硬件,就是這個原因。這也是在創業前24年就想到,大概怎麼解決的。

對,我的BPDS就花了手套。手套。

這個方案之前可以借鑒,或者參考什麼進展了,什麼領域裡的一些成果。

其實之前在做這些方面做的比較多的,有這麼幾個領域:

  • 一個是虛擬現實(VR)
    然後VR來說的話,就你伸手玩遊戲的時候也會有個假手,但那個時候它的問題就是,絕大多數都是靠VR眼鏡上的攝像頭,通過攝像頭來定位。

  • 攝像頭定位來說的話,我們發現首先它還原的這個數據的質量還是不夠高,另外來說會有很多被遮擋的。

比如說黑天麻地的,你也不知道它長什麼樣的,伸手不見物質。

所以說這個它可以當作一種。

然後另外一種是,在一些電影拍攝行業,它有它的動捕服,有它的動捕手套,這個我們也研究過。我覺得它裡頭也有很多很有意思的技術,但是它也不是完備的。

在拍電影的時候,它很多時候是,就是你展現大致趨勢即可,你並沒有真的是要求它能夠精確到毫米,精確到你想怎麼操縱它。

所以它是不完備,都是不完備的技術。

那麼我們就需要做一些創新,因為無論是VR還是動捕,它都是一個便携式的東西

所以說它對算力是厭惡的,因為算力代表了功耗,算力代表了成本。

那麼我們就會在對外就想,我應該怎麼用神經網絡去解決這個問題。

這個東西是跟我們一般相承的。

這個算力要做到手套裡面嗎?

其實對於我們目前這個場景來說,我目前的感興趣的東西是採集數據。

所以說也就是說這個算力其實是,類似於我自動架是auto-label的一部分。

  • 對,對。
  • 它可以讓我調用非常大的算力去做它,所以效果能做得非常之好。

但是我們也有一個端上的版本,因為這樣可以最大的程度上,能夠offset我很多算力到端上。

所以說我們也會有一個suit的版本,然後放在手套裡面。

我們裡面也有很小的一個芯片來做這個事。

所以反而在機器人這個領域裡面去直接做手套的,之前沒有那麼多。

  • 沒有,它們不是為這件事情而設計的這個問題。
  • 所以它打不到這個要求。

你看似它在做一個類似的事,但其實它不是。

我是說機器人領域裡面,就是領域的玩家在做手套的是吧?

  • 沒有。
  • 或者說以前那些學術機構的一些研究,也沒有。

理論上如果有的話,就跟自動加持當年機構雷達一樣,我直接買就好了。

但是我確實沒有找到。

而且關鍵這件事情就是說,它不是為了打造聚真智能而定義的這麼一套傳感器。

所以這套傳感器需要重新領域在上面。

嗯。

你後來看到那個Sandy Robotics發Skill Capture Glove,是什麼感受啊?

我覺得就這裡Glove其實做得最好的是Manus

Manus其實就是我說的以前做動物行業出身的。

它就跟那個Agent產品Manus的名字是一樣的是嗎?

M-A-U-S

它真的是跟那個名字是一樣的,所以很多時候大家會誤解,它是一個好像是一個丹麥的一個小公司吧。

在動物行業裡頭是一個Vertical的一個Winner。

對,因為這個詞其實就是拉丁文手的意思

對,因為就是手套這個事情,它也代表我們大家對於機器人未來的操作執行終端的觀點,以及說你對於你的企業未來想走到一個什麼樣的狀態。

就是我們是領小手的堅定的用戶者。我非常有堅定的用戶領小手。

所以說我在一開始我認為達到中泰來說的話,就是中泰的操作終端就一定是領小手。

那麼我需要給他找到一個於是匹配的一個傳感器就是手套。

而且手套來說的話它會變得非常容易去泛化,採集各種各樣的東西。

那麼如果說你設計手套非常有難度,當然這個問題我覺得我們已經解決好了。

如果說這個設計是一個工學設計手套非常有難度的話,它會轉向一個降位版本。

這個降位版本就是說我們採集的時候也不要用手,我們強迫人用夾轉,它是個降位版本。

或者說強迫人用一個三指,就像Sunday那樣。

是吧,他覺得夾轉用來夾平的這種東西實在是太難了,也就是三個指都好用一點。

所以它是一個人手的降位轉版本。

它相對什麼?它當你把一個有20多個自由度的手,通過一個工具把它塞進去,讓你降位。

你只能按照它既定的自由度去操作,然後再把這個信息寄讀下來。

那麼對你來說它在部署的時候呢,它因為它採集的是降位信息,它也要部署一個降位的一個東西上。

所以說它就gripper到gripper,或者是三指到三指。

我剛剛提到Sunday發這個東西,你怎麼想?

是因為我最近和一些人交流,就比如說有一些投資人或者市場觀察者的觀點,是認為中國的團隊雖然有這麼多,但是在一些引領性的成果上,其實沒有什麼貢獻。

然後他們就會舉一些例子,對吧。

比如說Google最開始做了RT2,可能是開始大家去探索VLA。

你會在意種什麼?你作為一個中國的從業者?

我覺得大家還是要對中國的技術有信心

我一直是非常有信心的,因為我自己就是從業者,而且我一直努力在最前面去探索這件事情。

我打個比方,比如說像Sunday這樣的採集, 其實我們做的比它可高級多了,我們20度的自由度了。

你們是五指手的手套,對吧。

我們其實是順便又做了一個良指的,這個動作來說對我們來說太簡單了,所以我們也有良指的。

你如果真的想認真做的話,能把它做得非常之好。

但是對於我們來說,我們想做得非常之好,我何必做一個三指呢?

對。

所以同樣道理來說,我為什麼覺得大家一定要對中國的技術有信心?

就是我可能今天跟你講,你也許是第一次聽到說,原來中國的第一個端端端自動駕駛是在21年,是不是。

大家是覺得22年是特斯拉,其實不是。

然後呢,在俱身裡面很多中國的技術,大家的認知程度是遠遠超過美國的。

其實某種意義上,很多時候是在中國的中國人跟在美國的中國人,就這兩個東西。

我為什麼對中國有非常強烈的信心呢?尤其是在俱身智能層面上

就是你看到我們在做所有的事情,或者你看到在行業做所有的事情,你會發現,在俱身智能的AI裡面,它充滿了硬件、場景、本體、數據、算法的之間的來回的交替組合。

它其實不是一個把它簡單的劈開,它是你中有我,我中有你。

比方說我想打造一個非常好的AI,我需要想明白這個AI應該怎麼做。

那AI怎麼做,它需要哪些模態,它需要哪些數據。

那模態來說,我就需要想传感器的事情。

數據我就需要想怎麼樣能夠採集的事情。

你就說你如果想把它的量放得非常大,你就要把成本加得非常低,這裡頭也有很多創新在。

然後我想獲得一個完美的一個執行,我的執行器應該是怎麼樣子。

你會發現美國很多人大家在做頂销手。

  • 除了特撒,其實沒有人真正有能力真正在做頂销手。
  • 因為特撒有一個強大的汽車工業來支持它。

所以特別是在具身智能的時代,它完全是交涉在一起了。

其實在自動駕駛時代,我覺得美國自動駕駛跟中國自動駕駛是基本上打了一個大致的平手。

然後我會認為說在具身智能時代,美國的創業者不會是中國創業者的競爭對手。

完全不會。

那回到你們現在就是採集數據的這種方式。

你之前也說到這一年,你們其實是越來越有信心。

因為數據到了一定體量之後,你們看到一些效果越來越好。

對。

你們實際上,比如說它採集的量在一個什麼量級?或者說它的增速是怎麼樣呢?

對,增速非常快。

然後目前我們採集的量,我覺得差不多是在10萬小時這個數量級。

  • 10萬小時。

但是它的增速非常快。

你們是從什麼時候開始正式做這種比較大規模的採集的?

我們是從今年的下半年。

因為我其實在去年的時候,我對整個的數據採集,就是數據這種方式非常樂觀的。

但是同時我們整個團隊,我們也是比較謹慎的。

就是我們先一點點試,先找一些東西,把數據濃度打上去。

看看這種方式有沒有效果。

然後發現確實有效果。

其實有效果以後,我們就覺得這個東西需要把它,量把它打開。

那量打開來說的話,它其實需要一個硬件來支撐的。

所以你會發現,你設計,你真正想要這個東西拿出硬件,它也是需要很多創新的開發。

我們做了很多方式,把這個硬件的成本壓到,我們認為可以skill到,我們滿意數據量的水平。

然後我們開始去skill

所以我對明年,我們的數據量會暴漲很多倍。

在現在這種方式下,你們的主要成本,一個就是這一套硬件的成本,對吧。

然後還有一個就是,你們要付一些費用,給帶上這個設備的,真實做任務的這些人嗎?

背後主要的成本,其實是算力成本

因為我想問這個事,想對比一下,比如說搖操它的成本是怎麼構成的。

就你們這個方式,它成本大幅降低的部分在哪? 其實一個最簡單的理解是,搖操它需要一個機器人,需要一個機器人直接放到哪。而且現在搖操的效率其實非常低,成功率也低,它動的也很慢。

所以搖操一般來說,可能對比我們這種方式,我們可能踩十條,十條都能用的話,搖操可能最多只有一條能用。所以說它要達到同等規模的數據,它對於數據的投入是巨大的。

你們有算過就是單條數據,這個成本大概差多少嗎?比如說搖操在中國,目前市場裡行情大概是多少?

我們其實比它要省兩個數量幾。就是少一百倍,一百分之一,至少。

可以說這種方式,現在是不是變成一個趨勢?因為我知道接下來應該還會有公司,也會有這方面的進展和宣布。我自己認為就是26年,就這種方式就會讓數據大爆發,爆發到一個大家非常驚訝的地步

據你所知有誰在這麼做?除了你們之外?

當然我們來做的話,其實我們認為我們做的是更全量信息。大家很多時候現在都會用夾爪做事情。而且夾爪這件事情的門檻,設計下來它其實並不高。

用夾爪這樣的數據來說的話,就會產生很多很多的量。只不過大家後來發現,你在網上走的時候,你會發現說,其實如果說你刷DEMO來說的話,你用夾爪是可以的。但是你如果想真正在打穿場,你用它來完成任務,你還是需要全量信息。

所以說,你需要的環節一個都不會少。

所以說現在就是說,我覺得這種夾爪式的採集,很多人都會去用。然後,手套時來說的話,他們發現他們其實,就會遇到我去年的問題一樣。就是你找到的各種各樣手套,都不如人意。

所以說這裡頭,該賣過的事,你還都得一個個都賣過去。你就說大家可能都還是得自己去開發一套這樣的硬件。

我知道現在其實也有很多公司,它需要能夠讓輸入採集,能夠平等的賦能給所有的生態夥伴。我覺得這樣也很好。你就說專門做這種採集設備的公司。

對,專門做採集設備,以及做採集數據服務的。我覺得會,就跟自動駕駛一樣。它會有這樣的公司,也會有這樣的產業。

但是就是這樣我跟你說,其實跟自動駕駛好像也一樣:最懂數據的公司,往往是最懂AI的公司。他們一定是不想要映射到的

對,你們現在怎麼去解決?就是你要說第一道關卡,就是數據的這個問題。

對。

然後在模型上面,你們有一個自己的提法,你們是叫做AWE,就是世界引擎

對,其實AWE它的縮解是AI World Engine,AI世界引擎

這就是你們用在最新上的,目前用的技術模型嗎?

對,這個就是我目前用的技術模型。

就是,還是我剛剛給您講的,就是說,為什麼我們特別喜歡Word這件事情呢?儘管WordModel其實到處都是。

我們的第一個選擇就是說,我們最多的神經元,或者是我們最多的計算,是用來做什麼東西的表達。我們認為應該是記錄這個世界的時間、空間、力,這些基本的物理量的表達

所以這個是我們如果是神經元,把神經元的資源投入到最多的地方,而不是把它當作一個視網模式的表達。因為很多時候它的點心的VLM,它是一種視網模式的表達,然後在上面,它是記錄一個它的local pattern,它的texture,它的顏色等等這些。

不是,我們的最多神經元一定是記錄的這個世界的信息。然後這些世界信息來說的話,它其實不光是空間的占有信息。它還記載了說,我跟它怎麼去交互。

比如說,我會擠壓它,它會變成什麼樣子,它會怎麼反饋我。

所以這個是我們最多的神經元的表達。這個是第一個。

第二個呢,就是為什麼把它叫engine呢?其實engine它某種意義上,它也可以叫model,也可以叫其他的東西。就engine意思是說,這個東西它是動態演化的。

它會被我機器人或者人它的action所改變。那麼你在人action去改變,它這個世界接下來又會變成什麼樣的樣子。

在這個過程中,它會推薦你應該怎麼樣去做。

所以說,這些事情其實我們認為是這個網絡裡,能夠真正高效訓練的這種事情。

我認為,所有高效訓練的網絡,它都有一個特點,就是它真正的能夠非常匹配你的任務本身,它就能夠高效訓練。

所以我認為機器人它的任務本身來說的話,就應該被這麼定義。

所以我們來講這個事情。

所以你們現在用的這個方法,具體來說,它並不是大家講的比較多的,我在VLM的基礎上,我在這action到VLA,你們用的不是這個。

對,我們不是這個。

就是這個也是我可以多講一下,就是說,來創業之前,我也自己想過這個問題。

它的另外一個表達是說,你要從事這一個行業,這個行業值不得擁有一個,自己的一個基礎模型。

你會發現其實大家的基礎模型,大家的基礎模型都是跟著行業走的,對吧。

那麼,機器人的行業,它只不得擁有一個自己的基礎模型。

這個是一個很大的問題。

如果說,大家認為機器人的一個基礎模型,這個行業的模型,是一個VLM模型,它長出來一個頭,它來解決。

那麼,你就認為這個行業,它不應該擁有那個模型。

你就認為這個行業,你解決的任務只是另外一個行業,它的一個下游任務,是它的一個分支。

所以說這個我覺得是一個非常本質的一個論端。

你會看到不一樣的背景,同學者對自己這件事情,是有不一樣的觀點的。

有的人可能認為說,這個世界本質,它可能是一個多模型的大模型。

那麼我的Action,只是這麼一個多大模型,掌握了一個分支。

我自己的認為說,機器人這個行業,本身它值得擁有一個自己的模型。這個是一個觀點

其實在2017年的時候,我進入到自動駕駛這個行業的時候,也是一模一樣的事情

你知道20年前是個什麼狀態,是各種各樣的CV模型發展層速不絕。

然後你會發現計算機視覺,從識別,到檢測,到分割。

然後你能想像到所有的任務,You name it,然後它都會有。

然後它的數據級層速不全。

你會發現它網絡越來越大,它好像非常有能力。

那個時候很多我們做自動駕駛人的想法是說,它這麼厲害了,那我們自動駕駛能不能在它身上長一個出來。

你都能夠識別世間萬物了,你先把自動駕駛的車,任何路給我識別出來,然後讓它來做。

但是當時我是非常反對在這件事情。

我當時的邏輯很簡單,當時大家是怎麼看自動駕駛的,那個時候大家叫AI皇冠上的明珠,是這麼叫的。

意思是說你這個問題太難了,你如果解決好以後,你可能就是個AGI的路。

那我覺得我跟他說,你都覺得它是皇冠上的明珠,你還認為它是一個CV模型,長出來的一個頭子嗎?它肯定不是這樣子呀。

那現在回到機器人來說,也是一樣的東西

就是V2M來說的話,我們再把它打開一下。

其實你把模型打開的很多方式是,你要看什麼樣的數據支撐了這個模型。

現在數據支撐這個V2M模型,很多時候是問答數據。簡單來說就是看圖說話數據。

那麼你說,你就教一個小孩,讓他不停地看圖說話,他能夠知道他在這個世界中怎麼做事情呢?

我覺得他顯然是不能的。

所以機器人這個領域,一定要擁有一套自己領域的。

而且我認為具身智能能夠展現出它智能的規模,它應該是遠大於大家現在想像的一個多模態大模型的。

這又是指什麼?它能展現到智能規模超過多麼太大模型?

就是你看一個神經網絡,你怎麼評價它是不是更聰明,更有智慧,對吧?然後你評價的事情來說的話,就是它在做一件事情的複雜程度。

它在做的事情越複雜,就代表它的智慧就越高。

那麼我覺得看圖說話的一個模型,它的智慧複雜度沒有複雜到那麼樣的程度上。

所以你們現在的模型的部分,用的並不是可能大家講的比較多的VLA。

那你可以大概分享一下它是一個什麼思路或者方法嗎?

對,我們設計模型的思路其實是很簡單的。

就是我一般喜歡設計AI思路來說的話,首先機器人領域它不是一個新領域,它是個很老的行業

對。

在國標領域的話大家會看課本,這個課本就記錄了說大家怎麼樣通過機器人學,然後把這套理論框架把它構建的一個過程。

那麼我認為這套理論框架其實是科學的。

那麼我們在做AI的時候呢,其實是在這套理論框架中用AI去重新 design 它,重新實現它。

所以我們是基於這套思路把它弄上來的。

就拿語言這個事情來說,語言它真真正正它起的作用是什麼?

語言跟動作之間為什麼要連接在一起?跟視覺之間為什麼要連接在一起?

它其實在傳統機器人學裡以後都能找到一些答案。

傳統機器人學裡頭它有個東西叫行為,它們會用一些行為數一些東西來做它。

其實語言就是描述行為的一個非常好的一個生維版。

而且以前大家非常難的是說,

怎麼把我的行為跟我的傳感器的把它綁在一起?怎麼把行為跟我的動作綁在一起?

在AI時代來說,你發現這種綁的方式其實很簡單。

當然語言對應來說,你要想到通過什麼樣的書記把它黏在一起。

行為和動作的區別是什麼?

其實行為是一個更high level的一個經典的表達。

它是一個類似於像戰略跟戰術一樣這樣表達。

你如果把很多動作能夠集中在一個大共大顆粒的地度。

它的好處是說你就可以再往前推延很遠。

這個就是大家為什麼要說的長程任務

如果你只是在動作或者在非常低調的環境軌跡,甚至是電機的角度這個層面上,你想把一件事情推得很遠是很難的。

所以行為是有動作構成的。

可以說它是一連串的動作。

它是一個更加抽象的東西。

比如說現在我跟你說話,我跟你說話,其實你聽到的什麼?

你要不要聽到的是我給你傳遞的波形。空間正中的一個個波形。

這個波形就比較像是動作本身。但是事實上咱們真正傳遞的是上面的信息。

對,是羽翼的部分。

是羽翼的部分。

對吧,是羽翼。

所以相當於行為在機型的動作來說的話,它更像羽翼這個層面。

它具體的傳感器它怎麼動作軌跡它更像波形。

所以你看到波形來說你看到雜亂過去,但是你看到羽翼來說你覺得井然有序。

現在VLA裡的Action誰是動作?

對,Action其實也是一個挺有意思的東西。

就似乎現在這個時夜點,大家對Action定義不太一樣。

有的人把它直接定義成底層直行器了,這個關鍵需要給多少電流。

有的人會覺得說你其實定義成一個軌跡,意味著一個軌跡也OK。

但沒關係,就是它只是驅動一個直行器的一個信號吧。

從我們的角度來說,我覺得Action就是Action,Action就是你能夠驅動你整個物理系統最底層的那個東西。

嗯,所以其實你們在這個上面也是有些創新的。

只是你們接下來一段時間還是先會避遠,對吧?

是的,就是我們先高效的去把它疊到了一個比較好的狀態。

我覺得開源的使命是說,你能讓很多用户能夠以非常低門檻的方式能夠獲得價值。

所以說我們先需要做到這一步,然後開源它。

我覺得開源並不是簡單說,把一個模型啪,拷配到網上去了。但是沒有人用它。

我覺得開源他應該還是從他的價值出發。

就是說你開源的目的是為了讓更多的用户,非常低的門檻能夠享受到你這個東西它帶來的價值。

大家很多時候會說,機器人領域還沒有找到自己的scaling law,或者沒有進入一個scaling的狀態

首先是你怎麼看這種評價,以及你覺得如果現在沒有到的話,… 那可能接下來會怎麼到達這個狀態。
我覺得具身領域的 scaling law 是非常明確的。它是一定可以到達的。大家看的 scaling law 一般來說可能會有兩種判斷:

  • 一個是看結果,是你的性能是不是已經刷到這個狀態了。
  • 另外一個看增長的趨勢。

如果是看增長趨勢,我覺得毫無疑問,我們是現在非常明確的判斷。它就是在 scaling 的狀態。可能對於行業來說,可能在整個的明年這一年來說,也能看到一個明顯的進步,在上面。

舉例你怎麼定義它能夠到達的高度。其實我覺得 scaling law 很多時候,它對於一個新行業,具身這個行業,它的冷啟動時間為什麼會長呢?就是因為它一定要三個階段按照順序來:

1. 數據,
2. 算力,
3. 然後還有這種交補的環境跟技巧。

那麼大模型為什麼好呢?是因為數據這個牆就沒有了,直接跳到第二階段,所以迅速的就起來。自動駕駛其實在19年之前,就沒有這件事情。從19年到20年以後,好公司慢慢憋數據,然後接下來大家看到了,對吧。

然後軍人智能也是一樣,就是你先賣過數據牆,再賣過算力牆,再賣過第三度牆,它都是一樣的。

回到最開始的問題的話,就是以你們現在的進度,或者說以整個行業的進度,你覺得什麼時候會出現2021年,大家在支架的任務上,用端到端,看到很驚豔的效果的這個時刻。對巨升來說,我認為巨升會更快一點,但是我保守規矩,我認為至少是通頻的。比如說從19年認真真開始去搞端到端,累數據到21年能看出效果。我認為從25年認真真開始搞這件事情,到27年就一定會有效果。

但是從我們目前的進度來說的話,我發現它是變快的。

那整個行業,你覺得會有人比你們更快嗎?或者說整個行業最快會在什麼時候了?我覺得整個行業速度,就它的平均速度來說的話,它是越來越快的。就是我覺得25年你會發現,會有很多人決定做這件事情。

然後20年就是我給你預測的,它的數據會大爆發。不管它是什麼樣的數據吧。

數據大爆發必然會伴隨著 AI 能力的提升,所以這是一個行業平均速度。但是裡面玩家肯定會有快有慢,所以這個東西其實也很難預測。

然後對於我們來說,就是努力做好自己嘛。所以說我們希望能夠在這些路上,能一直非常快的去跌跌下去。

當那個時刻來,您那時候會出現一些什麼信號?一些什麼可觀察到的信號?我可以這樣預測一下。就是我覺得26年的時候,大家能夠看到的 DEMO 視頻變得越來越多了。

但是視頻這個是跟早年自動那樣的情況是一樣的。你發現早年自動那樣大家都在放視頻,然後是因為啪啪啪,你有套方法你刷出一套視頻。

然後呢,會有越來越多人有信心進入到 Vertical 領域,會有進入到垂直領域。因為數據不多,如果你的領域足夠小的話,你的濃度變高了,所以看起來這個場景容易被解決掉了。

所以會有越來越多的人,就不管他是怎麼表達自己,但他會誠實的進入到一些非常 Vertical 的領域。

然後呢,同時來說的話,對於這種通用的具身的能力,從平均意義上來說的話,整個行業會看到它的能力越來越強了。

所以說行業對具身這個領域的信心指數會不斷往上升,大概是這麼一個狀態。

信心指數升會體現在什麼了?比如大客戶的一些採納什麼?我覺得會的。

他是這樣的,就是說我認為,首先第一波信心指數升的,還是應該是早鳥用戶。因為很多時候它是這麼分的,就是其實越大的客戶,越注重它的使用價值。越早鳥的客戶,能看到它更遠未來的潛在價值。

對於我們來說,我們並不打算去 DEMO 去做這些事情,而是我們覺得這就是正確的做事情的方法。所以二十六年我們會非常非常聚焦的,把實際的價值做出來

我認為這個才是我們真正感興趣的事情。

對,我覺得具身領域的噪音可能會更多一點,或者說更難去辨別。比如說大客戶採納這件事情,其實如果一些大的產業方投資了某些公司之後,你現在就可以看到很多這樣的合作。對。

但是你作為一個局外人,比如說你不是這個產業方的人,你也不是集成公司的人。對。其實很難判斷這個合作到底是一個什麼樣的程度,是不是真的在產業上可以去產生價值的那樣用起來?

我覺得其實合作,它往往還是要回歸到合作的本質。就是商業上合作它都是互惠互利的,本質上就是商業上合作都是通過技術跟產品創新,它創造的一個價值池子。

然後大家在這個價值池子裡頭怎麼共享這個技術創新帶來的收益,所以核心是要把這個價值池子把它做出來。

所以這件事情是比較重要的。這個價值池子做出來以後呢,自然而然就會有合作夥伴進來。如果沒有價值池子,這個合作它可能只是一些表面上的合作,並不會有實質上的合作。

你們接下來會重點去落的場景是什麼?我們自己的判斷是認為,其實所有人做機器人他的想法可能都差不多,就是希望我家裡有機器人,或者我身邊有機器人。

但是我認為進入到消費者市場來說的話,這個時間點還是嚴肅的。

所以說我們會在第一個場景來說的話,我們會進入到現在已經出現機器人的場景,比如說工業製造,類似於這樣的場景。

就是我們剛開始還是想解決機器人在生產力上的肅情,看它能不能成為新制生產力的一種。

而在這些場景裡頭,它其實湧現非常大量的真實的需求。而且這些需求來說,很多時候反網顆粒度比較大。但是這些需求它被留下來就是因為,之前的機器人技術實在是解決不好它們。

那麼這些就是我們非常感興趣的,我們也事實上正在做的事情。

你這個可以講一些具體的嗎?對,我覺得比如說像這種精密柔性的,類似於線束的製造等等

線束的製造。比如線束它本身來說是一個非常大的行業,就你可以講,比如它對應到大家日常生活中可以接觸到的一些什麼工業生產品的品類。其實只要你有電器的地方就會有線。

比如說汽車,電冰箱,洗衣機,空調,這是各種家電白電,比如說服務器。

你只要有電的地方就會有電線,有電線的地方,其實你就發現這件事情它的製造,對於機器人來說是非常難的問題。因為電線,其實我自己理兩線我都不想理,我理的也亂造造的,理線。

對,然後你就把一根根電線能夠按照相應的方式,能夠把它組裝成一個非常整齊的它的這套東西。

就是涉及到線數的裝配,還有插牌插拔這些工序,是吧?對。

手機你這麼精密的可以做嗎?手機其實反而是一個自動化非常充沛的行業。因為手機在自動化它很多時候它會採取 PCB 或者是軟排線,然後來直接通過,手機是一個典型的平面加工工藝。

它所有都是一排排把它平面把它擂上去的,所以對於機器人來說比較難的,反而是立體柔軟的這種加工工藝。

不過蘋果的產線上面還是有很多人呢,還是有很多人在做組裝。

對,非常非常多的人。

其實你說的也對,就是說蘋果產線很多它難以就拿在這些點。就是比如說它有插戒,它儘管它可能都會是一個平面組裝工藝,但是還是會有一些 socket 它需要去抓。

然後第二來說的話,平面組裝工藝它需要一程都能堆疊,所以它需要把做螺絲的固定,做其他固定,還有一些柔軟的東西。

其實全部都拿在這些地方。

你們現在有什麼可以透露的具體在合作的客戶嗎?或者說你們實際上在你們想去用的這些場景裡面,已經用到什麼狀態了?

我們現在因為我們解決的問題非常的真實,而且用戶也非常痛。其實現在願意跟我們一起來合作的用戶其實是非常多。

所以說我們現在更關注的問題,其實也是用戶最關注的問題,就是說我們要聚焦把這個問題能夠非常乾淨漂亮地把它解決掉。這個是我們包括我們跟一些合作方在一直往前推進的。

其實不管是我們還是我們的用戶方來說的話,我們合作方都是說大家非常想解決好這個問題,然後我們一起快速地往前去迭代。

我還有最後一個問題,就是具身這個領域其實理論上來說它的門檻應該是比較高的。因為它是個很複雜的,綜合了很多技術的一個系統,然後或者說一種產品。對。

但是另一方面,中國也有非常多的具身團隊,而且直到現在也有很多新的公司在湧現。對。

你覺得我們怎麼去判斷在這麼多的公司裡面,什麼公司是真的相對靠譜,在比較紮實地做事情呢?

我覺得可能每個公司都是靠譜的,就是我覺得好的公司的最重要的事情就是說,首先它要想清楚自己要成為一個什麼樣的自己。

就定義好自己未來想成為的自己這件事情很重要。我認為如果公司沒有想清楚自己要成為一個什麼樣的自己的時候,它就在它的一個不靠譜期,對吧。

我們在這些方面我們是明確,我們另外我們大概就知道我們想成為什麼樣的自己,我會努力成為這件事情。

所以說我會認為至少說在這個階段,我覺得也可以不用特別關注別人都在想成為什麼樣,就除非你想成為別人,但是我覺得想成為別人這件事情不是一個好選擇。

好,謝謝。

今天感謝陳亦倫、陳博做客晚點聊,分享了你創業的起點和契機,你看到的具身智能領域的曙光還有觀察,以及在第一道我們現在正在面臨的觀察,也就是數據上它石是怎麼去思考怎麼去解題的。

我們也推演了行業接下來的節點和可能的落地進度。再次感謝。各位掰掰。

本期連點呈現分享晚點聊的幾個往期采訪。

一十二四年底,我和樓天成聊了 Robotaxe,這被認為是機器人的一種特殊情形。教主講了小馬過去幾年的探索。

核心發現是模仿學習 Learning by watching 遇到了瓶頸。再往下要達到L4,需要Learning by practicing,具體用到的方法也是強化學習。而小馬定義中的世界模型,就是訓練車來做強化學習的一個環境,是製造車端模型的 factory 工廠。

這和本期中,陳英倫聊到端到端之後,自動駕駛還有巨身等物理世界的 AI,接下來的眼鏡有相似的觀察

陳英倫認為,關鍵是要構造一個世界模型,讓車輛等機器人學會如何與其他車和其他行人交互。這是他理解的世界模型解決的問題。

而 VLA,則是解決在開放世界裡,機器人本身怎麼運動,怎麼去完成任務和適應環境。

二是關於巨身智能的數據獲取。這是陳英倫看到的巨身的第一道關卡。

往期在 86 期與清華插院的徐華哲,還有 112 期與千尋聯創和首席科學家高揚的節目中,我們都討論過數據。

有人做針機采集,只有包括針機遙操和本期聊到過的手套這種方式,也可以照 UMI,指Universal Manipulation Interface的采集方法。用更便攜簡單的可穿戴設備,直接獲得人手去工作室的數據。然後再把它們用到機器人上。

也有人押注仿真,或者從海量的視頻里去找到可供機器人學習的數據。

現階段,歸類不同巨身公司的一個核心方法,就是看它們怎麼獲取數據。

本期節目就到這裡,感謝收聽。

如果你對今天聊的話題有觀察,好奇或疑問,歡迎在評論區分享想法。這也會成為我們節目的一部分,讓整個討論更完整。

你也可以把我們的節目分享給對這個話題感興趣的朋友,推薦更多你想聽的主題方法、想聽的主題和嘉賓。

你可以從小宇宙、蘋果 Podcast等渠道關注晚點聊 LateTalk,也歡迎關注我們的公眾號晚點 LatePost

下期再見。