在本屆AI Day大會(huì)上,伊隆·馬斯克把“擎天柱”人形機(jī)器人當(dāng)成了宣傳重點(diǎn)。沒錯(cuò),如果真能按馬斯克介紹的2萬(wàn)美元價(jià)格實(shí)現(xiàn)大規(guī)模量產(chǎn),“擎天柱”也許真能給人類的生活和全社會(huì)帶來(lái)深遠(yuǎn)影響。但演示文稿中相對(duì)不引人注目的另一部分,反而是最具份量的新消息。這就是Dojo超級(jí)計(jì)算機(jī),而且有望比雙足機(jī)器人更快改變世界。

每個(gè)Dojo托架由6塊D1處理器tile組成。

每個(gè)特斯拉exapod由10臺(tái)機(jī)柜組成,每柜安裝有兩個(gè)托架。

特斯拉的“擎天柱”機(jī)器人也將受益于Dojo更快的AI模型處理能力。

每個(gè)Dojo托架由6塊D1處理器tile組成。
首先要強(qiáng)調(diào)的是,特斯拉本身是一家軟件公司,只是碰巧也制造與軟件配套的硬件方案。作為“軟件定義汽車”的核心力量,特斯拉率先向汽車當(dāng)中引入了系統(tǒng)與連接性元素。這既降低了成本、增強(qiáng)了功能,也讓系統(tǒng)更新變得更加易行。事實(shí)上,雖然特斯拉在各個(gè)方面都處于領(lǐng)先地位,但其壓制各家競(jìng)爭(zhēng)對(duì)手最強(qiáng)的手牌當(dāng)數(shù)出色的軟件開發(fā)能力。
汽車目前最重要的新興能力就是自主駕駛功能,基本上屬于軟件問(wèn)題。特斯拉的FSD beta因?yàn)榘衍囍鳟?dāng)成測(cè)試對(duì)象而受到爭(zhēng)議,但正如人類自己也沒法在不上路的情況下學(xué)會(huì)開車一樣,自動(dòng)駕駛汽車同樣需要經(jīng)歷現(xiàn)實(shí)情況以制定應(yīng)對(duì)策略。開發(fā)自動(dòng)駕駛系統(tǒng)的公司可以根據(jù)現(xiàn)實(shí)世界數(shù)據(jù)建立模擬與測(cè)試模型,借此加速整個(gè)訓(xùn)練進(jìn)程。但要讓FSD真正發(fā)揮作用,它還是需要針對(duì)真實(shí)場(chǎng)景下的混亂狀況接受測(cè)試,據(jù)此改進(jìn)應(yīng)對(duì)策略。
這就是Dojo的舞臺(tái)所在。特斯拉已經(jīng)在使用由英偉達(dá)GPU驅(qū)動(dòng)的大型超級(jí)計(jì)算機(jī)處理其FSD數(shù)據(jù),借此構(gòu)建起更強(qiáng)的自動(dòng)駕駛模型。其中包含5760塊英偉達(dá)A100顯卡,安裝在總計(jì)720個(gè)節(jié)點(diǎn)當(dāng)中,每節(jié)點(diǎn)含8個(gè)GPU。其性能達(dá)到1.8百億億次,成為世界上速度最快的超級(jí)計(jì)算機(jī)之一。該系統(tǒng)的一項(xiàng)重要任務(wù)就是“自動(dòng)標(biāo)記”,即為原始數(shù)據(jù)添加標(biāo)簽,使其成為決策系統(tǒng)中的一部分。盡管自動(dòng)駕駛汽車在運(yùn)行過(guò)程中也會(huì)自主執(zhí)行部分識(shí)別,但大多數(shù)傳感器數(shù)據(jù)還是要跟預(yù)處理過(guò)的世界模型相匹配,再針對(duì)特定情況采取預(yù)定義的動(dòng)作。就像人類也會(huì)憑借以往的經(jīng)驗(yàn)判斷道路狀況、做出相應(yīng)反應(yīng)一樣,自動(dòng)駕駛汽車同樣要利用AI模型中的駕駛經(jīng)驗(yàn)決定如何行動(dòng)。

每個(gè)特斯拉exapod由10臺(tái)機(jī)柜組成,每柜安裝有兩個(gè)托架。
Dojo承諾大幅加快這些模型的改進(jìn)速度。在AI Day期間,特斯拉宣稱只需要四臺(tái)Dojo系統(tǒng)機(jī)柜,就能實(shí)現(xiàn)等同于72個(gè)傳統(tǒng)機(jī)架中4000個(gè)GPU所實(shí)現(xiàn)的自動(dòng)標(biāo)記性能。該公司對(duì)于自動(dòng)駕駛模型訓(xùn)練中的其他環(huán)節(jié)也做出了類似的性能提升承諾。特斯拉將通過(guò)所謂“exapod”集群部署Dojo,該集群由10臺(tái)機(jī)柜組成,而且計(jì)劃在帕洛阿爾托數(shù)據(jù)中心內(nèi)部署7套這樣的exapod集群。每個(gè)exapod的處理能力為1.1百億億次,面向特斯拉自動(dòng)駕駛汽車(可能還包括「擎天柱」機(jī)器人)的AI模型進(jìn)行換算之后,其處理能力將逼近8百億億次。
Dojo的設(shè)計(jì)思路與基于CPU或GPU的傳統(tǒng)超級(jí)計(jì)算機(jī)有很大區(qū)別。Dojo由眾多“tiles”組成,這與常規(guī)計(jì)算機(jī)CPU或GPU截然不同。CPU一般會(huì)將多個(gè)處理核心集成至單一芯片當(dāng)中,每個(gè)處理核心都能高頻執(zhí)行復(fù)雜的軟件操作。但目前的主流CPU設(shè)計(jì)最多只能支持64個(gè)核心,而單節(jié)點(diǎn)最多可以容納2塊CPU和128個(gè)核心?;贑PU的超級(jí)計(jì)算機(jī)會(huì)將大量此類節(jié)點(diǎn)聚集在同一系統(tǒng)當(dāng)中。今年上線的全球最快超級(jí)計(jì)算機(jī)Frontier就擁有9400個(gè)節(jié)點(diǎn),對(duì)應(yīng)60萬(wàn)2112個(gè)CPU核心。
現(xiàn)代GPU中的核心數(shù)量倒是非??鋸垺W罱l(fā)布的英偉達(dá)GeForce RTX 4090有16384個(gè)核心,特斯拉在基于GPU的最新超級(jí)計(jì)算機(jī)中使用的A100則包含6912個(gè)核心。但與CPU不同,GPU的核心只能執(zhí)行非常簡(jiǎn)單的操作,且速度極快。因此,GPU才廣受AI和機(jī)器學(xué)習(xí)類應(yīng)用,特別是涉及構(gòu)建自動(dòng)駕駛模型的程序的青睞。常見的節(jié)點(diǎn)最多可容納8個(gè)GPU,而特斯拉基于GPU的最新超級(jí)計(jì)算機(jī)集群共包含近4000萬(wàn)個(gè)GPU核心。
Dojo的特別之處,在于它的D1 tile并非由多個(gè)小芯片所構(gòu)成,而是單一包含354個(gè)核心的大芯片,專門針對(duì)AI和機(jī)器學(xué)習(xí)設(shè)計(jì)而成。之后,一個(gè)托架可以容納6塊D1 tile外加配套計(jì)算硬件,每臺(tái)機(jī)柜可以安裝兩個(gè)這樣的托架。這樣算來(lái),每機(jī)柜就將包含4248個(gè)核心,而由10臺(tái)機(jī)柜組成的exapod共擁有42480個(gè)核心?;贑PU的超級(jí)計(jì)算機(jī)在相同空間中的核心數(shù)量肯定達(dá)不到這么多,GPU在這方面具有碾壓性優(yōu)勢(shì)。而且由于Dojo專門針對(duì)AI和機(jī)器學(xué)習(xí)處理進(jìn)行了優(yōu)化,所以在同等數(shù)據(jù)中心空間之內(nèi),它比傳統(tǒng)CPU或GPU超級(jí)計(jì)算機(jī)都要快上幾個(gè)數(shù)量級(jí)。

特斯拉的“擎天柱”機(jī)器人也將受益于Dojo更快的AI模型處理能力。
特斯拉的目標(biāo),是在2023年第一季度部署第一臺(tái)Dojo exapod,但其他六臺(tái)何時(shí)落地還不明確。當(dāng)這種級(jí)別的處理性能安裝到位之后,相信特斯拉的FSD模型訓(xùn)練將大大加快,由此推動(dòng)自動(dòng)駕駛汽車的顯著發(fā)展。目前全球已經(jīng)有16萬(wàn)多特斯拉車主在參與FSD beta,為公司收集真實(shí)世界中的駕駛數(shù)據(jù)。而Dojo exapod將利用這些數(shù)據(jù)構(gòu)建起新的模型,向這16萬(wàn)名用戶不斷推送系統(tǒng)更新,由此形成良性循環(huán)。如果效果不錯(cuò),項(xiàng)目將吸引到更多測(cè)試者的加入,從而進(jìn)一步推動(dòng)開發(fā)加速。
所以我們認(rèn)為,特斯拉AI Day 2022大會(huì)上真正的重磅新聞應(yīng)該是Dojo,而絕不是什么“擎天柱”。在之前的AI Day 2021上,特斯拉公布了D1芯片的規(guī)格并亮出了早期樣品。一年過(guò)去,情況發(fā)生了很大變化。雖然馬斯克的宣傳經(jīng)常用力過(guò)猛,我們不可盡信,但假如Dojo真能在明年之內(nèi)開始交付,那預(yù)計(jì)特斯拉FSD beta將加快迭代與改進(jìn)速度,自動(dòng)駕駛的商業(yè)推廣也許真能超出我們以往的預(yù)期。