最近這段時(shí)間,“token工廠”一詞在科技圈有點(diǎn)火。
事情的起因是,在不久前舉辦的美國英偉達(dá)公司年度GTC大會(huì)(GPU技術(shù)大會(huì))上,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,當(dāng)前的行業(yè)競爭已從大模型時(shí)代發(fā)展到token產(chǎn)能時(shí)代,“未來的數(shù)據(jù)中心不再是存儲(chǔ)文件的倉庫,而是生產(chǎn)token的‘工廠’”。對相關(guān)企業(yè)來說,“計(jì)算能力等同于收入”。
“token工廠”是什么?科技圈這是又在玩什么新“黑話”?
要了解“token工廠”,首先得明白什么是token。
簡單來說,token是人工智能(AI)世界里最小的語義單元,也即模型處理和生成信息的基本單位。它可以是一個(gè)詞、一段代碼,也可以是圖像或視頻中的一個(gè)像素區(qū)塊。
和許多人想象的不同,AI其實(shí)既不識字,也聽不懂人話。每當(dāng)它需要理解人類的意圖,需要先把信息切割成token,再生成它自己可以理解的數(shù)字信息,處理完成后再反向執(zhí)行這一流程,合成人類能夠理解的信息表達(dá)出來。不嚴(yán)謹(jǐn)?shù)卣f,token有點(diǎn)像動(dòng)畫電影《神偷奶爸》流水線上的“小黃人”,觀眾雖然弄不清每一只小黃人具體在做什么,但卻明確地知道,當(dāng)一群小黃人聚在一起,奇跡就會(huì)發(fā)生。
理解token之后,就可以嘗試?yán)斫狻霸~元”了。
在不久前舉辦的中國發(fā)展高層論壇2026年年會(huì)上,中國國家數(shù)據(jù)局局長劉烈宏明確將Token稱為“詞元”,并將它定義為“結(jié)算單位”。對此,多位業(yè)內(nèi)專家表示,這意味著,我國AI正在從能力布局邁向能力結(jié)算,從模型好不好,轉(zhuǎn)向智能服務(wù)如何計(jì)量、如何定價(jià)、如何交易。
一個(gè)譯名為什么會(huì)引起業(yè)界如此高的關(guān)注?
答案可以從兩個(gè)方面拆解。
第一,觀測層面。
數(shù)據(jù)顯示,2024年初,中國日均詞元調(diào)用量為1000億;到2025年底,躍升至100萬億;到2026年3月,已突破140萬億,兩年增長超過1000倍。日均超140萬億的詞元調(diào)用量,相當(dāng)于1000萬億個(gè)中文詞匯,相當(dāng)于250個(gè)中國國家圖書館的資源量。同時(shí),中國AI大模型周調(diào)用量已連續(xù)多周領(lǐng)跑全球,且國產(chǎn)詞元價(jià)格僅為海外同類產(chǎn)品的十幾分之一。兩組數(shù)據(jù)說明,詞元不再只是技術(shù)術(shù)語,而成為AI商業(yè)化速度、應(yīng)用深度和產(chǎn)業(yè)景氣度的重要觀測指標(biāo)。
第二,計(jì)費(fèi)層面。
詞元作為最小的語義單元,天然就具備量化計(jì)算的屬性。它就像工業(yè)時(shí)代的電、互聯(lián)網(wǎng)時(shí)代的流量一樣,是AI時(shí)代核算成本的新度量衡。過去,很多企業(yè)采購軟件,買的是許可證、賬號數(shù)和部署周期;如今,越來越多企業(yè)開始按照可調(diào)用、可核算、可復(fù)盤的智能服務(wù)量計(jì)費(fèi)。這種標(biāo)準(zhǔn)化、精細(xì)化的結(jié)算方式,將使得AI服務(wù)的商業(yè)化路徑變得清晰。
因此,真正值得重視的,不只是“詞元”這個(gè)譯名,更是一個(gè)新的計(jì)量系統(tǒng)。正如賽迪研究院人工智能研究中心副研究員鐘新龍?jiān)谄涫鹈恼轮兴?,詞元一詞的誕生意味著,“人工智能開始被納入更成熟的經(jīng)濟(jì)敘事”。
搞清楚token和詞元之后,“token工廠”也就不難理解了。
如果我們將詞元比作數(shù)字經(jīng)濟(jì)時(shí)代的“硬通貨”,那么在既定的電力和空間資源約束下,數(shù)據(jù)中心拼的是產(chǎn)出詞元的速度、質(zhì)量和成本,每瓦特電力帶來的詞元吞吐量將替代傳統(tǒng)的服務(wù)器數(shù)量、存儲(chǔ)容量,成為決定數(shù)據(jù)中心競爭力的核心指標(biāo)。
從這個(gè)意義上講,數(shù)據(jù)中心的角色正在發(fā)生根本性轉(zhuǎn)變。傳統(tǒng)意義上的數(shù)據(jù)中心主要用于數(shù)據(jù)的靜態(tài)存儲(chǔ)和網(wǎng)絡(luò)交換,可以被簡單視作“電子倉庫”;如今隨著AI智能體的發(fā)展,數(shù)據(jù)中心正全面轉(zhuǎn)變?yōu)槌掷m(xù)吞吐海量數(shù)據(jù)并輸出智能內(nèi)容的“電子工廠”。本質(zhì)上說,數(shù)據(jù)中心已經(jīng)變成了一條“智能生產(chǎn)線”:輸入的是電力、數(shù)據(jù)、模型和調(diào)度系統(tǒng),輸出的則是AI智能體的執(zhí)行能力和行業(yè)場景中的實(shí)際生產(chǎn)率。
至此,真正值得關(guān)注的關(guān)鍵詞“實(shí)際生產(chǎn)率”出現(xiàn)了。
根據(jù)AI的“工作流程”,人類說出一句話之后,模型要先把文本切分成詞元,再把詞元映射成編號,隨后才能完成關(guān)聯(lián)、推斷和生成。由于切分規(guī)則不同,相同的信息會(huì)被不同的模型拆解為不同數(shù)量的詞元,相應(yīng)的,模型處理問題的速度、效率甚至結(jié)果也不會(huì)完全相同。因此,詞元消耗量與模型智能程度并不能完全畫等號,真正決定結(jié)果的,仍然是模型算法、數(shù)據(jù)質(zhì)量、任務(wù)設(shè)計(jì)和提示組織方式。
換言之,未來的“token工廠”,比拼的并不只是詞元調(diào)用能力,而是詞元調(diào)用與使用的綜合能力,這才是“token工廠”真實(shí)的競爭力。(作者:江子揚(yáng) 來源:經(jīng)濟(jì)日報(bào))