豆包手機(jī)后思考:AGI會(huì)在中國(guó)率先跑出來(lái)嗎?
-
2025-12-25
產(chǎn)業(yè)家
中國(guó)市場(chǎng),似乎總存在一種獨(dú)特的“加速度”,能夠把原本停留在抽象層面的技術(shù)命題,迅速推入現(xiàn)實(shí)世界,接受真實(shí)場(chǎng)景的檢驗(yàn)。互聯(lián)網(wǎng)時(shí)代如此,AI時(shí)代也更是如此。
作者|斗斗
編輯|皮爺
出品|產(chǎn)業(yè)家
中國(guó)市場(chǎng),似乎總存在一種獨(dú)特的“加速度”,能夠把原本停留在抽象層面的技術(shù)命題,迅速推入現(xiàn)實(shí)世界,接受真實(shí)場(chǎng)景的檢驗(yàn)。互聯(lián)網(wǎng)時(shí)代如此,AI時(shí)代也更是如此。
這一特征,在12月初豆包與努比亞聯(lián)合推出的努比亞M153上體現(xiàn)得尤為集中。
在這款設(shè)備中,AI助手首次被賦予系統(tǒng)級(jí)執(zhí)行權(quán)限,從調(diào)起外賣App、規(guī)劃出行路線,到整理文件、拆解任務(wù)并自主調(diào)度多個(gè)應(yīng)用,其開(kāi)始真正代替用戶完成跨應(yīng)用操作,AI不再只是給建議,而是直接去做事。
而在當(dāng)前的全球智能終端市場(chǎng)中,具備類似系統(tǒng)級(jí)自治執(zhí)行能力的產(chǎn)品,幾乎找不到可對(duì)照的案例。
也正因如此,產(chǎn)品發(fā)布僅兩天,便在行業(yè)和用戶層面引發(fā)了較高的討論熱度。除了關(guān)于“權(quán)限”的爭(zhēng)議外,引發(fā)這場(chǎng)熱議的核心原因恰是,一個(gè)長(zhǎng)期存在于產(chǎn)業(yè)敘事中的抽象想象,第一次被具象化地呈現(xiàn)在公眾面前,那就是AI,正在從能“思考”,邁向能“行動(dòng)”。
事實(shí)上,過(guò)去兩年,圍繞AI Agent的討論從未停止。模型公司、終端廠商、應(yīng)用平臺(tái)都在反復(fù)強(qiáng)調(diào)Agent將重寫(xiě)數(shù)字經(jīng)濟(jì)的運(yùn)行邏輯。然而,用戶并沒(méi)有獲得實(shí)質(zhì)性的體感。豆包手機(jī)一定程度上打破了這種距離感。如果說(shuō)ChatGPT曾讓全球用戶第一次切身感受到AI會(huì)“思考”,那么手機(jī)端Agent的出現(xiàn),則第一次讓人意識(shí)到,AI開(kāi)始真正介入行動(dòng)本身。
但這也引出了更深層的問(wèn)題。那就是為什么AI必須從“能思考”走向“能行動(dòng)”?又為什么,第一批具備行動(dòng)能力的AI,會(huì)率先出現(xiàn)在手機(jī)這一終端形態(tài)之上?
更關(guān)鍵的追問(wèn)在于,隨著一個(gè)可行動(dòng)的AI被放到了聚光燈下,所有深埋在概念里的問(wèn)題都被放到了臺(tái)面上,建立于移動(dòng)互聯(lián)網(wǎng)上的一眾高頻場(chǎng)景,真的已經(jīng)準(zhǔn)備好迎接一個(gè)能夠獨(dú)立“行動(dòng)”的AI嗎?
而更大的懸念,來(lái)自中國(guó)市場(chǎng)本身。
在國(guó)際科技巨頭普遍保持謹(jǐn)慎推進(jìn)Agent的節(jié)奏下,中國(guó)市場(chǎng)以應(yīng)用場(chǎng)景密度更高、用戶接受度更強(qiáng)、線上線下服務(wù)鏈路更完整、治理體系更統(tǒng)一,客觀上構(gòu)成了一個(gè)“可以提前上路”的試驗(yàn)場(chǎng)。中國(guó)能否在這一輪變革中率先跑出來(lái)?
這些問(wèn)題,既指向AI Agent的未來(lái)走向,也將影響著中國(guó)數(shù)字經(jīng)濟(jì)的下一個(gè)十年。
一、AI價(jià)值共識(shí):必須從“思考”邁向“行動(dòng)”
“思考”型AI,正在遇到天花板。
OpenAI的財(cái)務(wù)情況,是一個(gè)直接的信號(hào)。2024年Q1,其推理成本還只是略高于收入,但2025年Q3,支出已經(jīng)攀升到36.5億美元,同期收入只有20.6億美元。換言之,每賺1美元,就要在算力上花掉1.8美元,業(yè)務(wù)規(guī)模越大,虧損反而越深。
這種失衡,并不是個(gè)別公司的管理問(wèn)題,而是由這一路徑內(nèi)在的成本結(jié)構(gòu)所決定。隨著模型越迭代越大、參數(shù)越多、推理鏈條越長(zhǎng),需要的計(jì)算資源就會(huì)快速上升,推理成本幾乎是“往上躥”的曲線。而收入端卻受制于企業(yè)付費(fèi)意愿和應(yīng)用滲透節(jié)奏,只能緩慢爬坡。當(dāng)“指數(shù)級(jí)的算力開(kāi)支”遇到“線性增長(zhǎng)的營(yíng)收”,商業(yè)模型就會(huì)變得很吃力。
承壓的遠(yuǎn)不止OpenAI。據(jù)UBS研究報(bào)告顯示,自2024到2025年間,AI基礎(chǔ)設(shè)施領(lǐng)域的投資資金從150億美元激增至1250億美元,幾乎增長(zhǎng)了8倍,但相關(guān)企業(yè)的利潤(rùn)增長(zhǎng)并未同步提升。
從商業(yè)視角看,這一現(xiàn)象指向的是同一個(gè)核心問(wèn)題。那就是以“思考”為主的AI,確實(shí)能為企業(yè)創(chuàng)造價(jià)值,但很難直接參與價(jià)值結(jié)算。當(dāng)前大模型主流收費(fèi)方式,仍以Token計(jì)價(jià)、調(diào)用次數(shù)計(jì)費(fèi)為主,本質(zhì)上仍是API生意,單位價(jià)值有限,且高度可替代。資本與產(chǎn)業(yè)對(duì)這種邊界的感知,往往比技術(shù)社區(qū)更為敏銳。在既有形態(tài)下,“思考”型AI更像是一種效率工具,而非業(yè)務(wù)體系中不可或缺的生產(chǎn)要素。
于是,當(dāng)這一輪“只會(huì)思考”的紅利逐漸見(jiàn)頂,幾乎所有頭部玩家開(kāi)始意識(shí)到,AI下一個(gè)價(jià)值點(diǎn)不在“思考”能力,而在“行動(dòng)”能力。
那么,誰(shuí)能掌握“行動(dòng)權(quán)”?
其實(shí),在傳統(tǒng)的數(shù)字經(jīng)濟(jì)里,“行動(dòng)權(quán)”主要集中于兩類主體中,一類是操作系統(tǒng)和終端廠商,它們控制設(shè)備權(quán)限、系統(tǒng)入口、通知與前臺(tái)展示;另一類是超級(jí)應(yīng)用和平臺(tái)公司,它們掌握著服務(wù)入口、交易鏈路以及用戶關(guān)系。而在AI時(shí)代,Agent作為新的技術(shù)載體,被推至臺(tái)前,逐漸演化為跨應(yīng)用、跨服務(wù)的調(diào)度中樞。
這也是為什么模型公司、平臺(tái)公司、終端廠商雖然敘事各異,但在資源投入和戰(zhàn)略重心上,最終都不約而同地指向Agent。因?yàn)檎l(shuí)能占據(jù)這一調(diào)度層,誰(shuí)就有機(jī)會(huì)在下一輪數(shù)字經(jīng)濟(jì)中,重新定義收費(fèi)方式和價(jià)值分配邏輯。
在這一競(jìng)爭(zhēng)中,手機(jī)成了一個(gè)繞不開(kāi)的載體。
數(shù)據(jù)顯示,中國(guó)成年用戶平均每天使用手機(jī)約6.2小時(shí),完成超過(guò)120次數(shù)字動(dòng)作。支付、地圖、出行、即時(shí)通訊等95%的高頻任務(wù),都發(fā)生在手機(jī)上。幾乎所有與個(gè)人生活和工作相關(guān)的關(guān)鍵動(dòng)作,都被壓縮在這塊小小的屏幕里。是用戶“行動(dòng)密度”最高的終端。
更關(guān)鍵的是,手機(jī)操作系統(tǒng)天然掌握著AI行動(dòng)所需的應(yīng)用安裝和調(diào)用權(quán)限、前后臺(tái)調(diào)度、身份認(rèn)證、支付接口、系統(tǒng)級(jí)通知等,這些是一條“行動(dòng)鏈路”的基礎(chǔ)設(shè)施。
在這樣的結(jié)構(gòu)性條件下,手機(jī)終端順理成章地成為各方驗(yàn)證AI商業(yè)價(jià)值的首要試驗(yàn)場(chǎng),也成為“行動(dòng)型AI”競(jìng)爭(zhēng)中最先被點(diǎn)燃的戰(zhàn)場(chǎng)。
二、Agent偽命題背后:三方勢(shì)力試水“AI執(zhí)行”
在Agent的方向逐漸清晰之后,企業(yè)開(kāi)始“試水”,其中有三方勢(shì)力,進(jìn)入了對(duì)“AI行動(dòng)權(quán)”的爭(zhēng)奪戰(zhàn)場(chǎng)。
最先動(dòng)起來(lái)的,是以阿里、百度、騰訊等為代表的基礎(chǔ)模型服務(wù)商。
對(duì)模型服務(wù)商而言,最直接、也是成本最低的落點(diǎn),必然是自身已經(jīng)掌握的應(yīng)用入口。以阿里的千問(wèn)為代表,這類廠商普遍選擇通過(guò)“模型+自家應(yīng)用生態(tài)”的方式承載Agent能力,即在一個(gè)統(tǒng)一的AI入口中,整合多模態(tài)、寫(xiě)作、代碼與生活服務(wù)能力,并逐步打通云服務(wù)、電商與本地生活場(chǎng)景。生成的內(nèi)容可以直接進(jìn)入釘釘?shù)龋?gòu)物建議也能順滑跳轉(zhuǎn)到淘系完成交易,從而在單一App內(nèi)形成相對(duì)完整的執(zhí)行閉環(huán)。
這種路徑的優(yōu)勢(shì)在于模型能力強(qiáng)、生態(tài)協(xié)同度高,Agent可以在一個(gè)相對(duì)可控且在App層面充分放權(quán)的環(huán)境中嘗試執(zhí)行任務(wù)。但其邊界同樣明顯,那就是應(yīng)用層能力,其權(quán)限止步于App之外,無(wú)法調(diào)度系統(tǒng)級(jí)資源,行動(dòng)范圍天然受限。
當(dāng)應(yīng)用層的邊界逐漸顯露,產(chǎn)業(yè)的視角也隨之向下移動(dòng)至系統(tǒng)層。
這正是終端廠商集體入場(chǎng)的背景。OPPO、小米、vivo、榮耀幾乎同時(shí)將“大模型+系統(tǒng)級(jí)助手”確立為AI手機(jī)的核心方向,無(wú)論是OPPO在ColorOS中提出的“Agent Matrix”,還是小米在澎湃OS中對(duì)“超級(jí)小愛(ài)”的重構(gòu),核心目標(biāo)都是讓AI在操作系統(tǒng)層完成任務(wù)拆解、編排流程,并實(shí)現(xiàn)跨應(yīng)用完成執(zhí)行。
相比模型廠商,終端廠商的優(yōu)勢(shì)在于其太天然掌握系統(tǒng)級(jí)權(quán)限,比如通知管理、前后臺(tái)調(diào)度、懸浮窗、無(wú)障礙接口,這些都是AI行動(dòng)的關(guān)鍵入口。但與此同時(shí),它們也承載著更重的約束,即一旦系統(tǒng)級(jí)自動(dòng)化失控,沖擊的將是整個(gè)應(yīng)用生態(tài)與用戶體驗(yàn)。因此,大多數(shù)廠商采取的都是漸進(jìn)式推進(jìn)策略,在原有助手框架內(nèi),謹(jǐn)慎擴(kuò)大自動(dòng)執(zhí)行的邊界,而非直接釋放一個(gè)高度自治的Agent。
也正是在這種“有權(quán)限但不敢放開(kāi)”的空隙中,原生AI廠商看到了另一種可能。
與模型廠商和終端廠商不同,豆包這類原生AI玩家既沒(méi)有操作系統(tǒng),也沒(méi)有平臺(tái)級(jí)生態(tài),唯一的核心資產(chǎn)是模型能力。如果無(wú)法切入行動(dòng)層,或?qū)⒅荒芡A粼贏PI供應(yīng)商的位置。因此,豆包選擇了一條更為激進(jìn)的路徑,直接爭(zhēng)奪系統(tǒng)層的行動(dòng)入口。
不同于單純做App,豆包手機(jī)助手一開(kāi)始就選擇與中興在OS層深度合作,讓大模型以虛擬用戶的方式操作手機(jī)界面。在M153工程機(jī)上,用戶已經(jīng)能直觀看到一種更接近真實(shí)Agent的形態(tài)。
不過(guò),其也迅速觸碰到了現(xiàn)實(shí)阻力。當(dāng)系統(tǒng)級(jí)Agent具備自主操作能力,應(yīng)用方會(huì)本能地進(jìn)入防御狀態(tài),通過(guò)權(quán)限、協(xié)議和風(fēng)控策略限制自動(dòng)行為。這背后既有合規(guī)需求,也有對(duì)既有流量結(jié)構(gòu)和商業(yè)模式被重構(gòu)的警惕。
綜合來(lái)看,三條路徑共同勾勒出當(dāng)前Agent競(jìng)爭(zhēng)的基本圖景。模型廠商在“模型+自家生態(tài)”中做Agent,有智力,但缺乏權(quán)限;終端廠商在OS層做Agent,有權(quán)限,卻必須優(yōu)先維護(hù)生態(tài)穩(wěn)定;原生AI廠商試圖借系統(tǒng)合作直達(dá)行動(dòng)中樞,野心最大,也最容易遭遇阻力。
表面上,Agent之戰(zhàn)比的是模型能力和交互體驗(yàn)。但真正決定成敗的,并不在模型層或單一應(yīng)用層,而是誰(shuí)能在不打破既有秩序的前提下,為AI爭(zhēng)取到足夠的行動(dòng)空間。不過(guò)就目前來(lái)看,在規(guī)則尚未重構(gòu)之前,Agent真正行動(dòng)的幅度,注定有限。大多數(shù)探索仍被牢牢限制在各自的生態(tài)邊界之內(nèi)。
三、鯰魚(yú)背后:一個(gè)正在推進(jìn)的產(chǎn)業(yè)結(jié)構(gòu)重塑
在豆包手機(jī)和這一輪“試水”過(guò)程中,更深層的體系性矛盾被集中暴露出來(lái)。
在既有數(shù)字體系中,操作權(quán)限天然綁定于人類用戶之上。而當(dāng)一個(gè)非人類智能體開(kāi)始持續(xù)、規(guī)模化地發(fā)起操作。這套默認(rèn)前提便不再成立。誰(shuí)來(lái)界定AI能做什么、不能做什么。當(dāng)Agent可以完成支付、下單、修改信息乃至直接參與交易時(shí),權(quán)限的邊界不再清晰,傳統(tǒng)的授權(quán)邏輯隨之松動(dòng)。
隨之而來(lái)的是商業(yè)模式的挑戰(zhàn)。在依賴人類注意力的體系中,廣告與推薦形成了穩(wěn)定閉環(huán);但當(dāng)決策者變成Agent,沒(méi)有點(diǎn)擊和停留,價(jià)值如何衡量,收益如何分配,迄今仍缺乏可復(fù)制的答案。
第三個(gè)問(wèn)題是責(zé)任機(jī)制的缺位。當(dāng)AI出現(xiàn)錯(cuò)誤并造成損失,責(zé)任應(yīng)由平臺(tái)、模型、用戶還是Agent本身承擔(dān),在法律與制度尚未完善之前,這一問(wèn)題無(wú)法被回避。
從更底層的視角看,這些問(wèn)題歸根結(jié)底,其實(shí)都源于基礎(chǔ)設(shè)施的缺失。
目前,大量應(yīng)用仍只為人類操作而設(shè)計(jì),缺乏標(biāo)準(zhǔn)化動(dòng)作接口和可驗(yàn)證結(jié)果的能力,整個(gè)生態(tài)并沒(méi)有為AI“動(dòng)起來(lái)”做好準(zhǔn)備。所以,AI Agent面臨的核心挑戰(zhàn)不是技術(shù)不足,而是體系滯后。當(dāng)圍繞人類用戶構(gòu)建的規(guī)則逐漸失效,而新的行為主體已經(jīng)入場(chǎng),沖突幾乎不可避免。
但也是這些沖突,正在倒逼產(chǎn)業(yè)鏈上的各方重新審視自己位置,并以不同姿態(tài)加速入場(chǎng)。
例如,智譜近期推出的AutoGLM,已不只是一個(gè)對(duì)話系統(tǒng),而是具備“Phone Use”能力的智能體產(chǎn)品,能夠根據(jù)用戶指令自動(dòng)完成打開(kāi)APP、下單、選擇支付等復(fù)雜操作,呈現(xiàn)出AI Agent執(zhí)行真實(shí)任務(wù)的雛形。該技術(shù)甚至被業(yè)界視為,全球首個(gè)具備此類手機(jī)操作能力的開(kāi)源代理模型。
與此同時(shí),一些SaaS和B端服務(wù),也在弱化復(fù)雜UI,轉(zhuǎn)而提供更清晰、可預(yù)測(cè)的指令化接口,本質(zhì)上是在為Agent預(yù)留入口。
當(dāng)越來(lái)越多的參與者開(kāi)始圍繞“如何讓AI真正動(dòng)起來(lái)”重構(gòu)自身能力,Agent時(shí)代便不再只是概念上的演進(jìn),而是逐步具備了現(xiàn)實(shí)發(fā)生的條件。
在此基礎(chǔ)上,可以預(yù)見(jiàn)的并非一場(chǎng)簡(jiǎn)單的“替代”,而是一輪長(zhǎng)期的結(jié)構(gòu)性遷移。Agent的出現(xiàn)并不意味著推薦流或信息流廣告會(huì)迅速消亡。無(wú)論是搜索、內(nèi)容分發(fā)還是商品推薦。在執(zhí)行任務(wù)前依然需要參考排序結(jié)果,但這套體系的服務(wù)對(duì)象,正在從“人”轉(zhuǎn)向“Agent”。
這一轉(zhuǎn)變,將進(jìn)一步引發(fā)UI價(jià)值的結(jié)構(gòu)性重估。長(zhǎng)期來(lái)看,“對(duì)人友好”的UI將持續(xù)貶值,尤其是在B端場(chǎng)景中;相反,動(dòng)作語(yǔ)義清晰、接口穩(wěn)定、結(jié)果可預(yù)期、可驗(yàn)證的服務(wù),將逐步獲得更高的調(diào)用權(quán)重。對(duì)Agent友好,正在成為新的基礎(chǔ)能力。
而在這場(chǎng)重構(gòu)中,并非所有市場(chǎng)都會(huì)以同樣的速度適應(yīng)。有些只能被動(dòng)調(diào)整,有些則具備成為天然加速器的條件。
四、中國(guó)市場(chǎng),在成為AI最好的試驗(yàn)田
放眼全球,AI技術(shù)競(jìng)爭(zhēng)正迅速進(jìn)入白熱化階段。近兩年,大模型在參數(shù)規(guī)模、推理能力和多模態(tài)表現(xiàn)上的進(jìn)步速度明顯加快。僅2023–2024年間,主流模型在MMLU、GSM8K等推理基準(zhǔn)上的正確率提升幅度普遍超過(guò)20個(gè)百分點(diǎn),多模態(tài)模型在圖像、語(yǔ)音、視頻理解上的能力也被不斷刷新。模型能力的進(jìn)化周期,已經(jīng)從“以年計(jì)”壓縮到“以月計(jì)”。
在這一背景下,各國(guó)、各大科技公司幾乎沿著同一條技術(shù)曲線前進(jìn)。無(wú)論是模型規(guī)模、訓(xùn)練方法,還是推理優(yōu)化路徑,都在快速趨同,模型之間的能力差距正在被迅速拉平。
但當(dāng)視角從能力競(jìng)爭(zhēng)轉(zhuǎn)向?qū)嶋H落地,分化開(kāi)始顯現(xiàn)。
AI Agent的真正成立,所依賴的不只是模型智能,而是一整套可執(zhí)行、可協(xié)同、可規(guī)模化的落地環(huán)境。一個(gè)事實(shí)是,能夠承載Agent的市場(chǎng),至少需要幾個(gè)前提。比如,足夠密集且標(biāo)準(zhǔn)化的服務(wù)場(chǎng)景,才能讓任務(wù)被拆解并自動(dòng)完成;完整的線上到線下閉環(huán),才能讓決策直接轉(zhuǎn)化為現(xiàn)實(shí)結(jié)果;用戶對(duì)自動(dòng)化與代理行為的高度接受,才能讓授權(quán)與信任成為常態(tài);產(chǎn)業(yè)鏈之間足夠快的協(xié)同能力,才能讓接口、權(quán)限和規(guī)則不斷迭代;以及一個(gè)能夠推動(dòng)標(biāo)準(zhǔn)逐步統(tǒng)一的治理體系,為AI行動(dòng)劃定安全邊界。
正是在這些維度上,不同市場(chǎng)開(kāi)始出現(xiàn)分化。
數(shù)據(jù)顯示,美國(guó)用戶月均使用App數(shù)約40–45個(gè),而中國(guó)用戶約25–30個(gè);中國(guó)前5大超級(jí)App微信、支付寶、抖音等,占用戶總使用時(shí)長(zhǎng)大60%,而美國(guó)前5大App使用時(shí)長(zhǎng)占比不足35%。
一個(gè)事實(shí)是,許多海外市場(chǎng)在服務(wù)結(jié)構(gòu)、場(chǎng)景密度和系統(tǒng)協(xié)同上相對(duì)分散。應(yīng)用碎片化、線上線下割裂、權(quán)限高度敏感,使得AI更多停留在建議者、助手的角色,很難自然過(guò)渡為真正的執(zhí)行者。
而在中國(guó)市場(chǎng),幾乎是天然具備AI Agent所需的運(yùn)行條件。
具體來(lái)看,高密度、可自動(dòng)化的生活與商業(yè)服務(wù),已經(jīng)將大量現(xiàn)實(shí)行為壓縮為標(biāo)準(zhǔn)流程。外賣、出行、零售、政務(wù)、金融等領(lǐng)域高度平臺(tái)化,使得任務(wù)具備清晰接口。支付、履約、調(diào)度體系的全面數(shù)字化,使線上指令可以直接撬動(dòng)線下結(jié)果。長(zhǎng)期的產(chǎn)品演進(jìn),也顯著提高了用戶對(duì)自動(dòng)化執(zhí)行與代理行為的接受度。
與此同時(shí),中國(guó)市場(chǎng)在模型、終端、App與服務(wù)平臺(tái)之間,具備快速聯(lián)動(dòng)和對(duì)齊的能力。這種能力并非來(lái)自單一企業(yè),而是整個(gè)數(shù)字生態(tài)長(zhǎng)期積累的結(jié)果。多重因素疊加,使得AI Agent不只是理論上可行,而是真正跑得下去。
也正是在這樣的背景下,豆包手機(jī)所代表的Agent形態(tài)率先出現(xiàn)在中國(guó),并非偶然。是市場(chǎng)條件成熟后的一次自然顯現(xiàn)。當(dāng)權(quán)限體系、服務(wù)接口、用戶習(xí)慣與產(chǎn)業(yè)協(xié)同同時(shí)到位,AI Agent才第一次以“可以日常使用”的形態(tài)出現(xiàn)。
從這個(gè)視角看,中國(guó)市場(chǎng)正在提供一塊極具價(jià)值的試驗(yàn)田,用以驗(yàn)證AI Agent是否具備真正規(guī)模化運(yùn)行的可能。而能夠在這樣的環(huán)境中跑通的廠商,未來(lái)輸出到全球的,將不只是模型參數(shù)或單一產(chǎn)品形態(tài),而是一整套圍繞AI行動(dòng)而重構(gòu)的新AGI操作系統(tǒng)。
豆包手機(jī),正是被打響的第一槍。
-
本文作者:產(chǎn)業(yè)家
責(zé)任編輯:牛透社
本文來(lái)源:牛透社
-
分享到: