Token「免費」時代來了？對話 Agnes AI 創(chuàng)始人，全模態(tài)免費的生意與野心

2026-06-08 18:51:34　來源: 極客公園

北京舉報

分享至

當 token 不要錢，人的野心會變大。

作者｜徐珊

編輯｜靖宇

過去一年真正在用 AI 的人都會有同一個感受——AI 越來越貴了。以前一個月 20 美元的訂閱可能都花不完，但自從 agent 和 vibe coding 流行起來，token 就燒得像流水，一個 coding agent 掛著跑上一下午，賬單金額越堆越高。于是大家慢慢學會了精打細算，這個任務值不值得讓它跑、這段代碼要不要讓 AI 再重寫一遍，很多想法剛冒出來，就被一句「這得燒多少 token」先摁了回去。

AI 本該讓每個人都能盡情去創(chuàng)造，可用著用著，反倒成了一件需要按表計費、能省則省的事。

現(xiàn)在有這么一家公司，能讓你不花一分錢，可以把文字、圖片、視頻三個 AI 模型都用個痛快。而且不是七天試用，也不是送你一筆用完即止的額度，而是管夠，這是不是 AI 時代的「賽博菩薩」？

6 月 1 號，一家叫 Agnes AI 的初創(chuàng)團隊，將旗下文本、圖片、視頻三個模型的 API token，全部免費。消息一出，幾天之內十幾個群被擠爆，在免費后的短短第一周內，Agnes-2.0-Flash 的調用量就飆升超過了 1 萬億（1T）Token；Agnes-Image-2.1-flash 生成了超過 200 萬張圖片；Agnes-Video-2.0 更是產(chǎn)出了超過 200 萬秒的視頻。最早涌進來的，最早涌進來的幾乎全是連夜趕來「體驗」的極客。

但很快，群里的畫風就變了。

有人用它跑出幾分鐘長的視頻，有人給它配上工作流做出整套素材，還有人把兩個女兒一路長大的片段剪成短片、配上 AI 旁白。這種幾分鐘的視頻，要是按過去的價格，他大概根本舍不得試。這其實正是「免費」最有意思的地方，它真正解鎖的，不是省下的那點錢，而是那些你以前因為太貴、不敢試而壓根沒動手的念頭。

更少見的是，當大多數(shù)公司都只在單一模型形態(tài)上發(fā)力時，Agnes 偏偏把文字、圖片、視頻三個模態(tài)一起做，并全部免費。

精彩還在繼續(xù)，本周 Agnes AI 即將更新 1M 超長上下文和 4K 超清圖片模型。

當然，問題也隨之而來：免費，是不是意味著模型不夠好？成本到底怎么壓，才扛得住這么多人一起用？錢都不收了，團隊又靠什么活下去？

以及最關鍵的，做這件事的 Agnes AI 團隊，到底圖什么？

帶著這些問題，極客公園和 Agnes AI 的創(chuàng)始人Bruce Yang聊了一場，以下是對話精華提要：

價格高的模型越好，價格低的模型性能不行才，這是很大的誤解。DeepSeek 價格也很便宜，它在很多指標上其實不亞于很多更貴的模型。
Token 免費真正解鎖的，不是省下的那點錢，而是那些你以前因為太貴、不敢試而壓根沒動手的念頭。用戶的潛力不應該被成本限制。
正因為有 Harness 這樣一個約束，模型之間的差距其實也在變小。Harness 的作用，第一是弱化了模型之間的差距，第二是讓模型的升級和優(yōu)化變得更有方向。
我們想趁現(xiàn)在率先打出免費的旗幟，先上牌桌、先成為一個重要玩家。
10 年前你不會中文、英文可能是文盲；10 年之后，不懂 AI 可能就是文盲。其實不是害怕 AI，而是不懂 AI 的人怕懂 AI 的人，覺得自己隨時會被替代。

Agnes AI ｜來源：官網(wǎng)

模型越便宜越不行？是個誤區(qū)

極客公園：先介紹一下自己和 Agnes AI 團隊吧。

Bruce Yang：我先講講自己的經(jīng)歷，15 歲出國，去新加坡萊佛士書院讀高中，之后考到美國加州大學伯克利分校，學計算機和數(shù)學兩個專業(yè)。運氣比較好，師從兩位圖靈獎得主 Richard Karp 和 David Patterson，當時教我們操作系統(tǒng)的 Ion Stoica 現(xiàn)在是 Databricks 的創(chuàng)始人。后來我在硅谷工作過，待過微軟和 LinkedIn，也在硅谷創(chuàng)過業(yè)，回過國，現(xiàn)在在新加坡。中間有個契機，疫情期間國內封城，我回新加坡讀了博士，在新加坡國立大學讀了 School of Computing 的 AI 博士，這段經(jīng)歷給了我很多靈感，也是 Agnes 創(chuàng)始很重要的一條路線。

Agnes 真正起步大概在 2024 年底、2025 年初，是一家很年輕的公司。我們從一開始就在做模型，不過去年更多是在做應用，因為模型還沒做得那么好，所以先做自己的 harness，也就是現(xiàn)在的 agent，再在 agent 之上慢慢優(yōu)化能力。最開始更多是借助「御三家」的外部 API 來實現(xiàn)能力，但成本一直居高不下，尤其規(guī)模做到總用戶量過千萬之后，已經(jīng)有點燒不起了，所以我們加速推動自研模型，做所謂的國產(chǎn)替代，到去年年底，故事更多還是在產(chǎn)品和國產(chǎn)替代上。

到今年年初，我們發(fā)現(xiàn)模型做得還不錯，對比一些閉源模型，某些地方還有優(yōu)勢。于是我們做了個大膽的努力，今年開始不斷開放模型 API，從小范圍放大到全模態(tài)，現(xiàn)在干脆放個大招，全模態(tài)免費。從 6 月 1 號公布到現(xiàn)在正式運行才三天，已經(jīng)有十幾個群，每個群幾百人，都是極客用戶的。我們 token 消耗量昨天已經(jīng)超過 1000 億，三天達到這個數(shù)字還不錯，到周末可能還要再翻三四倍。目前看還是在預期內的。

極客公園：不只是國內，全世界一聽免費都會很興奮。但大家也會質疑，是不是因為東西沒那么厲害，所以才免費？你們這三個模型現(xiàn)在到底是什么水準？

Bruce Yang：我覺得這是個誤區(qū)，而且不只針對免費模型，對低價、高性價比模型也都有，總覺得越貴的模型越好，越便宜的是不是性能不行才把價格降那么低。但你看 DeepSeek 價格也很便宜，它在很多指標上其實不亞于很多更貴的模型。

我們的模型雖然目前免費，但并不表示在性能上做了任何妥協(xié)。就目前的成績看，我們的文本模型在一些 agentic 場景中，比如 PinchBench 和 ClawEval，都是全球 Lab 前十；圖片和視頻模型在 Artificial Analysis 這個全球最權威的盲評榜單上，也都是全球前十 AI Lab。

模型還在不斷優(yōu)化，本月會更新一版，之后可能每個月都更新一版。我們對自己的要求是，對最頭部的 SOTA 模型不一定立刻達到同等強度，但要快速跟上，保持在一個代際之內，比如它新版本剛出來時，我們能達到它上個版本的能力。能做到這點其實也不容易，再加上免費，相信能得到很多用戶的青睞。

極客公園：你對自己的模型很有信心，不如先給大家展示、講解一下 Agnes 模型做出來的 demo。

Bruce Yang：我們模型在網(wǎng)上已經(jīng)有蠻多測評，我們看了一下，95% 都不是我們自己提供的。宣布免費第一天后用戶自發(fā)推廣就很多，測評都挺中肯，也指出了我們的一些問題，但總體大家對我們的能力還是比較認可的。

比如這種粒子效果，當年 Gemini 剛出來時，是大家測文本模型能力的一個重要指標。還有一位小伙伴用文本模型做了一個操作系統(tǒng)，里面還有個搭飛機的小游戲。

除了文本，圖片、視頻也還可以，尤其是圖片，我們對一些高信息密度的內容做了不錯的優(yōu)化。當然對比 Nano Banana、對比 GPT 的圖像模型還有些距離，一些高密度的文字細節(jié)還沒完全優(yōu)化好，但總體在國產(chǎn)模型里應該算比較靠前的。

視頻方面，我們支持音畫同出，角色在視頻里可以講話，中文、英文都支持，有些小細節(jié)還需要優(yōu)化。我們大概這個月下半月會推出下一版視頻模型，目標是接近 HappyHorse 的階段，跟 Seedance 還是有差距。但總體來說，作為商業(yè)化模型，免費并不表示它沒有商業(yè)價值，我們已經(jīng)達到了很多閉源模型的能力，也能釋放出很多商業(yè)潛力。

極客公園：剛才展示的這幾個任務，是單一模型端到端完成的，還是背后涉及多個 agent 協(xié)作？

Bruce Yang：我們提供的 API 只有三個模型，文本、圖片、視頻。目前還沒把這三個 API 統(tǒng)一在一起，下周想統(tǒng)一發(fā)布，因為很多人在配置時會很困惑，很多 harness 不支持直接上傳或者下載圖片和視頻，需要作為 skill 加載進去。所以現(xiàn)在是三個不同的模型。你看到的這些內容，基本都是在 harness 基礎上完成的。harness 可以是我們自己的 Agnes harness，也可以是 Codex、OpenClaw、Claude Code，連接我們的單一模型之后就能實現(xiàn)能力。

目前我們并沒有用多個文本模型，或多個圖片、視頻模型來支持 harness 工作；但 harness 在執(zhí)行過程中，可能因為自身的理解、需求和依賴關系，在某個時刻派出多個 agent 來實現(xiàn)，這個我們是可以支持的。

極客公園：完成剛才這些任務消耗的算力成本，和現(xiàn)在流行的模型、工具比，差別有多大？

Bruce Yang：先說我們的報價，雖然現(xiàn)在免費，但免費之前是有報價的，也仍有一個 token plan。文本模型方面，一般只有輸出 token 才跟成本掛鉤，輸入 token 對模型公司來說基本是零成本。

我們輸入 token 是 0.15 美元每百萬，大概是 GPT 和 Anthropic 的 1/100，比 DeepSeek 的 flash 版大概也便宜一半，我們還是有些利潤的。圖片是每 1000 張 3 美元，也就是 0.003 美元一張，這個很夸張。視頻實際成本每分鐘大概 0.3 美元，每秒鐘大致在一分錢人民幣左右，按這個成本大概是市場頭部模型報價的 1/100。

這是原來的報價?，F(xiàn)在免費，大家隨便白嫖，我們只是稍微限制一下 QPS（每秒查詢/請求數(shù)）和 RPM（每分鐘請求數(shù)），但給得還是比較多，每分鐘可以 request 20 次。正常的個人開發(fā)者目前還沒遇到說量不夠用的情況。

極客公園：免費讓人擔心團隊到底能不能撐??？很少有團隊三個全模態(tài)都做，尤其是 Agnes 并不是一家巨型公司，為什么三類模型要一起做？

Bruce Yang：壓力確實有，我們科研團隊已經(jīng)一百多號人了。目前在文本、圖片、視頻都能排進全球模型榜單前十的 Lab 的公司并不多，海外是谷歌和 OpenAI，國內可能是阿里、字節(jié)，其他三個都做的公司不多。

我們最開始也沒想那么多。因為我們自己的 harness 產(chǎn)品本來就支持文本、圖片、視頻，而且從用量看還蠻平衡的，所以第一步是想做國產(chǎn)替代。在這個過程中，我們發(fā)現(xiàn)三個模型之間其實有協(xié)同。

當時 Nano Banana 出來時，他們提到一個觀點，Nano Banana 的指令遵循能力之所以很強，是因為用了當時的旗艦模型 Gemini 2.5 Pro 去做視覺內容解析，反向提示詞的能力就很強。視頻模型也一樣，真正訓練過的人就知道，第一個前提就是文本、圖片模型要很強。視頻模型還需要大量數(shù)據(jù)，很多來自影視切片，切片之后要用文字把這部分視頻很好地描述出來，這些描述內容可以用來反向訓練，這個過程也很依賴文本模型。所以三個模型在訓練中其實有一定的依賴關系。包括現(xiàn)在一些新路線，比如圖片模型已經(jīng)開始走 AR，要把理解能力和生成能力結合在一起。

所以總體來說是兩個原因。第一，從真實使用需求出發(fā)。很多一人公司、小作坊，讓他去配置三個來自不同公司的接口，是蠻有挑戰(zhàn)的；如果能結合在一起，做一個 Omni 模式的 API，就能更好地降低使用成本和門檻。第二，訓練之間有協(xié)同。越好的多模態(tài)理解文本模型，越能支持圖片和視頻的生成，兩者相輔相成；多模態(tài)場景中還會生成很多新數(shù)據(jù)，對我們合成數(shù)據(jù)、進一步訓練很有幫助，尤其圖片和視頻模型需要文本 harness 幫它做提示詞增強。

只有把三個模型整合在一起，同時建立一個讓用戶不斷探索的場景，才能了解下一步模型升級的方向。

從另一個角度看，同時訓練三個模型和只訓練一個，區(qū)別有多大，取決于每家公司的愿景和認知。像 Anthropic、OpenAI 的愿景，是用最強的文本模型盡快實現(xiàn)能力上的質變、實現(xiàn) AGI。但我們理解的 AGI 有點不一樣，我們希望我們的 AGI 是由最廣泛的用戶、最大的場景去使用 AI，是一個更廣度的 AGI。在這樣的路線下，我們可能不是每個模型都最強，但要保持在前列、可能前十，不落后一個代際；同時希望模型能力相輔相成、共同進步，也希望越來越多用戶使用我們的產(chǎn)品，建立一個生態(tài)，讓生態(tài)促進我們進步、了解市場需求、了解怎么降低使用門檻。

因為愿景、出發(fā)點、技術路線都不同，我們會選一條別人可能不會選的路線，但這不表示我們對性能有任何降級或妥協(xié)，我們依然始終保持在全球前列。

極客公園：你到底有什么魅力，能把做文本、做圖片生成、做視頻的人才湊到一起？

Bruce Yang：其實我們有四個隊伍。文本、圖片、視頻各一個隊伍，每個隊伍十幾個人，還有一個隊伍專門做性能優(yōu)化，怎么把成本進一步打下來。其實成本不是最好的詞，效率可能更好，怎么在訓練階段和推理階段都取得一些令人咋舌的數(shù)字，比如 1% 的推理成本。

我們一個很核心的邏輯是，從第一天起就在做一個有很強約束的優(yōu)化問題，但我們的限制條件和別人不一樣。很多人的限制條件是給你足夠多的資源，怎么把能力做高；而我們在第一天，資源本身就沒那么大。所以我們才需要一個橫跨三個垂類、專門做性能優(yōu)化的團隊，無論是從 GPU、Codex 層面，還是從算法層面，用盡可能小的參數(shù)，達到用戶滿足度和性能的最完美匹配。剛開始做這件事時，我們心里其實是沒底的。

至于你說的人格魅力，我們其實是后來者，無論是新加坡團隊還是國內團隊都是后來者，因為大部分模型公司都不在這兩個區(qū)域。但當我們做出一點成績苗頭時，吸引了大量當?shù)貎?yōu)秀的學生，新加坡的 NUS、NTU，國內團隊南大、東大、中科大、浙大甚至清華的同學，都有很多選擇來我們公司。

整個科研團隊現(xiàn)在快 100 人了，都很聰明、很優(yōu)秀，是為了一個偉大的愿景去奮。6 月 1 號我們放了大招，把過去積累的能力和一些科研發(fā)現(xiàn)都公布出來，下周還會再開源一些新發(fā)現(xiàn)。團隊很積極向上，想在 AI 時代不只做接受者，還要成為構建者，這是我們的企業(yè)文化。

三天送出幾千億 token，

免費是為了先「上牌桌」

極客公園：在你看來，三類模型在哪些場景里能真正進入生產(chǎn)、進入商業(yè)化，接入之后就能跑起來賺錢？有沒有明確的場景？

Bruce Yang：還是我剛才那個觀點，付費的、貴的模型不一定更好。群里試過我們模型的同學說，不亞于任何付費的 SOTA 模型，甚至對比了 Gemini、對比了 Claude，當然我們內心知道還是有差距的。正因為有這個誤區(qū)，單純降價已經(jīng)沒意義了。你降價，很多人覺得是因為你性能不行，再降也不用，因為他更愿意用御三家。

打破這個僵局、改變這種刻板印象的方式，就是先讓大家大膽嘗試，在過程中找到一些驚喜。開放三天，十幾個群、幾千個小伙伴，其實遠不止，只是大概只有 10% 用戶會掃碼進群，二維碼在官網(wǎng) API key 下面。

從反饋看，他們用付費高級模型的功能，絕大部分我們都能實現(xiàn)。即使有些欠缺，比如特別復雜的指令遵循、特別長程的 agentic 任務還有些偏差，但這些都可以彌補、下個版本可以優(yōu)化，可能下下周就會優(yōu)化，比如 tool calling 的一些能力。所以大邏輯是，現(xiàn)在大家用的 90% 場景我們都能實現(xiàn)。

如果非要說更側重哪里，我們花了更多時間優(yōu)化 agentic 能力，這也是我為什么會關注 PinchBench 和 ClawEval 下一個版本會更優(yōu)化 coding，比如我們現(xiàn)在在打 SWE，做 coding 能力的升級，希望 SWE 也能成為全球前十，目前看還有機會。文本上，我們更專注用戶使用量最集中的 Agent 和 Coding。圖片我覺得蠻能打的，雖然跟 GPT 的圖像模型有差距，但在國內模型里還可以；視頻差距稍微大一點，跟 Seedance 和 HappyHorse 有差距，但無論免費還是按原價，性價比絕對 OK，可以期待這個月的下個版本，我希望能接近。

三個模型總結起來，即使跟一些 SOTA 閉源模型還有差距，我們也知道怎么去縮短距離，會一直以無限接近閉源模型的使命去推動科研工作。

極客公園：如果沒有 agent 這波火熱浪潮，token 這件事可能并不會讓大家這么關注。但現(xiàn)在 token 一出來，你一下就把它花超了。

Bruce Yang：對，coding 因為有 agent 的 harness，所謂的 OpenClaw、Hermes、Codex，還有 Claude Code，它們架構上其實也很類似。正因為有 harness 這樣一個約束，模型之間的差距其實也在變小。

我前段時間去新疆騎馬，就是想感受一下 harness，專門騎了幾匹不同的馬。第一匹很聽話, 但跑不快；第二匹跑得很快，但不太聽話，可當韁繩在我手上的時候，我發(fā)現(xiàn)差距不大。跑不快的，馬鐙踢一踢就快了；不聽指令的，韁繩拉一拉就聽話了。所以 harness 的作用，第一是本身就弱化了模型之間的差距，第二是讓模型的升級和優(yōu)化變得更有方向。

我們更需要做的，不是去訓練一匹沒有馬具的野馬，而是訓練一匹帶上馬具的馬。帶上馬具之后，很多方向、很多維度其實已經(jīng)被壓縮了，能進步的方向非常明確。還有一匹又快又聽話的馬我沒騎，是向導在騎，那屬于千里馬，沒我的份，相當于 SOTA 模型。我現(xiàn)在要做的，就是把沒那么有天賦的馬加在 harness 基礎上去訓練，讓它無限接近 SOTA 模型。

極客公園：為了體驗 harness, 專門跑去體驗騎馬, 這也很厲害。Claude Code 這么強，不僅是因為 Anthropic 的模型厲害，更因為它整個 harness 做得非常厲害，里面有特別多值得學習的地方。

Bruce Yang：對比 OpenClaw，我覺得 Claude Code 有兩個更大的優(yōu)勢。第一是 Memory 的處理和壓縮，比 OpenClaw 強很多，它做了很多長程記憶能力的優(yōu)化；第二是對 KV Cache 的優(yōu)化, 可以降低 token 用量、提升 token 的命中緩存。

命中緩存對模型公司來說基本是零成本，雖然給用戶收費，但對模型公司零成本，輸入 token 也是零成本。所以很多時候大家會看到，為什么有的公司能把命中緩存的 token、input token 價格降那么低？因為大家的成本項主要都在 output token、在輸出層。

極客公園：6 月 1 號免費后建了十幾個群，目前情況怎么樣？用戶怎么用免費 token 的？

Bruce Yang：他們幫我們找到了很多自己做產(chǎn)品時找不到的問題，一些壓測方式、使用場景、適配不同 harness 的設置，還有錯誤日志等等。原來我們一個測試團隊七八個人，他們捕捉不到的問題，現(xiàn)在群里很多活躍用戶幫我們找到了，還給了非常好的建議。很多人是開發(fā)工程師、運維工程師，還指出了我們網(wǎng)關的一些卡點。

第二，更讓我感動的是發(fā)掘了很多場景。原來我們用視頻模型做的都是幾十秒、5 秒、10 秒的，因為模型只支持 10 秒。但用戶用他們自己的 harness、專門幫我們寫的 skills，還有人做了 ComfyUI 的工作流，把幾分鐘、3 到 5 分鐘的視頻都生產(chǎn)出來發(fā)到群里。

我看到一個用戶發(fā)了一段他兩個女兒一路成長的短視頻，還用 TTS 配了一段非常感人的話，把視頻拼在一起。我第一反應是驚訝，這是不是我們模型做的，覺得做得還不錯。很多人做 5 分鐘視頻，如果不用我們免費模型，可能成本上根本不愿意嘗試。我們等于開放一個新場景、一種新權利。我們公司有句話，用戶的潛力不應該被成本限制，我們給予了釋放用戶潛力的權利。

還有一點也比較感動。我們原來嘗試寫郵件給 OpenClaw，說你們默認接入的都是很有名的模型，我們打榜也不錯，能不能把我們模型也放進去。

極客公園：OpenClaw 怎么說？

Bruce Yang：回了封郵件說，我們不允許、不會接入沒有名氣的模型。結果我今天在 GitHub 上搜了一下 OpenClaw 和 Agnes，從 6 月 1 號到 3 號，每天都有幾十條評論問，為什么不支持 Agnes AI，為什么需要我自己來配置。所以我們給出了一些分享也得到了非常令人感動的回報。

極客公園：之前和硅基流動的楊攀聊，他給過我一個建議——訂閱一個 200 美元的版本，你會發(fā)現(xiàn)當你擁有無限 token 時，野心會變大。

Bruce Yang：是的，這也是我們的想法。其實在推動免費這件事之前，公司內部也沒完全想清楚免費之后下一步怎么做、商業(yè)模式怎么做，只有個大概概念。但我們有一個大的認知，當你把一件事做到極致，比如把價格降到免費，它一定會對整個生態(tài)開啟一個新的打開模式，就是一個范式轉移，會迸發(fā)出很多場景。而這些場景不需要我們現(xiàn)在就去想，很多用戶會幫我們想得更好，因為群眾的力量是無限的。這也是我們已經(jīng)看到的，一些種子已經(jīng)在開花了。

極客公園：你會擔心有人不僅白嫖，還弄一個類似中轉站的東西，把你的免費 token 轉給更多人用、自己反而開始收費嗎？會擔心出現(xiàn)這種二道販子嗎？

Bruce Yang：我們限制了 RPM，也就是每分鐘的請求次數(shù)，大概每分鐘 20 次。對個人用戶一定沒問題，但對企業(yè)用戶就比較困難，你把一個 20 RPM 的產(chǎn)品給到 10 個用戶用，都會覺得捉襟見肘。所以對企業(yè)用戶，未來還是可能會以收費模式，當然價格也很便宜，你可以先用免費的做 POC、做試點。

極客公園：在一個 CLI 環(huán)境里，哪些任務用付費、哪些用 Agnes 免費模型，對個人才是經(jīng)濟最大化？

Bruce Yang：絕大部分人，除非你是極客。我覺得有兩類用戶可以稍微謹慎一點。第一類是絕對的極客，比如需要多個 codex 實例、連續(xù)跑 3 到 4 個小時的，這個我們目前支持還沒到位，當然我們在優(yōu)化，正針對這種長程、多實例的場景，配合我們的 coding harness 一起做優(yōu)化。第二類是非常專業(yè)做短劇的，不是說不能用我們，而是在某些場景，比如特別復雜的動作、特別追求一致性的場景里，可以配合一些更高端的模型一起使用。

除此以外，我們的模型目前應該能解決市場上 95% 以上的場景，這也在我們十幾個微信群里得到了驗證。大概 80% 的用戶都會說，你們跟我們看到的其他模型差不多。還有一部分用戶會提出問題，這些問題又分兩類，一類是能快速解決的，另一類是暫時無解的。能快速解決的，又占了提出問題的那 10% 到 20% 用戶中的 80%。這樣算下來，真正既沒解決、也不知道怎么解決的，大概只有 1% 左右的場景和問題。再加上我們把使用門檻降到免費，我覺得是很香、很值得嘗試的一個方向。

極客公園：Agnes 怎么把三個模態(tài)模型的成本壓到能支撐免費？才三天就幾千億 token 出去了。

Bruce Yang：是的。而且?guī)浊| token 只是我們儲備卡量的 1/5，按每天的消耗量還能再乘 5 倍，我還備了第二批卡，大家可以大膽地薅，薅到我們薅不動為止。

邏輯是這樣。第一，我們做的是優(yōu)化問題，但限制條件跟別人不一樣。主流公司大多信奉 scaling law，算力允許就讓參數(shù)和數(shù)據(jù)同等提升。但它沒回答邊際效益有多大：很多時候參數(shù)提升 10 倍，benchmark 只漲幾個百分點；而且現(xiàn)在大部分都在反向蒸餾，比如 Gemini 用 Pro 蒸餾 Fast，參數(shù)降 10 倍，多數(shù)榜單上差距不大。

所以我們第一天就定了個重要假設，200B 以上的模型不做，只優(yōu)化 200B 以內的，在里面找合適區(qū)間。靠環(huán)境穩(wěn)定性、合成數(shù)據(jù)和自己產(chǎn)品的線上數(shù)據(jù)不斷擴充，再在榜單數(shù)據(jù)上做類似問題的擴充，這塊現(xiàn)在很成熟，我們很快會開源一些合成數(shù)據(jù)的方式。

在這之上，我們只押兩個重點：agent 和 coding，希望不亞于 SOTA 模型。其他領域戰(zhàn)略性放棄，不是不重要，而是不是第一步要解決的。因為現(xiàn)在大規(guī)模消耗 token，一定是 coding harness 或白領辦公 harness。

此外還有個稍微超前的嘗試，我們在官網(wǎng)發(fā)了篇文章，講如何不增加參數(shù)和深度，靠循環(huán)調用 Transformer 的層來逼近更大模型的效果，這叫 recurrent depth transformer。小規(guī)模驗證里，一次循環(huán)PPL降了 10%，等于參數(shù)利用率提升 10%；同樣一個 MoE 模型，多次調用能更好地發(fā)揮每個單位參數(shù)的能力。這是下一步要重點實驗的。長期愿景就是在 200B 以內不斷優(yōu)化性能、接近 SOTA。資源有限，但目前看挺有效。

圖片和視頻不太一樣，它們還沒突破 scaling law，基本是數(shù)據(jù)越多、效果越好。很多產(chǎn)品達不到效果，不是能力問題，是數(shù)據(jù)問題，而合成數(shù)據(jù)又很復雜。比如你要 1 億段視頻，自己爬、自己截可能要幾個月，等弄完這波機會已經(jīng)過去了。

所以如何在最短時間內拿到你想要的數(shù)據(jù)？這份數(shù)據(jù)又通過什么樣的 pipeline 去訓練？如何讓圖片模型去賦能視頻模型？過程中技術路線是選 DiT 還是 auto regression？這里面其實很多小的 know-how，比一次性的大概念升級更重要。有點像OpenAI 后訓練一位負責人 Yann Dubois說的，訓練模型其實更像個手藝活，不是一個能系統(tǒng)推導出來的結論。

過去一年多，我們上百個科研同事做了很多創(chuàng)新，也充分發(fā)揮了學術界和開源的力量，所以我們也在反饋給開源生態(tài)。比如上一篇關于 recurrent depth transformer 的論文已經(jīng)開源；下周會開源一個我們在圖片中怎么優(yōu)化文字的 VAE 模塊能力；后面在視頻模型這邊，最重要的就是怎么合成數(shù)據(jù)，我們也會逐步開源。

這個生態(tài)對我們還是很有幫助的，很多原料、很多菜其實都有了，但你有沒有足夠大、足夠強的團隊，有沒有足夠強的信心去投入，把這道菜燒出來？我覺得到目前為止我們燒得還不錯。

極客公園：「Token 免費」背后的商業(yè)思考是怎樣的？

Bruce Yang：想了個大概，但沒全想完，可以分享一些。先說數(shù)字，我們幾天就做了幾千億 token。我看了下，現(xiàn)在 OpenRouter 上排名第一的是 DeepSeek V4 Flash，大概一周是 3 萬億 token。我算了一下，如果達到這樣的每周使用量，我們實際的服務器成本大概在小幾百萬人民幣，完全不是很大的數(shù)字，一個很重要的原因就是我們把成本壓縮到了極致，目前市場上我沒看到誰能做到我們這樣的成本，有點夸張。

這次免費希望免費到什么程度？目標是達到 OpenRouter 第一名兩倍的規(guī)模。兩倍之后再有新用戶，可能繼續(xù)支持，要看我們的融資情況；但在兩倍以內，我們是完全可以支持的。目前我們的團隊就是 OpenRouter 排名第一這樣的規(guī)模，主要提供給個人消費者，暫時沒有對企業(yè)消費者做特別大規(guī)模的宣傳，你可以做 POC，但給的 RPM 沒那么大。如果量達到 OpenRouter 上最大量模型兩倍的規(guī)模，免費完全可以支持。因為比起把這部分成本省下來，我們希望更多用戶來體驗我們的模型、喜歡我們的模型、成為我們忠誠的用戶，這非常值得。

下一步怎么商業(yè)化，我們有幾個思路。

第一是企業(yè)用戶。去做銷售很累，但你開放一個免費的讓他嘗試，讓他主動來找我們，會快很多，這是我們很重要的一條商業(yè)化路徑。

第二，我們看 OpenAI 和 Anthropic 在 B 端增速最快的就是它們的 harness，也就是 Claude Code 和 Codex，所以我們很快也會推出自己的 harness 產(chǎn)品，這里先賣個關子，但這也是很重要的一條商業(yè)化路徑。

第三，對用量特別大的極客，這不作為重點，我們再升級更好的模型，達到非常 SOTA、市場前三的時候，可以考慮小范圍收費，或者優(yōu)先面向付費用戶，付費用一段時間后我們還可以免費。但這些都不是最高優(yōu)先級，前兩者優(yōu)先級更高。

極客公園：今天是「Token 免費」，下一步會出現(xiàn)「給用戶錢讓他們用 Token」嗎？

Bruce：有這種可能性。但總體來說，在 AI 時代，想保持一兩年的門檻和壁壘是很困難的。我們現(xiàn)在趁著有這個能力，全模態(tài)模型都能達到可用狀態(tài)、能達到全球模型榜單前十的 Lab，率先打出免費的旗幟，希望先把愿景推出來，因為這個行為背后跟我們的愿景是符合的。能完全匹配全模態(tài)、同樣能力又免費的，目前市場上公司不多，大部分公司選擇在某一個領域發(fā)力，其他領域雖然也在慢慢發(fā)力，但需要時間。

所以我們想借這個機會盡快先上牌桌、先成為一個重要玩家。我們后面也有后手，別人匹配我們時，我們還有別的招沒出，harness 產(chǎn)品就是我們現(xiàn)在正緊鑼密鼓準備的，具體什么時間點、推什么樣的產(chǎn)品暫時還不能說，但后面還有新的增長曲線。

極客公園：大廠會跟進嗎？例如把過去的模型也免費出去？

Bruce：看他們多快能匹配，我覺得有難度，畢竟已經(jīng)有那么多用戶在付費了。我們作為新參與者，沒有那么多包袱，沒有那么多企業(yè)用戶和規(guī)模性付費用戶，所以可以快速掉頭；但對很多公司來說船大難掉頭，整個規(guī)劃、預算、年度計劃都要調整，大公司的決策路徑?jīng)]有那么快。

AI 平權，是免費背后的底色

極客公園：剛才說到很多普通用戶用免費 token 生成和女兒回憶的影像。這是不是你和團隊的一種情結，希望把 AI 作為工具免費給大家，讓大家釋放創(chuàng)造力、讓生活更美好？

Bruce Yang：我先介紹一下我的背景。我從小在國內一個四線城市長大，初中靠競賽和中考成績拿到獎學金，去了新加坡萊佛士書院，相當于新加坡最好的高中。在那里我認識了很多來自東南亞、家庭不富裕但成績很好的同學，有了很多新認知。我參加新加坡全國的數(shù)學、物理、化學競賽都是金牌、全國前幾名，也進了學生會。靠這份經(jīng)歷，我拿著leadership獎學金去了 UC Berkeley 讀書。

整個硅谷有兩所學校，有人說富人的孩子去 Stanford，窮人的孩子去 Berkeley。Berkeley 的同學很像一個社會，不是那么標準的精英，但每個人都很聰明、有很多想法，很純粹、很干凈。

之后我在硅谷創(chuàng)業(yè)，這次回新加坡讀博也拿了總統(tǒng)獎學金。我運氣非常好，來自四線城市、父母也不富裕，但一路都有獎學金和支持。今天的很多成績都是當時的積累，加上一顆不服輸?shù)男?，雖是后來者，也愿意挑戰(zhàn)現(xiàn)在的市場玩家。但 AI 現(xiàn)在變得沒那么平權了，因為成本，很多有創(chuàng)意的人都在意 token 消耗，不敢大規(guī)模用，反而沒那么有創(chuàng)造力、沒那么有效率。

回想我的經(jīng)歷，無論是萊佛士那些拿獎學金的同學，還是學費不貴、讓加州很多普通家庭聰明孩子都能去的 Berkeley，這顆種子是我自己得到的，我也到了一個時間點要回報社會，把火種傳下去，就是平權：能力的平權、價值的平權。

在這個時代，AI 平權是最核心的。10 年前你不會中文、英文可能是文盲；10 年之后，不懂 AI 可能就是文盲。

我硅谷的朋友很多很反 AI、害怕 AI。其實不是害怕 AI，而是不懂 AI 的人怕懂 AI 的人，覺得自己隨時會被替代。解決的辦法不是壓制 AI，而是讓它變成一種更平權的能力，讓每個人都知道如何借 AI 創(chuàng)造更多。這也是我們公司很重要的愿景，讓世界級的 AI 屬于每一個人。我們能做的可能微不足道，但這個愿景非常長久、持久。

極客公園：很多大廠已經(jīng)不開源了，但是你們還在做開源。除了 AI 平權，背后還有哪些思考？

Bruce Yang：現(xiàn)在很多公司在嘗試做開源，但只開源了參數(shù)、沒開源方法。既開源參數(shù)又開源方法的，就是 DeepSeek，所以我對 DeepSeek 非常 respect。梁文峰確實是在做 AGI，如果你現(xiàn)在問我，全世界這么多做 AI 的人最崇拜誰，我肯定還是梁文峰，一年前是，現(xiàn)在還是，他有大局觀、大格局。我們也是一樣的想法。如果開源了模型，但模型太大沒法自己部署，又不開源方法，那更多只是證明自己有這個能力、證明自己的模型跟別人不一樣、可以被別人蒸餾調用，并沒有為社區(qū)反饋太多信息。

所以我們很想做的是，如果真能做到一些別人做不到的成績，還是想把方法論開源出去。無論是上周開源的 recurrent depth transformer，還是下周要開源的、讓圖片文字更清晰的 VAE，還是后面告訴大家訓練視頻模型最大的卡點其實是如何快速合成數(shù)據(jù)，這些能力我們都會想著分享出去。

一方面是想證明我們有能力創(chuàng)新，不希望大家認為我們只是個跟隨者；另一方面，得益于人、也反饋于人，希望能在開源社區(qū)、開源生態(tài)里成長，也希望能反饋給社區(qū)。我們各個群里很多小伙伴都在幫我們寫 skills，很多我們自己都沒寫，但你現(xiàn)在搜 GitHub「Agnes 模型」，很多 skill 都寫出來了。我知道的群里小伙伴大概就寫了四五個，還不斷在 OpenClaw 的 issue 里催更，問為什么不支持 Agnes。

極客公園：催更 Peter（OpenClaw 創(chuàng)始人）是吧？

Bruce：對，催更 Peter，而且好幾個還是中文的催更 Peter。這樣的生態(tài)是大家比較希望看到、比較期待的，這也是為什么我覺得國內的 AI 現(xiàn)在在領跑全球。

極客公園：如果讓你給大家傳遞一個信息，token 都免費了、門檻已經(jīng)降到很低，普通人在這樣的時代應該怎么做、應該有什么樣的態(tài)度？

Bruce Yang：越早擁抱 AI，越能理解 AI 的世界，而 AI 世界和非 AI 世界是不一樣的。我在 NUS 讀博時上過一門機器人課，博士課程，我拿了全班第一名。教授 David 第一天就跟我們說，你們可以用 AI，但要說明自己是怎么用的，最好把提示詞寫出來。結果那門課，我讀博時已經(jīng)比同齡人大 10 歲，花的時間其實不多，但無論做項目、做研究、寫論文還是做演示，我都大規(guī)模用 AI，居然在大部分同學都比我小 10 歲、可能更有精力的情況下拿了全班第一。這說明如何充分發(fā)揮 AI 很重要，AI 能發(fā)揮的維度可能遠超我們的理解，尤其這波 harness、Codex，包括理解屏幕、做很多新的 skills、對接 MCP 插件，已經(jīng)在完全改變這個世界了。

我身邊有些朋友在做 AI 應用，我們自己也做過一段時間，現(xiàn)在不是公司重點。我有個很重要的觀點，當一個產(chǎn)品越做越復雜，它就不是一個 AI native 的產(chǎn)品。因為 AI native 的產(chǎn)品大部分是越做越簡單，越來越依賴模型；短期內可能會部分依賴 harness，但這種依賴會不斷迭代、可能越來越少。

所以更先進的 AI 認知、更早地接觸 AI 產(chǎn)品，再加上免費的資源讓大家大膽嘗試，我們就把門檻降得很低。很多人不敢嘗試，就是怕費太多 token、太多時間；如果 token 都免費了，每天都可以嘗試、不斷和 AI 互動。AI 本身是雙向的，不一定需要一份操作手冊。這樣你可以越來越全面地理解 AI 的每一個角落、它的邊界在哪里、它的脾性在哪里，這才是新時代的 AI 平權。

有時候我們用 AI 去改造傳統(tǒng)業(yè)務，有點像把馬車裝得更豪華、讓馬跑得更快；但真正 AI native 邏輯，其實是換一輛汽車，是徹底改變對行業(yè)的認知。這種認知有些地方比較根深蒂固，我們希望通過免費的、足夠多的 token，讓大家在這個轉變中更快地適應新時代。

我們后面還會出大量的場景和案例，讓大家快速上手，包括給沒試過 vibe coding 的同學，把我們的一些提示詞和生成效果都分享出來；以及如何連接大家想用的 harness。最簡單的我們自己也提供了 harness，叫 Agnes super agent，現(xiàn)在還沒做得那么好，但已經(jīng)可以嘗試。

如果你自己有 harness，比如 Codex、Claude Code、OpenClaw、Hermes，都可以快速對接。這些資源我們都會快速分享出來。我們的邏輯就是讓大家無門檻上手，而且是真免費、沒有任何套路。案例和提示詞都會慢慢分享出去，讓大家無論已經(jīng)是極客，還是想快速開始 vibe coding，都能快速體驗起來。

*頭圖來源：Agnes AI

本文為極客公園原創(chuàng)文章，轉載請聯(lián)系極客君微信 geekparkGO

WWDC26 開場，6 月 9 日午間 12:00，極客公園直播間帶你解讀：會發(fā)光的 Siri 來了，換上谷歌大腦還算蘋果嗎？一向把門關得最緊的蘋果，為什么主動向模型廠敞開大門？庫克在 AI 落后的節(jié)點交班，留給我們的又會是一個什么樣的蘋果？

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.