網(wǎng)易首頁 > 網(wǎng)易號 > 正文申請入駐

Kimi公開預測104場世界杯：AI不是萬能，AI公司也別裝

2026-06-09 12:42:06　來源: 定焦One

北京舉報

分享至

一個肯說“我可能錯”的AI，會不會更可信？

定焦One（dingjiaoone）原創(chuàng)

作者 | 陳頤

編輯 | 方展博

2026年世界杯還沒揭幕，幾家AI公司先在場外較上了勁。

這屆世界杯擴軍到48支隊、104場比賽，是史上規(guī)模最大的一屆，也順理成章成了各家大模型秀肌肉的舞臺。

6月8日，Kimi正式下場，玩法跟別人不太一樣。

它沒有只發(fā)條預測、截張圖就了事，而是用Agent集群調度300個子Agent，對104場比賽逐場做賽前預測、賽后復盤。在冠軍的預測上，Kimi并沒有否認西班牙、法國仍是熱門候選，但提出德國隊“可能被市場低估”，有可能“爆冷”奪冠。它甚至還公開喊話其他大模型，一起來預測、同場檢驗。

Kimi小組賽預測圖

更加另類的是，預測文章里的第一句話就是：“我們的預測很可能是錯的”。它認為，AI不該被包裝成永遠正確的系統(tǒng)，應當更透明地講清自己的能力邊界。

辦這場活動，當然有商業(yè)上的考量，拉新、導流，給剛上線的Kimi Work攢一波聲量。但Kimi這套又是公開預測、又是邀人挑錯的操作，更像是在向“包裝萬能”的AI行業(yè)潛規(guī)則發(fā)起挑戰(zhàn)，它想讓更多人看清，今天的AI到底能做什么、又做不到什么。

這恰恰是很多人忽略的一點。如今我們已經(jīng)習慣讓AI查資料、寫方案，甚至替我們拿主意，可真要依賴AI做判斷，光有答案還不夠，還得知道這個答案有幾分靠譜。

于是問題來了：我們嘴上都說想要AI說實話，可它真說出“我沒把握”時，我們究竟會更信它，還是掉頭去找那個順著你說、給你信心的AI？

誠實，對一家AI公司來說，到底是加分項，還是勸退項？Kimi想用104場世界杯球賽，把這個問題擺上臺面。

01.Kimi為什么敢押德國隊？

先說說用戶能怎么參與這場活動。

從6月9日起，登錄Kimi，選一支自己支持的主隊，這支隊每贏一場，參與的人就可以瓜分一個總額1萬億的Token獎池；德國隊要是贏球，所有用戶還有機會參與瓜分額外10億Token池。這些Token能直接用于剛上線不久的Kimi Work。這是一個面向知識工作者的本地Agent，能幫用戶建站、做PPT、查金融和法律資料等等。

活動一宣布，已經(jīng)有球迷開始暢想今年夏天的生活：白天把一部分工作丟給Kimi Work；深夜凌晨熬夜看球，再讓它陪著算哪支球隊贏面更大。工作、看球兩不誤。

Kimi Work

福利之外，Kimi這次最讓人意外的，是它押注德國隊可能“爆冷”奪冠，認為它是被市場低估得最明顯的強隊之一。

按Kimi報告，西班牙、法國、阿根廷都處在熱門區(qū)間，但德國的特殊之處在于：按博彩市場的賠率倒推，它的奪冠概率約為7.4%；但Kimi模型校準后給到11.3%，兩者相差3.9個百分點。

Kimi為什么認為德國被低估？它的判斷來自幾條分析鏈路的交叉驗證。

最直接的線索，是市場共識和球隊基礎實力指標之間存在錯位。按轉會市場的陣容身價算，德國排世界第四；但按市場隱含概率看，德國只排第七。拿巴西做個對照就清楚了：它的陣容身價比德國低（世界第六），市場給出奪冠排序卻是世界第四。

按照這個邏輯，市場對巴西偏寬容，對德國偏苛刻。報告把原因歸結為“近因偏差”：人對最近發(fā)生的壞事，總是記得格外清楚。德國連續(xù)兩屆世界杯小組出局，球迷和莊家都有“心理陰影”了，導致市場可能沒有充分考慮一些新變量。比如，教練納格爾斯曼接手后，高位逼搶的打法回來了；穆西亞拉和維爾茨這條年輕軸線，也解決了“控球多威脅少”的老毛病。

Kimi在報告里也承認，德國這3.6個百分點的正向偏差，可能是市場低估，也可能是模型高估，真正答案要等比賽驗證。

Kimi的活動宣布以后，有人叫好，評論區(qū)有人說：“敢預測就是一種勇氣，無論最后結果是否正確”。也有人等著看笑話，留言說：“德國隊奪冠我把球吃了”。更多人則在邊上等著數(shù)它猜中了幾場。猜砸了就是“AI果然不懂球”，偶爾押中，又會被說成“蒙的”。

但用“德國是否奪冠”來評價Kimi的預測能力，并不準確。它押的不是“德國一定能奪冠”，而是“市場低估了德國隊”，這是兩事。Kimi的判斷是否成立，不能只看德國有沒有捧杯，還要看它在淘汰賽走到哪里、面對強隊的表現(xiàn)如何，以及賽后復盤中，模型給出的11.3%是否比市場隱含的7.4%更接近真實表現(xiàn)。

Kimi的這種做法，在AI圈里并不常見。平時AI展示能力，要么是在發(fā)布會上放段demo，演示永遠一氣呵成，要么從案例庫里挑幾個成功的擺出來，個個無懈可擊。這些事后都能修飾、能篩選，外人根本無從證偽，它沒拿出來的那些失敗，我們永遠看不到。

而Kimi選了世界杯這個誰也無法作弊的場子，104場預測結果，對了錯了都擺在明面上，想賴也賴不掉。它甘愿冒著“當眾出丑”的風險，到底圖什么？

02.AI為什么集體“裝神”，又為什么有人開始“認慫”

要回答這個問題，得先看清楚整個行業(yè)的默認玩法。

AI預測賽事，最安全的做法是隨大流。足球充滿偶然，跟著主流押西班牙、法國是最穩(wěn)的，猜中是意料之中，押錯也是大家一起錯，沒有哪家會被單獨苛責。

可正是這套“隨大流”的做法，多年來已經(jīng)把AI預測做成了一門娛樂性大于實用性的營銷生意

回看歷史就知道：2018年俄羅斯世界杯，主流AI集體看走眼，微軟、百度、多家投行與學術AI普遍把西班牙、德國、巴西，列為奪冠前三熱門，結果冠軍是法國。

2022年卡塔爾世界杯，幾家機構的AI看好阿根廷奪冠并押中，但也有押錯的，比如半島電視臺AI看好法國，且全場次命中率都不算高：半島電視臺58.7%，538（FiveThirtyEight）為57.1%，比亂猜強些，但離“神準”差得遠。

戰(zhàn)績如此一般，為什么各家還搶著預測？這背后有多層原因。

最表層，預測不需要擔責，賽前拋出預測賺波關注，猜錯了也沒什么代價。

其次是用戶在用腳投票我們嘴上說想要誠實的AI，可真到用的時候，多半會下意識選那個“聽起來更自信”的AI。

而最深層，藏在模型被訓練出來的方式里。如今的大模型，是靠人類一條一條打分調教出來的。人對“肯定、完整、好聽”的回答打高分，對“我不知道”打低分；連給模型測分的榜單，也大多是答錯扣分、空著零分。這樣反復訓練下來，模型就被喂出了一種本能：寧可編一個像模像樣的答案，也不愿承認“我沒把握”。甚至有研究發(fā)現(xiàn)，AI比人更愛順著用戶、附和一句“你說得對”，它被調教出的首要目標是讓你滿意，而不是對你誠實。

放到公司層面，這就成了一個典型的“囚徒困境”：單看每一家，把話說滿、多拉用戶是理性選擇；可當所有人都這么做，整個行業(yè)的可信度就被一點點透支了。從ChatGPT剛火時“AI無所不能”的論調，到后來幻覺頻出、翻車不斷，公眾的信任度一路下滑。過去五年，全球公眾對AI的信任度從61%降到53%；凱捷研究院今年初調研了15個行業(yè)、約1500名高管，超過七成擔心AI的安全性、可解釋性與可靠性尚未得到充分驗證。

面對這個困境，Kimi換了一套衡量預測好壞的標準它給出的不只是預測結果，還給每場比賽標了高、中、低三檔置信度，并且交代得很清楚：高置信度那批，它歷史上能對85%到90%；中等的掉到55%到65%；低置信度的，準確率不高。

它這么做，是想把用戶的注意力從“它單次有沒有命中”，轉向“它報出來的置信度和實際正確率是否匹配”。這在統(tǒng)計學里叫“校準”（calibration）。

拿天氣預報來類比，更容易理解。預報說今天70%下雨，結果沒下，你能說它預報錯誤嗎？不能，單獨一天說明不了什么，概率描述的是長期頻率。真正的檢驗方法是，把它說過“70%下雨”的所有日子匯總，如果實際降雨占比接近70%，概率校準就是良好的。

AI也是同樣的道理。模型一味輸出絕對化結論，屬于置信度失準、高估了自身能力。它每“猜中”一次，都是在給“AI可信度”埋雷，因為長期會誤導用戶全盤信任，一旦模型失誤，無論是實際影響還是口碑信譽，都會付出更大的代價。

明白了概率校準的邏輯，再來看Kimi的做法就更容易理解。它沒有回避自身短板，還在報告里公開展示了過往賽事的預測成績：2018、2022兩屆世界杯，論單場勝負的命中率，它的模型不但沒贏過博彩市場，還略低一點（2018年是58.4%對60.1%，2022年差距更大）；幾場最著名的冷門，沙特贏阿根廷、日本接連贏德國和西班牙，它都沒押中。需要說明的是，這是全部場次的命中率，和前面高置信度那批85%以上的準確率，并不是一個口徑。

Kimi甚至承認：受模型誤差所限，它報出的西班牙基準概率16.5%也不精確，按歷史回測中的平均誤差來粗略理解，真實概率甚至可能在6.5%-26.5%這樣更寬泛的區(qū)間。報告里還有句提醒：任何號稱能給出比這更精確數(shù)字的模型，要么是過度自信，要么是在藏著掖著自己的不確定性。別家比的是精確，Kimi卻反過來提醒你“要警惕”。

不僅如此，Kimi還試圖推動整個行業(yè)改變現(xiàn)狀，公開邀請其他大模型下場預測。行業(yè)陷入“囚徒困境”，根源在于各家互不參照。可要是大家都在同一批比賽中同步公開預測結果，高下自然一目了然。104場下來，誰更靠譜、誰夸大其詞，用戶自有判斷。長此以往，“誠實”不再是劣勢，反而會成為行業(yè)的基本準則。

當然，這暫時只是Kimi的一廂情愿，有沒有同行響應還不確定。但Kimi傳遞出的態(tài)度很明確：AI不是萬能的，AI公司也沒必要裝成萬能。坦然講清自身能力的邊界，才是AI企業(yè)應有的擔當。

03.拿萬億Token，考一場作不了弊的試

話說回來，第一個把“AI可能會錯”擺上臺面，需要勇氣，也得承擔風險。對于Kimi來說，主動自曝短板、公開不確定性，會不會把用戶“嚇跑”？如果104場賽事預測的整體準確率不高，會不會被扣上“AI不懂球”的帽子？明知存在用戶認知和輿論的風險，Kimi還是這么做了，背后大概有兩點考量。

一方面，是技術上有底。

kimi展示的Agent集群過程

不同于傳統(tǒng)大模型只是輸出結論、模糊推理過程的預測，Kimi這300個Agent各管一個維度：有的看球隊基礎實力，用Elo評分（一種按歷史戰(zhàn)績動態(tài)計算的實力分）和FIFA（國際足聯(lián)）排名打底；有的算進攻和防守質量，靠xG（預期進球）這類指標；有的專門研究戰(zhàn)術之間怎么相互克制；有的盯賽程、天氣、長途奔波這些場外因素；還有的緊盯賠率變化，從市場和模型的偏差里找線索。

每個Agent都會給出判斷、佐證數(shù)據(jù)、置信程度，還會附上“反方意見”，最后由模型融合校驗，生成最終預測概率。關鍵在于，它摒棄了“少數(shù)服從多數(shù)”的投票邏輯，反而將模型內部的分歧本身當作重要的決策信息，最大化還原賽事預測的不確定性。

就拿德國這個重點案例來說，模型專門派了五個Agent從不同角度研判，其中一個的任務就是“唱反調”，專門推演德國的翻車風險：比如，回歸的門將諾伊爾已經(jīng)40歲高齡、德國隊的高壓逼搶戰(zhàn)術在高溫環(huán)境下可能拖垮體能。

與此同時，Kimi不只挑球迷愛聽的說。對眼下被市場熱捧的英格蘭隊，它判斷“被高估了”；對所有模型一致看好的熱門球隊，它也特意提醒，熱門共識也不等于確定性結論。

為了做到坦誠，Kimi甚至把“自己可能猜錯的原因”做了歸類，包括數(shù)據(jù)滯后、假設失效、臨場意外等，同時明確了賽后復盤迭代的標準化流程。

種種細節(jié)看下來，這場賽事預測，并非隨意輸出的娛樂性推演，而是一次準備充分、邏輯完整的專業(yè)建模實踐。

另一重考量，是它對用戶需求變化的一次押注。

AI正越來越多地替人做決定：幫你看體檢報告、審核合同、判斷錢往哪兒投。這些場景容錯率極低，錯一次的代價可能是真金白銀，甚至是健康。

這時候，一味順著你說、主打“讓你滿意”的AI，恰恰需要警惕，因為它一旦出錯，你可能連提前防備的機會都沒有。反過來，敢說“不確定”、“不知道”的AI，至少給你留出了自己判斷和兜底的余地。

AI用得越深入，“誠實”就越是剛需。

這也和它一直以來的定位保持一致，比起陪聊娛樂，Kimi更多被用在寫代碼、做研究、處理復雜任務上。越是這種較真的場景，用戶越需要一個肯交底的工具。不靠“裝神”，AI照樣有價值。

Kimi網(wǎng)站首頁截圖

除此之外，本次活動里還有一個有意思的設計：每進一球，Kimi就向中國足球捐10億Token，用來支持基層、校園和青訓的教練用上AI工具，預計覆蓋一萬多人。

這一筆捐贈，其實和它看好的德國隊遙相呼應。德國主帥納格爾斯曼今年38歲，靠數(shù)據(jù)和建模重新武裝這支老牌強隊。這種數(shù)據(jù)能力，過去是職業(yè)頂級球隊才用起的奢侈品。Kimi想做的，是把數(shù)據(jù)能力輸送到中國校園和基層的球場中去。

這些Token能不能真幫上中國足球，是另一回事。但它給出了一個行業(yè)方向：AI的終極價值，不是制造精準預測的噱頭，而是過去屬于少數(shù)人的數(shù)據(jù)和技術，讓更多人用得起。

04.結語

足球是世界上最難預測的運動，沒有之一。一張紅牌、一次VAR改判、門將一個神撲、一場突如其來的暴雨，都可能改寫比分。

正因為算不準，世界杯才成了檢驗“誠實”最好的考場。在這里，AI可以假裝胸有成竹，然后被打臉；也可以從一開始就坦承自己有幾分把握、可能錯在哪兒，再把每一步推理展示出來。Kimi選了后一種。

德國隊到底是否被低估，7月自有分曉；可“AI該不該更誠實”這個問題，沒那么容易有答案。Kimi至少先邁出一步，用一種能被驗證、甚至可能被打臉的方式，告訴更多人：AI并非萬能。這個問題的答案，其實不在AI，而在我們。我們最終會使用怎樣的AI，取決于今天的我們更愿意為哪一種買單。

特別聲明：以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布，本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.