免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Kimi公開預測104場世界杯:AI不是萬能,AI公司也別裝

0
分享至


一個肯說“我可能錯”的AI,會不會更可信?

定焦One(dingjiaoone)原創(chuàng)

作者 | 陳頤

編輯 | 方展博

2026年世界杯還沒揭幕,幾家AI公司先在場外較上了勁。

這屆世界杯擴軍到48支隊、104場比賽,是史上規(guī)模最大的一屆,也順理成章成了各家大模型秀肌肉的舞臺。

6月8日,Kimi正式下場,玩法跟別人不太一樣。

它沒有只發(fā)條預測、截張圖就了事,而是用Agent集群調度300個子Agent,對104場比賽逐場做賽前預測、賽后復盤。在冠軍的預測上,Kimi并沒有否認西班牙、法國仍是熱門候選,但提出德國隊“可能被市場低估”,有可能“爆冷”奪冠。它甚至還公開喊話其他大模型,一起來預測、同場檢驗。


Kimi小組賽預測圖

更加另類的是,預測文章里的第一句話就是:“我們的預測很可能是錯的”。它認為,AI不該被包裝成永遠正確的系統(tǒng),應當更透明地講清自己的能力邊界。

辦這場活動,當然有商業(yè)上的考量,拉新、導流,給剛上線的Kimi Work攢一波聲量。但Kimi這套又是公開預測、又是邀人挑錯的操作,更像是在向“包裝萬能”的AI行業(yè)潛規(guī)則發(fā)起挑戰(zhàn),它想讓更多人看清,今天的AI到底能做什么、又做不到什么。

這恰恰是很多人忽略的一點。如今我們已經(jīng)習慣讓AI查資料、寫方案,甚至替我們拿主意,可真要依賴AI做判斷,光有答案還不夠,還得知道這個答案有幾分靠譜。

于是問題來了:我們嘴上都說想要AI說實話,可它真說出“我沒把握”時,我們究竟會更信它,還是掉頭去找那個順著你說、給你信心的AI?

誠實,對一家AI公司來說,到底是加分項,還是勸退項?Kimi想用104場世界杯球賽,把這個問題擺上臺面。

01.Kimi為什么敢押德國隊?

先說說用戶能怎么參與這場活動。

從6月9日起,登錄Kimi,選一支自己支持的主隊,這支隊每贏一場,參與的人就可以瓜分一個總額1萬億的Token獎池;德國隊要是贏球,所有用戶還有機會參與瓜分額外10億Token池。這些Token能直接用于剛上線不久的Kimi Work。這是一個面向知識工作者的本地Agent,能幫用戶建站、做PPT、查金融和法律資料等等。

活動一宣布,已經(jīng)有球迷開始暢想今年夏天的生活:白天把一部分工作丟給Kimi Work;深夜凌晨熬夜看球,再讓它陪著算哪支球隊贏面更大。工作、看球兩不誤。


Kimi Work

福利之外,Kimi這次最讓人意外的,是它押注德國隊可能“爆冷”奪冠,認為它是被市場低估得最明顯的強隊之一。

按Kimi報告,西班牙、法國、阿根廷都處在熱門區(qū)間,但德國的特殊之處在于:按博彩市場的賠率倒推,它的奪冠概率約為7.4%;但Kimi模型校準后給到11.3%,兩者相差3.9個百分點。

Kimi為什么認為德國被低估?它的判斷來自幾條分析鏈路的交叉驗證。

最直接的線索,是市場共識和球隊基礎實力指標之間存在錯位。按轉會市場的陣容身價算,德國排世界第四;但按市場隱含概率看,德國只排第七。拿巴西做個對照就清楚了:它的陣容身價比德國低(世界第六),市場給出奪冠排序卻是世界第四。

按照這個邏輯,市場對巴西偏寬容,對德國偏苛刻。報告把原因歸結為“近因偏差”:人對最近發(fā)生的壞事,總是記得格外清楚。德國連續(xù)兩屆世界杯小組出局,球迷和莊家都有“心理陰影”了,導致市場可能沒有充分考慮一些新變量。比如,教練納格爾斯曼接手后,高位逼搶的打法回來了;穆西亞拉和維爾茨這條年輕軸線,也解決了“控球多威脅少”的老毛病。

Kimi在報告里也承認,德國這3.6個百分點的正向偏差,可能是市場低估,也可能是模型高估,真正答案要等比賽驗證。

Kimi的活動宣布以后,有人叫好,評論區(qū)有人說:“敢預測就是一種勇氣,無論最后結果是否正確”。也有人等著看笑話,留言說:“德國隊奪冠我把球吃了”。更多人則在邊上等著數(shù)它猜中了幾場。猜砸了就是“AI果然不懂球”,偶爾押中,又會被說成“蒙的”。

但用“德國是否奪冠”來評價Kimi的預測能力,并不準確。它押的不是“德國一定能奪冠”,而是“市場低估了德國隊”,這是兩事。Kimi的判斷是否成立,不能只看德國有沒有捧杯,還要看它在淘汰賽走到哪里、面對強隊的表現(xiàn)如何,以及賽后復盤中,模型給出的11.3%是否比市場隱含的7.4%更接近真實表現(xiàn)。

Kimi的這種做法,在AI圈里并不常見。平時AI展示能力,要么是在發(fā)布會上放段demo,演示永遠一氣呵成,要么從案例庫里挑幾個成功的擺出來,個個無懈可擊。這些事后都能修飾、能篩選,外人根本無從證偽,它沒拿出來的那些失敗,我們永遠看不到。

而Kimi選了世界杯這個誰也無法作弊的場子,104場預測結果,對了錯了都擺在明面上,想賴也賴不掉。它甘愿冒著“當眾出丑”的風險,到底圖什么?

02.AI為什么集體“裝神”,又為什么有人開始“認慫”

要回答這個問題,得先看清楚整個行業(yè)的默認玩法。

AI預測賽事,最安全的做法是隨大流。足球充滿偶然,跟著主流押西班牙、法國是最穩(wěn)的,猜中是意料之中,押錯也是大家一起錯,沒有哪家會被單獨苛責。

可正是這套“隨大流”的做法,多年來已經(jīng)把AI預測做成了一門娛樂性大于實用性的營銷生意

回看歷史就知道:2018年俄羅斯世界杯,主流AI集體看走眼,微軟、百度、多家投行與學術AI普遍把西班牙、德國、巴西,列為奪冠前三熱門,結果冠軍是法國。

2022年卡塔爾世界杯,幾家機構的AI看好阿根廷奪冠并押中,但也有押錯的,比如半島電視臺AI看好法國,且全場次命中率都不算高:半島電視臺58.7%,538(FiveThirtyEight)為57.1%,比亂猜強些,但離“神準”差得遠。

戰(zhàn)績如此一般,為什么各家還搶著預測?這背后有多層原因。

最表層,預測不需要擔責,賽前拋出預測賺波關注,猜錯了也沒什么代價。

其次是用戶在用腳投票我們嘴上說想要誠實的AI,可真到用的時候,多半會下意識選那個“聽起來更自信”的AI。

而最深層,藏在模型被訓練出來的方式里。如今的大模型,是靠人類一條一條打分調教出來的。人對“肯定、完整、好聽”的回答打高分,對“我不知道”打低分;連給模型測分的榜單,也大多是答錯扣分、空著零分。這樣反復訓練下來,模型就被喂出了一種本能:寧可編一個像模像樣的答案,也不愿承認“我沒把握”。甚至有研究發(fā)現(xiàn),AI比人更愛順著用戶、附和一句“你說得對”,它被調教出的首要目標是讓你滿意,而不是對你誠實。

放到公司層面,這就成了一個典型的“囚徒困境”:單看每一家,把話說滿、多拉用戶是理性選擇;可當所有人都這么做,整個行業(yè)的可信度就被一點點透支了。從ChatGPT剛火時“AI無所不能”的論調,到后來幻覺頻出、翻車不斷,公眾的信任度一路下滑。過去五年,全球公眾對AI的信任度從61%降到53%;凱捷研究院今年初調研了15個行業(yè)、約1500名高管,超過七成擔心AI的安全性、可解釋性與可靠性尚未得到充分驗證。

面對這個困境,Kimi換了一套衡量預測好壞的標準它給出的不只是預測結果,還給每場比賽標了高、中、低三檔置信度,并且交代得很清楚:高置信度那批,它歷史上能對85%到90%;中等的掉到55%到65%;低置信度的,準確率不高。


它這么做,是想把用戶的注意力從“它單次有沒有命中”,轉向“它報出來的置信度和實際正確率是否匹配”。這在統(tǒng)計學里叫“校準”(calibration)。

拿天氣預報來類比,更容易理解。預報說今天70%下雨,結果沒下,你能說它預報錯誤嗎?不能,單獨一天說明不了什么,概率描述的是長期頻率。真正的檢驗方法是,把它說過“70%下雨”的所有日子匯總,如果實際降雨占比接近70%,概率校準就是良好的。

AI也是同樣的道理。模型一味輸出絕對化結論,屬于置信度失準、高估了自身能力。它每“猜中”一次,都是在給“AI可信度”埋雷,因為長期會誤導用戶全盤信任,一旦模型失誤,無論是實際影響還是口碑信譽,都會付出更大的代價。

明白了概率校準的邏輯,再來看Kimi的做法就更容易理解。它沒有回避自身短板,還在報告里公開展示了過往賽事的預測成績:2018、2022兩屆世界杯,論單場勝負的命中率,它的模型不但沒贏過博彩市場,還略低一點(2018年是58.4%對60.1%,2022年差距更大);幾場最著名的冷門,沙特贏阿根廷、日本接連贏德國和西班牙,它都沒押中。需要說明的是,這是全部場次的命中率,和前面高置信度那批85%以上的準確率,并不是一個口徑。

Kimi甚至承認:受模型誤差所限,它報出的西班牙基準概率16.5%也不精確,按歷史回測中的平均誤差來粗略理解,真實概率甚至可能在6.5%-26.5%這樣更寬泛的區(qū)間。報告里還有句提醒:任何號稱能給出比這更精確數(shù)字的模型,要么是過度自信,要么是在藏著掖著自己的不確定性。別家比的是精確,Kimi卻反過來提醒你“要警惕”。

不僅如此,Kimi還試圖推動整個行業(yè)改變現(xiàn)狀,公開邀請其他大模型下場預測。行業(yè)陷入“囚徒困境”,根源在于各家互不參照。可要是大家都在同一批比賽中同步公開預測結果,高下自然一目了然。104場下來,誰更靠譜、誰夸大其詞,用戶自有判斷。長此以往,“誠實”不再是劣勢,反而會成為行業(yè)的基本準則。

當然,這暫時只是Kimi的一廂情愿,有沒有同行響應還不確定。但Kimi傳遞出的態(tài)度很明確:AI不是萬能的,AI公司也沒必要裝成萬能。坦然講清自身能力的邊界,才是AI企業(yè)應有的擔當。

03.拿萬億Token,考一場作不了弊的試

話說回來,第一個把“AI可能會錯”擺上臺面,需要勇氣,也得承擔風險。對于Kimi來說,主動自曝短板、公開不確定性,會不會把用戶“嚇跑”?如果104場賽事預測的整體準確率不高,會不會被扣上“AI不懂球”的帽子?明知存在用戶認知和輿論的風險,Kimi還是這么做了,背后大概有兩點考量。

一方面,是技術上有底。


kimi展示的Agent集群過程

不同于傳統(tǒng)大模型只是輸出結論、模糊推理過程的預測,Kimi這300個Agent各管一個維度:有的看球隊基礎實力,用Elo評分(一種按歷史戰(zhàn)績動態(tài)計算的實力分)和FIFA(國際足聯(lián))排名打底;有的算進攻和防守質量,靠xG(預期進球)這類指標;有的專門研究戰(zhàn)術之間怎么相互克制;有的盯賽程、天氣、長途奔波這些場外因素;還有的緊盯賠率變化,從市場和模型的偏差里找線索。

每個Agent都會給出判斷、佐證數(shù)據(jù)、置信程度,還會附上“反方意見”,最后由模型融合校驗,生成最終預測概率。關鍵在于,它摒棄了“少數(shù)服從多數(shù)”的投票邏輯,反而將模型內部的分歧本身當作重要的決策信息,最大化還原賽事預測的不確定性。

就拿德國這個重點案例來說,模型專門派了五個Agent從不同角度研判,其中一個的任務就是“唱反調”,專門推演德國的翻車風險:比如,回歸的門將諾伊爾已經(jīng)40歲高齡、德國隊的高壓逼搶戰(zhàn)術在高溫環(huán)境下可能拖垮體能。

與此同時,Kimi不只挑球迷愛聽的說。對眼下被市場熱捧的英格蘭隊,它判斷“被高估了”;對所有模型一致看好的熱門球隊,它也特意提醒,熱門共識也不等于確定性結論。

為了做到坦誠,Kimi甚至把“自己可能猜錯的原因”做了歸類,包括數(shù)據(jù)滯后、假設失效、臨場意外等,同時明確了賽后復盤迭代的標準化流程。

種種細節(jié)看下來,這場賽事預測,并非隨意輸出的娛樂性推演,而是一次準備充分、邏輯完整的專業(yè)建模實踐。

另一重考量,是它對用戶需求變化的一次押注。

AI正越來越多地替人做決定:幫你看體檢報告、審核合同、判斷錢往哪兒投。這些場景容錯率極低,錯一次的代價可能是真金白銀,甚至是健康。

這時候,一味順著你說、主打“讓你滿意”的AI,恰恰需要警惕,因為它一旦出錯,你可能連提前防備的機會都沒有。反過來,敢說“不確定”、“不知道”的AI,至少給你留出了自己判斷和兜底的余地。

AI用得越深入,“誠實”就越是剛需。

這也和它一直以來的定位保持一致,比起陪聊娛樂,Kimi更多被用在寫代碼、做研究、處理復雜任務上。越是這種較真的場景,用戶越需要一個肯交底的工具。不靠“裝神”,AI照樣有價值。


Kimi網(wǎng)站首頁截圖

除此之外,本次活動里還有一個有意思的設計:每進一球,Kimi就向中國足球捐10億Token,用來支持基層、校園和青訓的教練用上AI工具,預計覆蓋一萬多人。

這一筆捐贈,其實和它看好的德國隊遙相呼應。德國主帥納格爾斯曼今年38歲,靠數(shù)據(jù)和建模重新武裝這支老牌強隊。這種數(shù)據(jù)能力,過去是職業(yè)頂級球隊才用起的奢侈品。Kimi想做的,是把數(shù)據(jù)能力輸送到中國校園和基層的球場中去。

這些Token能不能真幫上中國足球,是另一回事。但它給出了一個行業(yè)方向:AI的終極價值,不是制造精準預測的噱頭,而是過去屬于少數(shù)人的數(shù)據(jù)和技術,讓更多人用得起。

04.結語

足球是世界上最難預測的運動,沒有之一。一張紅牌、一次VAR改判、門將一個神撲、一場突如其來的暴雨,都可能改寫比分。

正因為算不準,世界杯才成了檢驗“誠實”最好的考場。在這里,AI可以假裝胸有成竹,然后被打臉;也可以從一開始就坦承自己有幾分把握、可能錯在哪兒,再把每一步推理展示出來。Kimi選了后一種。

德國隊到底是否被低估,7月自有分曉;可“AI該不該更誠實”這個問題,沒那么容易有答案。Kimi至少先邁出一步,用一種能被驗證、甚至可能被打臉的方式,告訴更多人:AI并非萬能。這個問題的答案,其實不在AI,而在我們。我們最終會使用怎樣的AI,取決于今天的我們更愿意為哪一種買單。

特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關推薦
熱點推薦
24小時風向突變!意大利總理成首個支持制裁以色列的G7國家?

24小時風向突變!意大利總理成首個支持制裁以色列的G7國家?

赴一場山海啊
2026-06-20 01:13:26
12國峰會上,馬科斯站位不簡單,俄菲握了手,普京亮出最新立場

12國峰會上,馬科斯站位不簡單,俄菲握了手,普京亮出最新立場

樂天閑聊
2026-06-20 02:13:56
澤連斯基稱烏俄談判或將重啟,允許俄方敲定具體形式

澤連斯基稱烏俄談判或將重啟,允許俄方敲定具體形式

澎湃新聞
2026-06-20 03:32:03
臺海再無國際水域!中國強勢收海!統(tǒng)一大勢不可擋!

臺海再無國際水域!中國強勢收海!統(tǒng)一大勢不可擋!

甜到你心坎
2026-06-15 13:23:34
潘石屹再次預判我國樓市!不出意外,3年內,樓市或將迎來新走向

潘石屹再次預判我國樓市!不出意外,3年內,樓市或將迎來新走向

老鵜愛說事
2026-06-18 00:56:28
比加息還狠!沃什要把3萬億退回去,18年的老規(guī)矩說改就改

比加息還狠!沃什要把3萬億退回去,18年的老規(guī)矩說改就改

離開地球a
2026-06-02 20:32:48
西方智庫發(fā)布報告,稱俄羅斯即將崩潰,還給出了具體的時間預測

西方智庫發(fā)布報告,稱俄羅斯即將崩潰,還給出了具體的時間預測

誮惜顏a
2026-06-18 20:59:38
不是迷信!今日端午,晚上不能做的4件事,別忘了告訴家人!

不是迷信!今日端午,晚上不能做的4件事,別忘了告訴家人!

阿天愛旅行
2026-06-19 11:57:28
名記:莫利納即將回歸阿根廷隊首發(fā),塔利亞菲科可能會出場

名記:莫利納即將回歸阿根廷隊首發(fā),塔利亞菲科可能會出場

懂球帝
2026-06-20 01:23:22
成本20元賣899元,保稅倉造假黑幕被扒,普通人別再交智商稅

成本20元賣899元,保稅倉造假黑幕被扒,普通人別再交智商稅

青眼財經(jīng)
2026-06-19 16:26:26
特朗普夸莫迪:長得太好看了像天使,但實際上,他像一個殺手

特朗普夸莫迪:長得太好看了像天使,但實際上,他像一個殺手

每日經(jīng)濟新聞
2026-06-19 05:03:58
原來恨是有滯后性的!網(wǎng)友:長大了才真的恨透了他們!

原來恨是有滯后性的!網(wǎng)友:長大了才真的恨透了他們!

另子維愛讀史
2026-06-19 21:43:05
哈佛最新研究實錘:4種運動睪酮漲25% 男人越練越有勁兒 越有男人味

哈佛最新研究實錘:4種運動睪酮漲25% 男人越練越有勁兒 越有男人味

普陀動物世界
2026-06-16 17:18:46
一個家庭最大的災難,不是窮,而是父母六七十了,還存在3種情況

一個家庭最大的災難,不是窮,而是父母六七十了,還存在3種情況

熱心市民小黃
2026-05-14 19:05:42
閆學晶開始反擊!起訴全網(wǎng)造謠者,惡心的事發(fā)生,還不止一件

閆學晶開始反擊!起訴全網(wǎng)造謠者,惡心的事發(fā)生,還不止一件

可樂談情感
2026-06-20 02:41:36
放棄全明星!馬刺交易方案曝光,??怂辜磳㈦x隊,猛龍恐成接盤俠

放棄全明星!馬刺交易方案曝光,??怂辜磳㈦x隊,猛龍恐成接盤俠

體育大朋說
2026-06-19 13:37:23
菲律賓政壇劇變:13票贊成,菲或向俄求助

菲律賓政壇劇變:13票贊成,菲或向俄求助

鐵血江湖人
2026-06-20 03:07:41
女排這三老將真穩(wěn)!王夢潔大腿,王媛媛主導高潮,龔翔宇穩(wěn)定軍心

女排這三老將真穩(wěn)!王夢潔大腿,王媛媛主導高潮,龔翔宇穩(wěn)定軍心

籃球資訊達人
2026-06-20 00:39:06
18歲伯明翰中場加盟AC米蘭:簽約三年,今夏登陸圣西羅

18歲伯明翰中場加盟AC米蘭:簽約三年,今夏登陸圣西羅

籃壇第一線
2026-06-20 00:06:12
1比0!墨西哥成本屆世界杯首支出線球隊,但韓國隊積3分出線樂觀

1比0!墨西哥成本屆世界杯首支出線球隊,但韓國隊積3分出線樂觀

紅星新聞
2026-06-19 11:46:12
2026-06-20 05:51:00
定焦One incentive-icons
定焦One
深度影響創(chuàng)新。
1093文章數(shù) 1113關注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯-美國2-0澳大利亞 提前一輪小組出線

頭條要聞

世界杯-美國2-0澳大利亞 提前一輪小組出線

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

孫藝珍曬母子合照!4歲小甜豆暴風成長

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
藝術
旅游
公開課
軍事航空

家居要聞

綠意盎然 自然之境

藝術要聞

投資20億!中國第一大民企的浙江總部,正式啟動!

旅游要聞

走遍春城才懂,金馬山不只是地名,是云南人代代相傳的祥瑞浪漫!

公開課

李玫瑾:為什么性格比能力更重要?

軍事要聞

霸氣!端午節(jié)最硬核的“龍舟”競渡來了

無障礙瀏覽 進入關懷版