免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

Gemini 3.5 Flash登上安卓編程榜單,但成本高出3倍且性能更慢

0
分享至

谷歌近期發(fā)布了新一期基準(zhǔn)測試結(jié)果,對各主流AI模型在安卓編程領(lǐng)域的表現(xiàn)進行了橫向?qū)Ρ?,并公布了每個模型的Token使用成本。測試結(jié)果顯示,谷歌自家的Gemini 3.5 Flash在安卓開發(fā)中資源消耗最為突出,甚至未能躋身前五名。


隨著通用聊天機器人的熱度逐漸降溫,谷歌、OpenAI、Anthropic等公司紛紛將重心轉(zhuǎn)向具備編程能力的智能體模型。用戶也開始依賴這類模型進行"氛圍編程"——即將大部分軟件開發(fā)工作交由大語言模型來完成。

近幾個月來,各模型在安卓編程方面的能力均有顯著提升,谷歌也持續(xù)追蹤并記錄各模型的表現(xiàn)。"Android Bench"基準(zhǔn)測試會隨谷歌新模型的發(fā)布而更新,例如此次納入了最新的Gemini 3.5 Flash,并將其與競品進行對比。

該測試的核心評估方式是:每個模型在10次運行中成功解決安卓編程問題的百分比,滿分為100分。谷歌還列出了預(yù)期表現(xiàn)及最近一次測試日期,部分高分模型的數(shù)據(jù)甚至可追溯至今年2月。

在最新一期的Android Bench排名中,結(jié)果令人意外。Gemini 3.5 Flash僅排名第六,落后于GPT 5.5以及早在今年2月就完成測試的Gemini 3.1 Pro Preview。

Gemini 3.5 Flash此前被定位為比Gemini 3.1 Pro更廉價、更快速的替代方案,官方預(yù)期性能差距為6.1%。然而最新基準(zhǔn)測試結(jié)果卻給出了不同的結(jié)論:在安卓開發(fā)場景下,Gemini 3.5 Flash不僅延遲更高,任務(wù)成功率也低了9個百分點。

更關(guān)鍵的是成本對比——谷歌這款最新模型在單次基準(zhǔn)測試中平均消耗355.9個Token,花費約147.1美元;而Gemini 3.1 Pro Preview僅消耗73.3個Token,費用約為前者的三分之一。

當(dāng)然,需要指出的是,谷歌目前在榜單上列出的仍是Gemini 3.1 Pro的預(yù)覽版本。但即便如此,這款預(yù)覽版模型的得分依然高于一款被官方宣傳為"更快、更高效"的正式版模型,這一結(jié)果頗為耐人尋味。

GPT 5.5在單次運行成本上與Gemini 3.5 Flash相近,但后者在Android Bench測試中的Token消耗量是前者的5.5倍。Anthropic的上一代模型Claude Opus 4.7排名第四,運行成本和Token用量略低,處于中游水平。目前谷歌尚未公布Opus 4.8或Fable 5的基準(zhǔn)測試得分。

以下是谷歌在最新一期Android Bench中公布的前十名模型排名:

榜單中既有多款開放權(quán)重模型,也包含Claude、GPT等知名閉源模型。與上一期相比,榜單前段的排名基本保持不變,唯一的調(diào)整是GPT 5.3 Codex已從名單中移除。

完整排名可在谷歌官方網(wǎng)站上查閱。

谷歌會隨著更多模型完成測試而定期更新該榜單。從整體來看,這份榜單是衡量各模型在安卓開發(fā)領(lǐng)域表現(xiàn)的可靠參考。Gemini 3.5 Flash在其他大語言模型及智能體任務(wù)中確實表現(xiàn)出色,盡管谷歌對其成本和使用上限有所調(diào)整,但其在安卓編程方面的短板同樣不容忽視。

Q&A

Q1:Android Bench是什么?谷歌用它來評估什么?

A:Android Bench是谷歌發(fā)布的一項基準(zhǔn)測試,專門用于評估各主流AI模型在安卓編程領(lǐng)域的表現(xiàn)。每個模型會經(jīng)歷10次運行,以成功解決安卓編程問題的百分比作為得分,滿分為100分。谷歌會隨新模型發(fā)布持續(xù)更新榜單,同時公布每個模型的Token使用量及對應(yīng)成本,幫助開發(fā)者選擇最適合安卓開發(fā)場景的AI模型。

Q2:Gemini 3.5 Flash在Android Bench中表現(xiàn)如何?

A:Gemini 3.5 Flash在最新一期Android Bench中僅排名第六,不僅未能進入前五,還落后于更早測試的Gemini 3.1 Pro Preview。其單次基準(zhǔn)測試平均消耗355.9個Token,花費約147.1美元,是Gemini 3.1 Pro Preview成本的約3倍,同時任務(wù)成功率還低了9個百分點,延遲也更高,在安卓編程場景中性價比表現(xiàn)欠佳。

Q3:目前Android Bench排名靠前的AI模型有哪些?

A:根據(jù)谷歌最新公布的Android Bench榜單,排名靠前的模型包括GPT 5.5、Gemini 3.1 Pro Preview等閉源模型,以及多款開放權(quán)重模型。Claude Opus 4.7排名第四,Token消耗和運行成本處于中游水平。與上一期相比,榜單前段排名基本穩(wěn)定,主要變化是GPT 5.3 Codex已從榜單中移除。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
豐田官宣新車:7月2日,正式上市

豐田官宣新車:7月2日,正式上市

科技堡壘
2026-06-19 11:39:08
孫興慜前往墨西哥當(dāng)?shù)氐挠衩拙盹灥昶穱L,引發(fā)球迷擁堵

孫興慜前往墨西哥當(dāng)?shù)氐挠衩拙盹灥昶穱L,引發(fā)球迷擁堵

懂球帝
2026-06-19 00:29:24
中國男籃對戰(zhàn)澳大利亞,首發(fā)5人基本浮出水面,郭士強拒絕兩連敗

中國男籃對戰(zhàn)澳大利亞,首發(fā)5人基本浮出水面,郭士強拒絕兩連敗

歷史膠囊
2026-06-19 16:03:54
“喂到他娶媳婦為止”,網(wǎng)友:孩子奶奶發(fā)型,早已預(yù)示了家教水平

“喂到他娶媳婦為止”,網(wǎng)友:孩子奶奶發(fā)型,早已預(yù)示了家教水平

世界圈
2026-06-09 08:32:26
百姓躺平擺爛,食稅群體怎么辦?

百姓躺平擺爛,食稅群體怎么辦?

律法刑道
2026-06-03 09:30:48
17億電影惹禍?新加坡高層邊哭邊罵,官媒怒懟破防

17億電影惹禍?新加坡高層邊哭邊罵,官媒怒懟破防

動物奇奇怪怪
2026-06-19 08:18:10
“大女兒、二女兒、小兒子都是名校博士!”伏羲骨面相果然權(quán)威!

“大女兒、二女兒、小兒子都是名校博士!”伏羲骨面相果然權(quán)威!

林林先生
2026-06-18 09:00:11
35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

35頁PPT瘋傳:洛陽女子1女談3男,每天卡時間,都已談婚論嫁

烈史
2026-05-30 13:23:41
中共北京市委 北京市人民政府決定:韋東奕,獲獎!

中共北京市委 北京市人民政府決定:韋東奕,獲獎!

雙一流高校
2026-06-19 06:20:01
警惕:上了年紀(jì)再過性生活,最怕這2點!保護男性精氣,做好4點

警惕:上了年紀(jì)再過性生活,最怕這2點!保護男性精氣,做好4點

美食格物
2026-05-27 19:03:09
寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

寶媽避雨被趕后續(xù):大批顧客退單,道歉也難平眾怒,門店口碑崩了

一口娛樂
2026-06-18 17:35:23
美元潮汐,再次開啟!

美元潮汐,再次開啟!

柏年說政經(jīng)
2026-06-19 10:00:10
賴清德發(fā)端午節(jié)快樂,被罵無語:端午是我們中國的節(jié)日,你不配過

賴清德發(fā)端午節(jié)快樂,被罵無語:端午是我們中國的節(jié)日,你不配過

臨云史策
2026-06-19 17:08:28
人老了才發(fā)現(xiàn):大部分女婿,其實都在看你對女兒的態(tài)度,不會騙人,早看早安心

人老了才發(fā)現(xiàn):大部分女婿,其實都在看你對女兒的態(tài)度,不會騙人,早看早安心

心理觀察局
2026-06-13 06:58:10
高市沒想到,剛宣布原料藥擺脫中國依賴,幾大巨頭就聯(lián)手“叛逃”

高市沒想到,剛宣布原料藥擺脫中國依賴,幾大巨頭就聯(lián)手“叛逃”

有范又有料
2026-06-19 11:39:58
今天的伊朗再次證明:若中美開戰(zhàn),75年前抗美援朝是最佳方案!

今天的伊朗再次證明:若中美開戰(zhàn),75年前抗美援朝是最佳方案!

麓谷隱士
2026-06-06 09:31:52
為什么中國女排沒有朱婷的位置,真相大白了,她不會回來了

為什么中國女排沒有朱婷的位置,真相大白了,她不會回來了

體育快遞小哥哥
2026-05-11 16:32:52
萬斯敲打以色列:只有900萬人口的國家,別想靠殺解決一切

萬斯敲打以色列:只有900萬人口的國家,別想靠殺解決一切

桂系007
2026-06-19 06:57:19
從5.08億到1.62億,馮小剛《抓特務(wù)》票房預(yù)測為何兩極分化嚴(yán)重

從5.08億到1.62億,馮小剛《抓特務(wù)》票房預(yù)測為何兩極分化嚴(yán)重

白公子探劇
2026-06-19 11:03:48
巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

巴拉圭“胸神”16年后重返世界杯,靠火辣身材爆紅,愿為贏球裸奔

深析古今
2026-06-14 15:32:00
2026-06-19 18:56:49
至頂科技 incentive-icons
至頂科技
科技產(chǎn)業(yè)媒體與 AI 產(chǎn)業(yè)服務(wù)機構(gòu)
19425文章數(shù) 49712關(guān)注度
往期回顧 全部

科技要聞

Anthropic被禁,智譜卻漲瘋了

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

頭條要聞

世界杯"大冷門":史上最小參賽國逼平最大奪冠熱門國

體育要聞

世界杯最不知名球員,沒上場先漲粉600萬

娛樂要聞

吳倩自曝小時被爸爸打掉牙齒硬吞進肚

財經(jīng)要聞

Token低價陷阱

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

家居
教育
本地
房產(chǎn)
公開課

家居要聞

綠意盎然 自然之境

教育要聞

低分報上好學(xué)校?高考志愿撿漏大法!

本地新聞

世界杯黑馬佛得角:河北人開超市,溫州人當(dāng)老板

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進入關(guān)懷版