免费手机在线观看不卡A片视频_日本十八禁视频无遮挡_好吊色欧美一区二区三区四区_韩国18禁电影已婚的女人_久久久久久精品免费看_欧美在线视频免费观看_经典三级线在线观看_他添的我好湿好爽视频_日产久久视频

網(wǎng)易首頁 > 網(wǎng)易號 > 正文 申請入駐

國產(chǎn)廠商第一,全球第二!我用海外最強(qiáng)生圖模型,試出了這匹黑馬的真實段位

0
分享至


智東西
作者 陳駿達(dá)
編輯 漠影

智東西6月11日報道,本周,智象未來(HiDream.ai)推出了其最新商用版圖像生成模型HiDream-O1-Image-1.5,并在全球知名AI模型評測平臺Artificial Analysis上拿下總榜第三、國內(nèi)第一的成績。

這一模型的ELO得分超過了Google Nano Banana 2、NVIDIA Cosmos3-Super-Text2Image和字節(jié)跳動的Seedream 4.0等國內(nèi)外大廠的主流圖像生成模型,和GPT-Image 1.5也僅有一分之差。

按廠商排名來看,智象未來已經(jīng)是全球第二、國內(nèi)第一的生圖模型玩家了。


HiDream-O1-Image-1.5使用的是一套名為“原生全模態(tài)”的新架構(gòu),此前已在開源模型HiDream-O1-Image上獲得驗證。在該架構(gòu)中,圖像像素、文本Token、視頻體素等模態(tài)信號,從模型底層就被映射進(jìn)同一個共享空間,用一套統(tǒng)一的Transformer來理解和生成。

但榜單和技術(shù)細(xì)節(jié)之外,我們更想知道的答案是:這一模型實際用起來感受究竟如何,把它和海外頂流拉到同一個擂臺上真刀真槍比一場,誰能贏?

目前,HiDream-O1-Image-1.5已在智象未來的HiHarness平臺上線,支持在線體驗與API調(diào)用。智東西第一時間對其進(jìn)行了實測。跑完十幾個案例后,我們也有了初步感受:國產(chǎn)生圖模型的可用性,正在迅速逼近海外頂流。

HiDream-O1-Image-1.5體驗鏈接:

https://vivago.ai/

https://hiharness.ai/

開源模型HiDream-O1-Image下載地址:

GitHub:https://github.com/HiDream-ai/HiDream-O1-Image

Huggingface:https://huggingface.co/HiDream-ai/HiDream-O1-Image

一、三大場景綜合實測,文字渲染、畫面細(xì)節(jié)表現(xiàn)出色

能否準(zhǔn)確渲染文字,一直是圖像生成領(lǐng)域的痛點,也是許多在實測中最容易“翻車”的重災(zāi)區(qū)。我們的實測也從這類任務(wù)開始。

首個測試案例是相對簡單的海報設(shè)計,內(nèi)容是一部太空主題電影的豎版宣傳海報。HiDream-O1-Image-1.5是輕松過關(guān),它在海報中采用了三種不同的字體,文字渲染準(zhǔn)確,字體的選擇和設(shè)計也與畫面主題契合,沒有違和感。


HiDream-O1-Image-1.5的中文渲染能力也不錯。我們讓它給某個國內(nèi)音樂節(jié)設(shè)計一張海報。這個任務(wù)的難點在于,文字內(nèi)容有多個信息層級,包括主標(biāo)題、副標(biāo)題、陣容列表、時間地點、票價和票務(wù)平臺。這些內(nèi)容不能混在一起,必須有大小對比、區(qū)域劃分。

最終,HiDream-O1-Image-1.5準(zhǔn)確地生成了我們要求的內(nèi)容,豎版文字的渲染也沒有出現(xiàn)錯誤,信息呈現(xiàn)清晰,中式水墨畫的風(fēng)格與音樂節(jié)的主題契合。


最后,我們還測試了一個高難度的案例:特定風(fēng)格的高密度文字渲染。我們要求HiDream-O1-Image-1.5生成一本舊詩集中的某一個頁面,內(nèi)容是英國詩人的華茲沃斯的I Wondered Lonely as a Cloud。

在提供完整詩歌內(nèi)容后,HiDream-O1-Image-1.5幾乎完美地渲染了這首詩歌的絕大部分內(nèi)容,僅有極個別單詞出現(xiàn)了小錯誤。同時,它也理解了提示詞中“舊詩集”的風(fēng)格要求,圖中的詩集頁面略微泛黃,邊角還有些歲月留下的痕跡。


生圖模型的另一大問題就是真實性。許多模型生成的結(jié)果一眼看上去就有AI味,比較突出的問題包括油膩感很強(qiáng)、構(gòu)圖和人物等元素不符合事實等。

HiDream-O1-Image-1.5在“繁忙后廚”這一場景的還原上做得不錯。這張圖包含廚具、原材料以及多位廚師。這幾大主體的質(zhì)感都很利落,特別是中間廚師面前那團(tuán)火焰,頗具現(xiàn)場感。


再來看細(xì)節(jié),砧板上的三文魚紋理、金屬碗里食材的堆疊層次都比較真實,這些屬于畫面“邊角料”的細(xì)節(jié)并沒有被HiDream-O1-Image-1.5忽略,而是保留了清晰的物理形態(tài)。

畫面中,構(gòu)圖和人物動作也基本合理,左右兩側(cè)的廚師在備菜,中間的廚師在烹飪,背景里還有忙碌的幫廚,整個場景非常符合實際的商業(yè)廚房運作邏輯。

在另一個案例中,我們讓HiDream-O1-Image-1.5生成一張日本街頭的照片。這張圖整體氛圍營造比較到位,雨夜、霓虹燈牌、柏油路面反光都得到真實的呈現(xiàn),前景的清晰與背景的景深虛化處理得也很好。


不過,美中不足的是,圖里有一個“穿幫”的小細(xì)節(jié):那輛黑色出租車行駛的方向錯了,在日本車應(yīng)該是靠左行駛的。

最后,一款生圖模型要在真實生產(chǎn)場景發(fā)揮作用,還需具備對多種不同風(fēng)格、設(shè)計要求的理解力。我們讓HiDream-O1-Image-1.5集中嘗試了意大利老電影風(fēng)格、1940年代老照片風(fēng)格、拼貼畫這三種截然不同的風(fēng)格。

首個案例中,模型成功理解了“意大利老電影風(fēng)格”的核心要素,色調(diào)符合風(fēng)格要求,畫面內(nèi)容包含了意大利常見的卵石路、地中海海景等細(xì)節(jié),畫面中人物的樣貌有種膠片電影捕捉到的自然感,在風(fēng)格化與寫實度之間找到了較好的平衡。


在下方任務(wù)中,HiDream-O1-Image-1.5成功模擬了20世紀(jì)三四十年代美國農(nóng)場家庭合影的風(fēng)格,人物的表情、衣著帶有那個年代特有的風(fēng)格,我們在提示詞中要求的模擬照片老化的效果也得到了還原,可以看到照片的邊角有些缺失和泛黃。


最后,在這一拼貼風(fēng)格圖像生成的任務(wù)中,HiDream-O1-Image-1.5復(fù)原了手工撕紙的質(zhì)感、舊紙張的肌理以及金屬部件的光澤感,材質(zhì)對比富有沖擊力。中間的花卉與符號元素錯落有致,很好地傳達(dá)了“想象力與算法碰撞”的主題。


這幾個案例跑下來,可以感受到HiDream-O1-Image-1.5在文字渲染上表現(xiàn)扎實,多層級中文排版也能準(zhǔn)確呈現(xiàn);畫面真實感強(qiáng),細(xì)節(jié)經(jīng)得起推敲。雖然偶有小Bug,但整體可用性很高,很適合需要高效出圖的海報、攝影、藝術(shù)創(chuàng)作等真實生產(chǎn)場景。

二、分鏡、UI、風(fēng)格化,三款主流生圖模型同臺PK,誰更好用?

我們也將HiDream-O1-Image-1.5與幾款當(dāng)前最流行的生圖模型進(jìn)行了對比實測,選擇的實測玩法包括最近比較流行的分鏡生成、UI設(shè)計、風(fēng)格化等等。

先看分鏡生成。這類任務(wù)要求模型同時處理多格畫面的構(gòu)圖邏輯、序號標(biāo)注、畫面連續(xù)性以及統(tǒng)一的風(fēng)格質(zhì)感,是對模型綜合理解力的集中考驗。我們以“深夜便利店”的6格分鏡稿為統(tǒng)一測試題,分別輸入HiDream-O1-Image-1.5與Google Nano Banana 2、OpenAI GPT-Image 2中。

Nano Banana 2的生成速度是其中最快的,不過它忽視了我們提示詞中關(guān)于實拍質(zhì)感的風(fēng)格要求,生成的分鏡圖是漫畫風(fēng)的。


HiDream-O1-Image-1.5也很快給出了生成結(jié)果。HiDream-O1-Image-1.5做得較為不錯的是角色的一致性。圖中人物在分鏡2和5中的樣貌、衣著基本一致。同時,便利店場景的還原也較為符合事實。


不過,在生成“從冰柜里拿一瓶黑咖啡”的分鏡3時,HiDream-O1-Image-1.5生成的咖啡罐有些過大,算是一個小的瑕疵,但在后續(xù)的分鏡中咖啡罐的比例被精準(zhǔn)的調(diào)整了過來。

GPT-Image 2是最后一個給出生成結(jié)果的模型。在細(xì)節(jié)還原度方面,GPT-Image 2做得十分真實,分鏡3中罐裝咖啡的排布、咖啡罐上的字樣和冷凝水等細(xì)節(jié)都按照提示詞的要求復(fù)原了,整體處理得很自然,基本沒有AI生成痕跡。


在UI設(shè)計類任務(wù)中,我們讓三款模型給一個iPad應(yīng)用設(shè)計一個登陸頁面。HiDream-O1-Image-1.5在設(shè)計中采用了干凈、現(xiàn)代的風(fēng)格,視覺干擾比較少,重點集中在核心功能上。


而GPT-Image 2采用了經(jīng)典的卡片風(fēng)格,在淺藍(lán)色背景的中央放置了一個帶大圓角的白色卡片,比較規(guī)范。同時,它還用藍(lán)色高亮了交互文本。


Nano Banana 2的生成結(jié)果是這三張圖中最不像UI樣板設(shè)計的圖片,它包含了環(huán)境背景,更像是用來做展示的效果圖。不過,在核心的UI頁面方面,它的表現(xiàn)還是比較中規(guī)中矩的。


我們的最后一個對比實測任務(wù)是風(fēng)格化。GPT-Image 2較好地還原了商業(yè)攝影與復(fù)古膠片兩種風(fēng)格,但在抽象幾何風(fēng)的處理上仍不夠徹底。


Nano Banana 2在商業(yè)攝影風(fēng)格上表現(xiàn)不錯,主動呈現(xiàn)出咖啡冒出的熱氣,畫面更具吸引力。然而,其膠片風(fēng)格與商業(yè)攝影之間差異不明顯,缺乏區(qū)分度。在抽象幾何風(fēng)方面雖做了一定調(diào)整,但整體的幾何感仍不夠到位。


最后看看HiDream-O1-Image-1.5。它在左側(cè)的商業(yè)攝影風(fēng)格上做得不錯,清晰度和光影都符合要求。而在中間的復(fù)古膠片質(zhì)感方面,畫面有一種膠片的顆粒感,色彩偏移的選擇也比較符合膠片風(fēng)的特點。而在抽象幾何風(fēng)格中,HiDream-O1-Image-1.5的處理比較大膽,按照提示詞要求放棄了物理寫實。在三個模型中,它的表現(xiàn)最符合提示詞的要求。


從實測結(jié)果來看,三款模型各有所長。Nano Banana 2在生成速度上有優(yōu)勢,GPT-Image 2 在細(xì)節(jié)真實度方面表現(xiàn)突出。而HiDream-O1-Image-1.5在多項任務(wù)中展現(xiàn)了不錯的綜合能力,無論是角色一致性、設(shè)計風(fēng)格的審美,還是風(fēng)格化任務(wù)中跨越三種風(fēng)格的把控能力,均表現(xiàn)出色。

可以說,HiDream-O1-Image-1.5在不少實測案例中已經(jīng)展現(xiàn)出了比肩乃至優(yōu)于頭部閉源生圖模型的表現(xiàn)。

三、實現(xiàn)真正“原生全模態(tài)”,1個月內(nèi)連續(xù)三次迭代

HiDream-O1-Image-1.5究竟是如何實現(xiàn)上述生成效果的?答案就藏在底層架構(gòu)上。

傳統(tǒng)文生圖模型通常采用“文本編碼器+VAE+DiT/擴(kuò)散模型”的模塊化路徑,其形態(tài)更像一棵不斷分叉生長的樹:文本有自己的tokenizer,圖像和視頻有各自的encoder/decoder,音頻、動作、空間關(guān)系也往往沿著不同路徑被處理,模塊之間需要多次轉(zhuǎn)換信息。

在文字密集排版、UI頁面、多主體生成、多參考圖控制、多分鏡敘事等復(fù)雜任務(wù)中,這種架構(gòu)更容易帶來細(xì)節(jié)損耗、語義錯位和結(jié)構(gòu)不穩(wěn)定。

HiDream-O1系列走的是“原生全模態(tài)”路線。所謂原生全模態(tài),并不是先分別訓(xùn)練各模態(tài)模型再拼接,而是從架構(gòu)設(shè)計之初就讓文本、圖像、視頻、音頻等多種模態(tài)共享同一套表征體系,在模型底層實現(xiàn)融合。

具體到HiDream-O1-Image系列模型,它去掉了傳統(tǒng)生圖流程中的VAE和獨立文本編碼器,將圖像像素、文本Token、視頻體素以及音頻、動作、空間關(guān)系等原始信號映射進(jìn)同一個共享Token空間,與同一套UiT(像素級統(tǒng)一的 Unified Transformer) 交互,在統(tǒng)一表征系統(tǒng)中完成理解、生成和推理。


UiT此前在智象未來的開源模型HiDream-O1-Image已經(jīng)獲得采用,此后,智象未來也在快速迭代。今年5月,智象未來發(fā)布了采用同款架構(gòu)的HiDream-O1-Image-Pro,而本月登場的HiDream-O1-Image-1.5則是這一架構(gòu)在商用領(lǐng)域的進(jìn)一步驗證。

新一代生圖架構(gòu)從研究到開源再到商用落地,往往需要經(jīng)歷漫長的周期,而智象未來的UiT架構(gòu)率先在開源社區(qū)和商業(yè)產(chǎn)品兩條線上同時跑通,并在1個月左右的時間內(nèi)連續(xù)推出三款采用這一架構(gòu)的模型。

這種高頻迭代本身就是一個值得關(guān)注的信號,反映出UiT架構(gòu)本身具備良好的可擴(kuò)展性和工程友好性,能夠支撐起從實驗探索到生產(chǎn)部署的快速跨越。

結(jié)語:生圖模型加速走向原生統(tǒng)一架構(gòu)

有越來越多的生圖模型,正從拼接式的架構(gòu)走向原生統(tǒng)一。一旦這條路徑全面走通,模型本就能像理解并生成自然語言內(nèi)容那樣,更好地處理視覺生成任務(wù)。

智象未來在這一架構(gòu)內(nèi)的快速迭代,已經(jīng)初步證明了這個底座的可擴(kuò)展性。隨著模型規(guī)模、訓(xùn)練數(shù)據(jù)和工程能力的持續(xù)進(jìn)化,我們有理由相信,UiT所代表的技術(shù)范式,有可能成為下一代視覺生成模型的主流架構(gòu)之一。

特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù)。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相關(guān)推薦
熱點推薦
生育政策大調(diào)整?早年超生罰款舊賬,2026官方明確答復(fù)

生育政策大調(diào)整?早年超生罰款舊賬,2026官方明確答復(fù)

哄動一時啊
2026-06-12 16:39:51
林詩棟雙打止步16強(qiáng),楊屹韻和陳俊菘止步首輪,徐奕表現(xiàn)搶眼

林詩棟雙打止步16強(qiáng),楊屹韻和陳俊菘止步首輪,徐奕表現(xiàn)搶眼

子水體娛
2026-06-19 00:31:40
阿斯:皇馬考慮完成一筆中場重磅出售,為穆帥引援籌資

阿斯:皇馬考慮完成一筆中場重磅出售,為穆帥引援籌資

懂球帝
2026-06-18 20:01:34
2026三伏天時間表出爐!“早入伏,熱死牛;晚入伏,涼颼颼”,今年是早是晚?早看早防備

2026三伏天時間表出爐!“早入伏,熱死牛;晚入伏,涼颼颼”,今年是早是晚?早看早防備

農(nóng)夫也瘋狂
2026-06-17 11:31:45
世界杯賭球黑幕:8000億屠宰場,普通人難有勝算

世界杯賭球黑幕:8000億屠宰場,普通人難有勝算

史虇的生活科普
2026-06-16 20:53:53
男人不用不好意思,任何年紀(jì)的女人,都吃這一套相處方式

男人不用不好意思,任何年紀(jì)的女人,都吃這一套相處方式

王二哥老搞笑
2026-06-11 09:20:00
4-2,1-1!世界杯瘋狂一夜:凱恩超越梅西 葡萄牙創(chuàng)恥辱 新軍拿首分

4-2,1-1!世界杯瘋狂一夜:凱恩超越梅西 葡萄牙創(chuàng)恥辱 新軍拿首分

林子說事
2026-06-18 12:18:07
14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了

14歲被送上導(dǎo)演的床,17歲拍全裸寫真,被操控半生,如今怎樣了

樂天閑聊
2026-05-27 05:30:24
亨利炮轟C羅遭回?fù)?!埃弗拉怒噴:歷史射手王還需要你來教進(jìn)球?

亨利炮轟C羅遭回?fù)簦“8ダ瓏姡簹v史射手王還需要你來教進(jìn)球?

體育閑話說
2026-06-18 22:24:36
80年代家喻戶曉的女演員,嫁給軍委副主席兒子,離婚后混得如何?

80年代家喻戶曉的女演員,嫁給軍委副主席兒子,離婚后混得如何?

老范談史
2026-05-22 21:42:27
切爾西打包問價皇馬5將,含居勒爾

切爾西打包問價皇馬5將,含居勒爾

籃壇第一線
2026-06-18 00:36:45
肺癌去世的人增多!醫(yī)生苦勸:不管多大年紀(jì),牢記“3不做2堅持”

肺癌去世的人增多!醫(yī)生苦勸:不管多大年紀(jì),牢記“3不做2堅持”

荊醫(yī)生科普
2026-06-18 07:00:21
某廠裁員約談,會議室爆滿

某廠裁員約談,會議室爆滿

螞蟻大喇叭
2026-06-18 11:45:05
為什么網(wǎng)上那么多罵郭沫若的人,看網(wǎng)友講述真是見識短了。

為什么網(wǎng)上那么多罵郭沫若的人,看網(wǎng)友講述真是見識短了。

侃神評故事
2026-06-17 15:27:28
民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

民進(jìn)黨,極有可能在下一屆臺灣地區(qū)選舉后,成為長期一家獨大政黨

李橑在北漂
2026-04-02 10:22:26
張本智和最敬佩的國乒傳奇,不是馬龍,而是讓他苦追10年的樊振東

張本智和最敬佩的國乒傳奇,不是馬龍,而是讓他苦追10年的樊振東

林子說事
2026-06-18 16:15:30
母親將750萬給小兒子,女婿拒絕照顧,法官一句話,當(dāng)場暈倒

母親將750萬給小兒子,女婿拒絕照顧,法官一句話,當(dāng)場暈倒

流螢敘情
2025-08-07 17:25:20
美共和黨人急眼:特朗普犯下大錯,里根棺材板壓不住了

美共和黨人急眼:特朗普犯下大錯,里根棺材板壓不住了

觀察者網(wǎng)
2026-06-18 18:55:19
DIY玩家買不到硬盤:零售SSD市場已幾近消失!

DIY玩家買不到硬盤:零售SSD市場已幾近消失!

快科技
2026-06-17 11:01:25
武漢江岸龍門吊傾倒致1死1傷調(diào)查報告:2人涉重大責(zé)任事故罪被刑拘

武漢江岸龍門吊傾倒致1死1傷調(diào)查報告:2人涉重大責(zé)任事故罪被刑拘

澎湃新聞
2026-06-18 14:16:26
2026-06-19 05:00:49
智東西 incentive-icons
智東西
智東西,AI產(chǎn)業(yè)新媒體,專注報道人工智能的前沿技術(shù)發(fā)展,和技術(shù)應(yīng)用帶來的千行百業(yè)產(chǎn)業(yè)變革。
12082文章數(shù) 117111關(guān)注度
往期回顧 全部

科技要聞

庫克承認(rèn)扛不住了,蘋果漲價“不可避免”

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

頭條要聞

159瓶茅臺被扣3年后多瓶失蹤 警方:酒仍處于扣押時狀態(tài)

體育要聞

英格蘭不再九子奪嫡,凱恩才是唯一真神

娛樂要聞

39歲梅西不愧是人生贏家!

財經(jīng)要聞

博??礗PO,賺錢業(yè)務(wù)與資本敘事是兩門生意

汽車要聞

驚出冷汗!重慶實測奧迪A5L,華為智駕這波操作絕了…

態(tài)度原創(chuàng)

數(shù)碼
家居
房產(chǎn)
旅游
公開課

數(shù)碼要聞

銘瑄公布MCIO接口ITX主板方案,展示高密度接口優(yōu)勢

家居要聞

綠意盎然 自然之境

房產(chǎn)要聞

商業(yè)清零式退潮,大量住宅登場!三亞又要大規(guī)模調(diào)規(guī)!

旅游要聞

為何拍藍(lán)花楹別正午出門?避開 3 個高峰時段,隨手拍出干凈大片!

公開課

李玫瑾:為什么性格比能力更重要?

無障礙瀏覽 進(jìn)入關(guān)懷版