2026年4月AI大模型排名:谷歌登頂,國(guó)產(chǎn)模型全面崛起
如果你最近還在用半年前選定的AI模型做業(yè)務(wù),可能要重新看一看了。
Artificial Analysis 每72小時(shí)更新一次的 LLM 排行榜,目前已收錄 317 個(gè)模型。這張榜單不是看論文發(fā)表數(shù)量,也不靠廠商自報(bào),而是從實(shí)際 API 調(diào)用中采集智能指數(shù)、響應(yīng)速度、成本和延遲這幾個(gè)維度的實(shí)測(cè)數(shù)據(jù)。換句話說(shuō),它大致反映了”花錢(qián)買(mǎi)到的模型到底怎么樣”。
智能指數(shù)前五,格局已經(jīng)變了
排行榜的核心是”智能指數(shù)(Intelligence Index)”,滿(mǎn)分不限,越高越好。截至2026年4月,前五名是:
Gemini 3.1 Pro Preview(谷歌,57分)和 GPT-5.4 xhigh(OpenAI,57分)并列第一,兩家打了個(gè)平手。第三是 GPT-5.3 Codex xhigh(OpenAI,54分),第四是 Claude Opus 4.6 max(Anthropic,53分),第五是 Meta 的 Muse Spark(52分)。
值得注意的是,谷歌這次是真正意義上的第一次登頂。過(guò)去幾年 GPT 系列幾乎是這類(lèi)榜單的常客,而 Gemini 3.1 Pro 以實(shí)測(cè)分?jǐn)?shù)追平 GPT-5.4,說(shuō)明谷歌在推理能力上已經(jīng)補(bǔ)上了短板。
Anthropic 的 Claude Opus 4.6 位居第四,但它的定價(jià)是每百萬(wàn) token 10 美元,在頭部模型里屬于偏貴的。Claude Sonnet 4.6 max 以52分緊隨其后,性?xún)r(jià)比稍好一些(6美元/百萬(wàn)token)。

速度榜:誰(shuí)響應(yīng)最快
如果說(shuō)智能指數(shù)是”聰不聰明”,那輸出速度決定的是”能不能用”。
目前最快的是 Inception 的 Mercury 2,實(shí)測(cè)達(dá)到 874 tokens/秒,遠(yuǎn)超其他模型。第二是 IBM 的 Granite 4.0 H Small(485 t/s),第三是 Granite 3.3 8B(375 t/s)。
這個(gè)速度意味著什么?普通閱讀速度大約是每秒4~5個(gè)漢字,一個(gè)874 t/s 的模型,用來(lái)做實(shí)時(shí)對(duì)話完全感覺(jué)不到等待。相比之下,Claude Opus 4.6 的速度是44 t/s,差了將近20倍,但它要解決的問(wèn)題類(lèi)型本來(lái)就不一樣。
延遲方面(首字符時(shí)間),阿里的 Qwen3.5 2B 和 Qwen3.5 0.8B 做到了最低延遲,非常適合需要快速響應(yīng)的實(shí)時(shí)場(chǎng)景。
最便宜的模型在哪里
價(jià)格維度,阿里的 Qwen3.5 0.8B 系列拿下了最便宜的席位,僅需 $0.02/百萬(wàn)token,基本等于白送。緊隨其后是 Google 的 Gemma 3n E4B($0.03)和 Qwen3.5 2B($0.04)。
DeepSeek V3.2 的價(jià)格是 $0.32/百萬(wàn)token,在同等智能指數(shù)水平(42分)的模型里屬于性?xún)r(jià)比極高的選擇。相比之下,OpenAI 的 GPT-5.4 Pro xhigh 要收 $67.5/百萬(wàn)token,算是榜單里最貴的,適合對(duì)精度要求極高、成本不敏感的場(chǎng)景。
開(kāi)源模型:國(guó)產(chǎn)已經(jīng)站上主力位置
榜單共有 196 個(gè)開(kāi)源(開(kāi)放權(quán)重)模型,占總數(shù)超過(guò)60%。
開(kāi)源模型排名第一的是 GLM-5.1,由智譜 AI(Z AI)發(fā)布,智能指數(shù)51分,收費(fèi)僅 $2.15/百萬(wàn)token。這是中國(guó)模型第一次在此類(lèi)國(guó)際榜單的開(kāi)源分類(lèi)中拿到第一。GLM-5(50分)緊接其后,Kimi K2.5 以47分位列第三。
除此之外,阿里的 Qwen 系列在這張榜單上幾乎占據(jù)了速度、價(jià)格、小尺寸模型的多個(gè)細(xì)分第一,出現(xiàn)頻率相當(dāng)高。國(guó)內(nèi)還有小米 MiMo-V2-Pro(49分)、DeepSeek V3.2(42分)、百度 ERNIE 5.0、字節(jié)跳動(dòng) Doubao Seed Code 等多個(gè)模型上榜。
一些值得關(guān)注的細(xì)節(jié)
首先是上下文窗口的分化。Meta 的 Llama 4 Scout 和 xAI 的 Grok 4.1 Fast 支持高達(dá) 1000萬(wàn) token 的上下文,而大多數(shù)模型在 128k~256k 之間。對(duì)于需要處理超長(zhǎng)文檔或代碼庫(kù)的應(yīng)用場(chǎng)景,這個(gè)差距會(huì)直接影響選型。
其次是推理模型(Reasoning Model)的比例越來(lái)越高,目前榜單上有159個(gè)推理模型,超過(guò)總數(shù)的一半。這類(lèi)模型在輸出前會(huì)進(jìn)行”思維鏈”擴(kuò)展,在數(shù)學(xué)、邏輯、代碼等任務(wù)上表現(xiàn)明顯更好,但同時(shí)延遲也更高——適不適合用,取決于業(yè)務(wù)場(chǎng)景對(duì)實(shí)時(shí)性的要求。
還有一個(gè)趨勢(shì)值得留意:越來(lái)越多的模型開(kāi)始追求”小而快”而不是”大而全”。Qwen3.5 0.8B、Ministral 3B、Phi-4 Mini 這些模型在特定任務(wù)上的表現(xiàn)已經(jīng)相當(dāng)可用,部署成本卻低出一個(gè)數(shù)量級(jí)。
怎么選模型
這張榜單的意義不是告訴你”用最貴的就行”,而是幫你找到你實(shí)際需求對(duì)應(yīng)的最優(yōu)解。
如果你要做復(fù)雜推理、深度研究,Gemini 3.1 Pro 或 GPT-5.4 是當(dāng)前上限。如果是日常對(duì)話、內(nèi)容生成類(lèi)的業(yè)務(wù),Claude Sonnet 4.6 或 DeepSeek V3.2 的性?xún)r(jià)比更好。如果對(duì)速度和成本都很敏感,Qwen3.5 系列幾乎是現(xiàn)在最省錢(qián)的選擇。
需要補(bǔ)充的是,智能指數(shù)反映的是綜合推理能力,并不等于”對(duì)你的業(yè)務(wù)有用”。具體任務(wù)還是要自己跑 benchmark,或者找專(zhuān)門(mén)的測(cè)評(píng)服務(wù)驗(yàn)證。榜單是參考,不是答案。