為方便開發(fā)者研究,該公司還在 Github 上開源了兩個模型的完整權(quán)重。這一系列模型的后續(xù)更新,包括代碼和多模態(tài)相關(guān)的后續(xù)強(qiáng)化仍待上傳。
該系列模型首次大規(guī)模實現(xiàn)線性注意力機(jī)制,打破 Transformer 傳統(tǒng)架構(gòu)記憶瓶頸,能夠處理 400 萬 token 的輸入,可輸入長度是 GPT-4o 的 32 倍,Claude-3.5-Sonnet 的 20 倍。
據(jù)介紹,這個模型的參數(shù)量高達(dá) 4560 億,其中單次激活 459 億,模型綜合性能比肩海外頂尖模型,在大多數(shù)任務(wù)上追平了海外公認(rèn)最先進(jìn)的兩個模型,GPT-4o-1120 以及 Claude-3.5-Sonnet-1022。
在長文任務(wù)上,隨著輸入長度變長,MiniMax-Text-01 性能衰減更少,顯著優(yōu)于谷歌 Gemini。因此,01 系列模型在處理長輸入的時候有非常高的效率,接近線性復(fù)雜度。
定價方面,IT之家發(fā)現(xiàn)該系列模型標(biāo)準(zhǔn)定價是輸入 1 元 / 百萬輸入 token、8 元 / 百萬輸出 token。