蘋果公司當?shù)貢r間 6 月 9 日宣布對其人工智能模型進行了更新,這些模型為蘋果設備上的 Apple Intelligence 功能提供支持,涵蓋 iOS、macOS 等系統(tǒng)。然而,根據(jù)蘋果自身公布的數(shù)據(jù),這些新模型的性能表現(xiàn)并不如一些競爭對手的舊模型,尤其是與 OpenAI 等科技巨頭的產(chǎn)品相比。
IT之家注意到,在博客文章中,蘋果指出,其最新的“蘋果設備端(Apple On-Device)”模型(運行于 iPhone 等設備上且無需聯(lián)網(wǎng))生成的文本質(zhì)量,經(jīng)過人類測試者評估后,被認為與谷歌和阿里巴巴的同規(guī)模模型“相當”,但并未優(yōu)于它們。而蘋果的另一款更強大的模型“蘋果服務器(Apple Server)”(該模型旨在在公司的數(shù)據(jù)中心運行)在測試中則落后于 OpenAI 一年前推出的 GPT-4o。
在另一項測試中,蘋果的模型在圖像分析能力方面也未能脫穎而出。根據(jù)蘋果自己的數(shù)據(jù),人類評估者更傾向于選擇 meta 的 Llama 4 Scout 模型,而非蘋果的 Apple Server。這一結(jié)果令人意外,因為 Llama 4 Scout 在多項測試中表現(xiàn)不如谷歌、Anthropic 和 OpenAI 等人工智能實驗室的領(lǐng)先模型。
這些基準測試結(jié)果進一步印證了此前有關(guān)蘋果人工智能研究部門在激烈的 AI 競爭中落后于競爭對手的報道。近年來,蘋果的 AI 能力表現(xiàn)平平,備受期待的個性化 Siri 升級也無限期延遲。甚至有部分用戶對蘋果提起訴訟,指責該公司宣傳其產(chǎn)品具備尚未實現(xiàn)的 AI 功能。
此次更新的“Apple On-Device”模型擁有約 30 億參數(shù),主要用于生成文本、總結(jié)和文本分析等功能。參數(shù)數(shù)量大致對應模型的解決問題能力,通常參數(shù)越多,模型表現(xiàn)越好。從周一開始,第三方開發(fā)者可以通過蘋果的 Foundation Models 框架接入該模型。
蘋果表示,“Apple On-Device”和“Apple Server”兩款模型在工具使用和效率方面較前代產(chǎn)品有所提升,且能夠理解大約 15 種語言。這主要得益于其擴展的訓練數(shù)據(jù)集,其中包含圖像、PDF 文件、文檔、手稿、圖表、表格和圖表等多種類型的數(shù)據(jù)。