據(jù)騰訊云消息,清華大學(xué)、騰訊云、英特爾于 3 月 7 日在北京宣布啟動“數(shù)據(jù)庫 AI 聯(lián)合創(chuàng)新計劃”,圍繞數(shù)據(jù)庫與大模型的交叉技術(shù)展開深度研究,推動數(shù)據(jù)庫智能化升級,同時為 AI 應(yīng)用構(gòu)建高效數(shù)據(jù)基礎(chǔ)設(shè)施。這也是國內(nèi)首個數(shù)據(jù)庫 AI 領(lǐng)域的產(chǎn)學(xué)研聯(lián)動項目。
隨著大語言模型技術(shù)爆發(fā),數(shù)據(jù)庫系統(tǒng)面臨從“被動存儲”向“主動服務(wù)”轉(zhuǎn)型的挑戰(zhàn)。傳統(tǒng)數(shù)據(jù)庫依賴人工編寫復(fù)雜查詢語句,而大模型的自然語言交互能力可大幅降低使用門檻;另一方面,AI 訓(xùn)練與推理所需的海量數(shù)據(jù)處理,也亟需數(shù)據(jù)庫在分布式架構(gòu)、緩存管理等環(huán)節(jié)實現(xiàn)性能躍升。
IT之家從公告獲悉,針對這一趨勢,本次合作規(guī)劃了兩大技術(shù)攻堅路徑:
一方面研發(fā)基于大模型的智能查詢生成與優(yōu)化系統(tǒng)(Text2SQL),讓用戶通過自然語言直接操作數(shù)據(jù)庫,實現(xiàn)艱深的數(shù)據(jù)庫技術(shù)也能聽懂“人話”;
另一方面打造面向大模型推理的分布式緩存產(chǎn)品,解決 AI 任務(wù)調(diào)度、存儲資源分配等核心難題。
在 Text2SQL 方向,項目組提出端到端技術(shù)框架,重點突破語義理解、模式匹配、SQL 驗證等關(guān)鍵環(huán)節(jié)。通過大模型微調(diào)、強化學(xué)習(xí)(DPO)與檢索增強(RAG)技術(shù),系統(tǒng)可將用戶提問拆解為多級子任務(wù),并動態(tài)匹配數(shù)據(jù)庫表結(jié)構(gòu),最終生成高準(zhǔn)確率 SQL 語句。
面向大模型推理加速,項目組設(shè)計了分布式緩存系統(tǒng),通過兩階段任務(wù)調(diào)度、KVCache 優(yōu)化及 GPU 直連存儲技術(shù),顯著降低計算資源浪費。
清華大學(xué)數(shù)據(jù)庫科研組表示:“未來的數(shù)據(jù)庫不僅是存儲工具,更是 AI 產(chǎn)業(yè)鏈的數(shù)據(jù)大腦。我們期待通過這次合作,為全球數(shù)據(jù)庫技術(shù)發(fā)展提供中國方案?!?/span>