日前,“數(shù)聚未來 —— 鳳凰大模型數(shù)據(jù)研討沙龍”在京舉辦,與會嘉賓們共同探討高質(zhì)量數(shù)據(jù)構(gòu)建與基于數(shù)據(jù)驅(qū)動的大模型訓(xùn)練優(yōu)化。
鳳凰衛(wèi)視執(zhí)行副總裁兼運營總裁李奇在致辭中表示,數(shù)據(jù)仍然是目前人工智能發(fā)展的短板之一。數(shù)據(jù)就像是人工智能時代的石油資源,它的開發(fā)和應(yīng)用都將是一個系統(tǒng)工程,需要產(chǎn)業(yè)界無數(shù)企業(yè)共同參與。期望發(fā)揮鳳凰的媒體平臺優(yōu)勢,為產(chǎn)業(yè)界建立一個共建共享的數(shù)據(jù)平臺,共同推進人工智能的快速發(fā)展。
微博COO、新浪移動CEO王巍在主旨演講《數(shù)據(jù)賦能:微博探索AIGC多場景應(yīng)用》中提出,圍繞大模型,目前已經(jīng)形成由基礎(chǔ)設(shè)施層、模型層、應(yīng)用層共同構(gòu)成的AIGC(生成式AI)生態(tài)體系。對于媒體而言,AIGC將帶來內(nèi)容生產(chǎn)方式的變革,AIGC時代的內(nèi)容質(zhì)量、效率及產(chǎn)量都將迎來高速發(fā)展。在未來,AI將創(chuàng)造出一種新型的“人機共存消費模式”。
“語料數(shù)據(jù)是大模型訓(xùn)練的重要‘燃料’,有助于大模型更好地適配實際的應(yīng)用場景,實現(xiàn)人工智能賦能千行百業(yè)的愿景。”王巍表示,從目前的情況來看,雖然我國的數(shù)據(jù)資源豐富,但是由于數(shù)據(jù)挖掘不足、數(shù)據(jù)尚無法在市場上自由流通等因素,優(yōu)質(zhì)的中文數(shù)據(jù)集依然比較稀缺,成為阻礙大模型研發(fā)的重要因素。
“在這里,我們也呼吁更多的媒體機構(gòu)加入到中文數(shù)據(jù)集的建設(shè)中。這將是一項非常重要的基礎(chǔ)工作,因為它為AI技術(shù)提供了豐富、多樣的數(shù)據(jù)源,有助于提升AI模型對中華文化的理解。”王巍表示,中文數(shù)據(jù)集的建設(shè)不僅能夠滿足媒體行業(yè)的需求,還將推動AI技術(shù)在華語地區(qū)的更廣泛應(yīng)用和發(fā)展。這一工作具有很高的價值,將為媒體行業(yè)和AI行業(yè)帶來更多的創(chuàng)新和合作機會。
王巍還介紹,目前,AIGC在多個領(lǐng)域的創(chuàng)新成果逐漸顯現(xiàn),媒體作為最適用AIGC相關(guān)技術(shù)和產(chǎn)品的產(chǎn)業(yè)之一,在這一變革中面臨全新的挑戰(zhàn)和機遇。
華為云 EI 產(chǎn)品部部長尤鵬帶來《盤古大模型的數(shù)據(jù)之道》的主旨演講。尤鵬表示,華為希望和鳳凰衛(wèi)視一起共建數(shù)據(jù)黑土地,共同探索產(chǎn)業(yè)界自下而上的數(shù)據(jù)合作路徑和商業(yè)模式,共同構(gòu)建大模型的“數(shù)據(jù)-算力-商業(yè)”飛輪,推動數(shù)據(jù)產(chǎn)業(yè)發(fā)展。
期間,鳳凰衛(wèi)視推出 “鳳凰智媒 AI 數(shù)據(jù)業(yè)務(wù)”,并發(fā)布 “中文訪談對話數(shù)據(jù)集” 和 “正向價值對齊數(shù)據(jù)集”。
鳳凰衛(wèi)視融媒體研發(fā)副總經(jīng)理馮偉表示,高質(zhì)量的數(shù)據(jù)語料庫是 AI 時代承載中華文化的新載體,鳳凰數(shù)據(jù)的核心目標(biāo)是為 AI 時代的中華文化傳播奠定堅實基礎(chǔ),讓 AI 與中華文化認(rèn)知對齊更簡單。
據(jù)悉,2024 年,鳳凰數(shù)據(jù)計劃分三批發(fā)布更多高質(zhì)量數(shù)據(jù)集,并正式上線 AI 訓(xùn)練平臺。同時,鳳凰數(shù)據(jù)還將舉行 “link + 科技峰會” 和 “AI 數(shù)據(jù)挑戰(zhàn)賽” 等系列活動,共同推進 AI 與華語文化的認(rèn)知進程。