RM新时代平台足球

人民數據打造全球最大中文語(yǔ)義語(yǔ)料庫助力Sora新場(chǎng)景
發(fā)布時(shí)間:2024-02-20
2月16日,OpenAI宣布推出全新的生成式人工智能模型“Sora”。據了解,通過(guò)文本指令,Sora可以直接輸出長(cháng)達60秒的視頻,并且包含高度細致的背景、復雜的多角度鏡頭,以及富有情感的多個(gè)角色。這意味著(zhù),繼文本、圖像之后,OpenAI將其先進(jìn)的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示,Sora是能夠理解和模擬現實(shí)世界的模型的基礎,這一能力將是實(shí)現AGI(通用人工智能)的重要里程碑。

 

與此同時(shí),隨著(zhù)AI生成內容與現實(shí)之間的界限變得越來(lái)越模糊,如何確保內容的真實(shí)性和透明性成為了一個(gè)重要問(wèn)題。此外,版權、隱私和數據安全等問(wèn)題也需要得到妥善解決。社會(huì )必須面對這些挑戰,通過(guò)制定相關(guān)政策、法律和倫理準則來(lái)確保技術(shù)的健康發(fā)展,同時(shí)保護個(gè)人和社會(huì )的利益不受侵害。

 

當前,大模型已成為AI領(lǐng)域的熱門(mén)賽道,眾多企業(yè)競相入局投入研發(fā)。隨著(zhù)越來(lái)越多的AI大模型產(chǎn)品向公眾開(kāi)放,其引發(fā)的數據隱私與版權爭議日益激烈。

1

AI大模型頻繁侵權遭抵制

AI大模型引發(fā)的數據安全問(wèn)題引發(fā)全球高度關(guān)注。現實(shí)中,數據來(lái)源和版權歸屬復雜、用戶(hù)授權規則和知情權不明晰、技術(shù)判定和取證困難等多重挑戰,使大模型在訓練和應用階段均可能出現數據濫用問(wèn)題。

 

2023年3月,意大利以OpenAI公司推出的聊天機器人ChatGPT違反歐盟《通用數據保護條例》等數據隱私保護規定為由,宣布對其禁用;西班牙、法國等歐洲國家跟進(jìn)對其展開(kāi)調查。不到半年時(shí)間,ChatGPT陷入與多家內容平臺的版權糾紛之中。OpenAI、Meta、微軟等科技公司接連遭遇訴訟,被控從互聯(lián)網(wǎng)上“竊取”大量個(gè)人數據信息及未授權作品來(lái)訓練AI工具。在國內,小紅書(shū)、LOFTER等平臺去年推出的AI繪畫(huà)功能也因濫用戶(hù)數據訓練AI、侵犯畫(huà)師作品版權而遭用戶(hù)抵制而下線(xiàn)。

 

有專(zhuān)家指出,用于大模型訓練的語(yǔ)料來(lái)自互聯(lián)網(wǎng)的各個(gè)角落,包括但不限于書(shū)籍、文章、新聞、論壇、博客等等,凡是互聯(lián)網(wǎng)上可以找到的信息幾乎都在其學(xué)習之列。即便科研人員會(huì )對語(yǔ)料進(jìn)行數據清洗,但其中仍有可能包含個(gè)人隱私信息;隨著(zhù)數據來(lái)源的擴大,即便是號稱(chēng)“開(kāi)源”的各類(lèi)數據庫,也并非意味著(zhù)完全不存在版權合規問(wèn)題。此外,生成式AI的快速發(fā)展可能導致虛假信息野蠻生長(cháng),輿論對“深度造假”問(wèn)題的擔憂(yōu)逐漸加劇。

2

全球范圍合規監管加速探索

針對各自AI產(chǎn)業(yè)發(fā)展的現狀,不同國家對數據安全性、合規性、倫理性的監管重點(diǎn)不盡相同。如在日本、歐美等地的著(zhù)作權法中有文本和數據挖掘的限制例外制度,其中規定,為了訓練人工智能的目的而利用他人作品的行為可以不認定為侵權。

 

我國在信息內容安全領(lǐng)域已經(jīng)有了較為完整的實(shí)踐思路。近年來(lái),《中華人民共和國網(wǎng)絡(luò )安全法》《中華人民共和國數據安全法》《中華人民共和國個(gè)人信息保護法》頒布,為數據安全提供了基礎性法律保障?!痘ヂ?lián)網(wǎng)信息服務(wù)算法推薦管理規定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規定》等文件相繼出臺,對技術(shù)向上向善發(fā)展加強引導和規范。

 

2023年8月,國家網(wǎng)信辦等7部門(mén)發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》正式施行,其中明確規定,應當依法開(kāi)展預訓練、優(yōu)化訓練等訓練數據處理活動(dòng),使用具有合法來(lái)源的數據和基礎模型;涉及個(gè)人信息的,應當取得個(gè)人同意或者符合法律、行政法規規定的其他情形。10月,全國信息安全標準化技術(shù)委員會(huì )組織制定的《生成式人工智能服務(wù)安全基本要求(征求意見(jiàn)稿)》面向社會(huì )公開(kāi)征求意見(jiàn),其中對語(yǔ)料來(lái)源安全、內容安全、標注安全等做出了明確要求。

3

以語(yǔ)料庫建設助力AI產(chǎn)業(yè)安全發(fā)展

“一邊是‘嗷嗷待大量數據以哺’的人工智能,另一邊是越發(fā)重視個(gè)人信息保護的用戶(hù),如何善用數據,考驗全社會(huì )數據治理的能力和成效,事關(guān)萬(wàn)千網(wǎng)民的切身利益。”人民日報評論指出,發(fā)展和安全從來(lái)不必然是矛盾的、對立的,平衡好各方面利益,才能推動(dòng)生成式人工智能健康可持續發(fā)展。

 

語(yǔ)料庫是訓練和優(yōu)化AI大模型的“養料”。當前,我國AI發(fā)展所需要的語(yǔ)料數據仍相對匱乏。有數據顯示,全球通用的50億大模型數據訓練集里,中文語(yǔ)料的占比僅為1.3%。業(yè)內人士指出,雖然我國的數據資源豐富,但是由于數據挖掘與流通不足,中文語(yǔ)料庫與英文等其它語(yǔ)言的數據語(yǔ)料庫相比仍有差距,可能成為阻礙大模型研發(fā)的重要因素。

 

國內多地數據交易所和大模型研究機構已圍繞中文語(yǔ)料庫建設展開(kāi)探索。面對合規難題,國家數據庫、主流價(jià)值語(yǔ)料庫等建設備受關(guān)注。

 

在2023年7月舉行的2023全球數字經(jīng)濟大會(huì )上,首批“北京市人工智能大模型高質(zhì)量數據集”發(fā)布,包括人民日報在內的10家單位的18個(gè)高質(zhì)量訓練數據集入選。

 

為促進(jìn)AI大模型發(fā)展,人民數據打造了新聞數據、問(wèn)答數據等語(yǔ)義語(yǔ)料庫,相關(guān)數據量達到了近3億條。該語(yǔ)義語(yǔ)料庫面向人工智能大模型、通用人工智能、智能互聯(lián)網(wǎng)等應用場(chǎng)景,提供高質(zhì)量的語(yǔ)料生產(chǎn)、定制、供給服務(wù)。針對當前大模型普遍回答不了、回答不好卻又必須直面、不容回避的重大問(wèn)題、敏感問(wèn)題、疑難問(wèn)題、復雜問(wèn)題,該語(yǔ)義語(yǔ)料庫梳理了1萬(wàn)余個(gè)重點(diǎn)問(wèn)題,并精心編撰建成優(yōu)質(zhì)問(wèn)答語(yǔ)料庫,助力解決大模型在語(yǔ)料方面的剛性需求、緊急需求、安全需求。語(yǔ)料庫的進(jìn)一步豐富充實(shí)或將使資料查找更加便捷,進(jìn)一步降低了普通人的AI使用門(mén)檻,幫助普通人以更簡(jiǎn)單的方式獲取更全面的信息。

 

AI技術(shù)和應用創(chuàng )新,“合規”始終是底線(xiàn)。未來(lái)還需加強對AI大模型安全、規范、可持續發(fā)展的探索,充分挖掘各類(lèi)數據資源價(jià)值,以構建主流價(jià)值語(yǔ)料庫為抓手,推動(dòng)中國AI產(chǎn)業(yè)安全發(fā)展。

聯(lián)系人:欒老師

電話(huà):15810381987

RM新时代平台足球
rm新时代跑路 RM新时代成立多久了 rm官网怎么登录 RM新时代注册 RM新时代正常可以出正常提 RM新时代专业团队|首入球时间 rm新时代公司官网 rm官网 RM新时代资金盘 RM新时代正规网址|首入球时间