RM新时代APP官网_ 人民數據打造全球最大中文語(yǔ)義語(yǔ)料庫助力Sora新場(chǎng)景 - 詳情

首頁(yè) / 新聞資訊 / 企業(yè)動(dòng)態(tài) / 詳情

人民數據打造全球最大中文語(yǔ)義語(yǔ)料庫助力Sora新場(chǎng)景

發(fā)布時(shí)間：2024-02-20

2月16日，OpenAI宣布推出全新的生成式人工智能模型“Sora”。據了解，通過(guò)文本指令，Sora可以直接輸出長(cháng)達60秒的視頻，并且包含高度細致的背景、復雜的多角度鏡頭，以及富有情感的多個(gè)角色。這意味著(zhù)，繼文本、圖像之后，OpenAI將其先進(jìn)的AI技術(shù)拓展到了視頻領(lǐng)域。OpenAI亦表示，Sora是能夠理解和模擬現實(shí)世界的模型的基礎，這一能力將是實(shí)現AGI（通用人工智能）的重要里程碑。

與此同時(shí)，隨著(zhù)AI生成內容與現實(shí)之間的界限變得越來(lái)越模糊，如何確保內容的真實(shí)性和透明性成為了一個(gè)重要問(wèn)題。此外，版權、隱私和數據安全等問(wèn)題也需要得到妥善解決。社會(huì )必須面對這些挑戰，通過(guò)制定相關(guān)政策、法律和倫理準則來(lái)確保技術(shù)的健康發(fā)展，同時(shí)保護個(gè)人和社會(huì )的利益不受侵害。

當前，大模型已成為AI領(lǐng)域的熱門(mén)賽道，眾多企業(yè)競相入局投入研發(fā)。隨著(zhù)越來(lái)越多的AI大模型產(chǎn)品向公眾開(kāi)放，其引發(fā)的數據隱私與版權爭議日益激烈。

AI大模型頻繁侵權遭抵制

AI大模型引發(fā)的數據安全問(wèn)題引發(fā)全球高度關(guān)注。現實(shí)中，數據來(lái)源和版權歸屬復雜、用戶(hù)授權規則和知情權不明晰、技術(shù)判定和取證困難等多重挑戰，使大模型在訓練和應用階段均可能出現數據濫用問(wèn)題。

2023年3月，意大利以OpenAI公司推出的聊天機器人ChatGPT違反歐盟《通用數據保護條例》等數據隱私保護規定為由，宣布對其禁用；西班牙、法國等歐洲國家跟進(jìn)對其展開(kāi)調查。不到半年時(shí)間，ChatGPT陷入與多家內容平臺的版權糾紛之中。OpenAI、Meta、微軟等科技公司接連遭遇訴訟，被控從互聯(lián)網(wǎng)上“竊取”大量個(gè)人數據信息及未授權作品來(lái)訓練AI工具。在國內，小紅書(shū)、LOFTER等平臺去年推出的AI繪畫(huà)功能也因濫用戶(hù)數據訓練AI、侵犯畫(huà)師作品版權而遭用戶(hù)抵制而下線(xiàn)。

有專(zhuān)家指出，用于大模型訓練的語(yǔ)料來(lái)自互聯(lián)網(wǎng)的各個(gè)角落，包括但不限于書(shū)籍、文章、新聞、論壇、博客等等，凡是互聯(lián)網(wǎng)上可以找到的信息幾乎都在其學(xué)習之列。即便科研人員會(huì )對語(yǔ)料進(jìn)行數據清洗，但其中仍有可能包含個(gè)人隱私信息；隨著(zhù)數據來(lái)源的擴大，即便是號稱(chēng)“開(kāi)源”的各類(lèi)數據庫，也并非意味著(zhù)完全不存在版權合規問(wèn)題。此外，生成式AI的快速發(fā)展可能導致虛假信息野蠻生長(cháng)，輿論對“深度造假”問(wèn)題的擔憂(yōu)逐漸加劇。

全球范圍合規監管加速探索

針對各自AI產(chǎn)業(yè)發(fā)展的現狀，不同國家對數據安全性、合規性、倫理性的監管重點(diǎn)不盡相同。如在日本、歐美等地的著(zhù)作權法中有文本和數據挖掘的限制例外制度，其中規定，為了訓練人工智能的目的而利用他人作品的行為可以不認定為侵權。

我國在信息內容安全領(lǐng)域已經(jīng)有了較為完整的實(shí)踐思路。近年來(lái)，《中華人民共和國網(wǎng)絡(luò )安全法》《中華人民共和國數據安全法》《中華人民共和國個(gè)人信息保護法》頒布，為數據安全提供了基礎性法律保障?！痘ヂ?lián)網(wǎng)信息服務(wù)算法推薦管理規定》《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規定》等文件相繼出臺，對技術(shù)向上向善發(fā)展加強引導和規范。

2023年8月，國家網(wǎng)信辦等7部門(mén)發(fā)布的《生成式人工智能服務(wù)管理暫行辦法》正式施行，其中明確規定，應當依法開(kāi)展預訓練、優(yōu)化訓練等訓練數據處理活動(dòng)，使用具有合法來(lái)源的數據和基礎模型；涉及個(gè)人信息的，應當取得個(gè)人同意或者符合法律、行政法規規定的其他情形。10月，全國信息安全標準化技術(shù)委員會(huì )組織制定的《生成式人工智能服務(wù)安全基本要求（征求意見(jiàn)稿）》面向社會(huì )公開(kāi)征求意見(jiàn)，其中對語(yǔ)料來(lái)源安全、內容安全、標注安全等做出了明確要求。

以語(yǔ)料庫建設助力AI產(chǎn)業(yè)安全發(fā)展

“一邊是‘嗷嗷待大量數據以哺’的人工智能，另一邊是越發(fā)重視個(gè)人信息保護的用戶(hù)，如何善用數據，考驗全社會(huì )數據治理的能力和成效，事關(guān)萬(wàn)千網(wǎng)民的切身利益。”人民日報評論指出，發(fā)展和安全從來(lái)不必然是矛盾的、對立的，平衡好各方面利益，才能推動(dòng)生成式人工智能健康可持續發(fā)展。

語(yǔ)料庫是訓練和優(yōu)化AI大模型的“養料”。當前，我國AI發(fā)展所需要的語(yǔ)料數據仍相對匱乏。有數據顯示，全球通用的50億大模型數據訓練集里，中文語(yǔ)料的占比僅為1.3%。業(yè)內人士指出，雖然我國的數據資源豐富，但是由于數據挖掘與流通不足，中文語(yǔ)料庫與英文等其它語(yǔ)言的數據語(yǔ)料庫相比仍有差距，可能成為阻礙大模型研發(fā)的重要因素。

國內多地數據交易所和大模型研究機構已圍繞中文語(yǔ)料庫建設展開(kāi)探索。面對合規難題，國家數據庫、主流價(jià)值語(yǔ)料庫等建設備受關(guān)注。

在2023年7月舉行的2023全球數字經(jīng)濟大會(huì )上，首批“北京市人工智能大模型高質(zhì)量數據集”發(fā)布，包括人民日報在內的10家單位的18個(gè)高質(zhì)量訓練數據集入選。

為促進(jìn)AI大模型發(fā)展，人民數據打造了新聞數據、問(wèn)答數據等語(yǔ)義語(yǔ)料庫，相關(guān)數據量達到了近3億條。該語(yǔ)義語(yǔ)料庫面向人工智能大模型、通用人工智能、智能互聯(lián)網(wǎng)等應用場(chǎng)景，提供高質(zhì)量的語(yǔ)料生產(chǎn)、定制、供給服務(wù)。針對當前大模型普遍回答不了、回答不好卻又必須直面、不容回避的重大問(wèn)題、敏感問(wèn)題、疑難問(wèn)題、復雜問(wèn)題，該語(yǔ)義語(yǔ)料庫梳理了1萬(wàn)余個(gè)重點(diǎn)問(wèn)題，并精心編撰建成優(yōu)質(zhì)問(wèn)答語(yǔ)料庫，助力解決大模型在語(yǔ)料方面的剛性需求、緊急需求、安全需求。語(yǔ)料庫的進(jìn)一步豐富充實(shí)或將使資料查找更加便捷，進(jìn)一步降低了普通人的AI使用門(mén)檻，幫助普通人以更簡(jiǎn)單的方式獲取更全面的信息。

AI技術(shù)和應用創(chuàng )新，“合規”始終是底線(xiàn)。未來(lái)還需加強對AI大模型安全、規范、可持續發(fā)展的探索，充分挖掘各類(lèi)數據資源價(jià)值，以構建主流價(jià)值語(yǔ)料庫為抓手，推動(dòng)中國AI產(chǎn)業(yè)安全發(fā)展。

聯(lián)系人：欒老師

電話(huà)：15810381987

RM新时代平台足球