新时代app官方下载最新版_ AI大模型“隱秘的角落”不再隱秘 - 詳情

首頁(yè) / 新聞資訊 / 企業(yè)動(dòng)態(tài) / 詳情

AI大模型“隱秘的角落”不再隱秘

發(fā)布時(shí)間：2023-07-11

近日，筆神作文指控合作伙伴學(xué)而思未經(jīng)授權爬取自家數據，在2023年4月13日到2023年4月17日期間，通過(guò)“爬蟲(chóng)”技術(shù)，非法訪(fǎng)問(wèn)、緩存服務(wù)器數據多達258萬(wàn)次。隨后學(xué)而思對此公開(kāi)予以否認，表示自己對筆神作文的數據使用在雙方合同的合作范圍以?xún)取?/span>

數據來(lái)源：筆神作文微博發(fā)布

258萬(wàn)次意味著(zhù)什么？

以聚合數據（一家基于A(yíng)PI技術(shù)的綜合性數據處理服務(wù)商）為例，平臺能夠提供作文分類(lèi)列表、作文基本信息列表和作文內容三種數據接口來(lái)幫助個(gè)人和企業(yè)獲得作文相關(guān)數據。該項服務(wù)的收費標準為99元2萬(wàn)次。根據此收費標準計算，258萬(wàn)次數據抓取成本超過(guò)1億。常見(jiàn)的API付費調用標準有按調用次數計費、按數據傳輸量計費、按功能模塊計費和按時(shí)間計費?？紤]到按時(shí)間計費沒(méi)有公開(kāi)價(jià)格數據，因此按照按調用次數計費進(jìn)行估算，估算價(jià)格與實(shí)際價(jià)格相比應偏高。

然而，無(wú)論采用何種計費標準，訓練AI大模型的訓練成本都不低。早有研究指出數據量會(huì )影響機器學(xué)習模型的準確度。近期，許多專(zhuān)家也指出目前大型語(yǔ)言模型的訓練中出現了“涌現現象”。“涌現現象”是指當數量足夠多時(shí)，在宏觀(guān)層面上會(huì )展現出微觀(guān)個(gè)體無(wú)法解釋的特殊現象。在A(yíng)I大模型中的主要體現為當模型規模達到一定程度時(shí)，效果才會(huì )急劇增長(cháng)，在模型規模小于某個(gè)臨界值之前，模型基本不具備任務(wù)解決能力。

名稱(chēng)：八個(gè)模型參數數量與模型準確性關(guān)系圖

數據來(lái)源：Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

隨著(zhù)數據量的指數上升，所需的算力、電力等投入成本也會(huì )隨之上升。國盛證券計算機分析師劉高暢、楊然在發(fā)表于2023年2月12日的報告《ChatGPT需要多少算力》中估算，GPT-3訓練一次的成本約為140萬(wàn)美元，對于一些更大的LLM模型，訓練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。這一成本對于全球科技大企業(yè)而言并不便宜，但尚在可接受范圍內。2023年4月8日，華為高管公布的數據也顯示，AI大模型開(kāi)發(fā)和訓練一次的成本高達1200萬(wàn)美元。

正在形成良好的AI大模型訓練環(huán)境

根據ARK Invest Big Ideas2023報告，類(lèi)似GPT-3級別性能的大型語(yǔ)言模型的訓練成本從2020年的460萬(wàn)美元暴跌至2022年的45萬(wàn)美元，每年下降70%。其中，GPU和TPU的出現，以及分布式系統和基于云的AI訓練的實(shí)現對降低成本起到了關(guān)鍵性的作用。英偉達首席執行官黃仁勛在2023年臺北電腦展上介紹，訓練一個(gè)LLM大語(yǔ)言模型，將需要960個(gè)CPU組成的服務(wù)器集群，這將耗費大約1000萬(wàn)美元（約合人民幣7070萬(wàn)元），并消耗11千兆瓦時(shí)的電力。相比之下，GPU服務(wù)器能夠以4%的成本和1.2%的電力消耗來(lái)訓練一個(gè)LLM大語(yǔ)言模型。

此外，相關(guān)法律也正在逐步完善。在保護數據服務(wù)者的權益的同時(shí)，促進(jìn)生成式人工智能技術(shù)健康發(fā)展和規范應用。

在維護數據服務(wù)者的權益方面，早在2018年，杭州互聯(lián)網(wǎng)法院就公布了全國首例數據產(chǎn)品糾紛案，也是首例涉數據資源開(kāi)發(fā)應用正當性及數據權屬判定的新類(lèi)型不正當競爭案件。該案判決明確了網(wǎng)絡(luò )運營(yíng)者對于其開(kāi)發(fā)的大數據產(chǎn)品，享有競爭性財產(chǎn)權益。未經(jīng)許可，直接將他人數據產(chǎn)品作為自己獲取商業(yè)利益工具的，構成不正當競爭行為。在數據侵權案件中，有些法院會(huì )根據“三重授權原則”來(lái)判斷涉案數據收集者搜集數據行為是否合法，即涉案數據收集者收集數據時(shí)需取得個(gè)人信息用戶(hù)的同意以及網(wǎng)絡(luò )運營(yíng)商的同意，網(wǎng)絡(luò )運營(yíng)商需取得個(gè)人信息用戶(hù)的同意。涉案數據收集者只有符合該原則，才能證明其搜集的數據具有正當性，不構成不正當競爭。

根據威科先行數據庫數據整理，自2018年以來(lái)，關(guān)鍵詞為“互聯(lián)網(wǎng)+反不正當競爭”的判決一共有5814例，占所有反不正當競爭判決的25%。該類(lèi)案件在2020年達到峰值后逐年下降。同年，《數據安全法（草案）》在中國人大網(wǎng)公布。該法案于2021年通過(guò)并正式實(shí)施。兩者之間可能存在相關(guān)性。

2018-2022年關(guān)鍵詞“互聯(lián)網(wǎng)+反不正當競爭”的判決數量統計圖

數據來(lái)源：根據威科先行數據庫數據自行整理

關(guān)鍵詞“互聯(lián)網(wǎng)+反不正當競爭”相關(guān)判決主要分布在北上廣及周邊輻射城市。針對互聯(lián)網(wǎng)反不正當競爭案件出現較多的省市，設立了北京、廣州、杭州互聯(lián)網(wǎng)法院。

2018-2022關(guān)鍵詞“互聯(lián)網(wǎng)+反不正當競爭”相關(guān)判決的地區分布TOP10

數據來(lái)源：根據威科先行數據庫數據自行整理

今年4月，面對AIGC的火熱發(fā)展，國家互聯(lián)網(wǎng)信息辦公室起草了《生成式人工智能服務(wù)管理辦法（征求意見(jiàn)稿）》，并向社會(huì )公開(kāi)征求意見(jiàn)。5月中旬，北上深等地相繼發(fā)布了支持人工智能產(chǎn)業(yè)的政策文件。最新地方政策中均重點(diǎn)提到了算力端發(fā)展，加大算力基礎設施的投資力度，同時(shí)強調了人工智能的高質(zhì)量發(fā)展，拓展AI創(chuàng )新應用場(chǎng)景的深度與廣度。

人們應當盡快從過(guò)去科幻電影傳導的“AI毀滅人類(lèi)”的思想恐懼中走出來(lái)。發(fā)展AI的意義不僅在于實(shí)現人類(lèi)可以完成的工作，提高工作效率，更應該在于其帶來(lái)的跨界能力。在滿(mǎn)足社會(huì )需求和社會(huì )穩定性的基礎上，如何利用AI多種數據分析優(yōu)勢和泛化能力實(shí)現產(chǎn)業(yè)的升級創(chuàng )新，是值得探討的問(wèn)題。

來(lái)源：人民數據研究院

作者：人民數據研究院研究員顧雨薇

RM新时代平台足球