
數據來(lái)源:筆神作文微博發(fā)布
以聚合數據(一家基于A(yíng)PI技術(shù)的綜合性數據處理服務(wù)商)為例,平臺能夠提供作文分類(lèi)列表、作文基本信息列表和作文內容三種數據接口來(lái)幫助個(gè)人和企業(yè)獲得作文相關(guān)數據。該項服務(wù)的收費標準為99元2萬(wàn)次。根據此收費標準計算,258萬(wàn)次數據抓取成本超過(guò)1億。常見(jiàn)的API付費調用標準有按調用次數計費、按數據傳輸量計費、按功能模塊計費和按時(shí)間計費??紤]到按時(shí)間計費沒(méi)有公開(kāi)價(jià)格數據,因此按照按調用次數計費進(jìn)行估算,估算價(jià)格與實(shí)際價(jià)格相比應偏高。
然而,無(wú)論采用何種計費標準,訓練AI大模型的訓練成本都不低。早有研究指出數據量會(huì )影響機器學(xué)習模型的準確度。近期,許多專(zhuān)家也指出目前大型語(yǔ)言模型的訓練中出現了“涌現現象”。“涌現現象”是指當數量足夠多時(shí),在宏觀(guān)層面上會(huì )展現出微觀(guān)個(gè)體無(wú)法解釋的特殊現象。在A(yíng)I大模型中的主要體現為當模型規模達到一定程度時(shí),效果才會(huì )急劇增長(cháng),在模型規模小于某個(gè)臨界值之前,模型基本不具備任務(wù)解決能力。

名稱(chēng):八個(gè)模型參數數量與模型準確性關(guān)系圖
數據來(lái)源:Wei, Jason, et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).
隨著(zhù)數據量的指數上升,所需的算力、電力等投入成本也會(huì )隨之上升。國盛證券計算機分析師劉高暢、楊然在發(fā)表于2023年2月12日的報告《ChatGPT需要多少算力》中估算,GPT-3訓練一次的成本約為140萬(wàn)美元,對于一些更大的LLM模型,訓練成本介于200萬(wàn)美元至1200萬(wàn)美元之間。這一成本對于全球科技大企業(yè)而言并不便宜,但尚在可接受范圍內。2023年4月8日,華為高管公布的數據也顯示,AI大模型開(kāi)發(fā)和訓練一次的成本高達1200萬(wàn)美元。
根據ARK Invest Big Ideas2023報告,類(lèi)似GPT-3級別性能的大型語(yǔ)言模型的訓練成本從2020年的460萬(wàn)美元暴跌至2022年的45萬(wàn)美元,每年下降70%。其中,GPU和TPU的出現,以及分布式系統和基于云的AI訓練的實(shí)現對降低成本起到了關(guān)鍵性的作用。英偉達首席執行官黃仁勛在2023年臺北電腦展上介紹,訓練一個(gè)LLM大語(yǔ)言模型,將需要960個(gè)CPU組成的服務(wù)器集群,這將耗費大約1000萬(wàn)美元(約合人民幣7070萬(wàn)元),并消耗11千兆瓦時(shí)的電力。相比之下,GPU服務(wù)器能夠以4%的成本和1.2%的電力消耗來(lái)訓練一個(gè)LLM大語(yǔ)言模型。
此外,相關(guān)法律也正在逐步完善。在保護數據服務(wù)者的權益的同時(shí),促進(jìn)生成式人工智能技術(shù)健康發(fā)展和規范應用。
在維護數據服務(wù)者的權益方面,早在2018年,杭州互聯(lián)網(wǎng)法院就公布了全國首例數據產(chǎn)品糾紛案,也是首例涉數據資源開(kāi)發(fā)應用正當性及數據權屬判定的新類(lèi)型不正當競爭案件。該案判決明確了網(wǎng)絡(luò )運營(yíng)者對于其開(kāi)發(fā)的大數據產(chǎn)品,享有競爭性財產(chǎn)權益。未經(jīng)許可,直接將他人數據產(chǎn)品作為自己獲取商業(yè)利益工具的,構成不正當競爭行為。在數據侵權案件中,有些法院會(huì )根據“三重授權原則”來(lái)判斷涉案數據收集者搜集數據行為是否合法,即涉案數據收集者收集數據時(shí)需取得個(gè)人信息用戶(hù)的同意以及網(wǎng)絡(luò )運營(yíng)商的同意,網(wǎng)絡(luò )運營(yíng)商需取得個(gè)人信息用戶(hù)的同意。涉案數據收集者只有符合該原則,才能證明其搜集的數據具有正當性,不構成不正當競爭。
根據威科先行數據庫數據整理,自2018年以來(lái),關(guān)鍵詞為“互聯(lián)網(wǎng)+反不正當競爭”的判決一共有5814例,占所有反不正當競爭判決的25%。該類(lèi)案件在2020年達到峰值后逐年下降。同年,《數據安全法(草案)》在中國人大網(wǎng)公布。該法案于2021年通過(guò)并正式實(shí)施。兩者之間可能存在相關(guān)性。

2018-2022年關(guān)鍵詞“互聯(lián)網(wǎng)+反不正當競爭”的判決數量統計圖
數據來(lái)源:根據威科先行數據庫數據自行整理
關(guān)鍵詞“互聯(lián)網(wǎng)+反不正當競爭”相關(guān)判決主要分布在北上廣及周邊輻射城市。針對互聯(lián)網(wǎng)反不正當競爭案件出現較多的省市,設立了北京、廣州、杭州互聯(lián)網(wǎng)法院。

2018-2022關(guān)鍵詞“互聯(lián)網(wǎng)+反不正當競爭”相關(guān)判決的地區分布TOP10
數據來(lái)源:根據威科先行數據庫數據自行整理
今年4月,面對AIGC的火熱發(fā)展,國家互聯(lián)網(wǎng)信息辦公室起草了《生成式人工智能服務(wù)管理辦法(征求意見(jiàn)稿)》,并向社會(huì )公開(kāi)征求意見(jiàn)。5月中旬,北上深等地相繼發(fā)布了支持人工智能產(chǎn)業(yè)的政策文件。最新地方政策中均重點(diǎn)提到了算力端發(fā)展,加大算力基礎設施的投資力度,同時(shí)強調了人工智能的高質(zhì)量發(fā)展,拓展AI創(chuàng )新應用場(chǎng)景的深度與廣度。
人們應當盡快從過(guò)去科幻電影傳導的“AI毀滅人類(lèi)”的思想恐懼中走出來(lái)。發(fā)展AI的意義不僅在于實(shí)現人類(lèi)可以完成的工作,提高工作效率,更應該在于其帶來(lái)的跨界能力。在滿(mǎn)足社會(huì )需求和社會(huì )穩定性的基礎上,如何利用AI多種數據分析優(yōu)勢和泛化能力實(shí)現產(chǎn)業(yè)的升級創(chuàng )新,是值得探討的問(wèn)題。