一直以來(lái),數據的開(kāi)發(fā)利用效果不盡如人意,根本原因是企業(yè)、機構做數據開(kāi)發(fā)、供給、流通工作時(shí),缺少一個(gè)明確的錨點(diǎn),無(wú)法清晰說(shuō)明此類(lèi)工作的價(jià)值所在。
在深度參與國家數據局關(guān)于高質(zhì)量數據集和數據標注基地建設的工作中,北京交通大學(xué)“交大評論”團隊提出,在高質(zhì)量數據集的數據基礎設施化供給中,培育“數據工廠(chǎng)”新業(yè)態(tài)是當前數據工作的戰略重點(diǎn)。
面向人工智能的數據產(chǎn)業(yè)鏈已經(jīng)初步形成,基礎邏輯是結合非結構化數據、行業(yè)高質(zhì)量數據,將基礎大模型訓練成能夠落地應用的智能體和垂直大模型
數據要素、人工智能想要實(shí)現長(cháng)遠可持續發(fā)展,必須和政府、企業(yè)、社會(huì )的實(shí)際業(yè)務(wù)深度結合。就像計算機在1946 年發(fā)明,直到 2000 年前后才真正普及,核心原因是有了 Word、PPT、 Excel、ERP、OA 等應用軟件作為載體,沒(méi)有這些應用,計算機就難以走進(jìn)日常生產(chǎn)和生活。如今,支撐人工智能發(fā)展的載體已經(jīng)出現——智能體和垂直大模型。雖然這類(lèi)應用還處于萌芽階段,但已經(jīng)讓數據找到了服務(wù)人工智能創(chuàng )新發(fā)展這個(gè)錨點(diǎn)。
基礎大模型通過(guò)公域數據訓練,就像成績(jì)優(yōu)異的高中畢業(yè)生,只具備通識能力,還無(wú)法直接勝任外科醫生、教師、宇航員這類(lèi)專(zhuān)業(yè)工作,必須“讀本科、碩士、博士”,也就是補充行業(yè)專(zhuān)業(yè)知識才能實(shí)現落地應用。當前,面向人工智能的數據產(chǎn)業(yè)鏈已經(jīng)初步形成,基礎邏輯是結合非結構化數據、行業(yè)高質(zhì)量數據,將基礎大模型訓練成能夠落地應用的智能體和垂直大模型。
然而,支撐人工智能技術(shù)升級和應用拓展的數據供給,目前存在明顯短板。全球可流通數據僅占數據總量的極小部分。海量的私域數據、非結構化數據、行業(yè)高端數據無(wú)法有效供給,存量公域語(yǔ)料數據持續供給乏力,導致市面上各類(lèi)大模型能力趨同,難以突破專(zhuān)業(yè)場(chǎng)景應用;同時(shí),中文語(yǔ)料規模遠低于英文語(yǔ)料,進(jìn)一步制約了國內人工智能的發(fā)展。
誰(shuí)家喝水誰(shuí)打井,企業(yè)訓練模型需要自行完成數據采集、匯聚、加工、標注全流程
在這里需要厘清“數據資源”“高質(zhì)量數據”“高質(zhì)量數據集”三個(gè)概念,三者價(jià)值是逐級遞增的:“數據資源”是原始采集匯聚的數據,數量龐大、潛在價(jià)值大,但本身不具備直接應用價(jià)值,只是基礎原料;“高質(zhì)量數據”是數據資源經(jīng)過(guò)清洗、去重、分類(lèi)等初加工形成的產(chǎn)物,是大模型預訓練的核心語(yǔ)料,主要用于 BI(商業(yè)智能)的“領(lǐng)導駕駛艙”,數據體量大、標準化程度高,無(wú)需精細的人工標注,可以自動(dòng)化、規?;幚?;“高質(zhì)量數據集”是在高質(zhì)量數據基礎上經(jīng)過(guò)精加工形成的,以標準化、場(chǎng)景化數據為核心形態(tài),可直接用于大模型的后訓練、微調與對齊,是專(zhuān)業(yè)場(chǎng)景落地的關(guān)鍵支撐。這類(lèi)數據集分為通識型、行業(yè)通識型、行業(yè)專(zhuān)屬型三類(lèi),越垂直細分、越貼近專(zhuān)屬場(chǎng)景,價(jià)值就越高。這也是衡量數據價(jià)值的核心標準。
當前,大部分高質(zhì)量數據集的生產(chǎn)還停留在“作坊式”階段,企業(yè)訓練模型,需要自行完成數據采集、匯聚、加工、標注全流程,這種“誰(shuí)家喝水誰(shuí)打井”的模式效率低、成本高,是過(guò)渡性的。數字社會(huì )不該再沿用“作坊式”的數據生產(chǎn)方式,而要打造專(zhuān)門(mén)從事數據處理加工、服務(wù)人工智能訓練的“數據工廠(chǎng)”。
“數據工廠(chǎng)”是技術(shù)含量極高的基礎設施工程,需要專(zhuān)業(yè)數據服務(wù)商、全國一體化算力網(wǎng)絡(luò )樞紐節點(diǎn)、頭部人工智能企業(yè)、技術(shù)創(chuàng )新企業(yè)等主體共同推進(jìn)建設
數據要素化市場(chǎng)建設推進(jìn)難度大,主要原因之一是行業(yè)精力過(guò)多放在評估、定價(jià)、登記、交易等低門(mén)檻、空轉的工作上,反而忽視了真正有價(jià)值的核心環(huán)節。把數據資源加工成高質(zhì)量數據集,將“數據工廠(chǎng)”融入國家數據基礎設施體系,是門(mén)檻高、難度大但方向正確的事。
“數據工廠(chǎng)”可分為集中式、半集中式、分布式三種類(lèi)型。集中式,以算力中心、數據基地為代表,集中匯聚數據開(kāi)展加工;半集中式,是跨區域布局加工的節點(diǎn),可以統一標準、分散作業(yè);分布式,核心是“數據不動(dòng),模型動(dòng)”,通過(guò)數據虛擬化、數據編織、數據連接框架等技術(shù),在數據源端完成加工,實(shí)現“數據可用不可見(jiàn)”,契合當前數據安全合規的要求,也是未來(lái)重要的發(fā)展方向。
“數據工廠(chǎng)”具備多元化、設施化、規?;?、標準化、AI化的特征,核心由儲備車(chē)間、生產(chǎn)車(chē)間、中試車(chē)間三部分構成:儲備車(chē)間,負責高質(zhì)量數據的儲備,保障原料供給;生產(chǎn)車(chē)間,承擔數據清洗、合成、標注、加工等全流程工作;中試車(chē)間,通過(guò)大模型轉小模型等方式,對產(chǎn)出的數據集進(jìn)行測試驗證,替代傳統低效的測評,確保數據產(chǎn)品能夠適配實(shí)際應用場(chǎng)景。如果把“數據工廠(chǎng)”比作一座現代化的食品加工廠(chǎng),儲備車(chē)間是原料倉庫,生產(chǎn)車(chē)間是自動(dòng)化加工生產(chǎn)線(xiàn),中試車(chē)間是品質(zhì)檢測與配方調試中心,最終生產(chǎn)出可直接、安全 “食用”的數據“食品”供大模型和場(chǎng)景使用。
“數據工廠(chǎng)”是技術(shù)含量極高的基礎設施工程,需要專(zhuān)業(yè)數據服務(wù)商、全國一體化算力網(wǎng)絡(luò )樞紐節點(diǎn)、頭部人工智能企業(yè)、技術(shù)創(chuàng )新企業(yè)等主體共同推進(jìn)建設。這類(lèi)主體或具備數據處理基礎能力,或擁有算力資源,或掌握核心技術(shù),能夠支撐“數據工廠(chǎng)”的落地運營(yíng)。
打造“數據工廠(chǎng)”是實(shí)現高質(zhì)量數據集規?;?、標準化供給的必然選擇。在國家數據底座、核心功能節點(diǎn)、行業(yè)與企業(yè)基礎設施等不同層面布局建設“數據工廠(chǎng)”,構建從行業(yè)通識、行業(yè)專(zhuān)屬到業(yè)務(wù)專(zhuān)精的多層次數據供給體系,推動(dòng)數據要素切實(shí)服務(wù)于人工智能發(fā)展和場(chǎng)景需求。