rm新时代理财官网_ 打造“數據工廠(chǎng)”是實(shí)現高質(zhì)量數據集規?；瘶藴驶┙o的必然選擇 - 詳情

打造“數據工廠(chǎng)”是實(shí)現高質(zhì)量數據集規?；瘶藴驶┙o的必然選擇

發(fā)布時(shí)間：2026-05-19 作者：張向宏

一直以來(lái)，數據的開(kāi)發(fā)利用效果不盡如人意，根本原因是企業(yè)、機構做數據開(kāi)發(fā)、供給、流通工作時(shí)，缺少一個(gè)明確的錨點(diǎn)，無(wú)法清晰說(shuō)明此類(lèi)工作的價(jià)值所在。

在深度參與國家數據局關(guān)于高質(zhì)量數據集和數據標注基地建設的工作中，北京交通大學(xué)“交大評論”團隊提出，在高質(zhì)量數據集的數據基礎設施化供給中，培育“數據工廠(chǎng)”新業(yè)態(tài)是當前數據工作的戰略重點(diǎn)。

面向人工智能的數據產(chǎn)業(yè)鏈已經(jīng)初步形成，基礎邏輯是結合非結構化數據、行業(yè)高質(zhì)量數據，將基礎大模型訓練成能夠落地應用的智能體和垂直大模型

數據要素、人工智能想要實(shí)現長(cháng)遠可持續發(fā)展，必須和政府、企業(yè)、社會(huì )的實(shí)際業(yè)務(wù)深度結合。就像計算機在1946 年發(fā)明，直到 2000 年前后才真正普及，核心原因是有了 Word、PPT、 Excel、ERP、OA 等應用軟件作為載體，沒(méi)有這些應用，計算機就難以走進(jìn)日常生產(chǎn)和生活。如今，支撐人工智能發(fā)展的載體已經(jīng)出現——智能體和垂直大模型。雖然這類(lèi)應用還處于萌芽階段，但已經(jīng)讓數據找到了服務(wù)人工智能創(chuàng )新發(fā)展這個(gè)錨點(diǎn)。

基礎大模型通過(guò)公域數據訓練，就像成績(jì)優(yōu)異的高中畢業(yè)生，只具備通識能力，還無(wú)法直接勝任外科醫生、教師、宇航員這類(lèi)專(zhuān)業(yè)工作，必須“讀本科、碩士、博士”，也就是補充行業(yè)專(zhuān)業(yè)知識才能實(shí)現落地應用。當前，面向人工智能的數據產(chǎn)業(yè)鏈已經(jīng)初步形成，基礎邏輯是結合非結構化數據、行業(yè)高質(zhì)量數據，將基礎大模型訓練成能夠落地應用的智能體和垂直大模型。

然而，支撐人工智能技術(shù)升級和應用拓展的數據供給，目前存在明顯短板。全球可流通數據僅占數據總量的極小部分。海量的私域數據、非結構化數據、行業(yè)高端數據無(wú)法有效供給，存量公域語(yǔ)料數據持續供給乏力，導致市面上各類(lèi)大模型能力趨同，難以突破專(zhuān)業(yè)場(chǎng)景應用；同時(shí)，中文語(yǔ)料規模遠低于英文語(yǔ)料，進(jìn)一步制約了國內人工智能的發(fā)展。

誰(shuí)家喝水誰(shuí)打井，企業(yè)訓練模型需要自行完成數據采集、匯聚、加工、標注全流程

在這里需要厘清“數據資源”“高質(zhì)量數據”“高質(zhì)量數據集”三個(gè)概念，三者價(jià)值是逐級遞增的：“數據資源”是原始采集匯聚的數據，數量龐大、潛在價(jià)值大，但本身不具備直接應用價(jià)值，只是基礎原料；“高質(zhì)量數據”是數據資源經(jīng)過(guò)清洗、去重、分類(lèi)等初加工形成的產(chǎn)物，是大模型預訓練的核心語(yǔ)料，主要用于 BI（商業(yè)智能）的“領(lǐng)導駕駛艙”，數據體量大、標準化程度高，無(wú)需精細的人工標注，可以自動(dòng)化、規?；幚?；“高質(zhì)量數據集”是在高質(zhì)量數據基礎上經(jīng)過(guò)精加工形成的，以標準化、場(chǎng)景化數據為核心形態(tài)，可直接用于大模型的后訓練、微調與對齊，是專(zhuān)業(yè)場(chǎng)景落地的關(guān)鍵支撐。這類(lèi)數據集分為通識型、行業(yè)通識型、行業(yè)專(zhuān)屬型三類(lèi)，越垂直細分、越貼近專(zhuān)屬場(chǎng)景，價(jià)值就越高。這也是衡量數據價(jià)值的核心標準。

當前，大部分高質(zhì)量數據集的生產(chǎn)還停留在“作坊式”階段，企業(yè)訓練模型，需要自行完成數據采集、匯聚、加工、標注全流程，這種“誰(shuí)家喝水誰(shuí)打井”的模式效率低、成本高，是過(guò)渡性的。數字社會(huì )不該再沿用“作坊式”的數據生產(chǎn)方式，而要打造專(zhuān)門(mén)從事數據處理加工、服務(wù)人工智能訓練的“數據工廠(chǎng)”。

“數據工廠(chǎng)”是技術(shù)含量極高的基礎設施工程，需要專(zhuān)業(yè)數據服務(wù)商、全國一體化算力網(wǎng)絡(luò )樞紐節點(diǎn)、頭部人工智能企業(yè)、技術(shù)創(chuàng )新企業(yè)等主體共同推進(jìn)建設

數據要素化市場(chǎng)建設推進(jìn)難度大，主要原因之一是行業(yè)精力過(guò)多放在評估、定價(jià)、登記、交易等低門(mén)檻、空轉的工作上，反而忽視了真正有價(jià)值的核心環(huán)節。把數據資源加工成高質(zhì)量數據集，將“數據工廠(chǎng)”融入國家數據基礎設施體系，是門(mén)檻高、難度大但方向正確的事。

“數據工廠(chǎng)”可分為集中式、半集中式、分布式三種類(lèi)型。集中式，以算力中心、數據基地為代表，集中匯聚數據開(kāi)展加工；半集中式，是跨區域布局加工的節點(diǎn)，可以統一標準、分散作業(yè)；分布式，核心是“數據不動(dòng)，模型動(dòng)”，通過(guò)數據虛擬化、數據編織、數據連接框架等技術(shù)，在數據源端完成加工，實(shí)現“數據可用不可見(jiàn)”，契合當前數據安全合規的要求，也是未來(lái)重要的發(fā)展方向。

“數據工廠(chǎng)”具備多元化、設施化、規?；?、標準化、AI化的特征，核心由儲備車(chē)間、生產(chǎn)車(chē)間、中試車(chē)間三部分構成：儲備車(chē)間，負責高質(zhì)量數據的儲備，保障原料供給；生產(chǎn)車(chē)間，承擔數據清洗、合成、標注、加工等全流程工作；中試車(chē)間，通過(guò)大模型轉小模型等方式，對產(chǎn)出的數據集進(jìn)行測試驗證，替代傳統低效的測評，確保數據產(chǎn)品能夠適配實(shí)際應用場(chǎng)景。如果把“數據工廠(chǎng)”比作一座現代化的食品加工廠(chǎng)，儲備車(chē)間是原料倉庫，生產(chǎn)車(chē)間是自動(dòng)化加工生產(chǎn)線(xiàn)，中試車(chē)間是品質(zhì)檢測與配方調試中心，最終生產(chǎn)出可直接、安全 “食用”的數據“食品”供大模型和場(chǎng)景使用。

“數據工廠(chǎng)”是技術(shù)含量極高的基礎設施工程，需要專(zhuān)業(yè)數據服務(wù)商、全國一體化算力網(wǎng)絡(luò )樞紐節點(diǎn)、頭部人工智能企業(yè)、技術(shù)創(chuàng )新企業(yè)等主體共同推進(jìn)建設。這類(lèi)主體或具備數據處理基礎能力，或擁有算力資源，或掌握核心技術(shù)，能夠支撐“數據工廠(chǎng)”的落地運營(yíng)。

打造“數據工廠(chǎng)”是實(shí)現高質(zhì)量數據集規?；?、標準化供給的必然選擇。在國家數據底座、核心功能節點(diǎn)、行業(yè)與企業(yè)基礎設施等不同層面布局建設“數據工廠(chǎng)”，構建從行業(yè)通識、行業(yè)專(zhuān)屬到業(yè)務(wù)專(zhuān)精的多層次數據供給體系，推動(dòng)數據要素切實(shí)服務(wù)于人工智能發(fā)展和場(chǎng)景需求。

RM新时代平台足球