醫療衛生
高質量數據集建設背景

2023年12月31日,國家數據局等17部門聯合印發《“數據要素×”三年行動計劃(2024—2026年)》提出,“推動科研機構、龍頭企業等開展行業共性數據資源庫建設,打造高質量人工智能大模型訓練數據集。
隨著人工智能技術快速發展,對高質量數據集的需求缺口繼續增大。加強優質數據供給,以高質量數據驅動人工智能創新發展變得愈發關鍵。
高質量數據集建設難點
數據孤島現象嚴重
“煙囪式”系統建設導致數據分散在不同部門、子公司和業務系統中,難以互聯互通。
數據質量參差不齊
數據標準不統一、錄入不規范、缺乏有效治理,導致數據準確性、完整性、一致性低。
數據架構陳舊
傳統數倉難以應對海量、多源、實時的數據需求,數據處理能力瓶頸難突出。
數據安全與合規風險
作為關鍵基礎設施單位,對數據安全、隱私保護和行業合規要求極高。
高質量數據集建設解決方案
數據堂匯聚多方異構系統中的原始數據,經同步引接、清洗為統一的結構化數據,并對其進行專業化清洗、高質量標注、系統化管理、多維度評測與嚴格驗收,最終打造行業領先的高質量數據集。
獲取解決方案行業領域
選擇我們的理由
數據堂擁有豐富的行業高質量數據集建設經驗,為電力、金融、交通、物流、醫療等多行業央國企客戶提供專業服務。
數據堂擁有成熟的數據服務能力和數據服務全流程技術支持,覆蓋采集、清洗、標注、管理、評測與應用,提供全方位的系統支持。
數據堂擁有一套完善有效的數據安全保密管理舉措,包括數據標注平臺、保密室、保密人員等,并擁有ISO27701和ISO27001等多項安全認證資質。

成功案例

某國企電力行業高質量數據集建設
客戶需要整合電力行業視頻、圖像、文本等多模態數據,經過標注和處理構建高質量數據集,數據堂提供多模態數據治理軟件、多模態自動化標注軟件,對海量視頻、圖像、文本等數據進行數據專業清洗、標注、內容描述并生成高質量問答對,最終完成上千TB預訓練數據集,高質量完成200萬條指令微調數據集,50萬條測試數據集。

某國企物流行業高質量數據集建設
客戶需要運用人工智能技術深度賦能物流全鏈條應用場景,數據堂基于物流場景,對結構化數據與非結構化數據進行清洗、標注,涵蓋視頻、圖片、文檔、語音,根據不同模態的數據特性及應用場景定制數據標注方案、組建專業標注團隊完成數據標注服務,同時對客戶已有標注結果的數據進行數據質檢,檢查標注的準確性、完整性和一致性。

















