【成果推介】Data Torch——暗數據存儲、點亮與價值評估系統(tǒng)
發(fā)布日期:2024-03-05 瀏覽量:1137
字號:大 中 小
所屬領域
軟件服務
痛點問題 暗數據是指機構在常規(guī)業(yè)務活動中采集、處理和存儲的信息資產,但通常不能用于其他目的(例如分析、業(yè)務關系和直接貨幣化)。對于暗數據,用戶不知道其存在,或不知道其如何獲取,亦或不知道如何釋放其價值。 IDC的調研報告顯示:暗數據占數據總量的68%以上,且占比在逐年攀升。根據行業(yè)的不同,企業(yè)的暗數據在其數據總量中的占比從40%到90%不等。充分利用暗數據將為企業(yè)帶來巨大的利潤,但現階段,暗數據如同不能丟棄的垃圾,會加劇數據ROT(冗余,過時和瑣碎),降低數據發(fā)揮價值的效率與能力,不僅會給企業(yè)帶來巨大的維護開銷,同時會對企業(yè)造成潛在的風險和損失。根據Veritas公司的數據顯示,平均每家公司每年要花費4650萬美元來存儲從未使用過或使用頻率極低的數據,但卻無法按需使用這些數據。目前,國內的大部分相關部門和企業(yè)并未意識到暗數據的存在,也不了解處理暗數據的意義和價值。想要做好暗數據處理,面臨三個行業(yè)痛點: · 檢索難 缺乏針對暗數據的檢索技術; · 評估難 缺乏一套針對暗數據的價值量化標準和價值評估技術; · 挖掘難 缺乏針對暗數據的存儲技術。
解決方案 針對暗數據處理,提出了如下方案: (1) 基于內容哈希的暗數據點亮技術 本系統(tǒng)通過解析暗數據的內容語義生成哈希碼,再通過漢明距離計算哈希碼之間的距離度量,利用哈希碼作為元數據,利用距離度量作為組織標準,對所有數據進行圖結構化組織,實現暗數據的點亮。首先訓練自學習哈希模型DDCH,其中包括對比學習和無監(jiān)督哈希函數學習階段。利用預訓練好的模型對暗數據集中的文件進行重構編碼,每一個文件都生成一個哈希碼與之對應。哈希模型的輸入在語義上越相近,生成的哈希碼的漢明距離也越相近。暗數據點亮時,通過DDCH模型將所有的暗數據生成為哈希碼,然后使用圖結構對所有的哈希碼進行倒排索引管理。 圖1 基于內容的自學習哈希模型框架示意圖 (2) 基于語義漢明圖的暗數據價值評估技術 管理哈希碼的圖組織,即漢明圖。語義越接近的數據在圖中的距離也越接近。在漢明圖中,可以看到一些分布比較集中的子圖,即一組語義相似的元素。在實際應用中,數據集的數目和密度無法統(tǒng)一,例如,部分數據集的圖像總量大,而有些數據集中與檢索需求相關的圖像數量多,為了精確評估各數據集的價值,提出綜合考量密度和數量的暗數據價值評估技術。通過計算各個數據在數據集中的重要性分數,再將需求轉換為數據對數據集中的數據進行檢索,檢索出的數據分數即可代表數據集對需求的重要性依賴,即價值。對于重要性分數,子圖越密集,即元素越多,漢明距離越短,該子圖的重要性越高,越具備挖掘價值。為了評估每個子圖的重要性,首先給每個子圖打一個“重要性分數”,然后根據重要性分數給子圖排序,排序后得到排名表(Score list)。 圖2 基于語義漢明圖的按數據價值評估技術示意圖 (3) 基于元數據圖譜的暗數據存儲技術 暗數據存儲系統(tǒng)利用哈希技術與語義漢明圖技術生成并組織元數據,在不影響傳統(tǒng)元數據組織的基礎上,提供使語義相似的文件在邏輯結構上更接近的查找目標。該設計能夠以外掛索引的方式單獨管理生成的內容元數據。當需要查找某一類型的數據時,暗數據存儲系統(tǒng)能夠通過聚類來召回語義相似區(qū)域的數據,輔以雙IO路徑的設計,讓系統(tǒng)既保留了現有存儲系統(tǒng)的讀寫路徑,又能夠通過內容語義來查詢并召回相應的文件,使得暗數據查詢和檢索更加高效和方便。 圖3 基于元數據圖譜的暗數據存儲技術示意圖
性能指標 在QQ相冊真實數據上的測試表明,核心技術均取得了較大的性能突破:
競爭優(yōu)勢 目前,市場上已經出現利用暗數據的公司及產品。部分公司利用暗數據進行數據風險預測,降低數據泄露造成的損失以及抵抗網絡攻擊,包括但不限于Splunk的SIEM工具、BigID的云平臺、Imperva的風險檢測工具。另一部分公司能夠對單模態(tài)暗數據價值進行初步的內容提取和開發(fā),包括IBM用于處理文檔暗數據的Datacap和專門處理視頻暗數據的Dark vision。 本項目與國外產品比較,能夠從內容角度管理暗數據,并根據價值評估技術有的放矢的推薦暗數據進行價值挖掘并釋放價值,具有國外同等類型產品尚不能企及的科技水平。本項目不僅能夠通過暗數據的價值評估來判斷并降低暗數據的數據風險,并且哈希技術和暗數據存儲系統(tǒng)具備處理多模態(tài)數據的通用性。本項目具有獨立的知識產權,有著顯著的技術優(yōu)勢,也具有持續(xù)研發(fā)的可能性,能充分滿足潛在市場需求。
技術熟化度 試驗階段
資質榮譽 · 國家技術發(fā)明二等獎1項 · 湖北省技術發(fā)明一等獎1項 · 湖北省技術進步1等獎1項 · SC‘06存儲挑戰(zhàn)賽finalist award1項 · 中國電子學會科學技術獎科技進步一等獎1項 · 中國電子學會科學技術獎科技進步二等獎1項 · 相關論文《A Framework for Image Dark Data Assessment》在APWeB-WAIM 2019會議上榮獲best paper runner up
產業(yè)化應用 在EB級多模態(tài)數據集中,利用暗數據的點亮、價值評估和存儲技術,解決當前“檢索難”、“評估難”、“挖掘難”等難題,實現暗數據的高效檢索、精準評估和便捷挖掘。
市場前景: 主要面向信息技術服務行業(yè),通過釋放暗數據的潛在價值,助推各行各業(yè)激發(fā)數字要素潛能。應用群體分為個人用戶及企業(yè)用戶,對于個人用戶,提供暗數據處理解決方案,提高日常工作效率;對于企業(yè)用戶,通過對企業(yè)內部暗數據進行分析處理,提升存儲性價比,推動信創(chuàng)產業(yè)發(fā)展及信息化建設。麥肯錫公司在2015年的報告中指出:暗數據的潛在價值高達11.1萬億美元。2022年我國大數據產業(yè)規(guī)模達1.57萬億,暗數據占據了數據總量的68%以上,因此,暗數據處理具備相當大的經濟潛力,是數據治理環(huán)節(jié)的重要一環(huán)。
應用案例: 案例一:達夢數據庫——“啟智”文本暗數據管理系統(tǒng) 用戶向服務器上傳的文本數據達PB級,這些數據長期堆積、缺乏管理成為暗數據,影響數據庫的維護成本及性能。Data Torch哈希模型可以為數據生成二進制索引,成為暗數據處理環(huán)節(jié)的關鍵技術,并在達夢的向量數據庫進行工程化落地,檢索速度提高了6倍,準確率提高了3倍,以數據安全為解決方案守護信創(chuàng)產業(yè)發(fā)展。 案例二:航天海鷹——遙感氣象暗數據管理平臺 氣象衛(wèi)星單日收集數百GB數據,這些數據長期存儲、使用不及時成為暗數據。Data Torch相似匹配模型提取暗數據內容,對比出過去氣象數據與當前氣象數據之間的相似性,從而輔助洪水預警過程,使得洪水預警計算時間由過去的小時級縮短到現在的分鐘級,利用暗數據推動公共安全治理。 案例三:航天網信——軍事多模態(tài)暗數據分析系統(tǒng) 軍事數據包括視頻、音頻、圖片、文本等多模態(tài)數據,不同模態(tài)之間難以交互形成暗數據。Data Torch多模態(tài)分析模型實現了軍事多模態(tài)暗數據的交互,從而利用軍事暗數據輔助戰(zhàn)場決策,并將百萬級數據集查詢延時由分鐘級縮短到秒級,利用暗數據推動軍隊信息化建設。
發(fā)展規(guī)劃: · 2024年:深入對接騰訊,部署暗數據服務接口。預計為航天科工集團、達夢數據庫等企業(yè)交付10余臺服務器一體機設備,滿足訂單需求 · 2025年:拓展市場份額,將暗數據服務授權至華為、阿里等,積極推動與政府部門的合作。 · 2026年:進一步提高市場占有率,改進業(yè)務流程,優(yōu)化資源管理,承擔社會責任。
知識產權: 該成果已申請/授權多項中國發(fā)明專利。
合作方式:
專利許可、專利轉讓、作價入股、技術開發(fā)、面談等。