【成果推介】Data Torch——暗數(shù)據(jù)存儲(chǔ)、點(diǎn)亮與價(jià)值評(píng)估系統(tǒng)
發(fā)布日期:2024-03-05 瀏覽量:655
字號(hào):大 中 小
所屬領(lǐng)域
軟件服務(wù)
痛點(diǎn)問(wèn)題 暗數(shù)據(jù)是指機(jī)構(gòu)在常規(guī)業(yè)務(wù)活動(dòng)中采集、處理和存儲(chǔ)的信息資產(chǎn),但通常不能用于其他目的(例如分析、業(yè)務(wù)關(guān)系和直接貨幣化)。對(duì)于暗數(shù)據(jù),用戶不知道其存在,或不知道其如何獲取,亦或不知道如何釋放其價(jià)值。 IDC的調(diào)研報(bào)告顯示:暗數(shù)據(jù)占數(shù)據(jù)總量的68%以上,且占比在逐年攀升。根據(jù)行業(yè)的不同,企業(yè)的暗數(shù)據(jù)在其數(shù)據(jù)總量中的占比從40%到90%不等。充分利用暗數(shù)據(jù)將為企業(yè)帶來(lái)巨大的利潤(rùn),但現(xiàn)階段,暗數(shù)據(jù)如同不能丟棄的垃圾,會(huì)加劇數(shù)據(jù)ROT(冗余,過(guò)時(shí)和瑣碎),降低數(shù)據(jù)發(fā)揮價(jià)值的效率與能力,不僅會(huì)給企業(yè)帶來(lái)巨大的維護(hù)開(kāi)銷(xiāo),同時(shí)會(huì)對(duì)企業(yè)造成潛在的風(fēng)險(xiǎn)和損失。根據(jù)Veritas公司的數(shù)據(jù)顯示,平均每家公司每年要花費(fèi)4650萬(wàn)美元來(lái)存儲(chǔ)從未使用過(guò)或使用頻率極低的數(shù)據(jù),但卻無(wú)法按需使用這些數(shù)據(jù)。目前,國(guó)內(nèi)的大部分相關(guān)部門(mén)和企業(yè)并未意識(shí)到暗數(shù)據(jù)的存在,也不了解處理暗數(shù)據(jù)的意義和價(jià)值。想要做好暗數(shù)據(jù)處理,面臨三個(gè)行業(yè)痛點(diǎn): · 檢索難 缺乏針對(duì)暗數(shù)據(jù)的檢索技術(shù); · 評(píng)估難 缺乏一套針對(duì)暗數(shù)據(jù)的價(jià)值量化標(biāo)準(zhǔn)和價(jià)值評(píng)估技術(shù); · 挖掘難 缺乏針對(duì)暗數(shù)據(jù)的存儲(chǔ)技術(shù)。
解決方案 針對(duì)暗數(shù)據(jù)處理,提出了如下方案: (1) 基于內(nèi)容哈希的暗數(shù)據(jù)點(diǎn)亮技術(shù) 本系統(tǒng)通過(guò)解析暗數(shù)據(jù)的內(nèi)容語(yǔ)義生成哈希碼,再通過(guò)漢明距離計(jì)算哈希碼之間的距離度量,利用哈希碼作為元數(shù)據(jù),利用距離度量作為組織標(biāo)準(zhǔn),對(duì)所有數(shù)據(jù)進(jìn)行圖結(jié)構(gòu)化組織,實(shí)現(xiàn)暗數(shù)據(jù)的點(diǎn)亮。首先訓(xùn)練自學(xué)習(xí)哈希模型DDCH,其中包括對(duì)比學(xué)習(xí)和無(wú)監(jiān)督哈希函數(shù)學(xué)習(xí)階段。利用預(yù)訓(xùn)練好的模型對(duì)暗數(shù)據(jù)集中的文件進(jìn)行重構(gòu)編碼,每一個(gè)文件都生成一個(gè)哈希碼與之對(duì)應(yīng)。哈希模型的輸入在語(yǔ)義上越相近,生成的哈希碼的漢明距離也越相近。暗數(shù)據(jù)點(diǎn)亮?xí)r,通過(guò)DDCH模型將所有的暗數(shù)據(jù)生成為哈希碼,然后使用圖結(jié)構(gòu)對(duì)所有的哈希碼進(jìn)行倒排索引管理。 圖1 基于內(nèi)容的自學(xué)習(xí)哈希模型框架示意圖 (2) 基于語(yǔ)義漢明圖的暗數(shù)據(jù)價(jià)值評(píng)估技術(shù) 管理哈希碼的圖組織,即漢明圖。語(yǔ)義越接近的數(shù)據(jù)在圖中的距離也越接近。在漢明圖中,可以看到一些分布比較集中的子圖,即一組語(yǔ)義相似的元素。在實(shí)際應(yīng)用中,數(shù)據(jù)集的數(shù)目和密度無(wú)法統(tǒng)一,例如,部分?jǐn)?shù)據(jù)集的圖像總量大,而有些數(shù)據(jù)集中與檢索需求相關(guān)的圖像數(shù)量多,為了精確評(píng)估各數(shù)據(jù)集的價(jià)值,提出綜合考量密度和數(shù)量的暗數(shù)據(jù)價(jià)值評(píng)估技術(shù)。通過(guò)計(jì)算各個(gè)數(shù)據(jù)在數(shù)據(jù)集中的重要性分?jǐn)?shù),再將需求轉(zhuǎn)換為數(shù)據(jù)對(duì)數(shù)據(jù)集中的數(shù)據(jù)進(jìn)行檢索,檢索出的數(shù)據(jù)分?jǐn)?shù)即可代表數(shù)據(jù)集對(duì)需求的重要性依賴,即價(jià)值。對(duì)于重要性分?jǐn)?shù),子圖越密集,即元素越多,漢明距離越短,該子圖的重要性越高,越具備挖掘價(jià)值。為了評(píng)估每個(gè)子圖的重要性,首先給每個(gè)子圖打一個(gè)“重要性分?jǐn)?shù)”,然后根據(jù)重要性分?jǐn)?shù)給子圖排序,排序后得到排名表(Score list)。 圖2 基于語(yǔ)義漢明圖的按數(shù)據(jù)價(jià)值評(píng)估技術(shù)示意圖 (3) 基于元數(shù)據(jù)圖譜的暗數(shù)據(jù)存儲(chǔ)技術(shù) 暗數(shù)據(jù)存儲(chǔ)系統(tǒng)利用哈希技術(shù)與語(yǔ)義漢明圖技術(shù)生成并組織元數(shù)據(jù),在不影響傳統(tǒng)元數(shù)據(jù)組織的基礎(chǔ)上,提供使語(yǔ)義相似的文件在邏輯結(jié)構(gòu)上更接近的查找目標(biāo)。該設(shè)計(jì)能夠以外掛索引的方式單獨(dú)管理生成的內(nèi)容元數(shù)據(jù)。當(dāng)需要查找某一類(lèi)型的數(shù)據(jù)時(shí),暗數(shù)據(jù)存儲(chǔ)系統(tǒng)能夠通過(guò)聚類(lèi)來(lái)召回語(yǔ)義相似區(qū)域的數(shù)據(jù),輔以雙IO路徑的設(shè)計(jì),讓系統(tǒng)既保留了現(xiàn)有存儲(chǔ)系統(tǒng)的讀寫(xiě)路徑,又能夠通過(guò)內(nèi)容語(yǔ)義來(lái)查詢并召回相應(yīng)的文件,使得暗數(shù)據(jù)查詢和檢索更加高效和方便。 圖3 基于元數(shù)據(jù)圖譜的暗數(shù)據(jù)存儲(chǔ)技術(shù)示意圖
性能指標(biāo) 在QQ相冊(cè)真實(shí)數(shù)據(jù)上的測(cè)試表明,核心技術(shù)均取得了較大的性能突破:
競(jìng)爭(zhēng)優(yōu)勢(shì) 目前,市場(chǎng)上已經(jīng)出現(xiàn)利用暗數(shù)據(jù)的公司及產(chǎn)品。部分公司利用暗數(shù)據(jù)進(jìn)行數(shù)據(jù)風(fēng)險(xiǎn)預(yù)測(cè),降低數(shù)據(jù)泄露造成的損失以及抵抗網(wǎng)絡(luò)攻擊,包括但不限于Splunk的SIEM工具、BigID的云平臺(tái)、Imperva的風(fēng)險(xiǎn)檢測(cè)工具。另一部分公司能夠?qū)文B(tài)暗數(shù)據(jù)價(jià)值進(jìn)行初步的內(nèi)容提取和開(kāi)發(fā),包括IBM用于處理文檔暗數(shù)據(jù)的Datacap和專門(mén)處理視頻暗數(shù)據(jù)的Dark vision。 本項(xiàng)目與國(guó)外產(chǎn)品比較,能夠從內(nèi)容角度管理暗數(shù)據(jù),并根據(jù)價(jià)值評(píng)估技術(shù)有的放矢的推薦暗數(shù)據(jù)進(jìn)行價(jià)值挖掘并釋放價(jià)值,具有國(guó)外同等類(lèi)型產(chǎn)品尚不能企及的科技水平。本項(xiàng)目不僅能夠通過(guò)暗數(shù)據(jù)的價(jià)值評(píng)估來(lái)判斷并降低暗數(shù)據(jù)的數(shù)據(jù)風(fēng)險(xiǎn),并且哈希技術(shù)和暗數(shù)據(jù)存儲(chǔ)系統(tǒng)具備處理多模態(tài)數(shù)據(jù)的通用性。本項(xiàng)目具有獨(dú)立的知識(shí)產(chǎn)權(quán),有著顯著的技術(shù)優(yōu)勢(shì),也具有持續(xù)研發(fā)的可能性,能充分滿足潛在市場(chǎng)需求。
技術(shù)熟化度 試驗(yàn)階段
資質(zhì)榮譽(yù) · 國(guó)家技術(shù)發(fā)明二等獎(jiǎng)1項(xiàng) · 湖北省技術(shù)發(fā)明一等獎(jiǎng)1項(xiàng) · 湖北省技術(shù)進(jìn)步1等獎(jiǎng)1項(xiàng) · SC‘06存儲(chǔ)挑戰(zhàn)賽finalist award1項(xiàng) · 中國(guó)電子學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)科技進(jìn)步一等獎(jiǎng)1項(xiàng) · 中國(guó)電子學(xué)會(huì)科學(xué)技術(shù)獎(jiǎng)科技進(jìn)步二等獎(jiǎng)1項(xiàng) · 相關(guān)論文《A Framework for Image Dark Data Assessment》在APWeB-WAIM 2019會(huì)議上榮獲best paper runner up
產(chǎn)業(yè)化應(yīng)用 在EB級(jí)多模態(tài)數(shù)據(jù)集中,利用暗數(shù)據(jù)的點(diǎn)亮、價(jià)值評(píng)估和存儲(chǔ)技術(shù),解決當(dāng)前“檢索難”、“評(píng)估難”、“挖掘難”等難題,實(shí)現(xiàn)暗數(shù)據(jù)的高效檢索、精準(zhǔn)評(píng)估和便捷挖掘。
市場(chǎng)前景: 主要面向信息技術(shù)服務(wù)行業(yè),通過(guò)釋放暗數(shù)據(jù)的潛在價(jià)值,助推各行各業(yè)激發(fā)數(shù)字要素潛能。應(yīng)用群體分為個(gè)人用戶及企業(yè)用戶,對(duì)于個(gè)人用戶,提供暗數(shù)據(jù)處理解決方案,提高日常工作效率;對(duì)于企業(yè)用戶,通過(guò)對(duì)企業(yè)內(nèi)部暗數(shù)據(jù)進(jìn)行分析處理,提升存儲(chǔ)性價(jià)比,推動(dòng)信創(chuàng)產(chǎn)業(yè)發(fā)展及信息化建設(shè)。麥肯錫公司在2015年的報(bào)告中指出:暗數(shù)據(jù)的潛在價(jià)值高達(dá)11.1萬(wàn)億美元。2022年我國(guó)大數(shù)據(jù)產(chǎn)業(yè)規(guī)模達(dá)1.57萬(wàn)億,暗數(shù)據(jù)占據(jù)了數(shù)據(jù)總量的68%以上,因此,暗數(shù)據(jù)處理具備相當(dāng)大的經(jīng)濟(jì)潛力,是數(shù)據(jù)治理環(huán)節(jié)的重要一環(huán)。
應(yīng)用案例: 案例一:達(dá)夢(mèng)數(shù)據(jù)庫(kù)——“啟智”文本暗數(shù)據(jù)管理系統(tǒng) 用戶向服務(wù)器上傳的文本數(shù)據(jù)達(dá)PB級(jí),這些數(shù)據(jù)長(zhǎng)期堆積、缺乏管理成為暗數(shù)據(jù),影響數(shù)據(jù)庫(kù)的維護(hù)成本及性能。Data Torch哈希模型可以為數(shù)據(jù)生成二進(jìn)制索引,成為暗數(shù)據(jù)處理環(huán)節(jié)的關(guān)鍵技術(shù),并在達(dá)夢(mèng)的向量數(shù)據(jù)庫(kù)進(jìn)行工程化落地,檢索速度提高了6倍,準(zhǔn)確率提高了3倍,以數(shù)據(jù)安全為解決方案守護(hù)信創(chuàng)產(chǎn)業(yè)發(fā)展。 案例二:航天海鷹——遙感氣象暗數(shù)據(jù)管理平臺(tái) 氣象衛(wèi)星單日收集數(shù)百GB數(shù)據(jù),這些數(shù)據(jù)長(zhǎng)期存儲(chǔ)、使用不及時(shí)成為暗數(shù)據(jù)。Data Torch相似匹配模型提取暗數(shù)據(jù)內(nèi)容,對(duì)比出過(guò)去氣象數(shù)據(jù)與當(dāng)前氣象數(shù)據(jù)之間的相似性,從而輔助洪水預(yù)警過(guò)程,使得洪水預(yù)警計(jì)算時(shí)間由過(guò)去的小時(shí)級(jí)縮短到現(xiàn)在的分鐘級(jí),利用暗數(shù)據(jù)推動(dòng)公共安全治理。 案例三:航天網(wǎng)信——軍事多模態(tài)暗數(shù)據(jù)分析系統(tǒng) 軍事數(shù)據(jù)包括視頻、音頻、圖片、文本等多模態(tài)數(shù)據(jù),不同模態(tài)之間難以交互形成暗數(shù)據(jù)。Data Torch多模態(tài)分析模型實(shí)現(xiàn)了軍事多模態(tài)暗數(shù)據(jù)的交互,從而利用軍事暗數(shù)據(jù)輔助戰(zhàn)場(chǎng)決策,并將百萬(wàn)級(jí)數(shù)據(jù)集查詢延時(shí)由分鐘級(jí)縮短到秒級(jí),利用暗數(shù)據(jù)推動(dòng)軍隊(duì)信息化建設(shè)。
發(fā)展規(guī)劃: · 2024年:深入對(duì)接騰訊,部署暗數(shù)據(jù)服務(wù)接口。預(yù)計(jì)為航天科工集團(tuán)、達(dá)夢(mèng)數(shù)據(jù)庫(kù)等企業(yè)交付10余臺(tái)服務(wù)器一體機(jī)設(shè)備,滿足訂單需求 · 2025年:拓展市場(chǎng)份額,將暗數(shù)據(jù)服務(wù)授權(quán)至華為、阿里等,積極推動(dòng)與政府部門(mén)的合作。 · 2026年:進(jìn)一步提高市場(chǎng)占有率,改進(jìn)業(yè)務(wù)流程,優(yōu)化資源管理,承擔(dān)社會(huì)責(zé)任。
知識(shí)產(chǎn)權(quán): 該成果已申請(qǐng)/授權(quán)多項(xiàng)中國(guó)發(fā)明專利。
合作方式:
專利許可、專利轉(zhuǎn)讓、作價(jià)入股、技術(shù)開(kāi)發(fā)、面談等。
相關(guān)推薦
-
內(nèi)蒙古和林格爾新區(qū)國(guó)家技術(shù)轉(zhuǎn)移專業(yè)人才能力等...
2024-11-28 -
內(nèi)蒙古自治區(qū)跨境電商企業(yè)人才孵化(重慶)三期...
2024-11-20 -
關(guān)于開(kāi)展第二期2024年呼和浩特市國(guó)家技術(shù)轉(zhuǎn)移專...
2024-11-20 -
內(nèi)蒙古自治區(qū)黨委社會(huì)工作部調(diào)研考察組赴內(nèi)蒙古...
2024-11-13 -
興安盟·漳州跨境電商合作對(duì)接會(huì)暨興安盟第三期...
2024-09-30 -
興安盟跨境電商啟新程:2024年興安盟赴福建省開(kāi)...
2024-09-29