新聞中心

        EEPW首頁(yè) > 模擬技術(shù) > 設(shè)計(jì)應(yīng)用 > 重復(fù)數(shù)據(jù)刪除技術(shù)分析及分類(lèi)

        重復(fù)數(shù)據(jù)刪除技術(shù)分析及分類(lèi)

        作者: 時(shí)間:2012-04-03 來(lái)源:網(wǎng)絡(luò) 收藏

        刪除也稱(chēng)為智能壓縮或單一實(shí)例存儲(chǔ),是一種可自動(dòng)搜索,將相同數(shù)據(jù)只保留唯一的一個(gè)副本,并使用指向單一副本的指針替換掉其他重復(fù)副本,以達(dá)到消除冗余數(shù)據(jù)、降低存儲(chǔ)容量需求的存儲(chǔ)技術(shù)。

        本文首先從不同角度介紹的分類(lèi),然后分別介紹相同數(shù)據(jù)重復(fù)數(shù)據(jù)和相似數(shù)據(jù)重復(fù)數(shù)據(jù),并介紹重復(fù)數(shù)據(jù)消除的性能提升方法,最后分析重復(fù)數(shù)據(jù)技術(shù)的應(yīng)用場(chǎng)景。

        1 重復(fù)數(shù)據(jù)刪除技術(shù)的分類(lèi)

        1.1 基于重復(fù)內(nèi)容識(shí)別方法的分類(lèi)

        (1)基于散列識(shí)別

        該方法通過(guò)數(shù)據(jù)的散列值來(lái)判斷是否是重復(fù)數(shù)據(jù)。對(duì)于每個(gè)新數(shù)據(jù)塊都生成一個(gè)散列,如果數(shù)據(jù)塊的散列與存儲(chǔ)設(shè)備上散列索引中的一個(gè)散列匹配,就表明該數(shù)據(jù)塊是一個(gè)重復(fù)的數(shù)據(jù)塊。Data Domain、飛康、昆騰的DXi系列設(shè)備都是采用SHA-1、MD-5等類(lèi)似的散列算法來(lái)進(jìn)行重復(fù)數(shù)據(jù)刪除。

        基于散列的方法存在內(nèi)置的可擴(kuò)展性問(wèn)題。為了快速識(shí)別一個(gè)數(shù)據(jù)塊是否已經(jīng)被存儲(chǔ),這種基于散列的方法會(huì)在內(nèi)存中擁有散列索引。隨著數(shù)據(jù)塊數(shù)量增加,該索引也隨之增長(zhǎng)。一旦索引增長(zhǎng)超過(guò)了設(shè)備在內(nèi)存中保存它所支持的容量,性能會(huì)急速下降,同時(shí)磁盤(pán)搜索會(huì)比內(nèi)存搜索更慢。因此,目前大部分基于散列的系統(tǒng)都是獨(dú)立的,可以保持存儲(chǔ)數(shù)據(jù)所需的內(nèi)存量與磁盤(pán)空間量的平衡。這樣的設(shè)計(jì)使得散列表就永遠(yuǎn)不會(huì)變得太大。

        (2)基于內(nèi)容識(shí)別

        該方法采用內(nèi)嵌在數(shù)據(jù)中的文件系統(tǒng)的元數(shù)據(jù)識(shí)別文件,與其數(shù)據(jù)存儲(chǔ)庫(kù)中的其他版本進(jìn)行逐字節(jié)地比較,找到該版本與第一個(gè)已存儲(chǔ)版本的不同之處并為這些不同的數(shù)據(jù)創(chuàng)建一個(gè)增量文件。這種方法可以避免散列沖突,但是需要使用支持該功能的應(yīng)用設(shè)備以便設(shè)備可以提取元數(shù)據(jù)。

        (3)基于ProtecTier VTL的技術(shù)

        這種方法像基于散列的方法產(chǎn)品那樣將數(shù)據(jù)分成塊,并且采用自有算法決定給定的數(shù)據(jù)塊是否與其他數(shù)據(jù)塊的相似,然后與相似塊中的數(shù)據(jù)進(jìn)行逐字節(jié)的比較,以判斷該數(shù)據(jù)塊是否已經(jīng)被存儲(chǔ)。

        1.2 基于去重粒度的分類(lèi)

        (1)全文件層次的重復(fù)數(shù)據(jù)刪除

        以整個(gè)文件為單位來(lái)檢測(cè)和刪除重復(fù)數(shù)據(jù),計(jì)算整個(gè)文件的哈希值,然后根據(jù)文件哈希值查找存儲(chǔ)系統(tǒng)中是否存在相同的文件。這種方法的好處是在普通硬件條件下計(jì)算速度非常快;這種方法的缺點(diǎn)是即使不同文件存在很多相同的數(shù)據(jù),也無(wú)法刪除文件中的重復(fù)數(shù)據(jù)。

        (2)文件塊消冗

        將一個(gè)文件按不同的方式劃分成數(shù)據(jù)塊,以數(shù)據(jù)塊為單位進(jìn)行檢測(cè)。該方法的優(yōu)點(diǎn)是計(jì)算速度快、對(duì)數(shù)據(jù)變化較敏感。

        (3)字節(jié)級(jí)消冗


        上一頁(yè) 1 2 下一頁(yè)

        關(guān)鍵詞: 重復(fù)數(shù)據(jù) 刪除技術(shù)

        評(píng)論


        相關(guān)推薦

        技術(shù)專(zhuān)區(qū)

        關(guān)閉
        主站蜘蛛池模板: 安徽省| 观塘区| 卢龙县| 云阳县| 黄平县| 东兴市| 遵化市| 广昌县| 轮台县| 隆尧县| 西乌珠穆沁旗| 南皮县| 宣恩县| 长顺县| 仲巴县| 冕宁县| 安丘市| 双辽市| 西乌| 承德市| 金沙县| 南靖县| 广灵县| 杂多县| 汝州市| 邢台市| 济阳县| 肥东县| 鹤庆县| 沁源县| 建宁县| 五家渠市| 鄯善县| 九江县| 什邡市| 甘谷县| 北京市| 磴口县| 长岛县| 卢氏县| 广东省|