關 閉

        新聞中心

        EEPW首頁 > 工控自動化 > 設計應用 > 基于網絡設備的網頁過濾的設計

        基于網絡設備的網頁過濾的設計

        作者: 時間:2011-03-25 來源:網絡 收藏

          3 內容過濾

          3.1 響應報文的獲取與重組

          由于網絡的復雜性,返回的HTTP 響應報文可能不是有序的到達的,因此在上需要對到達的響應報文進行有序的重組。根據請求報文的五元組信息,收集該請求對應的HTTP 響應報文;由于可能亂序,根據ACK 字段和Seq 字段對報文進行排序重組。在重組中建立的數據結構圖2 所示。

        重組使用的數據結構

        圖2 重組使用的數據結構

          3.2 文本的表示

          目前常用的文本表示模型有許多種,常用的有:布爾邏輯模型、概率模型和向量空間模型等。在向量空間模型,文本內容被形式化為多維空間中的一個點,把對文本內容的處理簡化為向量空間中向量運算,使問題的復雜性大為降低。

          權重的計算既可用規則的方法手工完成,又可通過統計的方法自動完成,便于融合統計和規則兩種方法。

          向量空間模型用項的向量空間來表示文檔信息,項是指用來表示文檔內容特征的基本語言單位(字、詞、詞組或短語等),也稱為特征詞,文檔可以用項的*來表示。一個網頁可以由特征以及其權值表示,如下:


          其中 xi 為文本向量空間中的一個特征, w i 為該特征的權值。

          3.3 特征的選取

          一個文本攜帶大量的信息,基于計算的復雜性考慮,只能在文本信息中提取出其中一些比較重要的特征;并且對于實際的性能要求,文本中的關鍵信息足以反映一個文本特征。像一個文本中出現的“的”、“有”等一些詞是一些通用詞,不能體現某些文本的特征,因此需要事先對文本進行預處理,去除掉這些詞。



        關鍵詞: 網絡設備

        評論


        相關推薦

        技術專區

        關閉
        主站蜘蛛池模板: 广宗县| 白玉县| 河西区| 岚皋县| 双江| 诏安县| 清水县| 精河县| 景东| 都江堰市| 德保县| 温州市| 成安县| 甘肃省| 黄浦区| 沭阳县| 彭水| 凭祥市| 平谷区| 普宁市| 太和县| 华蓥市| 五寨县| 祁东县| 灵寿县| 建平县| 安溪县| 峡江县| 师宗县| 青河县| 灵寿县| 柯坪县| 徐水县| 刚察县| 晋城| 金阳县| 肇庆市| 泰顺县| 迁安市| 东兰县| 江都市|