本發明公開了一種基于結構和內容二級過濾的 Web 數據相似性檢測方法,在傳統的通用相似性檢測
方法的基礎上,發掘出 Web 數據結構和內容分布的特點,對檢測的文檔集進行兩級過濾;兩級過濾中的
第一級過濾是結構相似性過濾,對每個Web文檔建模為Tag樹結構,從而剔除在結構上不相似的文檔集,
并對剩余的文檔進行關鍵內容抽取,將其表示成元組向量的形式,將關鍵信息連接起來生成字符串集;
兩級過濾中的第二級過濾則對第一級過濾后生成的字符串集進行 Trie
掃碼關注,查看更多科技成果