《計算機應用研究》|Application Research of Computers

基于WMF_LDA主題模型的文本相似度計算

Text similarity calculation based on WMF_LDA topic model

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 張璐,蘆天亮,杜彥輝
機構 中國人民公安大學 a.信息技術與網絡安全學院;b.網絡空間安全與法治協同創新中心,北京 100038
統計 摘要被查看 次,已被下載
文章編號 1001-3695(2019)10-007-2916-04
DOI 10.19734/j.issn.1001-3695.2018.04.0219
摘要 利用LDA模型進行文本相似度的計算考慮到了語義特征,但是存在詞語數量多、未結合詞語語義、未從文本層面挖掘和利用不同類別文本固有的領域間差異的缺點。針對以上問題,提出WMF_LDA(詞語合并與過濾潛在狄利克雷分布)主題模型。將領域詞和近義詞進行統一化映射,并根據詞性將文本進行過濾,最后再進行主題建模。實驗證明,該方法使得建模時詞語量大大減少,減少了建模過程的時間消耗,提高了最后的文本聚類的速度。并且與其他文本相似度方法相比,提出的方法在準確度上也有一定程度的提升。
關鍵詞 詞語語義; 詞語合并; 詞性篩選; 文本相似度
基金項目 國家重點研發計劃重點專項資助項目(2017YFB0802804)
國家自然科學基金資助項目(61602489)
中國人民公安大學2018年基本科研業務費科研機構項目(2018JKF504)
本文URL http://www.pbxovf.icu/article/01-2019-10-007.html
英文標題 Text similarity calculation based on WMF_LDA topic model
作者英文名 Zhang Lu, Lu Tianliang, Du Yanhui
機構英文名 a.Information Technology & Network Security Institute,b.CIC of Security & Law for Cyberspace,People's Public Security University of China,Beijing 100038,China
英文摘要 The calculation of text similarity with LDA(latent Dirichlet allocation) model takes into account the semantic features, but it has the disadvantages of a large number of words, unconformity of the semantics of words, and the inability to dig and exploit the inter-domain differences inherent in texts of different categories. This paper proposed WMF_LDA topic model(word merging and filtering_LDA). This model mapped domain words and synonyms, and filtered the words based on POS. Finally, it used LDA theme on the processed result. Experiments show that this method greatly reduces the amount of words during modeling, reduces the time consumption of the modeling process, and improves the speed of the final text clustering. And compared with other text similarity methods, the proposed method also has a certain degree of improvement in accuracy.
英文關鍵詞 word semantics; word merging; POS(part-of-speech) filtering; text similarity
參考文獻 查看稿件參考文獻
 
收稿日期 2018/4/20
修回日期 2018/5/16
頁碼 2916-2919,2951
中圖分類號 TP391.1
文獻標志碼 A
黑龙江时时玩法介绍