《計算機應用研究》|Application Research of Computers

面向跨語言文本分類與標簽推薦的帶標簽雙語主題模型的研究

Research on labeled bilingual topic model for cross-lingual text classification and label recommendation

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 田明杰,崔榮一
機構 延邊大學 計算機科學與技術學科 智能信息處理研究室,吉林 延吉 133002
統計 摘要被查看 次,已被下載
文章編號 1001-3695(2019)10-006-2911-05
DOI 10.19734/j.issn.1001-3695.2018.04.0216
摘要 針對日漸豐富的跨語言的文字信息資源與新聞報道及科技文獻中的多標簽數據,為了挖掘跨語言間的相關性及數據屬性間的關聯性,提出了帶標簽雙語主題模型,應用于跨語言文本分類與標簽的推薦。首先,假設科技文獻中的關鍵詞與摘要部分有著內容上的相關性,對關鍵詞進行提取,并進行標簽化,進而把標簽對應于主題模型中的主題,實例化“潛在”的主題;其次,利用帶標簽雙語主題模型對摘要部分進行了訓練迭代;最后,對新加入的文檔進行跨語言文本分類及標簽的推薦。實驗結果表明,跨語言文本分類任務中micro-<i>F</i><sub>1</sub>達到94.81%,推薦的標簽也能較好地體現出語義上的相關性。
關鍵詞 主題模型; 標簽; 跨語言文本分類; 標簽推薦; 潛在主題
基金項目 國家語委“十二五”科研規劃項目(YB125-178)
延邊大學外國語言文學世界一流學科建設科研項目(18YLPY13)
本文URL http://www.pbxovf.icu/article/01-2019-10-006.html
英文標題 Research on labeled bilingual topic model for cross-lingual text classification and label recommendation
作者英文名 Tian Mingjie, Cui Rongyi
機構英文名 Intelligent Information Processing Laboratory,Dept. of Computer Science & Technology,Yanbian University,Yanji Jilin 133002,China
英文摘要 Aiming at the increasingly rich multi language information resources and multi-label data in news reports and scientific literatures, in order to mining the relevance between languages and the correlation between data, this paper proposed labeled bilingual topic model, which was applied on cross-lingual text classification and label recommendation. First of all, it could assume that the keywords in the scientific literature are relevant to the abstract in same article. And then it extracted the keywords and regarded it as labels, and aligned the labels with topics in topic model, instantiated the "latent" topic. Secondly, this paper trained the abstracts in article through the proposed topic model. Finally, it classified the new documents by cross-lingual text classifier, and also recommended the labels. The experiment result show that micro-<i>F</i><sub>1</sub> measure reaches 94.81% in cross-lingual text classification task, and the recommended labels also reflects the sematic relevance with documents.
英文關鍵詞 topic model; label; cross-lingual text classification; label recommendation; latent topic
參考文獻 查看稿件參考文獻
 
收稿日期 2018/4/3
修回日期 2018/5/7
頁碼 2911-2915
中圖分類號 TP391
文獻標志碼 A
黑龙江时时玩法介绍