《計算機應用研究》|Application Research of Computers

一種基于雙向LSTM的聯合學習的中文分詞方法

Joint learning method based on BLSTM for Chinese word segmentation

免費全文下載 (已被下載 次)  
獲取PDF全文
作者 章登義,胡思,徐愛萍
機構 武漢大學 計算機學院,武漢 430072
統計 摘要被查看 次,已被下載
文章編號 1001-3695(2019)10-008-2920-05
DOI 10.19734/j.issn.1001-3695.2018.03.0239
摘要 針對現有的基于深度學習的神經網絡模型通常都是對單一的語料庫進行訓練學習,提出了一種大規模的多語料庫聯合學習的中文分詞方法。語料庫分別為簡體中文數據集(PKU、MSRA、CTB6)和繁體中文數據集(CITYU、AS),每一個數據集輸入語句的句首和句尾分別添加一對標志符。應用BLSTM(雙向長短時記憶模型)和CRF(條件隨機場模型)對數據集進行單獨訓練和多語料庫共同訓練的實驗,結果表明大規模的多語料庫共同學習訓練能取得良好的分詞效果。
關鍵詞 中文分詞; 大規模語料庫; 聯合學習; 雙向長短時記憶模型
基金項目 國家重點研發計劃資助項目(2017YFC0803700)
本文URL http://www.pbxovf.icu/article/01-2019-10-008.html
英文標題 Joint learning method based on BLSTM for Chinese word segmentation
作者英文名 Zhang Dengyi, Hu Si, Xu Aiping
機構英文名 School of Computer,Wuhan University,Wuhan 430072,China
英文摘要 The existing neural network models based on deep learning are usually trained on single criterion corpora. This paper proposed a joint learning method based on bi-directional long short-term memory(BLSTM) neural network and conditional random fields(CRF) for large-scale corpora. The corpora were composed of simplified Chinese data sets(PKU, MSRA, CTB6) and traditional Chinese data sets(CITYU, MSR). This method added a pair of identifiers to the beginning and end of each input sentence of the data set. The results of the experiments show that the proposed method has good effect on Chinese word segmentation for such large-scale corpora.
英文關鍵詞 Chinese word segmentation; large-scale corpora; joint learning; bi-directional long short-term memory neural network model
參考文獻 查看稿件參考文獻
 
收稿日期 2018/3/16
修回日期 2018/6/12
頁碼 2920-2924
中圖分類號 TP391.1
文獻標志碼 A
黑龙江时时玩法介绍