結(jié)合主題模型詞向量的CNN文本分類

作者:牛雪瑩 太原科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院; 山西太原030024

摘要:挖掘微博文本中的信息對(duì)自動(dòng)問答、輿情分析等應(yīng)用研究具有重要意義。文本數(shù)據(jù)的分類研究是文本數(shù)據(jù)挖掘的基礎(chǔ)。本文提出將Word2vec和LDA(Latent Dirichlet Allocation)的文本表示同時(shí)輸入卷積神經(jīng)網(wǎng)絡(luò)模型進(jìn)行高層語(yǔ)義特征抽象和分類學(xué)習(xí),使得輸入的詞向量既能表現(xiàn)詞語(yǔ)之間的語(yǔ)義信息又能體現(xiàn)文本的主題思想。首先用Word2vec和LDA模型分別在語(yǔ)料庫(kù)中學(xué)習(xí)產(chǎn)生詞向量,然后詞向量分別級(jí)聯(lián)得到各自的文本矩陣表示,最后將文本矩陣作為2個(gè)通道同時(shí)輸入到卷積神經(jīng)網(wǎng)絡(luò)做分類訓(xùn)練,并通過微博數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證了該方法的有效性。

注:因版權(quán)方要求,不能公開全文,如需全文,請(qǐng)咨詢雜志社

計(jì)算機(jī)與現(xiàn)代化

統(tǒng)計(jì)源期刊 下單

國(guó)際刊號(hào):1006-2475

國(guó)內(nèi)刊號(hào):36-1137/TP

雜志詳情
相關(guān)熱門期刊

服務(wù)介紹LITERATURE

正規(guī)發(fā)表流程 全程指導(dǎo)

多年專注期刊服務(wù),熟悉發(fā)表政策,投稿全程指導(dǎo)。因?yàn)閷W⑺詫I(yè)。

保障正刊 雙刊號(hào)

推薦期刊保障正刊,評(píng)職認(rèn)可,企業(yè)資質(zhì)合規(guī)可查。

用戶信息嚴(yán)格保密

誠(chéng)信服務(wù),簽訂協(xié)議,嚴(yán)格保密用戶信息,提供正規(guī)票據(jù)。

不成功可退款

如果發(fā)表不成功可退款或轉(zhuǎn)刊。資金受第三方支付寶監(jiān)管,安全放心。