摘要:Labeled-LDA模型引入了類別標(biāo)簽信息,較傳統(tǒng)的LDA主題模型改進(jìn)了強制分配主題的問題,但Labeled-LDA模型仍存在一些問題,例如Labeled-LDA在訓(xùn)練主題模型之前沒有去除無用詞,在訓(xùn)練過程中沒有考慮詞與各類別的關(guān)聯(lián)度,且Labeled-LDA模型獲得的主題分布傾向于高頻詞,導(dǎo)致主題的表達(dá)能力降低等問題。本文提出WLabeled-LDA模型,在訓(xùn)練主題模型之前使用卡方特征來選出好的特征詞,訓(xùn)練主題模型時用獲得的詞對類別的卡方值進(jìn)行主題模型加權(quán),并使用高斯密度函數(shù)對特征詞加權(quán)來降低高頻詞對主題表達(dá)能力的影響。實驗結(jié)果顯示,此方法能使分類的準(zhǔn)確率和召回率得到一定的提高,說明其具有更好的分類效果。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社