摘要:從基因?qū)用鎸Π┌Y進(jìn)行診斷將有效提高患者的治愈率,但癌癥基因表達(dá)數(shù)據(jù)集通常存在高維、小樣本、高噪聲并且類別不平衡等問題,對此類數(shù)據(jù)進(jìn)行分類是一項具有挑戰(zhàn)性的任務(wù).針對這些問題,提出一種基于差分進(jìn)化的代價敏感Stacking(DE-CStacking)集成的基因表達(dá)數(shù)據(jù)分類算法,采用隨機(jī)森林、K近鄰、樸素貝葉斯作為Stacking集成的初級學(xué)習(xí)器,將代價敏感的支持向量機(jī)作為次級學(xué)習(xí)器,初級學(xué)習(xí)器的輸出類概率和原始特征集作為次級學(xué)習(xí)器的輸入,并采用差分進(jìn)化對這些學(xué)習(xí)器的參數(shù)進(jìn)行優(yōu)化.通過在四個UCI的癌癥基因數(shù)據(jù)上的實驗對比,相對于其他傳統(tǒng)的集成算法,DE-CStacking算法在癌癥基因數(shù)據(jù)上表現(xiàn)出更好的泛化性能.
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社