摘要:傳統(tǒng)K近鄰算法忽略每個屬性對分類的不同重要程度,將每個屬性同等看待,在計(jì)算樣本間距離時(shí)賦予每個屬性相同的權(quán)重,影響樣本分類的正確性。利用單一指標(biāo)來確定屬性重要性過于片面,無法全面反應(yīng)屬性對分類的重要程度。針對這一問題,利用信息增益和基尼不純度的綜合指標(biāo)作為判斷屬性重要程度的指標(biāo),該綜合指標(biāo)越大,屬性對分類的重要程度越高。并依據(jù)綜合指標(biāo)構(gòu)造屬性權(quán)重,計(jì)算樣本間的加權(quán)距離進(jìn)行分類。為驗(yàn)證該方法的有效性,分別基于UCI數(shù)據(jù)庫中Iris數(shù)據(jù)集和Wine數(shù)據(jù)集對基于信息增益和基尼不純度綜合指標(biāo)的加權(quán)K近鄰算法進(jìn)行仿真實(shí)驗(yàn),并與傳統(tǒng)K近鄰算法和基于信息增益加權(quán)K近鄰算法進(jìn)行對比,基于信息增益和基尼不純度綜合指標(biāo)的加權(quán)K近鄰算法錯誤率均低于傳統(tǒng)K近鄰算法和基于信息增益加權(quán)K近鄰算法。結(jié)果表明該方法比傳統(tǒng)K近鄰法和基于單一指標(biāo)加權(quán)K近鄰算法能更有效地對樣本進(jìn)行分類。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社