摘要:對(duì)大規(guī)??萍嘉墨I(xiàn)進(jìn)行整理分析時(shí),常常需要自動(dòng)識(shí)別論文作者所歸屬的組織機(jī)構(gòu),此時(shí)需要將論文中的作者地址信息與對(duì)應(yīng)的機(jī)構(gòu)名稱(chēng)進(jìn)行自動(dòng)匹配。同一個(gè)機(jī)構(gòu)的作者地址信息在不同的英文論文中可能出現(xiàn)多種不同的寫(xiě)法,這給匹配造成了困難。針對(duì)這一問(wèn)題,設(shè)計(jì)出一種機(jī)器學(xué)習(xí)方法,此方法充分利用英文論文中作者地址的書(shū)寫(xiě)特點(diǎn),在基于類(lèi)中心向量的基礎(chǔ)上將作者地址信息與機(jī)構(gòu)名稱(chēng)進(jìn)行自動(dòng)匹配。與傳統(tǒng)方法比較,該方法不需要手工編寫(xiě)煩瑣的匹配規(guī)則,被應(yīng)用于中國(guó)科學(xué)院作者地址信息數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果證明了此方法的可行性。
注:因版權(quán)方要求,不能公開(kāi)全文,如需全文,請(qǐng)咨詢(xún)雜志社
國(guó)際刊號(hào):2096-7586
國(guó)內(nèi)刊號(hào):42-1907/C