歡迎來到優(yōu)發(fā)表網(wǎng)!

購物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀范文

時間:2023-10-13 16:07:25

序論:在您撰寫網(wǎng)絡(luò)輿情分析研究現(xiàn)狀時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。

網(wǎng)絡(luò)輿情分析研究現(xiàn)狀

第1篇

【關(guān)鍵詞】網(wǎng)絡(luò)輿情監(jiān)測 現(xiàn)狀 發(fā)展路徑

網(wǎng)絡(luò)輿情監(jiān)測業(yè)的現(xiàn)狀

輿情監(jiān)測是指整合互聯(lián)網(wǎng)信息采集技術(shù)及信息智能處理技術(shù),通過對互聯(lián)網(wǎng)海量信息自動抓取、自動分類聚類、主題檢測、專題聚焦,滿足用戶的網(wǎng)絡(luò)輿情監(jiān)測和新聞專題追蹤等信息需求,形成簡報、報告、圖表等分析結(jié)果,為客戶全面掌握群眾思想動態(tài),做出正確輿論引導(dǎo),提供分析依據(jù)。①針對網(wǎng)絡(luò)輿情監(jiān)測,目前有兩種觀點,一種觀點重在強調(diào)網(wǎng)絡(luò)輿情監(jiān)測軟件系統(tǒng)的作用,即網(wǎng)絡(luò)輿情監(jiān)測是通過對網(wǎng)絡(luò)各類信息匯集、分類、整合、篩選等技術(shù)處理,再形成對網(wǎng)絡(luò)熱點、動態(tài)、網(wǎng)民意見等實時統(tǒng)計報表的軟件工具。另一種觀點認為網(wǎng)絡(luò)輿情監(jiān)測是全部網(wǎng)絡(luò)輿情服務(wù)工作的最基礎(chǔ)部分,它是高度人機合一的工作。輿論監(jiān)測機構(gòu)以第三方的身份進行觀察,將事件各方視為平等媒介主體,通過搭建適當(dāng)?shù)臏贤ㄇ老`解、解決問題,同時提供客觀、中立的意見,是客戶的智囊和顧問。筆者認為,這兩種觀點都只是部分反映了網(wǎng)絡(luò)輿情的現(xiàn)實,是不全面的。因此,本文所討論的是建立在二者基礎(chǔ)上的網(wǎng)絡(luò)輿情監(jiān)測及其相關(guān)產(chǎn)業(yè)。總的來說,國內(nèi)的網(wǎng)絡(luò)輿情監(jiān)測服務(wù)機構(gòu)大致可以分為四類:

第一類由軟件公司和傳統(tǒng)的市場調(diào)查公司聯(lián)合成立的輿情監(jiān)測軟件企業(yè),以方正電子、拓爾思、軍犬為代表,它們的技術(shù)實力較為雄厚,抓取網(wǎng)絡(luò)輿情數(shù)據(jù)能力較強。

第二類是依托人民網(wǎng)、新華網(wǎng)等主流媒體建立的輿情監(jiān)測平臺,即輿情監(jiān)測行業(yè)的媒體派,如人民網(wǎng)輿情監(jiān)測室、新華網(wǎng)“輿情在線”。這兩個輿情監(jiān)測系統(tǒng)主要針對社情民意進行監(jiān)測,對時事熱點和受眾心理變化的敏感度較高。

第三類由高校或?qū)W術(shù)機構(gòu)創(chuàng)辦的輿情研究所。如中國傳媒大學(xué)網(wǎng)絡(luò)輿情(口碑)研究所、中國人民大學(xué)輿論研究所等。這類機構(gòu)具有濃厚的學(xué)術(shù)傳統(tǒng),匯聚了新聞學(xué)、傳播學(xué)專業(yè)的各類精英,善于捕捉網(wǎng)絡(luò)輿情的變化,并將其歸納、梳理,總結(jié)規(guī)律并且上升到理論研究的高度。

第四類是由輿情監(jiān)測軟件機構(gòu)和高校新聞與傳播研究所合作成立的輿情實驗室,如南京大學(xué)—谷尼網(wǎng)絡(luò)輿情監(jiān)測與分析實驗室、清華—優(yōu)訊輿情實驗室。這一類機構(gòu)將高校多學(xué)科團隊的學(xué)術(shù)優(yōu)勢與先進互聯(lián)網(wǎng)監(jiān)控軟件的技術(shù)優(yōu)勢、市場經(jīng)驗相結(jié)合,實現(xiàn)優(yōu)勢互補。

這些網(wǎng)絡(luò)輿情的監(jiān)測機構(gòu)都有一套較為完整的網(wǎng)絡(luò)輿情監(jiān)測理論體系、工作方法、工作流程和應(yīng)用技術(shù),既可以對傳統(tǒng)媒體的網(wǎng)絡(luò)版,又可以對各大網(wǎng)站的新聞、新聞跟帖、網(wǎng)絡(luò)論壇、微博、博客、網(wǎng)絡(luò)時評等進行24小時監(jiān)測,并進行專業(yè)的統(tǒng)計和分析,最終形成監(jiān)測分析研究報告。但是,它們之間的不同之處亦很明顯:

第一,服務(wù)的對象不同。輿情監(jiān)控系統(tǒng)功能、工作流程大同小異,服務(wù)的對象不盡相同,有專攻一個領(lǐng)域的,有做全面監(jiān)測的。如紅麥輿情監(jiān)測系統(tǒng)重點在做金融行業(yè),已經(jīng)形成了成熟的工作流程和方法;新華輿情在線主要是專為中央有關(guān)部門服務(wù)的。第二,宣傳的重點不同。大多數(shù)機構(gòu)強調(diào)自己的技術(shù)實力,只有部分輿情監(jiān)測服務(wù)機構(gòu)強調(diào)自己的智力和人才資源。如清華優(yōu)訊,倡導(dǎo)是“中國目前唯一一家可以監(jiān)測電視、報刊、網(wǎng)站、論壇、博客、微博的全媒體輿情監(jiān)測服務(wù)商。”第三,對新產(chǎn)品開發(fā)的重視程度不同。以軟件系統(tǒng)著稱的技術(shù)派在其網(wǎng)站的主頁上只有案例庫匯集,缺少衍生品的開發(fā),而依托主流媒體或者高校的輿情監(jiān)測機構(gòu)非常重視衍生品的開發(fā)。

我國輿情監(jiān)測業(yè)存在的問題

從目前的情況來看,我國的輿情監(jiān)測業(yè)存在的問題主要表現(xiàn)為以下幾個方面:

輿情監(jiān)測機構(gòu)的專業(yè)人員嚴重缺乏。雖然有許多輿情監(jiān)測機構(gòu)在廣告中都提出依靠軟件系統(tǒng)能解決大部分問題,但是仍然需要輿情分析師結(jié)合軟件數(shù)據(jù),撰寫人工分析結(jié)論。目前,國內(nèi)的輿情分析師大多數(shù)由傳統(tǒng)的新聞宣傳工作者轉(zhuǎn)型而來,但是離市場的需求還有相當(dāng)大的人才缺口。據(jù)相關(guān)機構(gòu)調(diào)查顯示,我國專業(yè)輿情人才缺口現(xiàn)已超過120萬。②

輿情服務(wù)機構(gòu)的產(chǎn)業(yè)鏈不完善。國內(nèi)的一些公司如大旗網(wǎng)、藍色光標(biāo)等,它們提供的服務(wù)比較簡單,大都是企業(yè)發(fā)生危機后進行滅火工作。還有一些輿情監(jiān)測公司更像是體檢中心,不具備預(yù)警和危機應(yīng)對功能,客戶在得知自身問題后,也不能采取專業(yè)有效的措施去處理危機。從輿情監(jiān)測的產(chǎn)業(yè)鏈上看,整個行業(yè)由輿情監(jiān)測、分析、應(yīng)對處理多個環(huán)節(jié)構(gòu)成。從用戶需求的情況來看,用戶需要的是“高質(zhì)量的監(jiān)測平臺+專業(yè)的輿情服務(wù)”,而不僅僅是一個監(jiān)測軟件。與此同時,傳統(tǒng)媒體作為輿情產(chǎn)業(yè)鏈上的一環(huán),作用雖然非常重要,但從目前來看,它們往往處于產(chǎn)業(yè)鏈的下游,自主性嚴重不足。

重視對客戶的服務(wù),忽視對民意的研究。目前一些網(wǎng)絡(luò)監(jiān)測機構(gòu)只強調(diào)對政府和企業(yè)的服務(wù),對網(wǎng)上輿論則采取“堵”的解決策略。甚至還有一些專門的“刪帖公司”,甚至有一些輿情監(jiān)測公司就在自己的網(wǎng)頁上明確寫著可以替客戶“刪除負面信息”,這種同時兼營網(wǎng)絡(luò)刪帖業(yè)務(wù)的輿情監(jiān)測公司在行業(yè)內(nèi)大概占到20%。③還有一些地方與部門不是著眼于研究民意、改進工作,而是想借助輿情監(jiān)測和監(jiān)測機構(gòu)或主流媒體建立聯(lián)系,以便幫助他們監(jiān)控和處理負面信息。

輿情監(jiān)測行業(yè)規(guī)范尚未建立。由于目前有關(guān)管理部門尚未出臺嚴格的行業(yè)規(guī)范和標(biāo)準(zhǔn),一些商業(yè)網(wǎng)站、廣告公司、營銷公司、公關(guān)公司等,也開始紛紛涉足網(wǎng)絡(luò)輿情監(jiān)測業(yè)務(wù),不規(guī)范的業(yè)務(wù)運作使得“網(wǎng)絡(luò)刪帖”、“網(wǎng)絡(luò)水軍”等大量出現(xiàn),嚴重影響了輿論監(jiān)測行業(yè)的健康發(fā)展。截至2012年1月,經(jīng)過工信部軟件司認定登記頒證的“輿情”軟件共有約68款,市場上還大量存在未經(jīng)認證的同類軟件。在輿情監(jiān)測產(chǎn)業(yè)壯大的同時,呼吁推動輿情服務(wù)業(yè)透明化、規(guī)范化的呼聲也越來越多。

我國輿情監(jiān)測機構(gòu)的發(fā)展路徑

加強專業(yè)網(wǎng)絡(luò)輿情分析師的培養(yǎng)。輿情監(jiān)測軟件和平臺提高了效率,但人工分析仍是重點。在輿情分析師這個新職業(yè)群體中,雖然不乏搜索引擎專家、網(wǎng)絡(luò)調(diào)查專家、統(tǒng)計高手、圖表專家等“高技術(shù)”人才,但是分析師們所需要的不僅僅是技術(shù)。輿情分析師的五大基礎(chǔ)技能包括挖掘與收集網(wǎng)絡(luò)輿情信息、概括剖析網(wǎng)絡(luò)言論、抽樣統(tǒng)計網(wǎng)絡(luò)輿情數(shù)據(jù)、撰寫輿情分析報告、預(yù)測輿情走勢。一名合格的網(wǎng)絡(luò)輿情分析師,除了要有輿論學(xué)、傳播學(xué)、統(tǒng)計學(xué)、公共管理學(xué)等學(xué)科的理論知識以外,還應(yīng)具備很強的新聞敏感性、輿情分析研判和危機管理能力,熟悉網(wǎng)絡(luò)輿情抽樣、統(tǒng)計、分析工具和模型,對社會心理與網(wǎng)絡(luò)語言文化有長期觀察研究。作為獨立的第三方,輿情分析師樹立穩(wěn)定的價值觀至關(guān)重要。除此之外,還必須了解突發(fā)事件演變規(guī)律及輿情分析研判能力。

輿情監(jiān)測機構(gòu)與高等院?;蚩蒲兴蛐侣劽襟w結(jié)合,實現(xiàn)業(yè)務(wù)實踐與理論研究、硬技術(shù)與軟實力雙贏。大數(shù)據(jù)時代輿情監(jiān)測機構(gòu)要想謀求很好的發(fā)展,必須走強強聯(lián)合之路。具體來講,就是高等院?;蚩蒲兴蛐侣劽襟w相結(jié)合,實現(xiàn)業(yè)務(wù)實踐與理論研究、硬技術(shù)與軟實力雙贏,這在輿情監(jiān)測業(yè)界已經(jīng)有不少的成功案例。如2012年9月,紅麥聚信(北京)軟件技術(shù)有限公司與暨南大學(xué)成立“暨大—紅麥輿情研究實驗室”,以紅麥輿情監(jiān)測系統(tǒng)技術(shù)平臺為基礎(chǔ),收集和處理網(wǎng)絡(luò)、微博輿情信息數(shù)據(jù),提供給實驗室作為輿情研究的數(shù)據(jù);實驗室依據(jù)紅麥軟件提供的網(wǎng)絡(luò)、數(shù)據(jù),制作輿情深度分析報告。

整合資源,開發(fā)新產(chǎn)品,構(gòu)建完整的網(wǎng)絡(luò)輿情監(jiān)測產(chǎn)業(yè)鏈。輿情監(jiān)測機構(gòu)要選擇戰(zhàn)略合作伙伴,有效地整合資源才能提供快準(zhǔn)全的輿情、競爭情報等業(yè)務(wù)。如紅麥軟件與華聲財訊成功攜手,將技術(shù)、服務(wù)、業(yè)緣關(guān)系等優(yōu)勢完美結(jié)合。2012年8月,兩家簽署全面戰(zhàn)略合作伙伴協(xié)議,攜手進軍在云計算、大數(shù)據(jù)背景下的業(yè)務(wù)情報市場。經(jīng)過資源整合,促進彼此的發(fā)展??偟膩碚f,當(dāng)前輿情業(yè)從監(jiān)測、處理分析到應(yīng)對的整個產(chǎn)業(yè)鏈條上都已經(jīng)有了足夠多的競爭者。對于未來,誰能將整個鏈條打通并有效整合,誰將是未來的最大贏家。④

研究客戶需求和網(wǎng)絡(luò)民意,促進兩個輿論場良性互動。研究客戶需求,就是針對不同需求的客戶,開發(fā)出幾套特定的監(jiān)測系統(tǒng),進行輿情預(yù)警、危機指導(dǎo)、危機公關(guān)與修復(fù)、媒體溝通、法律維權(quán)等全方位的服務(wù)。研究網(wǎng)絡(luò)民意,就是對網(wǎng)絡(luò)上反映的問題在第一時間發(fā)現(xiàn)并及時處理,變堵為疏,而不是無視民意,任期發(fā)酵,讓其成為“爛尾”新聞。

“大眾麥克風(fēng)時代”,民心可敬、民意可畏、民氣可用,輿情監(jiān)測機構(gòu)要本著中央“三貼近”的要求,善于從群眾利益角度,觸摸民意脈搏,從基本事實的認定到價值判斷,乃至話語方式,與網(wǎng)民坦誠交流;同時讓黨和政府的聲音進入網(wǎng)絡(luò)社區(qū),推動互聯(lián)網(wǎng)上官民的順暢溝通和良性互動。

(作者單位:南陽師范學(xué)院新聞與傳播學(xué)院;本文系河南省2013年軟科學(xué)研究計劃項目成果,項目編號:132400411125)

【注釋】

①高忠業(yè):“青島入列首批國家輿情師培訓(xùn)計劃”,《青島財經(jīng)日報》,2013年5月8日

②李光:“百億市場前景催生網(wǎng)絡(luò)輿情監(jiān)測業(yè)”,《鳳凰周刊》,2010年7月5日。

第2篇

關(guān)鍵詞:智能檢測與分析;網(wǎng)絡(luò)輿情;數(shù)據(jù)挖掘

中圖分類號:TP393文獻標(biāo)識碼:A文章編號:1009-3044(2011)04-0759-03

The Design of the Detection and Analysis of Public Opinion Intelligent Network System

YANG Qiu-ping

(Dongguan University of Technology, Network Information Center, Dongguan 523808, China)

Abstract: We pay more and more attention to network public sentiment. Especially, the government concerns the net post and net news of emergencies and important events. Then, the special systems for analysis network public sentiment exist. Firstly, this article analysis the systems of network public sentiment, and then finds out their shortages and study the correlative techniques. At last, this article introduces a new way to build a network public sentiment detecting and analysis system.

Key words: intelligent detecting and analysis; network public sentiment; data mining

隨著互聯(lián)網(wǎng)的快速發(fā)展,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。網(wǎng)絡(luò)言論活躍已達到前所未有的程度,不論是對國家政策的討論,還是針對國內(nèi)或國際的重大事件,都能馬上形成網(wǎng)上輿論,這種網(wǎng)絡(luò)來表達觀點、傳播思想產(chǎn)生輿論壓力,達到任何部門、機構(gòu)都無法忽視的地步。

網(wǎng)絡(luò)輿情通過BBS論壇、博客、新聞跟貼、轉(zhuǎn)貼等形式對現(xiàn)實生活中某些熱點、焦點問題等進行反應(yīng),其中不乏較強影響力、傾向性的言論和觀點。如果引導(dǎo)不善,負面的網(wǎng)絡(luò)輿情將對社會公共安全形成較大威脅。對相關(guān)政府部門來說,如何加強對網(wǎng)絡(luò)輿論的及時監(jiān)測、有效引導(dǎo),以及對網(wǎng)絡(luò)輿論危機的積極化解,對維護社會穩(wěn)定、促進國家發(fā)展具有重要的現(xiàn)實意義,也是創(chuàng)建和諧社會的應(yīng)有內(nèi)涵。

1 系統(tǒng)價值

1.1 社會效益分析

網(wǎng)絡(luò)輿情智能監(jiān)測與分析系統(tǒng)利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)對網(wǎng)絡(luò)輿情的統(tǒng)計分析,并以此作為網(wǎng)絡(luò)輿情監(jiān)測的管理的依據(jù)。具體作用表現(xiàn)在以下幾個方面:

1) 系統(tǒng)向決策者提供客觀、準(zhǔn)確的輿情信息,有利于決策者做出正確的決策

2) 系統(tǒng)向決策者提供系統(tǒng)的、高效的、綜合的、全面的輿情信息,便于決策者全面的、正確的把握所需的信息, 提高決策效率, 啟迪決策思維

3) 系統(tǒng)能提供各種輿情的趨勢分析信息給決策者

1.2 經(jīng)濟效益分析

目前,由于互聯(lián)網(wǎng)的日益普及,各種輿情的不斷涌現(xiàn),好的、壞的都有。政府部門、大型機構(gòu)、社會企業(yè)等都希望能盡早識別不良傾向的、帶有煽動或甚至含有社會危害的言論,或者是獲取政策落實、制度實施效果等信息。這些需要揭示了系統(tǒng)建設(shè)在帶來巨大的社會價值的同時帶來巨大的經(jīng)濟效益。

2 同類系統(tǒng)現(xiàn)狀

基于目前的網(wǎng)絡(luò)現(xiàn)狀,為數(shù)不多的網(wǎng)絡(luò)輿情監(jiān)測系統(tǒng)基本上是采用關(guān)鍵詞搜索進行輿情信息檢測,由于關(guān)鍵詞搜索的查全率和查準(zhǔn)率都不高,因此網(wǎng)絡(luò)輿情監(jiān)測的效果不夠理想,更是無法自動發(fā)現(xiàn)新的輿情點。

部分網(wǎng)絡(luò)輿情檢測系統(tǒng)只是在企業(yè)內(nèi)部使用,無法適用于政府部門等大型機構(gòu),部分系統(tǒng)采用的算法效率低,不能快速對數(shù)據(jù)進行處理,因而無法滿足超大網(wǎng)絡(luò)環(huán)境下的輿情檢測與分析,無法做到自學(xué)習(xí)成長,沒有類似知識庫的自動累積處理功能,必須人工協(xié)助處理?;诖朔N情況,提出創(chuàng)建《網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)》項目來解決這些問題。

3 網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)簡介

該系統(tǒng)核心部分包括信息獲取、信息處理、前端信息展現(xiàn)幾個部分。實現(xiàn)從網(wǎng)頁獲取數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行清洗、提煉、分析總結(jié),最終形成決策信息并存入數(shù)據(jù)庫中,提供靈活的前端查詢機制,把信息傳遞給決策人員。

網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)實現(xiàn)以下目標(biāo):1) 對熱點話題、敏感話題識別。2) 實現(xiàn)傾向性分析。3) 實現(xiàn)對輿情主題的跟蹤。4) 自動形成輿情摘要。5) 形成趨勢分析報告。6) 自動識別突發(fā)事件及發(fā)展趨勢。7) 對敏感內(nèi)容實現(xiàn)預(yù)警。8) 提供輿情分析統(tǒng)計報告提供決策支持。

4 系統(tǒng)關(guān)鍵技術(shù)研究

4.1 網(wǎng)絡(luò)輿情行為模式識別技術(shù)

對于“行為模式識別”算法應(yīng)用最廣和成熟的是防垃圾郵件的“行為模式識別技術(shù)”。在垃圾郵件的行為模式識別技術(shù)的基礎(chǔ)上,根據(jù)網(wǎng)絡(luò)輿情的特點,輿情內(nèi)容內(nèi)在結(jié)構(gòu)關(guān)系、演化規(guī)律等基礎(chǔ)信息,收集網(wǎng)絡(luò)上典型的熱點話題、敏感話題、政策熱議等方面的適當(dāng)數(shù)量的文章組成行為識別學(xué)習(xí)訓(xùn)練庫,利用網(wǎng)上話題的熱度、焦度、敏度、頻度、銳度、歧度、粘度等度量指標(biāo)作為輿情分析的依據(jù),配以科學(xué)的算法,通過對“訓(xùn)練庫“進行學(xué)習(xí)及總結(jié)、計算,結(jié)合網(wǎng)絡(luò)輿情信息產(chǎn)生和傳播的典型行為特征,建立網(wǎng)絡(luò)輿情行為模式數(shù)學(xué)統(tǒng)計模型,以此實現(xiàn)網(wǎng)絡(luò)輿情的智能發(fā)現(xiàn)。

4.2 自動分類和聚類技術(shù)[1]

自動分類是指按照已有的分類,把相關(guān)信息按照分類的標(biāo)準(zhǔn)進行歸類。聚類則事先沒有定義特點的分類及標(biāo)準(zhǔn),是在分析過程中利用一定的算法,把類似的內(nèi)容進行自動劃類并聚合的處理過程。

根據(jù)輿情分析的特點,本系統(tǒng)基于統(tǒng)計的自動分類技術(shù),利用向量空間模型來表示輿情分析的文檔。對輿情文檔特征進行抽取和加權(quán)、機器學(xué)習(xí)。在處理過程中,考慮到不同位置出現(xiàn)的語詞的價值不同而給定不同的加權(quán)系數(shù)。機器學(xué)習(xí)的方法主要有支撐向量機、最近K鄰居方法和貝葉斯算法[2] 等,可以根據(jù)輿情文檔的特點而選擇相應(yīng)的方法。

輿情文檔自動聚類的關(guān)鍵步驟有文檔表示、相似度計算、聚類和給出聚類標(biāo)識等。常用的聚類方法有單遍聚類法、逆中心距聚類法、密度測試法、圖聚類法等。在網(wǎng)絡(luò)輿情分析中,根據(jù)輿情分析的目的,選擇那些最具有區(qū)分性的特征,而不是大多數(shù)文檔都具有的特征來實現(xiàn)自動聚類。

在本系統(tǒng)解決方案中采取了自動歸類和自動聚類相結(jié)合的方式,先進行自動歸類,再在各類別之下進行自動聚類。

4.3 內(nèi)容分析技術(shù)

內(nèi)容分析法是一種對于傳播內(nèi)容進行客觀,系統(tǒng)和定量的描述的研究方法。其實質(zhì)是對傳播內(nèi)容所含信息量及其變化的分析,即由表征的有意義的詞句推斷出準(zhǔn)確意義的過程。內(nèi)容分析的過程是層層推理的過程。隨著信息技術(shù)的發(fā)展,計算機的性能不斷提高,各種內(nèi)容分析技術(shù)也逐漸成熟,為網(wǎng)絡(luò)輿情的深度挖掘分析奠定了很好的基礎(chǔ)。

《內(nèi)容分析法:媒介信息量化研究技巧》[3]一書提供了系統(tǒng)全面的內(nèi)容分析研究的操作指南,深入分析了內(nèi)容分析中的各種常見問題,如測量、抽樣、信度、效度和數(shù)據(jù)分析中的各種技術(shù)。在進行網(wǎng)絡(luò)輿情內(nèi)容分析前,獲取相關(guān)網(wǎng)絡(luò)輿情數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,獲取有針對性的、信息量大、覆蓋全面的、連續(xù)的內(nèi)容樣例,定義分析單元。對數(shù)據(jù)進行量化處理形成評判記錄和進行信度分析兩部分內(nèi)容,再根據(jù)網(wǎng)絡(luò)輿情建立合適的維度,最后進行統(tǒng)計分析,并形成分析結(jié)論。

5 系統(tǒng)實現(xiàn)

在系統(tǒng)開發(fā)過程中,要建立了若干知識庫,利用垂直搜索、知識發(fā)現(xiàn)、自動分詞和抽詞、自動分類和聚類、內(nèi)容分析等技術(shù),實現(xiàn)對海量網(wǎng)絡(luò)信息進行監(jiān)測、網(wǎng)絡(luò)輿情的自動發(fā)現(xiàn)和分析。該系統(tǒng)建設(shè)的核心是要收集圍繞主題的、足夠量的數(shù)據(jù),并經(jīng)過整理形成規(guī)范數(shù)據(jù)再進行挖掘,輸出有用的決策信息,系統(tǒng)結(jié)構(gòu)圖如圖1所示。

系統(tǒng)涉及五個主要方面:

5.1 數(shù)據(jù)收集處理

進行網(wǎng)絡(luò)輿情分析的前提是獲取基于某個主題的、數(shù)量足夠多的、完整的網(wǎng)絡(luò)數(shù)據(jù)。為了解決這個問題,系統(tǒng)建設(shè)時考慮通過建立數(shù)據(jù)收集規(guī)則來達到此目的。在數(shù)據(jù)收集規(guī)則時主要考慮要收集的主題、要搜索的范圍、更新頻度、收集要到達的數(shù)據(jù)量等。

在規(guī)則制定后,信息收集組件利用類似“網(wǎng)絡(luò)爬蟲”的技術(shù),按照已經(jīng)設(shè)置的收集規(guī)則,到網(wǎng)絡(luò)上進行數(shù)據(jù)收集。 數(shù)據(jù)收集后按照主題歸于相應(yīng)的數(shù)據(jù)庫中,以便下一步的數(shù)據(jù)處理。

5.2 信息處理模塊

需要把收集的數(shù)據(jù)轉(zhuǎn)為有用的信息,在收集到相關(guān)數(shù)據(jù)后,先期對已經(jīng)收集完成的數(shù)據(jù)進行格式化、數(shù)據(jù)清洗、信息處理加工等步驟,最終形成規(guī)范的、適于統(tǒng)計的數(shù)據(jù)。然后再利用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)進行挖掘,形成相應(yīng)的統(tǒng)計信息,便于查詢輸出。下面將就關(guān)鍵核心的處理步驟進行說明。

5.2.1 對原始數(shù)據(jù)的預(yù)處理

為了在數(shù)據(jù)挖掘分析前對數(shù)據(jù)進行預(yù)處理,形成最終有效的待分析數(shù)據(jù)。首先是繼續(xù)數(shù)據(jù)格式化,利用數(shù)據(jù)格式化實現(xiàn)對各種網(wǎng)頁格式的數(shù)據(jù)進行模式化解析,形成系統(tǒng)統(tǒng)一的數(shù)據(jù)格式;然后進行數(shù)據(jù)清洗把“臟”的“洗掉”。該處理步驟主要把不完整的數(shù)據(jù)、錯誤的數(shù)據(jù)、重復(fù)的數(shù)據(jù)等不規(guī)范的數(shù)據(jù)進行清洗,去除無效的、重復(fù)的數(shù)據(jù),形成數(shù)量足夠的、時間段連續(xù)的、內(nèi)容圍繞主題的數(shù)據(jù),為下一步的深度挖掘做準(zhǔn)備。

5.2.2 實現(xiàn)對敏感輿情的報警

為了解決相關(guān)管理人員需要及時掌握敏感熱點或大事件的動態(tài),系統(tǒng)特增加了此處理步驟,在此將利用對敏感熱點或大事件的特征進行布控,在布控策略規(guī)則中設(shè)置需要關(guān)注的熱點敏感關(guān)鍵字,相關(guān)組件將對存儲的內(nèi)容進行掃描、分析。對匹配上的內(nèi)容進行預(yù)警并產(chǎn)生預(yù)警記錄,同時支持手機和郵件的報警方式,及時把相關(guān)信息發(fā)送給預(yù)設(shè)的人員。該模塊包括關(guān)鍵字匹配組件、報警處理組件。

5.2.3 數(shù)據(jù)的深度挖掘分析處理

經(jīng)過預(yù)處理的數(shù)據(jù)還只是數(shù)據(jù),并沒有形成有用的信息,所以引入數(shù)據(jù)挖掘分析處理步驟,以便對數(shù)據(jù)利用前面介紹的輿情行為模式分析、內(nèi)容分析等挖掘技術(shù)進行深度挖掘及分析,形成系統(tǒng)的核心信息數(shù)據(jù),為數(shù)據(jù)展現(xiàn)提供數(shù)據(jù)來源。

為了對數(shù)據(jù)進行挖掘,系統(tǒng)內(nèi)置的多種數(shù)據(jù)挖掘算法,實現(xiàn)自動對信息進行分類、總結(jié)。具體內(nèi)容如下:

針對中文信息的處理與分析,系統(tǒng)中的自動分詞組件采用詞典和規(guī)則為基礎(chǔ),綜合利用了基于概率分析的語言模型方法,使分詞的準(zhǔn)確性達到99%以上。在語義分析的基礎(chǔ)上,綜合考慮詞頻、詞性、位置信息,實現(xiàn)準(zhǔn)確的自動關(guān)鍵詞與自動摘要。利用網(wǎng)絡(luò)輿情模式識別技術(shù)可以自動發(fā)現(xiàn)新的網(wǎng)絡(luò)輿情模式,便于用戶盡早布防。

為解決自動分類的難題,系統(tǒng)內(nèi)置自動分類組件通過對訓(xùn)練庫的學(xué)習(xí),獲取每個分類的屬性特征模型,然后使用這一分類體系對未知分類情況的數(shù)據(jù)進行分類。聚類組件將結(jié)構(gòu)化的數(shù)據(jù)集合中的數(shù)據(jù)根據(jù)需要統(tǒng)計的主題劃分不同的子集,自動學(xué)習(xí)形成新的分類,滿足自動擴展分類的需要。

面對收集的海量數(shù)據(jù),如何獲取用戶所需的信息這個是一個關(guān)鍵問題,系統(tǒng)通過關(guān)聯(lián)分析、趨勢分析,從海量數(shù)據(jù)中挖掘關(guān)聯(lián)規(guī)則。同時,利用趨勢分析技術(shù),分析網(wǎng)絡(luò)輿論等隨時間的發(fā)展趨勢情況,以便實現(xiàn)對輿論環(huán)境的監(jiān)測與不良傾向的預(yù)警。

做到上面的內(nèi)容還只是實現(xiàn)了系統(tǒng)的一部分,系統(tǒng)另外提供對新的知識的自動發(fā)現(xiàn)。利用自動分類與聚類等技術(shù)基礎(chǔ),對知識進行挖掘并匯總分析,能實現(xiàn)對新的網(wǎng)絡(luò)輿情的發(fā)現(xiàn)及獲取發(fā)展趨勢。同時把結(jié)果合并到系統(tǒng)已有的知識庫,達到不斷擴展知識庫的要求。

有時候用戶會要對特定的事件或輿情進行跟蹤,為了解決此問題,通過系統(tǒng)提供的對象跟蹤組件,利用用戶在系統(tǒng)中設(shè)置的需要特別跟蹤的對象的特征,在分析過程中對涉及該對象的數(shù)據(jù)進行特別分析和處理,形成該對象的信息鏈存儲到數(shù)據(jù)庫中,在數(shù)據(jù)展現(xiàn)時可以通過圖表等方式展現(xiàn)對象跟蹤鏈的相關(guān)信息。

5.3 海量數(shù)據(jù)的存儲

網(wǎng)絡(luò)輿情數(shù)據(jù)量是海量的,如何提高查詢的反饋速度是另外一個重要的問題,系統(tǒng)通過建立全文索引技術(shù),對存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)建立合理的索引,使數(shù)據(jù)查詢輸出時提高輸出速度及準(zhǔn)確性,特別是針對重要的關(guān)鍵字進行檢索時能大大的提高查詢速度。

除了全文索引,數(shù)據(jù)管理系統(tǒng)的選擇是另外一個重點??疾炷壳耙呀?jīng)成熟的數(shù)據(jù)庫管理系統(tǒng),發(fā)現(xiàn)Oracle是最合適的。所以本系統(tǒng)就采用Oracle作為數(shù)據(jù)存儲的數(shù)據(jù)庫系統(tǒng),同時可以利用其提供的多維查詢技術(shù),實現(xiàn)Olap的查詢要求。

5.4 數(shù)據(jù)快速,準(zhǔn)確的展現(xiàn)

有了海量的、有用的信息,如何把這些數(shù)據(jù)展現(xiàn)給用戶?在本系統(tǒng)主要考慮對關(guān)鍵字的查詢輸出、輿情新關(guān)鍵字挖掘查詢、輿情報告的輸出、報警信息的查詢、各種統(tǒng)計報表的輸出。

對于輸出的技術(shù)要求,在數(shù)據(jù)輸出時系統(tǒng)利用Oracle系統(tǒng)的Olap技術(shù)結(jié)合系統(tǒng)提供的查詢頁面框架,可以實現(xiàn)用戶從多個角度對各類數(shù)據(jù)的查詢,在頁面處理上目前市面上已經(jīng)有相關(guān)的成熟的技術(shù)可以作為參考,相信不會有技術(shù)難點。

針對輸出的內(nèi)容,系統(tǒng)內(nèi)置了部分統(tǒng)計報表,這些報表是基于網(wǎng)絡(luò)輿情分析專家在輿情檢測與分析方面的專業(yè)知識進行設(shè)計,能滿足大多數(shù)用戶的需要。為了滿足個性化的查詢輸出,同時系統(tǒng)支持用戶自定義適合自己的統(tǒng)計報表。

5.5 通過系統(tǒng)管理功能保證系統(tǒng)正常運行

為了滿足個性化的管理要求,系統(tǒng)提供系統(tǒng)設(shè)置、角色管理、用戶管理、數(shù)據(jù)備份等功能,支持定義常用的網(wǎng)頁結(jié)構(gòu)及識別規(guī)則的定義,用于在數(shù)據(jù)獲取后的格式化分析。解決網(wǎng)頁結(jié)構(gòu)識別規(guī)則定義、報警關(guān)鍵字設(shè)置、報警記錄接收手機號或郵箱設(shè)置、系統(tǒng)管理用戶權(quán)限管理等內(nèi)容。

6 小結(jié)

該文先介紹了目前網(wǎng)絡(luò)現(xiàn)狀、同時就同類分析產(chǎn)品的不足進行了描述。另外著重從《網(wǎng)絡(luò)輿情智能檢測與分析系統(tǒng)》的兩個重點部分進行描述,從最核心的技術(shù)與模塊組成來闡述系統(tǒng)是如何實現(xiàn)的。

參考文獻:

[1] Han J,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)[M].Morgan Kaufmann,2000.

第3篇

關(guān)鍵詞:微博; 輿情監(jiān)測; 輿情分析; Scool; NoSQL

中圖分類號:TP311 文獻標(biāo)識碼:A文章編號:2095-2163(2013)02-0050-04

0引言

目前,隨著網(wǎng)絡(luò)全球化的進程加快以及移動技術(shù)的推廣,微博已經(jīng)成為了網(wǎng)絡(luò)輿情的主要源頭和有效傳播路徑。由于微博具有的進入門檻低、操作便捷、互動性強等特點,近兩年在全國得到了迅速的普及,獲得廣泛的應(yīng)用。但是不可忽視的隱患也隨之呈現(xiàn)。微博已經(jīng)成為了各種謠言和違法信息滋生、蔓延的主要平臺,對社會也造成了無法預(yù)知的不良影響。因此,開展微博的輿情監(jiān)控和分析研究已是大勢所趨,勢在必行。

1研究現(xiàn)狀

目前,已有針對網(wǎng)絡(luò)輿情分析和挖掘的軟件產(chǎn)品,較典型的有 Autonomy 網(wǎng)絡(luò)輿情聚成系統(tǒng)、Goonie 互聯(lián)網(wǎng)輿情監(jiān)測系統(tǒng)、TRS 互聯(lián)網(wǎng)輿情信息監(jiān)控系統(tǒng)、方正智思輿情預(yù)警輔助決策支持系統(tǒng)、中科點擊(北京)科技有限公司研發(fā)的軍犬網(wǎng)絡(luò)輿情監(jiān)控系統(tǒng)等。這些系統(tǒng)均能對網(wǎng)絡(luò)輿情發(fā)揮一定的監(jiān)測、分析和預(yù)警的作用,為社會和諧穩(wěn)定提供了有效的技術(shù)和決策支持。雖然如此,但針對微博輿情監(jiān)測和分析的大部分系統(tǒng)卻沒有充分考慮到微博用戶基數(shù)大、覆蓋面廣、數(shù)據(jù)量巨大、更新速度快的特點,而在這種情況下,采用普通的關(guān)系數(shù)據(jù)庫顯然無法滿足要求,因此,引入NoSQL技術(shù)存儲數(shù)據(jù)則是一個頗有前景的發(fā)展方向。

2微博輿情傳播特點

基于上述對微博使用方式的分析,決定了微博輿情的傳播將具有如下特點:

(1)信息生成和傳播簡便。只要簡單操作,就可以第一時間關(guān)注微博新聞中的相關(guān)人物,或轉(zhuǎn)發(fā)傳統(tǒng)新聞和論壇中的內(nèi)容,而且由于移動終端對微博的支持,微博就超越了時間與地域的限制,完全實現(xiàn)了微博的簡便簡易性。

(2)傳播信息快捷。僅以“7 .23”動車事件為例,2011 年7 月23 日晚20 點38 分事故發(fā)生,4分鐘后網(wǎng)友發(fā)出了第一條微博,比傳統(tǒng)媒體提早了兩個多小時。

(3)病毒爆發(fā)式的信息傳播模式。消息一經(jīng)發(fā)出,用戶的所有關(guān)注者都能收到,而這一群體再亦如此繼續(xù)向外傳播,則微博信息就呈現(xiàn)了病毒爆發(fā)式擴散傳播的態(tài)勢。

3基于noSQL的數(shù)據(jù)庫設(shè)計

NoSQL最初出現(xiàn)于2009年6月11日由Oskarsson在舊金山發(fā)起并組織的一個非正式會議上。NoSQL是當(dāng)下數(shù)據(jù)庫家族的外來者,雖然有些通用的特征,但卻沒有一個特征得到了明確定義。

根據(jù)輿情監(jiān)控系統(tǒng)的數(shù)據(jù)實際情況,在其系統(tǒng)的數(shù)據(jù)庫設(shè)計中引入NoSQL,當(dāng)寫入數(shù)據(jù)時,可在MySQL、NoSQL中分別寫入一條數(shù)據(jù)的不同字段,而讀取數(shù)據(jù)時,則從MySQL、NoSQL組合字段完成讀取。這一讀/寫過程如圖1所示。

在如圖1所示的組合結(jié)構(gòu)中,MySQL中存儲著需要查詢字段中的數(shù)字、時間等類型的小字段,其后按照查詢建立相應(yīng)的索引,而NoSQL中則存儲著包括大文本字段在內(nèi)的其他并不需要的字段。查詢過程可描述為,首先將數(shù)據(jù)主鍵從MySQL中查詢出來,再從NoSQL中直接取出對應(yīng)的數(shù)據(jù)。

文中設(shè)計的架構(gòu)模式使得MySQL和NoSQL能夠各自發(fā)揮所長,即由MySQL實現(xiàn)關(guān)系存儲,而NoSQL則實現(xiàn)數(shù)據(jù)存儲。這種設(shè)計的優(yōu)點如下:節(jié)省MySQL的IO開銷、提高MySQl Query Cache緩存命中率、改進了MySQL主從同步效率、提升了MySQL數(shù)據(jù)備份和恢復(fù)的速度、具有更好的擴展性。

還需一提的是,這種以MySQL為主、NoSQL為輔的架構(gòu)設(shè)計與MySQL的單體架構(gòu)相比,系統(tǒng)的多樣性能和可擴展性均得到了有效提高。

4基于微博的Scool輿情監(jiān)測分析系統(tǒng)設(shè)計與實現(xiàn)

基于微博的Scool輿情監(jiān)測分析系統(tǒng)旨在取代傳統(tǒng)的人工收集和監(jiān)控工作,實現(xiàn)深入、高效挖掘,并實時得到微博網(wǎng)絡(luò)中相對敏感的輿論信息,以警示管理人員及時采取相應(yīng)措施。

基于微博的Scool輿情監(jiān)測分析系統(tǒng)的實現(xiàn)過程是,每日需定時、周期地對新浪微博、騰訊微博、網(wǎng)易微博、搜狐微博進行網(wǎng)頁抓取后,并對其內(nèi)容實行解析后存入數(shù)據(jù)庫,而后通過分詞索引以建立搜索引擎,實現(xiàn)數(shù)據(jù)索引,再通過用戶設(shè)定的關(guān)鍵詞庫對采集的數(shù)據(jù)進行關(guān)鍵詞集過濾,由此獲得敏感輿情信息文本返回給用戶界面。系統(tǒng)還應(yīng)對收集的信息進行自然語言處理,從而識別得到熱點話題和熱門事件。

4.1軟件體系結(jié)構(gòu)

系統(tǒng)分為后臺數(shù)據(jù)分析模塊和前臺數(shù)據(jù)展示模塊。后臺模塊負責(zé)實現(xiàn)數(shù)據(jù)抓取與分析,是系統(tǒng)的核心。前臺模塊負責(zé)完成微博、Web數(shù)據(jù)展示和基本維護操作。

4.1.1前臺結(jié)構(gòu)

前臺展示程序分為四大塊,分別是:輿情信息展示、輿情搜索、用戶監(jiān)控網(wǎng)址和關(guān)鍵詞設(shè)置、用戶登錄與管理。其中,輿情整體全面展示則按五類來進行和表現(xiàn),分別是:最新輿情展示、按網(wǎng)站類型展示、按監(jiān)控網(wǎng)址展示、按話題事件展示和輿情統(tǒng)計。前臺模塊的結(jié)構(gòu)框架如圖2所示。

前臺展示程序主要基于JAVA開源SSH框架來進行構(gòu)建而得以實現(xiàn),其設(shè)計結(jié)構(gòu)如圖3所示。

在本系統(tǒng)的架構(gòu)設(shè)計中,將在表示層上構(gòu)設(shè)的Struts框架,在業(yè)務(wù)邏輯層構(gòu)設(shè)的Spring框架以及在數(shù)據(jù)訪問層構(gòu)設(shè)

(1)表現(xiàn)層使用JSP來實現(xiàn)構(gòu)建,為客戶端提供對應(yīng)用程序的訪問;

(2)控制層接受客戶端的請求,并根據(jù)不同的請求調(diào)用相應(yīng)的事務(wù)邏輯,再將處理結(jié)果返回到相關(guān)的頁面;

(3)業(yè)務(wù)邏輯層用來提供相關(guān)的業(yè)務(wù)邏輯;

(4)數(shù)據(jù)訪問層提供對數(shù)據(jù)庫的各種操作。

系統(tǒng)設(shè)計中的三大框架有機配合、協(xié)調(diào)統(tǒng)一,其各自實現(xiàn)功能為:

在表現(xiàn)層中,由Struts框架負責(zé)處理JSP頁面的請求和轉(zhuǎn)發(fā)工作;在系統(tǒng)中用Hibernate來封裝數(shù)據(jù)庫的連接類,通過該框架所提供的注解方式實現(xiàn)了實體類與數(shù)據(jù)庫表結(jié)構(gòu)間的映射關(guān)系,并由該框架完成在數(shù)據(jù)訪問層與數(shù)據(jù)庫間的交互工作,再通過Hibernate框架的二級緩存EHCache提供對用戶關(guān)鍵詞和行業(yè)惡劣情感詞的高效緩存。此外,系統(tǒng)使用Spring框架作為系統(tǒng)運行輕量級的容器,負責(zé)在業(yè)務(wù)邏輯層處理業(yè)務(wù)邏輯工作。通過在配置文件中設(shè)置對象的創(chuàng)建方式及對象之間的關(guān)系,即可由Spring框架的IoC的容器來創(chuàng)建對象,同時也維護對象之間的依賴關(guān)系。通過這三大框架的整合,有效降低了系統(tǒng)中各模塊之間的相關(guān)性,由此形成一個結(jié)構(gòu)科學(xué)、功能強大和層次清晰的框架體系。

4.1.2后臺結(jié)構(gòu)

由圖6可知道,后臺結(jié)構(gòu)可分為數(shù)據(jù)緩沖池隊列,線程池線程和數(shù)據(jù)庫三部分。其中,緩存隊列負責(zé)數(shù)據(jù)流的來源,關(guān)鍵處理流程則拆分至各個線程中獨立實現(xiàn);線程控制數(shù)據(jù)緩存池中數(shù)據(jù)流的走向,各線程本身的并發(fā)運行均交由線程池實現(xiàn)統(tǒng)一管理。數(shù)據(jù)庫則采用上述的NoSQL與關(guān)系數(shù)據(jù)庫相結(jié)合的對應(yīng)技術(shù)來主導(dǎo)實現(xiàn)。

4.2系統(tǒng)實現(xiàn)

用戶注冊、登錄系統(tǒng)后,可以點擊頁面上的相應(yīng)標(biāo)簽來查看有關(guān)的輿情記錄。同時,系統(tǒng)也會將每天最新的輿情記錄完整、清晰地呈現(xiàn)。用戶還可以點擊更多的輿情鏈接來查看當(dāng)日之前任何一天的輿情記錄。

可以點擊系統(tǒng)主頁上的輿情搜索標(biāo)簽來進行包含指定關(guān)鍵詞的輿情記錄,搜索頁面如圖7所示。在輸入框中輸入關(guān)鍵詞,就可以看到相關(guān)的信息。

5.結(jié)束語

在Scool輿情監(jiān)測和分析系統(tǒng)設(shè)計與實現(xiàn)過程中,有關(guān)信息存儲方面,本文主要提出了NoSQL和MySQL相結(jié)合的方法。實驗證明,采用這種信息存儲的方法可節(jié)省MySQL的IO開銷、提高MySQL數(shù)據(jù)備份和恢復(fù)的速度、且比以前更容易實現(xiàn)擴展。對其后類似系統(tǒng)的設(shè)計提供了有益借鑒,并顯示了一定參考價值。由于時間及技術(shù)的限制,測試和抓取的數(shù)據(jù)還不夠連續(xù)和充分,下一步仍可繼續(xù)完善和推進這一方面的工作。

參考文獻:

[1]賈焰,劉江寧. 微博的輿情特點及其謠言治理[J]. 圖書情報知識,2012(6):7-9.

[2]張玉峰,何超. 基于Web挖掘的網(wǎng)絡(luò)智能分析研究[J]. ITA,2011(4):64-68.

[3]汝艷紅. 微博信息傳播的特點及發(fā)展趨勢[J]. 青年記者,2012(8):27-30.

[4]鐘瑛,劉利芳. 微博傳播的輿論影響力[J]. 新聞與傳播研究,2013(2):8-12.

[5]FOWLER M. NoSQL Distilled[M]. 2009:1-20

[6]齊海鳳. 網(wǎng)絡(luò)輿情熱點發(fā)現(xiàn)與事件跟蹤技術(shù)研究[D]. 哈爾濱:哈爾濱工程大學(xué),2006:11-30.

第4篇

關(guān)鍵詞 情報學(xué);碩士論文;關(guān)鍵詞

中圖分類號G251 文獻標(biāo)識碼A 文章編號 1674-6708(2014)114-0013-02

當(dāng)前,世界各國的許多高等院校和科學(xué)研究機構(gòu)都在加強對圖書情報的研究,許多世界一流院校,比如Harvard University(哈佛大學(xué))、Princeton University(普林斯頓大學(xué))、Yale University(耶魯大學(xué))、Massachusetts Inst. of Technology(麻省理工學(xué)院)等都建立了比較完善的情報學(xué)教育體系。而比較而言,在我國高等院校與科研院所對圖書情報學(xué)的相關(guān)研究,明顯要相對落后,近年來隨著改革開放的深入推進,有關(guān)情報學(xué)的招生和課題研究有所提升,并呈現(xiàn)出較為快速的增長態(tài)勢,然而由于研究內(nèi)容相對較為高深,而且研究的靶場顯得較為前沿化與多元化。基于關(guān)鍵詞對學(xué)位論文進行統(tǒng)計、研究與分析是文獻計量學(xué)的范疇,是圖書情報學(xué)研究的重要內(nèi)容。即以學(xué)位文獻或?qū)W位文獻的某些特點為標(biāo)的,以聚集梳理一定數(shù)量文獻為基礎(chǔ),由此展開對某一時域某一領(lǐng)域科學(xué)技術(shù)基本狀況與基本特征的研究,并由此論述和預(yù)測該領(lǐng)域科學(xué)技術(shù)在今后一段時期的研究趨勢與特點規(guī)律態(tài)勢?;讵毺仃P(guān)鍵詞進行圖書情報領(lǐng)域的碩士學(xué)位論文進行分析,是情報學(xué)研究的一項重要方法,是一種將文獻資料中的眾多核心要素關(guān)聯(lián)起來,進行統(tǒng)計分析的引證分析方法,其可以較為科學(xué)地評價文獻所研究與發(fā)展的現(xiàn)狀和趨勢,揭示學(xué)科當(dāng)時研究的熱點,較為準(zhǔn)確地評價文獻所代表的學(xué)術(shù)水平。

1 研究對象數(shù)據(jù)來源

本文研究的對象定位于對國內(nèi)圖書情報領(lǐng)域這一總體框架,并于此基礎(chǔ)上將“靶向”集中于碩士學(xué)位論文的統(tǒng)計、分析與研究,將“靶標(biāo)”聚集到碩士學(xué)位論文的研究熱點、趨勢、重點、前沿以及其變化情況,從而更加清晰地梳理出我國情報學(xué)研究的發(fā)展脈絡(luò),從而為我國情報學(xué)教育發(fā)展提供參考。研究的主要數(shù)據(jù)來源集中于國內(nèi)著名的學(xué)位論文收集庫――中國知網(wǎng)CNKI學(xué)術(shù)文獻總庫、維普期刊資源整合服務(wù)平臺與萬方數(shù)據(jù)知識服務(wù)平臺“三大論文數(shù)據(jù)庫”,以及國內(nèi)高等院校圖書館自建特色數(shù)據(jù)庫。其中,中國知網(wǎng)CNKI和萬方數(shù)據(jù)庫是國內(nèi)收錄學(xué)位論文最為全面的數(shù)據(jù)庫,因此,為了確保分析研究的數(shù)據(jù)具有較高可信度與代表性,分析研究檢索的數(shù)據(jù)源即來自該兩個數(shù)據(jù)庫,著重定位于“學(xué)科專業(yè)名稱”、“學(xué)科專業(yè)分類”選項進行檢索,而檢索的時間區(qū)域定位于近10年,對于兩個數(shù)據(jù)庫檢索出來的文獻,對于相同的通過采用SQL 語句進行篩選,剔除重復(fù)的以及不符合的。

由此,以“情報學(xué)”作為檢索詞,從中國知網(wǎng)CNKI數(shù)據(jù)庫獲得1640篇碩士論文,從萬方數(shù)據(jù)庫中獲致1315篇碩士論文,通過SQL篩選剔除重復(fù)的以及不符合的795篇,總共獲得有效國內(nèi)圖書情報領(lǐng)域碩士論文2160篇。

2 基于高頻關(guān)鍵詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點

通過對獲取到的2160篇國內(nèi)圖書情報領(lǐng)域碩士論文進行研究,綜合統(tǒng)計論文的關(guān)鍵詞,累計關(guān)鍵詞有13976個,經(jīng)過分析研究,去除不能表達論文主題概念的關(guān)鍵詞3645個,共得10331個,平均每篇碩士文獻關(guān)鍵詞數(shù)為4.78個,由此可說明該統(tǒng)計是科學(xué)的,與國外科文獻資料對關(guān)鍵詞的標(biāo)引規(guī)則相符(國內(nèi)外科技期刊要求的每篇關(guān)鍵詞應(yīng)標(biāo)出 3-8 個),接著對關(guān)鍵詞的詞頻進行統(tǒng)計分析,將關(guān)鍵詞的頻度大于60作為標(biāo)準(zhǔn),將其定義為“高頻詞”,通過對“高頻詞”的統(tǒng)計分析,可以非常清晰地看出,有關(guān)“知識管理”這一主題的頻次最高,多達126次。無疑,這也證實了近些年來,學(xué)術(shù)界對知識管理這個方向的研究熱點。此外,“電子商務(wù)”為121次、“信息化”為118次、“信息技術(shù)”為112次、“競爭情報”為102次、“信息服務(wù)”為98次、“信息檢索”為96次、“數(shù)據(jù)挖掘”為87次、“數(shù)字圖書”為84次、“信息資源”為79次、“電子政務(wù)”為75次、 “知識服務(wù)”為71次、“知識共享”為68次、“數(shù)據(jù)倉庫”為63次,從中也反映了我國對信息化建設(shè)、知識服務(wù)、數(shù)字化建設(shè)等關(guān)注在日益提升,也驗證了我國國務(wù)院學(xué)位委員會重新頒布的《授予博士、碩士學(xué)位和培養(yǎng)研究生的學(xué)科、專業(yè)目錄》中“圖書館、情報與檔案管理”的實效,表明了情報學(xué)與管理學(xué)之間滲透和結(jié)合日益加強,也可以折射出當(dāng)前研究的重點、熱點仍然集中在情報學(xué)基礎(chǔ)領(lǐng)域,并預(yù)示著今后情報學(xué)研究的一個重點將是對網(wǎng)絡(luò)信息資源的開發(fā)、整合與利用。

3 基于聚類共詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點

通常來說,僅僅通過孤獨地察看論文的某一關(guān)鍵詞,通常是難以有充足的理由說明該論文所研究的主題,然而通過關(guān)注兩個或者兩個以上的關(guān)鍵詞,將可以給予人們更加充分的信息去把握論文的大致內(nèi)容和論文的主題脈絡(luò)。通過采取計算機數(shù)字高效處理作用,充分發(fā)揮Excel的數(shù)據(jù)透視功能,再次對出現(xiàn)次數(shù)高于60的高頻出現(xiàn)的關(guān)鍵詞進行“聚類性”分析,統(tǒng)計在同一論文中兩兩同時出現(xiàn)的關(guān)鍵詞,從而構(gòu)建出60 × 60的“聚類共詞矩陣”,通過這一矩陣的研究,非常清晰地顯示出“聚類共詞矩陣”是一個對稱矩陣,其中位于矩陣對角線上的數(shù)據(jù)顯示的是某關(guān)鍵詞自身一同出現(xiàn)的頻次,這個一同出現(xiàn)的現(xiàn)象就實質(zhì)來說,就是論文之間的相關(guān)度,對于非對角線上的數(shù)據(jù),則表示不同關(guān)鍵詞之間的共現(xiàn)頻次。通過這個矩陣可以從另一個側(cè)反題出,關(guān)鍵詞分布既有交叉、相互滲透又具有群組分布的獨立性。通過Excel的數(shù)據(jù)透視處理得到共現(xiàn)頻次較高的有:“知識管理”為124次,“電子商務(wù)”為106次,“競爭情報”為101次,“高校圖書館”為98次,“信息服務(wù)”為92次,“數(shù)據(jù)挖掘”為87次,“數(shù)學(xué)圖書館”為83次,“信息資源”為81次,“電子政務(wù)”為79次,“知識共享”為72次,“數(shù)據(jù)倉庫”為66次。由此可以看出,在國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文的研究主題中,當(dāng)前基于數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)挖掘是個熱點,同時也說明我國情報學(xué)教育研究的領(lǐng)域在不斷拓寬。

綜合以上,關(guān)注獨特關(guān)鍵詞下國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文研究的學(xué)科結(jié)構(gòu)特點,獲得了基于高頻關(guān)鍵詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點,以及基于聚類共詞的國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文特點,通過對研究結(jié)果的比較分析,得出了一些有較為充足理由支撐的結(jié)論,那就是從中可以較為清晰地得出,當(dāng)前以及今后一段時期國內(nèi)圖書情報領(lǐng)域碩士學(xué)位論文研究的側(cè)重點在于“數(shù)字化、信息化、電子化的知識管理與數(shù)據(jù)信息挖掘”。

參考文獻

[1]曾學(xué)喜.網(wǎng)絡(luò)輿情突發(fā)事件預(yù)警指標(biāo)體系構(gòu)建[J].情報理論與實踐,2013(11).

[2]Miao Adam X,Zacharias Greg L.A computational situation assessment model for nuclear power plant operations[J].IEEE Transactions on systems,Man and Cybernetics,2011(9).

第5篇

關(guān)鍵詞 科技;宣傳;機制;對策研究

中圖分類號G206.3 文獻標(biāo)識碼A 文章編號 1674-6708(2012)58-0006-02

經(jīng)歷改革開放30年后,廣東科技工作站在了一個新的發(fā)展起點,肩負著以“科學(xué)發(fā)展、先行先試”為動力加快建設(shè)創(chuàng)新型廣東的歷史重任。在新的形勢下,加強科技宣傳工作尤為重要和迫切。加強科技宣傳工作,是深入貫徹落實國家和省委、省政府新時期科技發(fā)展方針政策和決策部署,切實把增強自主創(chuàng)新能力貫徹到廣東現(xiàn)代化建設(shè)各個方面的需要;是增強全省推進自主創(chuàng)新決心和應(yīng)對國際金融危機信心的需要;是廣泛集聚人才、資金、項目等創(chuàng)新要素的需要;是提高全社會科技意識和公眾科學(xué)素質(zhì),不斷優(yōu)化廣東自主創(chuàng)新環(huán)境的需要。廣東科技宣傳要按照“大科技配套大宣傳,大宣傳服務(wù)大發(fā)展”的思路,創(chuàng)新宣傳方式,加強科技宣傳工作。為各項科技工作順利開展提供有力保障,為全省自主創(chuàng)新營造良好社會氛圍。

1 廣東科技宣傳工作現(xiàn)狀

1.1 建立科技宣傳組織機構(gòu),健全媒體聯(lián)絡(luò)制度

廣東省科技廳于2003年成立的省科技宣傳小組圍繞廣東科技工作中心任務(wù),制訂科技宣傳工作計劃,向主流媒體提供新聞報道線索和深度新聞背景。該小組通過不定期召開科技新聞會、科技新聞通氣會和科技新聞工作者聯(lián)誼會,及時向主流媒體通報科技工作的進展情況,積極配合新聞媒體做好科技宣傳報道工作。近年來,每年都開展的全省科技系統(tǒng)信息宣傳員業(yè)務(wù)培訓(xùn)工作,更邀請了省政府和科技日報有關(guān)專家舉辦科技宣傳知識講座。為了提高科技記者業(yè)務(wù)水平和深入科技報道的積極性,廣東各級政府科技部門積極組織科技好新聞評比活動和科技傳播論文評選活動,促進了科技宣傳隊伍整體水平的提高。近年來,由廣東科技新聞工作者協(xié)會牽頭組織年度科技好新聞的評選活動。2010年,第13屆廣東科技好新聞評選活動中,南方日報社、科技日報社、人民日報社、羊城晚報社、科學(xué)時報社及廣東電視臺、廣州電視臺等7家媒體的作品榮獲一等獎。另外,有52篇作品分別獲得二、三等獎。通過這次活動,進一步密切了科技管理部門與新聞媒體的聯(lián)系,調(diào)動了科技記者的積極性。

1.2 建立了一個多層次的科技宣傳平臺

目前,廣東省科技廳已經(jīng)建立了以主流媒體為主,橫向覆蓋報紙、廣播、電視、網(wǎng)絡(luò),縱向貫穿地市媒體的大范圍,多層次的科技宣傳平臺。它們包括:中央主要媒體《人民日報》、《科技日報》、新華社、中央電視臺、中國新聞社、《高新技術(shù)產(chǎn)業(yè)導(dǎo)報》,省內(nèi)主要媒體《南方日報》、《羊城晚報》、《廣州日報》、《南方都市報》、廣東電視臺、廣東電臺、南方電視臺,地市主要媒體《深圳商報》、深圳電視臺、《佛山日報》、佛山電視臺等,港澳媒體《香港文匯報》、《香港大公報》、鳳凰衛(wèi)視等。通過平臺內(nèi)各媒體資源的充分整合,廣東省的科技宣傳獲得了寬廣而暢通的傳播渠道。

1.3 深入開展主題宣傳活動

一方面,廣東省科技廳根據(jù)每個月或季度的科技宣傳重點,積極組織新聞媒體到高新區(qū)、重點實驗室、科研院所和企業(yè)等進行采訪,加深了媒體對廣東自主創(chuàng)新工作新進展、新做法的了解,搭建起媒體與科研院所、創(chuàng)新型企業(yè)之間的溝通橋梁,該做法得到媒體的一致認可。另一方面,緊緊圍繞省委、省政府的中心工作,聚焦廣東科技工作的重大事件,在做好常規(guī)性科技新聞宣傳的同時,重點抓好幾個專題宣傳報道是廣東科技新聞宣傳的一大特點。此外,廣東省科技廳定期召開專題新聞會,均邀請了中央駐粵及省市媒體參與報道,營造了良好的創(chuàng)新氛圍。

1.4 以廣東省“科技進步活動月”為平臺,切實提高科技宣傳的社會影響力

自1992年開展首屆廣東省“科技進步活動月”(下稱“活動月”)以來,至今已屆第20年?;顒釉乱殉蔀閺V東省參與面最廣、社會效益最顯著的科普活動品牌。按照科技部每年的統(tǒng)一部署和省委省政府的有關(guān)工作安排,我省組織舉辦了內(nèi)容豐富、形式多樣的一系列活動,組織和協(xié)助各大新聞媒體加大對“活動月”的宣傳力度,營造濃厚的科技創(chuàng)新氛圍,進一步提高社會影響力。由于“活動月”內(nèi)容豐富,吸引了中央和省的各大新聞媒體對各項活動進行多種渠道、多種形式的宣傳報道,各地方電視臺、電臺等媒體相應(yīng)配合當(dāng)?shù)亍盎顒釉隆惫ぷ鞯拈_展,制作了各具特色的新聞報道、專題片等,使“科技進步活動月”的活動參與和主題宣傳深入到廣大城鎮(zhèn)和農(nóng)村,在全省營造了良好的氛圍。

1.5 多渠道開展科技宣傳工作

除了主流媒體傳播渠道,科技傳播由于其傳播內(nèi)容的特殊性和傳播過程的復(fù)雜性,還存在著其他傳播渠道,主要有:一是專業(yè)交流渠道,如科技會展業(yè)、科技學(xué)術(shù)會議、科技學(xué)術(shù)團體進行的正式和非正式交流等,這些專業(yè)傳播渠道在廣東有較為豐富的資源;二是廣東高等院校、研究所數(shù)量多,高校、研究機構(gòu)的科技教育也是重要的科技傳播渠道;三是面向社會公眾的科學(xué)普及傳播渠道,這類傳播形式多樣,貼近社會生活,廣東開展已久的科技活動月就是代表;四是技術(shù)本身轉(zhuǎn)移和采用的傳播。有關(guān)專家指出,最有價值的科技傳播是科技在應(yīng)用中的傳播。廣東作為區(qū)域經(jīng)濟中心省份,是科技創(chuàng)業(yè)的沃土和高新技術(shù)成果轉(zhuǎn)化集散地,在聚集和擴散兩種基本運動形式下,廣東具備了發(fā)達的科技傳播和擴散網(wǎng)絡(luò),與其周邊省份以及經(jīng)濟腹地間存在著緊密的聯(lián)系和科技傳播。

然而,面對新形勢新要求,廣東省科技宣傳工作存在的問題日益顯現(xiàn)。主要體現(xiàn)在:對科技宣傳工作的重視和投入不夠、科技宣傳網(wǎng)絡(luò)不健全、科技宣傳資源力量分散、科技宣傳機制和方法創(chuàng)新不足等。

因此,創(chuàng)新科技宣傳工作思路,采取有力措施,只有堅持用創(chuàng)新的理念、創(chuàng)新的思維、創(chuàng)新的手段和方法,不斷加強和改進科技宣傳工作,才能不斷適應(yīng)形勢發(fā)展的需要,做到體現(xiàn)時代特點,把握時代脈搏,努力做到在內(nèi)容上出色,形式上出彩,立意上出新。

2 廣東科技宣傳工作建議與對策

切實加強科技宣傳工作對于擴大科技工作影響,提高全社會科技意識,廣泛吸引集聚科技創(chuàng)新資源,增強公眾的科技意識和科學(xué)素養(yǎng),加速科技信息傳遞和科技成果轉(zhuǎn)化,推動全社會科技事業(yè)發(fā)展都具有非常重要的意義。

廣東科技宣傳工作的渠道與方法主要從“兩個轉(zhuǎn)變”方面著手研究。一是在宣傳渠道上研究如何從過去僅僅依靠傳統(tǒng)平臺,到以傳統(tǒng)平臺為主、同時注重搭建新興平臺的轉(zhuǎn)變。二是在宣傳方法上要從過去大包大攬到注重把關(guān)決策轉(zhuǎn)變。

2.1 充分發(fā)掘新興媒體的科技宣傳作用,開辟科技宣傳的新陣地

不同的物質(zhì)載體,不同的傳播愿望,不同的用戶需求,都促進媒體窄眾、分眾傳播的步伐加快。報紙、電視、廣播、網(wǎng)絡(luò)等成熟的大眾媒體具有覆蓋面廣、公信力強等特點,是宣傳科技工作重要的、也是主要的渠道,而專業(yè)媒體及行業(yè)媒體卻有著專業(yè)性強,報道深刻等大眾媒體不可取代的優(yōu)勢??萍脊ぷ鞯男麄骶褪且⒁飧鶕?jù)不同層次、不同地域人群對科技信息的不同需求,利用這些成熟的宣傳渠道,搭建新的傳播平臺,進行分眾傳播。

2011年,科技日報社、科技興市研究會與廣東省科技廳合辦的“中國科技報道”網(wǎng)絡(luò)視頻網(wǎng)站就是利用網(wǎng)絡(luò)媒體和多媒體技術(shù)搭建的一個新的傳播平臺。該平臺以科技視頻新聞報道和宣傳工作為起點,面向全社會逐步提供科技視頻信息、查詢和咨詢服務(wù)。在此基礎(chǔ)上,不斷充實和豐富中國科技報道的信息量,為社會提供多方面、多層次的科技信息。

手機等新興媒體的出現(xiàn)為科技宣傳帶來了新的渠道和發(fā)展契機。以手機短信為例,由于具有成本低廉、傳播迅速、操作簡便等強大優(yōu)勢,為以“互動性”和“參與性”為發(fā)展趨勢的傳統(tǒng)媒體所用為新的盈利工具的同時,也應(yīng)該直接為科技宣傳所用,成為新的傳播渠道。此外,各地市也應(yīng)因地制宜地搭建自己的科技宣傳平臺。有科普場館的地市,要強化科普場館的科技宣傳功能,利用其場地大、受眾廣的優(yōu)勢,使其不僅成為科普宣傳的陣地,更成為科技工作宣傳的窗口。

“高交會”、“留交會”、“科技下鄉(xiāng)”、“科技進步活動月”都是廣東省科技活動的品牌,我們要把它們作為科技宣傳平臺,搞小型展覽,印發(fā)宣傳資料,進行分眾、定向的科技宣傳。據(jù)不完全統(tǒng)計,2011年廣東省“科技進步活動月”期間,全省共組織各類培訓(xùn)班800多場次,受培訓(xùn)人員65000多人次。組織各類講座、咨詢活動和論壇200多場次,參與群眾數(shù)萬人次。這些科技活動是科技宣傳的一個很好的載體。

2.2 注重頂層的科技宣傳規(guī)劃,下放具體的科技宣傳事務(wù)

科技宣傳是項復(fù)雜而繁瑣的工作,必須有科學(xué)專業(yè)知識,有科技管理知識,還要有傳播理論知識與技巧。作為科技管理部門,就應(yīng)該遵循社會分工的理念,發(fā)動科技企事業(yè)單位、高校、科研院所的在職或退休科技工作者廣泛地開展科技信息采集工作,發(fā)動傳播媒體和社會上的宣傳專業(yè)團體進行科技宣傳策劃及具體宣傳操作??萍脊芾聿块T負責(zé)對宣傳內(nèi)容的科學(xué)性、政治性、重大性,宣傳形式創(chuàng)新性,宣傳時機的準(zhǔn)確性進行把關(guān),學(xué)會“牽牛鼻子”。只有這樣,科技管理部門才能夠從繁瑣的事務(wù)性工作和自己不擅長的傳播專業(yè)工作中解脫出來,同時也發(fā)揮了社會各界的能動性,為專業(yè)傳播機構(gòu)提供更廣闊的創(chuàng)作空間。

如2008年,我省舉辦的紀念火炬計劃實施20周年宣傳活動,2009年高新區(qū)工作會議,2010年產(chǎn)學(xué)研工作會議的宣傳工作會議,2011年專業(yè)鎮(zhèn)轉(zhuǎn)型升級會議等重大會議,省科技廳有關(guān)處室主要負責(zé)對內(nèi)容、形式的把關(guān)決策,電視片的制作、紀念晚會的籌劃、舉辦等工作都交給了社會上的專業(yè)機構(gòu)去操作,宣傳活動得到了廣泛的好評。

2.3 廣東科技宣傳工作機制創(chuàng)新

在學(xué)習(xí)借鑒兄弟省份科技宣傳先進經(jīng)驗的基礎(chǔ)上,完善我省科技宣傳機制,創(chuàng)新科技宣傳模式,加強科技宣傳工作能力,是打開我省科技宣傳工作新局面的重要手段。例如浙江、遼寧分別與當(dāng)?shù)仉娨暸_合辦《創(chuàng)新故事》、《創(chuàng)新遼寧》欄目,搭建電視宣傳陣地;浙江與省委黨報《浙江日報》簽訂了全年100萬元的戰(zhàn)略合作協(xié)議,規(guī)劃了全年的專版數(shù)量及頭版新聞條數(shù)。借鑒兩省的經(jīng)驗做法,建議廣東省科技廳根據(jù)不同媒體的特點,優(yōu)化合作模式,建立戰(zhàn)略合作關(guān)系,構(gòu)建立體高效的科技宣傳網(wǎng)絡(luò)。一是劃定核心媒體范圍,重點加強溝通聯(lián)系;二是與主要媒體簽訂合作協(xié)議,商定專版版面量、專題(專欄)量及頭版頭條新聞量,更加系統(tǒng)地組織實施科技宣傳工作;三是與電視臺媒體建立穩(wěn)定的合作陣地,以定期播出的形式建立起長效的合作機制。

2.4 組織科技宣傳專業(yè)化采編隊伍

隨著宣傳工作的不斷延伸,亟需一批相對固定的、專業(yè)的寫作班子來完成重點宣傳材料的采寫,以提高宣傳質(zhì)量和效率。一是建議統(tǒng)籌安排科技系統(tǒng)內(nèi)《科技日報》、《廣東科技報》、《廣東科技》雜志的采編力量,以“人才租賃”(即不自己招人養(yǎng)人,利用現(xiàn)有專業(yè)人員力量,給予一定經(jīng)費支持)等方式,集中3~4名人員組成相對固定的寫作班子,負責(zé)重要信息和宣傳稿件的撰稿等工作。根據(jù)宣傳計劃,適時集中寫作班子力量,聯(lián)合主要媒體做好專題宣傳工作;二是與高等院校的新聞學(xué)院建立合作關(guān)系,由廣東省科技廳提供實習(xí)場地和必要的條件,校方提供2~3名優(yōu)秀實習(xí)生參與宣傳采訪和稿件撰寫工作。

2.5 設(shè)立省科技廳科技宣傳工作實體機構(gòu)

一是在廣東省科技宣傳工作小組的基礎(chǔ)上設(shè)立廣東省科技廳科技宣傳工作小組辦公室,負責(zé)根據(jù)廳黨組和廳科技宣傳工作小組的工作部署,具體落實有關(guān)科技宣傳工作任務(wù)。二是建立廣東省科技傳播和輿情分析中心,以進一步整合科技宣傳資源、擴大科技宣傳渠道、優(yōu)化科技宣傳隊伍,提高科技傳播效果,

2.6引進專業(yè)宣傳機構(gòu)和團隊參與策劃

在大力培養(yǎng)自身宣傳隊伍的同時,建議引進外部的專業(yè)宣傳機構(gòu)參與策劃和實施工作,提高科技宣傳工作的專業(yè)性和效果。一是與高等院校新聞學(xué)院合作開展廣東科技輿情監(jiān)測研究等工作,對科技宣傳工作進行動態(tài)評價和監(jiān)測,及時提出有針對性的改進建議,提高科技宣傳科學(xué)化水平;二是以開設(shè)專版、專題等形式,組織主要媒體的骨干力量參與重大科技宣傳活動的策劃工作;三是組織有實力的傳媒咨詢服務(wù)機構(gòu)策劃實施科技宣傳工作。

2.7建立健全科技宣傳考核激勵機制

完善的科技宣傳考核激勵機制,有利于提高各地市和媒體的積極性。結(jié)合廣東省實際情況,一是制定對地市科技局的科技宣傳考核激勵制度。由各地市科技局劃定主要媒體,年底向省科技廳報送該市主要媒體刊登科技新聞的數(shù)量,根據(jù)廣東省科技廳制定的評分規(guī)則進行評選,對得分最高的前五名給予一定獎勵并予以通報。此外,建議以珠三角經(jīng)濟發(fā)達的地市為切入口,建立緊密型的省市科技宣傳聯(lián)動機制;二是加大對媒體記者的激勵力度。通過廣東省科技新聞工作者協(xié)會統(tǒng)計主要媒體全年的發(fā)稿數(shù)量,對發(fā)稿量較多的記者加以額外獎勵,并將信息反饋給其所在單位,從而進一步提高媒體發(fā)稿的積極性;三是聘請?zhí)丶s記者、評論員和專家學(xué)者擔(dān)任顧問,負責(zé)重要新聞稿件的撰寫和把關(guān),保證稿件質(zhì)量。四是與高等院校傳播學(xué)院進行合作,邀請優(yōu)秀實習(xí)生進入廣東省科技傳播和輿情分析中心進行實習(xí),并探討合作開展輿情分析研究工作,加強輿情分析科學(xué)化水平。

參考文獻

[1]應(yīng)向偉.創(chuàng)新科技宣傳工作的思考.浙江省科技信息研究院―維普資訊.

[2]翟全杰.讓科技跨越時空[M].北京理工大學(xué)出版社,2002.

第6篇

關(guān)鍵詞:依存句法分析, 特征選擇, 有監(jiān)督學(xué)習(xí), 模型一體化

中圖分類號:TP3911 文獻標(biāo)識碼:A文章編號:2095-2163(2013)02-0011-05

0引言

依存句法分析模型可用于精確地自動構(gòu)建給定句子中詞匯之間的依存關(guān)系[1]。該類模型可大致分為基于有監(jiān)督學(xué)習(xí)和基于文法規(guī)則兩類模型?;谟斜O(jiān)督學(xué)習(xí)的依存句法分析模型是指使用統(tǒng)計機器學(xué)習(xí)方法,通過從大量標(biāo)注語料中學(xué)習(xí)參數(shù)而相應(yīng)構(gòu)建的依存句法分析模型。而基于文法規(guī)則的依存句法分析模型則指依據(jù)專家提煉或數(shù)據(jù)挖掘的文法規(guī)則而憑此構(gòu)建的依存句法分析模型。兩種模型各有優(yōu)缺點,前者一般可以獲得較高的預(yù)測精度,但卻需要設(shè)計大量的標(biāo)注依存結(jié)構(gòu)的句子作為學(xué)習(xí)樣本訓(xùn)練模型;后者通常不需要設(shè)計大量訓(xùn)練樣本,但由于專家的知識受限,規(guī)則領(lǐng)域適應(yīng)性較差,導(dǎo)致該種模型預(yù)測精度并不高。藉此分析,基于有監(jiān)督學(xué)習(xí)的依存句法分析模型具有較高的預(yù)測精度,因此,本文將圍繞該類模型的研究現(xiàn)狀而展開綜述。具體內(nèi)容如下。

基于有監(jiān)督學(xué)習(xí)的依存句法分析模型的構(gòu)建過程一般可分為兩步[2]:

(1)學(xué)習(xí)。給定一個標(biāo)注依存結(jié)構(gòu)的句子集合,人工構(gòu)建依存特征模板,再從集合中抽取依存特征。其后,設(shè)定模型參數(shù),并在有限步驟內(nèi)推導(dǎo)得出一個依存句法分析模型;

(2)評價。給定測試集合及評價方法,若該模型的預(yù)測結(jié)果滿足期望值,模型構(gòu)建完成,否則進入步驟(1)。

有監(jiān)督學(xué)習(xí)的依存句法分析模型又可分為基于移近規(guī)約和基于圖兩類。其中,基于圖的依存句法分析模型在效率和精確度都有良好表現(xiàn),因而廣受關(guān)注。基于圖的依存句法分析模型的原理是借助最大生成樹算法,實現(xiàn)句子的依存句法分析。例如句子“漢族/nR 醫(yī)學(xué)/n 又/d 有/v 中醫(yī)/n 之/uJDE 稱/n”的依存句法分析結(jié)果如圖1所示。

在構(gòu)建基于有監(jiān)督學(xué)習(xí)的依存句法分析模型時,主要集中于兩個方面:資源建設(shè)和特征工程。針對其相關(guān)研究,本文給出了較為系統(tǒng)、詳盡的綜述。在資源建設(shè)研究方面,人們通過依存關(guān)系映射和主動學(xué)習(xí)兩種方法緩解語料匱乏的困境。通過將源領(lǐng)域中標(biāo)注依存關(guān)系的映射到目標(biāo)領(lǐng)域?qū)崿F(xiàn)目標(biāo)領(lǐng)域的依存關(guān)系自動化標(biāo)注,達到自動化構(gòu)建目標(biāo)領(lǐng)域語料的目的,進而在目標(biāo)領(lǐng)域借助自動標(biāo)注的語料構(gòu)建依存句法分析模型;而借助主動學(xué)習(xí)思想,一方面可選擇頗具價值的人工標(biāo)注對象進行人工標(biāo)注,擴充標(biāo)注集合,另一方面也可降低人工標(biāo)注的工作量。在特征工程研究方面,人們分析了不同特征對構(gòu)建依存句法分析模型的貢獻,涉及的特征包括詞匯特征、句子特征,以及語言形態(tài)特征等,同時介紹了如何因解決特征稀疏而導(dǎo)致的模型性能下降的問題。此外,具體而深入地分析、評價了依存句法分析模型一體化的優(yōu)勢和不足。

本文的組織結(jié)構(gòu)如下:第二部分針對語料匱乏、特征選擇和獲取、以及模型一體化問題,詳細比較和分析了現(xiàn)有模型的研究現(xiàn)狀;第三部分從事件抽取、產(chǎn)品評論分析,以及輿情分析角度說明了現(xiàn)有模型最近的應(yīng)用情況;最后總結(jié)現(xiàn)有模型研究并對未來可能研究方向給予展望。

1基于有監(jiān)督學(xué)習(xí)的依存句法分析模型

1.1標(biāo)注語料匱乏

近年來,在標(biāo)注語料匱乏研究方面,人們借助依存關(guān)系映射和主動學(xué)習(xí)方法改進標(biāo)注語料不足的狀況。在依存關(guān)系映射研究方面,已有學(xué)者采用規(guī)則過濾[3]、適應(yīng)性標(biāo)注方法[4]、動態(tài)規(guī)劃方法[5]解決源領(lǐng)域和目標(biāo)領(lǐng)域之間的差異,但效果并不明顯。Jiang等[6]采用一種依存結(jié)構(gòu)映射策略,將源領(lǐng)域中豐富的依存關(guān)系映射到資源短缺的目標(biāo)領(lǐng)域中,實現(xiàn)目標(biāo)領(lǐng)域依存關(guān)系語言的自動構(gòu)建。例如,將標(biāo)注依存關(guān)系的英語語料中的依存關(guān)系映射到中文語料中,實現(xiàn)中文語料的自動標(biāo)注。實現(xiàn)依存映射時,若采用詞對齊方法實現(xiàn)依存關(guān)系映射,映射過程中會產(chǎn)生詞對齊的錯誤和不同語言之間因句法差異產(chǎn)生的錯誤。與已有方法不同,作者采用的映射方法不是將整棵句子依存樹映射到目標(biāo)領(lǐng)域,而是映射詞匯依存關(guān)系。給定詞對齊雙語語料,源領(lǐng)域的句子標(biāo)注了依存句法結(jié)構(gòu),其中的依存關(guān)系是布爾型,表示是否存在依存關(guān)系。而后將源領(lǐng)域中詞對的依存關(guān)系映射為目標(biāo)領(lǐng)域的詞對。在目標(biāo)領(lǐng)域產(chǎn)生依存關(guān)系的實例過程中,最先獲得詞對齊的映射,采用映射矩陣而不是單個的詞對齊,這樣可以減少詞對齊的錯誤。而且詞對齊的映射不是一一映射,因而能夠獲得多種映射組合。假設(shè)詞對(a, b),其中,詞a有n種映射射結(jié)果,詞b有m種映射結(jié)果,則詞對(a, b)就存在n×m種映射可能。然后,根據(jù)源端句法樹庫以及映射矩陣計算目標(biāo)領(lǐng)域存在依存關(guān)系的概率。最后,設(shè)定閾值T確定在目標(biāo)領(lǐng)域是否產(chǎn)生依存關(guān)系。大于閾值T,則存在依存關(guān)系,即為正例;若小于(1 - T),則不存在依存關(guān)系,即為反例。如此就獲得了大量目標(biāo)領(lǐng)域的依存關(guān)系樣例。通過在目標(biāo)領(lǐng)域產(chǎn)生的樣例上訓(xùn)練最大熵分類器實現(xiàn)目標(biāo)端的依存關(guān)系預(yù)測。該種映射方法降低了依存關(guān)系映射時產(chǎn)生錯誤關(guān)系的概率,并且一定程度上借助英文標(biāo)注語料應(yīng)對中文依存分析語料匱乏的狀況。但該模型仍然無法避免兩種語言在句法差異上導(dǎo)致的錯誤的關(guān)系映射。此外,也難以精確設(shè)定閾值來判定映射結(jié)果是否為依存關(guān)系。

其中,si表示n-best的句法分析結(jié)果中第i個預(yù)測結(jié)果分值,n表示利用DP預(yù)測得到的句法分析樹的數(shù)量。當(dāng)n-best的句法分析結(jié)果的分值互相之間越發(fā)接近時,熵值也將越高。這時,句法分析器預(yù)測結(jié)果“徘徊”在n-best之中,即根據(jù)句法分析器預(yù)測結(jié)果是很難選擇得到最好的句法分析樹的,因此,句子s需要人工標(biāo)注依存句法結(jié)構(gòu)。依據(jù)上述思想,可從未標(biāo)注集合中挑選k個不確定性最高的樣本進行人工依存句法結(jié)構(gòu)標(biāo)注。

此后,將標(biāo)記結(jié)果加入到標(biāo)注集合中,重新訓(xùn)練句法分析器,獲得新的句法分析器。上述過程反復(fù)迭代,直到未標(biāo)注集合為空。通過這種方式擴充標(biāo)注集合來解決語料匱乏問題。

另外,句子中只有部分依存關(guān)系不確定,通過標(biāo)注這些不確定的依存關(guān)系就可以完成句子的依存結(jié)構(gòu)標(biāo)注。借助依存關(guān)系熵來度量依存關(guān)系的不確定性,具體計算如式(3)所示。

由圖2可知,首先根據(jù)標(biāo)注集合訓(xùn)練得到依存句法分析器DP,借助DP構(gòu)建未標(biāo)注集合中句子依存句法分析樹,再根據(jù)句子不確定函數(shù)選擇k個不確定句子,同時根據(jù)依存關(guān)系不確定函數(shù)選擇k’個依存關(guān)系并人工標(biāo)注,由此將標(biāo)注結(jié)果加入標(biāo)注集合,重新訓(xùn)練構(gòu)建依存句法分析器,上述過程反復(fù)進行,直到未標(biāo)注集合為空。

1.2特征提取與選擇

在特征提取與選擇研究方面,人們分別從不同特征對構(gòu)建依存句法分析模型的貢獻角度,以及特征稀疏對構(gòu)建模型產(chǎn)生的影響角度展開研究。其中的特征主要分為:句子級特征、詞類別特征、語言形態(tài)特征、以及高階特征等,下面對其相關(guān)工作分別作以綜合分析。

在句子級特征研究方面,Gadde[8]等使用短句信息提高句法分析性能。將短句的邊界信息作為依存關(guān)系的限制特征來豐富特征集合,并提高依存關(guān)系預(yù)測精度。將ICON2009的數(shù)據(jù)集作為測試集,使用MSTParser[1]作為依存句法分析器,在無標(biāo)記和有標(biāo)記的評測中預(yù)測精度分別為87%和77%。在詞類別特征提取研究方面,Agirre等[9]嘗試從WordNet中獲得詞匯的基本語義類作為依存特征,同時采用詞義消歧算法減少詞義歧義帶來的噪聲,以此提升依存句法關(guān)系預(yù)測精度。Haffari等[10]在MSTParser依存句法分析器框架下提出將詞匯表示為句法和語義兩種表示方式,并采用線性加權(quán)方式將這兩種表示形式的特征信息相融合,由此將依存句法分析精度則從90.82%提升到92.13%。在利用語言形態(tài)特征研究方面, Marton等[11]探索了形態(tài)學(xué)特征對句法分析的貢獻,并發(fā)現(xiàn)時態(tài)、單復(fù)數(shù)、詞綴均可提升阿拉伯語的依存句法分析精度。而在利用高階特征研究方面,Massimiliano Ciaramita等[12]使用依存語言模型和beam搜索構(gòu)建高階特征。采用大量基準(zhǔn)依存句法分析器自動分析語句構(gòu)建依存句法語言模型,并借助依存語言模型構(gòu)建高階特征,再使用beam搜索在解碼階段將特征有效整合至依存句法分析模型中。模型中考慮了原始模型(MSTParser)中最大生成樹的分值,同時考慮依存語言模型的分值,具體計算如式(5)所示。

由式(5)可知,該模型在解碼階段不僅考慮了MSTParser預(yù)測結(jié)果,同時考慮了依存語言模型對依存句法分析的貢獻。實驗結(jié)果顯示中文句法分析達到了最高精度,而且在英語上也獲得了與已知最好系統(tǒng)的可比精度。在特征稀疏研究方面, Zhou[13]結(jié)合從網(wǎng)絡(luò)獲取的詞匯搭配偏好來提高依存句法分析精度。通過從網(wǎng)絡(luò)語料Google hits和Google V1構(gòu)建詞匯之間的搭配偏好。實驗結(jié)果表明,借助搭配偏好提升了依存句法分析性能。更重要的,在處理新領(lǐng)域數(shù)據(jù)時,使用網(wǎng)絡(luò)獲取的詞匯搭配偏好可使模型具有更好的健壯性。另外,在網(wǎng)絡(luò)數(shù)據(jù)上抽取詞匯搭配偏好還可以避免數(shù)據(jù)稀疏問題,而且已在特征稀疏的生物醫(yī)療領(lǐng)域驗證了吃方法的有效性。

1.3一體化模型

詞性標(biāo)注是依存句法分析中必不可少的一個基礎(chǔ)步驟。當(dāng)前的研究將依存句法分析和詞性標(biāo)注分開建模,這就可能導(dǎo)致底層的詞性標(biāo)注錯誤向高層依存句法分析傳播,進而降低依存句法分析精度。實驗表明,由于詞性標(biāo)注的錯誤,將造成句法分析精度大約下降6%。為了解決這個問題,李正華等[14]提出詞性標(biāo)注和依存句法分析的聯(lián)合模型。模型采用剪枝策略來減小候選詞性標(biāo)簽空間,大大提高了句法分析速度。其基本思想是同時最大化詞性標(biāo)注和依存句法分析性能。在這個模型中,詞性標(biāo)注和依存句法分析的特征權(quán)重做以同步調(diào)整,借助詞性和句法特征交互來確定優(yōu)化的聯(lián)合結(jié)果。在中文賓州樹庫上進行測試實驗,其結(jié)果表明依存句法分析精度提高1.5%。而在此基礎(chǔ)上,Hatori等[15]提出第一個分詞、詞性標(biāo)注以及句法分析的一體化模型。通過結(jié)合分詞、詞性標(biāo)注和依存分析模型的特征構(gòu)建一體化模型,并提出基于字符的解碼方法。此外,Li, Zhongguo等[16]提出一體化中文依存句法分析模型,將未分詞的句子作為輸入,其輸出即為句法結(jié)構(gòu)。通過移除中間分詞步驟,一體化句法分析器不再需要單詞和短語的分割標(biāo)記,因特征提取錯誤而導(dǎo)致的性能下降也將為之得到控制。但是一體化模型雖然提升了依存句法分析的精度,但卻同時增加了解碼復(fù)雜度。

1.4其他

此外,人們在改善依存分析效率,以及借助機器翻譯技術(shù)提升依存句法分析精度方面也同樣開展了廣泛研究。在改善依存分析效率研究中,研究人員發(fā)現(xiàn)構(gòu)建依存樹的過程中會產(chǎn)生大量錯誤的依存關(guān)系,過濾這些依存關(guān)系可以提高依存分析效率。Bergsma等[17]采用級聯(lián)式過濾模型過濾錯誤的依存關(guān)系。可采用三種方法實現(xiàn)過濾:基于規(guī)則過濾、借助線性過濾器和二次型過濾器過濾錯誤的依存關(guān)系。在基于規(guī)則過濾研究方面,訓(xùn)練支持向量機依存關(guān)系分類器,特征只包括頭或依存關(guān)系中的詞性,由此利用學(xué)習(xí)得到的特征權(quán)重過濾詞性或詞性對。例如,如果一個詞性標(biāo)記在非頭詞的分類器中的權(quán)重為正,則以這個節(jié)點作為頭的所有弧都將被過濾。這樣借助學(xué)習(xí)得到的權(quán)重構(gòu)建一組高精度的過濾規(guī)則,即真正實現(xiàn)了依存關(guān)系的過濾。在線性過濾器研究方面,首先構(gòu)建8個分類器作為過濾器,分別針對如下8種節(jié)點分類問題:

(1)節(jié)點是否為頭(例如節(jié)點是葉子節(jié)點);

(2)節(jié)點的頭是否在左側(cè);

(3)節(jié)點的頭是否在右側(cè);

(4)節(jié)點的頭是否在左側(cè)5個節(jié)點距離之內(nèi);

(5)節(jié)點的頭是否在右側(cè)5個節(jié)點距離之內(nèi);

(6)節(jié)點頭是否在左側(cè)第一個節(jié)點;

(7)節(jié)點的頭是否在右側(cè)第一個節(jié)點;

(8)節(jié)點是否是根節(jié)點。

使用相同的特征模板,得到8種不同的特征權(quán)重,分別對應(yīng)8種不同的分類,并且每一種過濾器的輸入均是上一種過濾器輸出的結(jié)果。通過這種方式實現(xiàn)過濾,構(gòu)建二次型支持向量機分類器決定過濾哪些頭—依賴對。實驗結(jié)果表明,基于規(guī)則過濾可以過濾占據(jù)25%的潛在依存關(guān)系。線性過濾器能夠過濾高達54.2%的潛在依存關(guān)系。而二次型過濾器則能夠過濾具體為22%的潛在依存關(guān)系。

在借助機器翻譯技術(shù)提升依存句法分析精度研究方面,Chen等[18]提出使用統(tǒng)計機器翻譯系統(tǒng)提高雙語句法分析精度的方法。假設(shè)在源端存在模糊的依存關(guān)系判定,在目標(biāo)端可能就是清晰的依存關(guān)系判定,因而可根據(jù)目標(biāo)端來修正源端的依存關(guān)系預(yù)測結(jié)果。首先,使用統(tǒng)計機器翻譯系統(tǒng)將源端的單語樹庫譯為目標(biāo)端的語言。然后,在目標(biāo)端采用目標(biāo)端依存句法分析器進行句法分析,構(gòu)建依存句法分析樹。由此獲得雙語樹庫,即在源端是人工標(biāo)記的樹庫,在目標(biāo)端就是自動生成的樹庫。盡管在目標(biāo)端的句子和生成樹并不完備,但是采用這些自動生成的雙語樹庫,從中抽取出目標(biāo)端的依存限制來修正源端依存分析性能,實現(xiàn)雙語句法分析性能的改進和提升。實驗結(jié)果顯示該方法的表現(xiàn)則要顯著優(yōu)于基準(zhǔn)方法。更進一步,當(dāng)使用一個更大規(guī)模的單語樹庫,句法分析的性能也得到了較大提高。

2相關(guān)應(yīng)用

基于有監(jiān)督學(xué)習(xí)的依存句法分析模型能夠構(gòu)建句子的依存樹,而依存樹則表明了詞匯間的依存關(guān)系,并且在不同問題中表現(xiàn)了其有效性與實用性,例如關(guān)系獲取[19]、復(fù)述獲取[20]和機器翻譯[21]等。此外,近年來該類模型在解決事件抽取、產(chǎn)品評論挖掘、以及輿情分析問題方面也發(fā)揮了主體重要作用。

在事件抽取研究方面,人們發(fā)現(xiàn)事件之間存在聯(lián)系,例如一個犯罪事件會引起調(diào)查事件,并且還將最終引發(fā)逮捕事件。由此可知,事件之間多存在一定的依賴關(guān)系。但現(xiàn)有的事件抽取方法并未考慮事件間的依存關(guān)系,而是孤立抽取每一個事件。David McClosky等[22]借助依存句法分析器構(gòu)建事件的依賴關(guān)系。首先,將事件及其對應(yīng)的謂詞轉(zhuǎn)化為依存樹,樹中節(jié)點包括實體、事件錨和一個虛擬根節(jié)點,各邊則表示三者間的依存關(guān)系,其中的事件錨識別常采用回歸模型運行實現(xiàn),使用的特征包括字符級別。生成依存樹時,可采用兩步排序方法:

(1)根據(jù)句法分析器得到n-best結(jié)果;

(2)采用最大熵模型實現(xiàn)第二次排序,由此將建立事件間的依存關(guān)系。

在產(chǎn)品評論分析研究方面,Zhang等[23]借助淺層依存句法分析來構(gòu)建產(chǎn)品屬性及其評價之間關(guān)系。其中包含三個步驟:

(1)根據(jù)淺層短語結(jié)構(gòu)分析和依存句法分析構(gòu)建淺層的依存樹??刹捎脺\層句法分析器Sundance實現(xiàn)組塊分析,并且采用Stanford句法分析器實現(xiàn)依存樹的構(gòu)建。其中,組塊作為依存樹中的節(jié)點,邊表示組塊之間的依存關(guān)系;

(2)識別產(chǎn)品屬性和候選評價。首先,使用觀點詞典以過濾候選評價,觀點詞典包含著8 221個觀點表達。其次,假設(shè)與候選評價越近似的組塊,自身是產(chǎn)品屬性的可能就越大,憑此識別產(chǎn)品屬性;

(3)構(gòu)建產(chǎn)品屬性和評價之間的關(guān)系??蓪㈥P(guān)系構(gòu)建視為一個分類任務(wù),而將所有的產(chǎn)品屬性和候選評價視為潛在關(guān)系??刹捎弥С窒蛄繖C分類器實現(xiàn)關(guān)系構(gòu)建,特征包括上下文和詞性?,F(xiàn)已在手機和數(shù)碼相機領(lǐng)域驗證了此方法的可行性和有效性。

在輿情分析研究方面,Wu等[24]提出基于圖的句級情感分析模型。引入了線性規(guī)劃結(jié)構(gòu)學(xué)習(xí)方法產(chǎn)生輸入句子的圖形表示。圖中節(jié)點包括評價目標(biāo)、觀點表達和觀點修飾。邊表示節(jié)點之間的關(guān)系,具體包括觀點表達和修飾之間的關(guān)系,以及觀點表達之間的關(guān)系,并且包含單個觀點之間的語義關(guān)系。通過圖,可以將之前被忽略的各種信息融合進來。該模型的優(yōu)勢在于,借助觀點之間的關(guān)系,可更加精確地判定句子的整體情感極性。Nakagawa等[25]提出借助依存分析結(jié)果實現(xiàn)中文和日文主觀句情感分類。主觀句通常包括將情感極性反轉(zhuǎn)的詞匯。包含積極(或消極)的情感詞的句子不一定表達與情感詞相同的極性。因此在情感分析中需要考慮詞匯之間的修飾對詞匯情感極性的影響,但是采用詞袋的方法很難解決這個問題。若采用規(guī)則方法實現(xiàn)句子極性判斷,則不能從語料中學(xué)習(xí)情感信息,而且規(guī)則的適用性十分有限,同時需要大量的人力、物力構(gòu)建規(guī)則。嘗試借助依存句法分析解決這個問題。句子的情感標(biāo)注不應(yīng)該只標(biāo)注句子的整體情感極性,而應(yīng)該存在句子的局部情感極性標(biāo)注,并且利用這些局部標(biāo)注信息來實現(xiàn)情感分類。在該方法中,將句子轉(zhuǎn)化為依存樹結(jié)構(gòu),再將句子的依存樹中每一個依存子樹的情感極性表示為隱式變量,整句的情感極性則可由隱式變量之間的交互而共同決定。

3結(jié)束語

本文重點總結(jié)了在構(gòu)建基于有監(jiān)督學(xué)習(xí)的依存句法分析模型時面對的語料匱乏和特征選擇兩個問題的相關(guān)研究。此外,分析和總結(jié)了依存句法分析模型一體化的優(yōu)缺點。最后,介紹了如何應(yīng)用現(xiàn)有模型解決事件抽取、產(chǎn)品評論挖掘、以及輿情分析問題。盡管現(xiàn)有模型在依存句法分析方面取得了一定成功,但也存在相應(yīng)不足。首先,現(xiàn)有模型需要大規(guī)模的標(biāo)注語料用于訓(xùn)練與評價,這種需求并且隨著互聯(lián)網(wǎng)的發(fā)展日益增長,由此產(chǎn)生嚴重的標(biāo)注語料匱乏問題,僅靠上述方法無法從根本上獲得解決。其次,盡管基于有監(jiān)督學(xué)習(xí)的依存句法分析模型性能最佳,但該模型只能在有限的數(shù)據(jù)集合上完成一次模型參數(shù)學(xué)習(xí),在其后的使用過程中無法自動調(diào)節(jié)模型參數(shù)來適應(yīng)領(lǐng)域和用戶個人興趣的變化。經(jīng)由本文研究,可得只有借助用戶反饋,構(gòu)建連續(xù)學(xué)習(xí)的依存句法分析模型才能解決上述問題。根據(jù)用戶反饋無間斷地調(diào)整模型參數(shù),以此適應(yīng)領(lǐng)域和用戶興趣的變化,同時用戶在使用該模型時也一并完成完了語料標(biāo)注工作,從而克服了標(biāo)注語料缺乏的困境。

參考文獻:

[1]KBLER S, MCDONALD R, NIVRE J. Dependency Parsing [M]. Synthesis Lectures of Human Language Technologies, 2009: 1-20.

[2]NIVRE J. Dependency grammar and dependency parsing [R]. Technical Report, 2005: 1-32.

[3]HWA R, RESNIK P, WEINBERG A, et al. Bootstrapping parsers via syntactic projection across parallel texts[J]. In Natural Language Engineering, 2005,11: 311-325.

[4]SMITH D, EISNER J. Parser adaptation and projection with quasi-synchronous grammar features [C]// Proceedings of EMNLP, 2009: 822-831.

[5]JIANG Wenbin, LIU Qun. Automatic adaptation of annotation standards for dependency parsing using projected treebank as source corpus [C]//Proceedings of IWPT, 2009: 25-28.

[6]JIANG Wenbin, LIU Qun. Dependency parsing and projection based on word-pair classification [C]// Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics (ACL '10), Stroudsburg, PA, USA, 2010: 12-20.

[7]MIRROSHANDEL S A, NASR A. Active learning for dependency parsing using partially annotated sentences [C]//Proceedings of IWPT, 2011: 140-149.

[8]GADDE P, JINDAL K, HUSAIN S, et al. Improving data driven dependency parsing using clausal information [C]//Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics (HLT '10), Stroudsburg, PA, USA, 2010: 657-660.

[9]AGIRRE E, BENGOETXEA K, GOJENOLA K, et al. Improving dependency parsing with semantic classes [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 699-703.

[10]HAFFARI G, RAZAVI M, SARKAR A. An ensemble model that combines syntactic and semantic clustering for discriminative dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers - Volume 2 (HLT '11), Stroudsburg, PA, USA, 2011: 710-714.

[11]MARTON Y, HABASH N, RAMBOW O. Improving Arabic dependency parsing with form-based and functional morphological features [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1586-1596.

[12]CIARAMITA M, ATTARDI G. Dependency parsing with second-order feature maps and annotated semantic information [C]//Proceedings of the 10th International Conference on Parsing Technologies (IWPT '07), Stroudsburg, PA, USA, 2007: 133-143.

[13]ZHOU Guangyou, ZHAO Jun, LIU Kang, et al. Exploiting web-derived selectional preference to improve statistical dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1556-1565.

[14]LI Zhenghua, ZHANG Min, CHE Wanxiang, et al. Joint models for Chinese POS tagging and dependency parsing [C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 1180-1191.

[15]HATORI J, MATSUZAKI T, MIYAO Y, et al. Incremental joint POS tagging and dependency parsing in Chinese [C]//Proceedings of the 5th International Joint Conference on Natural Language Processing, 2011: 1216-1224.

[16]LI Zhongguo, ZHOU Guodong. Unified dependency parsing of Chinese morphological and syntactic structures [C]//Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning (EMNLP-CoNLL '12), Stroudsburg, PA, USA, 2012: 1445-1454.

[17]BERGSMA S, CHERRY C. Fast and accurate arc filtering for dependency parsing [C]//Proceedings of the 23rd International Conference on Computational Linguistics (COLING '10), Stroudsburg, PA, USA, 2010: 53-61.

[18]CHEN Wenliang, KAZAMA J, ZHANG Min, et al. SMT helps bitext dependency parsing[C]// Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP '11), Stroudsburg, PA, USA, 2011: 73-83.

[19]CULOTTA A, SORENSEN J. Dependency tree kernels for relation extraction [C]//Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics (ACL '04), Stroudsburg, PA, USA, Article 423, 2004.

[20]SHINYAMA Y, SEKINE S, SUDO K. Automatic paraphrase acquisition from news articles [C]// Proceedings of the second international conference on Human Language Technology Research (HLT '02), San Francisco, CA, USA, 2002: 313-318.

[21]DING Yuan, PALMER M. Machine translation using probabilistic synchronous dependency insertion grammars[C]//Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics (ACL '05), Stroudsburg, PA, USA, 2005: 541-548.

[22]MCCLOSKY D, SURDEANU M, CHRISTOPHER D. Manning. event extraction as dependency parsing [C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies - Volume 1 (HLT '11), Stroudsburg, PA, USA, 2011: 1626-1635.

[23]ZHANG Qi, WU Yuanbin, LI Tao, et al. Mining product reviews based on shallow dependency parsing [C]//Proceedings of the 32nd international ACM SIGIR conference on Research and development in information retrieval (SIGIR '09), New York, NY, USA, 2009: 726-727.

第7篇

學(xué)科館員是指系統(tǒng)掌握圖書館學(xué)專業(yè)知識,并較為熟悉乃至精通某一學(xué)科或幾門圖書館專業(yè)知識以外的學(xué)科知識,能深入從事文獻信息開發(fā)和讀者咨詢服務(wù)等圖書館工作的高層次圖書館館員。學(xué)科館員制度是指派學(xué)科館員與某一學(xué)科專業(yè)人員進行對口聯(lián)系,負責(zé)該學(xué)科專業(yè)資源的組織、加工,并提供該學(xué)科資源的導(dǎo)航,主動為該學(xué)科用戶提供有針對性的文獻資源服務(wù)并進行用戶培訓(xùn),即為特定讀者提供深層次針對的一些相關(guān)規(guī)定[1]。

一、學(xué)科館員在國內(nèi)外的起源現(xiàn)狀

德國學(xué)科館員制度最早可以追溯到19世紀早期;20世紀60年代早期,平均每個德國研究型大學(xué)圖書館設(shè)有4~15名學(xué)科館員;至20世紀70年代中期,德國大學(xué)圖書館一般都設(shè)有8―21名學(xué)科館員。英國的學(xué)科館員在20世紀初(1901―1922年)引進倫敦大學(xué),在20世紀30年代被利茲大學(xué)采用并輻射到其它學(xué)校;至1975年,已有20個大學(xué)圖書館建立了此項制度。在美國,1940年以前,哈佛大學(xué)等多家圖書館就已經(jīng)雇用了早期的學(xué)科館員――區(qū)域問題參考館員;1950年,美國的內(nèi)不拉斯加大學(xué)圖書館設(shè)立分支圖書館并配備學(xué)科館員進行管理,才是學(xué)科館員制度最公開、最正式的建立;1981年,美國卡內(nèi)基―梅隆大學(xué)圖書館率先推出了“跟蹤服務(wù)”(track service)。此外,俄亥俄大學(xué)圖書館相繼推出了“網(wǎng)絡(luò)化館員免費導(dǎo)讀服務(wù)”(network librarian and free guide)。隨后,許多歐美國家的大學(xué)圖書館和研究型圖書館也紛紛推行了這種服務(wù)模式,并得到圖書館與讀者的普遍認同[2]。

在我國,學(xué)科館員制度起步比較晚,我國的學(xué)科館員制度是在借鑒國外學(xué)科館員制度成功實施的基礎(chǔ)上發(fā)展起來的。1998年清華大學(xué)圖書館率先推行學(xué)科館員制度,西安交通大學(xué)、北京大學(xué)、南開大學(xué)等圖書館相繼開展[2]。經(jīng)過10多年的發(fā)展,目前國內(nèi)已有百余家高校圖書館開展此項目,學(xué)科館員制在國內(nèi)大學(xué)圖書館中逐漸推廣并受關(guān)注,已逐步進入正軌。

目前公共圖書館在數(shù)字化、信息化的進程中,得到了快速的推進,已然站在了高校與科研圖書館同一水平線上,加之,公共圖書館文化信息資源共享工程得了很好的推進,這些為推動學(xué)科館員制度提供了有力的支撐。

二、公共圖書館建立學(xué)科館員制度的必要性

在公共圖書館學(xué)科館員服務(wù)方面也有成功例子,例如國家圖書館已經(jīng)擁有一批具備法律學(xué)科館員,為用戶提供針對性極強的資料;建立輿情監(jiān)測分析系統(tǒng),幫助企業(yè)公司了解輿論動向,以制定正確的應(yīng)對策略,引導(dǎo)輿論正向發(fā)展輿情分析;同時專門為立法和決策部門提供服務(wù)[3]。上海圖書館開展了對大型企業(yè)和中小企業(yè)的情報服務(wù),例如:海爾、飛躍電視機廠和“三槍”等單位,幫助企業(yè)在專利競爭中贏得國際對手;同時提出建設(shè)行業(yè)情報平臺,為政府經(jīng)濟決策提供信息服務(wù)。這都是取決于上海圖書館人員的專業(yè)背景、理念和經(jīng)驗比較強以及科技文獻館藏品種全的緣故[4]。浙江圖書館不僅為大型企業(yè)提供專題服務(wù),如:國內(nèi)飲料行業(yè)知名企業(yè)娃哈哈集團公司等企業(yè);而且還專門開設(shè)微小企業(yè)專題服務(wù)[5]。早在1988年深圳圖書館編發(fā)了“窗口信息”,內(nèi)容涉及電子、自行車、飲料、食品、珠寶、出版、環(huán)保、花卉等十二個專業(yè),取得較好的社會、經(jīng)濟效益[6]。他們是公共圖書館行業(yè)信息服務(wù)的領(lǐng)頭羊,給我們做出了好的榜樣。

目前,公共圖書館推行學(xué)科館員制則少有,究其原因是:(1)公共圖書館讀者眾多,各行各業(yè)、各個領(lǐng)域的讀者需求龐雜,由于受組織結(jié)構(gòu)、人員配置等諸多因素,公共圖書館學(xué)科館員甚少,達不到眾多領(lǐng)域都設(shè)有學(xué)科館員;(2)公共圖書館的學(xué)科館員,大多由專業(yè)知識不強的人員組成,知識能力參差不齊,加上部分領(lǐng)導(dǎo)對學(xué)科館員工作不夠重視,以致于公共圖書館大多只是停留在文獻傳遞的參考咨詢這個層面上,學(xué)科館員制度流于形式,服務(wù)沒有真正落到實處。

為了滿足眾多的讀者需求,更好地為大眾服務(wù),需要公共圖書館多樣化、個性化和深層次的知識服務(wù),由此,公共圖書館實行學(xué)科館員制,迫在眉睫。

三、公共圖書館學(xué)科館員制度的發(fā)展模式

1.建立學(xué)科館員制度

目前,國家并沒有政策性的規(guī)定這一制度圖書館必須建立。為了使學(xué)科館員的工作開展順利,領(lǐng)導(dǎo)的認識和決心是密切相關(guān)的;其關(guān)鍵之一是:取決于館領(lǐng)導(dǎo)對學(xué)科館員制度的重視,以及對圖書館開展個性化服務(wù)的必要性的高度認識,應(yīng)結(jié)合本館的實際情況,在人才引進和培養(yǎng)、管理體制上保證學(xué)科館員制度的順利建立,并盡可能地完善學(xué)科館員制度;其二:圖書館需要當(dāng)?shù)卣娜肆?、財力及物力的大力支持,因為學(xué)科館員制度與軟硬件設(shè)施、優(yōu)秀的人才以及雄厚的財力支持是分不開的,否則將事倍功半。

2.學(xué)科館員的隊伍建設(shè)

根據(jù)各方面學(xué)科服務(wù)工作的需要,合理配置學(xué)科館員的隊伍結(jié)構(gòu)、崗位,確定學(xué)科館員隊伍建設(shè)的目標(biāo);在人力資源方面,我們可通過人才引進和現(xiàn)有館員的培訓(xùn)采取以下三種方式:一、可以在本館挑選業(yè)務(wù)素質(zhì)好,能夠勝任某一科咨詢、服務(wù)的同志擔(dān)任學(xué)科館員;二、引進復(fù)合型人才,引進具有圖書館情報學(xué)知識背景又具備其他學(xué)科知識的雙學(xué)位人才;三、聘請資深離退專家或在職專業(yè)人員擔(dān)任兼職學(xué)科館員,這是最快捷有效的方法。

3.學(xué)科館員的素質(zhì)培養(yǎng)

學(xué)科館員除了具有淡泊名利的修養(yǎng)和無私奉獻的職業(yè)道德、“讀者第一,用戶至上”的服務(wù)理念之外,還應(yīng)具備過硬的業(yè)務(wù)知識水平。

為了能從大量的龐大無序的信息源中提取、鑒別、篩選、整理、挖掘出讀者要求的文獻信息,學(xué)科館員必須要熟悉相關(guān)學(xué)科數(shù)據(jù)庫資源的檢索方法與技巧,熟悉圖書館各部門的基本業(yè)務(wù)工作內(nèi)容和流程,這樣才能為用戶提供學(xué)科性專業(yè)信息資源導(dǎo)航。

要開展文獻信息的深層次開發(fā),學(xué)科館員必須緊密跟蹤對口學(xué)科的國內(nèi)外學(xué)術(shù)發(fā)展動態(tài),對熱點問題、新觀點、新動態(tài)等進行搜集并分析研究,做出知識性的評價,編制二、三次文獻,為用戶提供參考。

據(jù)統(tǒng)計,網(wǎng)上90%的信息資源是英文資源。熟練地掌握一門外語到多門成為圖書館工作的必需。這要求學(xué)科館員既要有一定的外語水平,也要有一定的計算機操作能力和網(wǎng)絡(luò)知識。此外,學(xué)科館員還應(yīng)能提供外文資料的翻譯服務(wù)。

4. 學(xué)科館員的激勵機制

在市場經(jīng)濟條件下,僅僅靠宣傳奉獻精神或職業(yè)道德,已無法從根本上促使學(xué)科館員提高水平的服務(wù)。因此,在完善學(xué)科館員制度的同時,還必須對分配制度進行改革,否則館員制度的實施效果會打折扣。

有些中小型圖書館疏于對科學(xué)館員工作的激勵,很大程度地抑制了學(xué)科館員的發(fā)展。

馬斯洛的需要層次論把人類的需要分為五個層次:生理需要、安全需要、社會需要、尊重需要、自我實現(xiàn)的需要。其中自我實現(xiàn)的需要是指通過自己努力,實現(xiàn)自己對生活的期望,從而對生活和工作感到很有意義。公共圖書館根據(jù)學(xué)科館員的需求與動機,有針對性地采用激勵方法激發(fā)全體學(xué)科館員的工作熱情,充分調(diào)動主動性和創(chuàng)造性。

建立考核制度,對學(xué)科館員進行上崗后,加強人力資源管理,提高工作效率的重要環(huán)節(jié),認真做好平時、年度、聘期內(nèi)的考核工作,將考核結(jié)果與職務(wù)的升降、館員的任職掛鉤,逐步形成一個“能者上、平者讓、庸者下”的有效競爭機制,以激發(fā)學(xué)科館員的主觀能動性。

圖書館應(yīng)結(jié)合自身實際,建立科學(xué)規(guī)范的激勵制度,極大地調(diào)動積極性。只有這樣,才能吸引人才,并使其努力地學(xué)習(xí),盡力地工作。

5.學(xué)科館員的選拔、培訓(xùn)機制以及帶動作用

對學(xué)科館員不斷地進行知識信息素養(yǎng)的補充、更新、拓展和提高培訓(xùn),則是開發(fā)內(nèi)部的人力資源。

一,根據(jù)學(xué)科館員崗位設(shè)置要求,在全館范圍內(nèi)進行考試并結(jié)合工作業(yè)績,選拔出優(yōu)秀人才進行脫產(chǎn)或不脫產(chǎn)培訓(xùn),進一步提高他們的業(yè)務(wù)水平和工作技能,形成人才梯隊,以保持學(xué)科服務(wù)的連續(xù)性和穩(wěn)定性??梢栽诂F(xiàn)有館員中選派業(yè)務(wù)水平高、責(zé)任心強者攻讀第二學(xué)位,使其通過系統(tǒng)的學(xué)習(xí)掌握對口學(xué)科的專業(yè)知識,從而勝任學(xué)科化服務(wù)工作;二,強化繼續(xù)再教育,建立人才資源建設(shè)的長效機制。為館員提供多種學(xué)習(xí)交流和業(yè)務(wù)培訓(xùn)的機會,參與用戶科研活動、專家講座及學(xué)術(shù)交流會,讓館員及時掌握學(xué)科的前沿動態(tài)。三,與兄弟單位進行交流、溝通,互相學(xué)習(xí),取長補短。四、貫穿人的一生是自學(xué),自學(xué)是繼續(xù)再教育途徑的補充。針對自己的知識水平不斷地學(xué)習(xí)、不斷地充實自己,擴大知識面,完善自我。

學(xué)科館員是圖書館服務(wù)水平的標(biāo)志,是圖書館與外界聯(lián)系的橋梁;同時學(xué)科館員對內(nèi)也是各項業(yè)務(wù)工作的核心,是圖書館服務(wù)的中堅力量,擔(dān)負著業(yè)務(wù)工作的指導(dǎo)和培訓(xùn)的重任,帶動全館員工更好地為經(jīng)濟建設(shè)服務(wù)。

四、結(jié)束語

學(xué)科館員制度在我國公共圖書館工作中既是一種新的服務(wù)模式,也是管理上的一種創(chuàng)新行為。公共圖書館應(yīng)根據(jù)自身的實際情況,因地制宜地開展學(xué)科館員服務(wù)工作,拓寬圖書館的服務(wù)范圍,提升服務(wù)層次,走出一個具有中國特色的因館制宜的學(xué)科館員之路。

參考文獻:

[1]胡越主編.圖書館服務(wù)的學(xué)科化與個性化[M].北京市:首都師范大學(xué)出版社,2008.10:525

[2]譚浩娟.中外圖書館學(xué)科館員制度的比較與啟示.科技情報開發(fā)與經(jīng)濟.2006,(1):36-37

[3]趙紅.國家圖書館學(xué)科館員和學(xué)科化服務(wù)[J].法律文獻信息與研究.2010,(3):22-27

[4]上海圖書館學(xué)會.挖掘知識價值:公共圖書館為企業(yè)的信息服務(wù)[EB]. [2007-11-19].[2013-10-15]

http:///tsgxh/list/list.aspx?id=3929

[5]范沈姍.企業(yè)競爭情報一圖書館信息服務(wù)的新熱點[J].圖書館理論與實踐.2001,(1):22-26,34

[6]張廷杰.深圳圖書館臺港澳文獻資源的建設(shè)與開發(fā)[J].圖書館論壇.1993,(3):59-62

作者簡介: