時(shí)間:2023-02-28 15:52:40
序論:在您撰寫(xiě)數(shù)據(jù)挖掘技術(shù)分析論文時(shí),參考他人的優(yōu)秀作品可以開(kāi)闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導(dǎo)您走向新的創(chuàng)作高度。
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類(lèi)問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類(lèi)分析。聚類(lèi)分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類(lèi)和增量聚類(lèi)。聚類(lèi)方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類(lèi)分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類(lèi)分析算法得到的類(lèi)對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類(lèi)趨勢(shì)進(jìn)行檢驗(yàn)。
4.決策樹(shù)方法。決策樹(shù)學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類(lèi)實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類(lèi)。樹(shù)上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類(lèi)實(shí)例的方法是從這棵樹(shù)的根結(jié)點(diǎn)開(kāi)始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹(shù)枝向下移動(dòng)。決策樹(shù)方法是要應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類(lèi),無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類(lèi)多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類(lèi)能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類(lèi)規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類(lèi)、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類(lèi)精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類(lèi)、回歸、對(duì)未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。
三、結(jié)束語(yǔ)
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
關(guān)鍵詞 技術(shù)情報(bào)分析;數(shù)據(jù)挖掘
中圖分類(lèi)號(hào)TP392 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2013)92-0211-02
1 概述
在面對(duì)海量的情報(bào)信息資源時(shí),如何高效、準(zhǔn)確的開(kāi)展分析工作,為管理決策人員提供支持,已成為當(dāng)今科技工作的重要組成部分??梢哉f(shuō),情報(bào)分析方法和相關(guān)工具的合理使用決定了情報(bào)獲取的準(zhǔn)確性和有效性,并將直接影響制定戰(zhàn)略決策的有效性和科學(xué)性。
技術(shù)情報(bào)分析系統(tǒng)主要進(jìn)行與技術(shù)相關(guān)科技論文、專(zhuān)利、互聯(lián)網(wǎng)情報(bào)數(shù)據(jù)的分析,實(shí)現(xiàn)分析方法、算法、分析結(jié)果的表現(xiàn)形式以及分析報(bào)告自動(dòng)生成等技術(shù)。該情報(bào)分析系統(tǒng)除了基本的維度統(tǒng)計(jì)分析外,更多的側(cè)重于利用知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘等技術(shù)進(jìn)行情報(bào)數(shù)據(jù)的深度處理與分析。通過(guò)情報(bào)分析系統(tǒng)開(kāi)發(fā)設(shè)計(jì),結(jié)合數(shù)據(jù)挖掘等技術(shù)的合理使用,使得系統(tǒng)使用者能夠快速、有效、全面地獲取技術(shù)的情報(bào)信息。
2 系統(tǒng)的設(shè)計(jì)與功能描述
2.3 數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)
2.3.1數(shù)據(jù)文本特征表示
在進(jìn)行文本挖掘時(shí),對(duì)文本特征進(jìn)行處理,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本向結(jié)構(gòu)化轉(zhuǎn)換。情報(bào)分析系統(tǒng)采用向量空間模型(Vector Space Model,VSM)進(jìn)行文本的表示,并利用倒排文檔頻率TFIDF進(jìn)行專(zhuān)利文本的特征提取,以此作為論文、專(zhuān)利文本挖掘的基礎(chǔ)。
2.3.2關(guān)聯(lián)算法
在挖掘論文專(zhuān)利作者之間、機(jī)構(gòu)之間、國(guó)家之間的研究?jī)?nèi)容關(guān)聯(lián)性上,采用了基于文本挖掘的關(guān)聯(lián)算法。通過(guò)對(duì)技術(shù)關(guān)鍵詞的共生關(guān)系(Terms Co-occurrences)計(jì)算來(lái)識(shí)別、確定一組文獻(xiàn)內(nèi)部所包含的技術(shù)組(群)。
2.3.3 層次結(jié)構(gòu)可視化算法
情報(bào)分析系統(tǒng)中關(guān)于論文和專(zhuān)利的引證分析、專(zhuān)利同族分析采用了層次結(jié)構(gòu)可視化算法Hyperbolic Tree,即雙曲樹(shù)算法。其主要原理是將樹(shù)結(jié)構(gòu)在雙曲空間進(jìn)行布局,然后映射到歐式空間的龐萊卡圓盤(pán)進(jìn)行顯示。歐式空間中兩個(gè)相同大小的區(qū)域離龐萊卡圓盤(pán)中心越近,在雙曲空間中所占用的空間越?。环粗?,雙曲空間中兩個(gè)大小相同的區(qū)域離原點(diǎn)越近在龐萊卡圓盤(pán)中所占用的空間越大。
4 結(jié)論
本文提出運(yùn)用數(shù)據(jù)挖掘方法實(shí)現(xiàn)對(duì)大量數(shù)據(jù)的分析和判斷,可有效幫助科技情報(bào)機(jī)構(gòu)和人員提高綜合情報(bào)分析能力和決策的質(zhì)量。同時(shí),該方法可按照不同需要進(jìn)行功能拓展,實(shí)現(xiàn)向更多的技術(shù)情報(bào)領(lǐng)域延伸。
參考文獻(xiàn)
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(PAKDD),IOS Press出版, 2007.
[2]樂(lè)明揚(yáng).公安情報(bào)分析中的數(shù)據(jù)挖掘應(yīng)用研究.信息與電腦.2012(8).
[3]蒲群瑩.基于數(shù)據(jù)挖掘的競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型[J].情報(bào)雜志.2005,1.
數(shù)據(jù)挖掘技術(shù)是近些年發(fā)展起來(lái)的一門(mén)新興學(xué)科,它涉及到數(shù)據(jù)庫(kù)和人工智能等多個(gè)領(lǐng)域。隨著計(jì)算機(jī)技術(shù)的普及數(shù)據(jù)庫(kù)產(chǎn)生大量數(shù)據(jù),能夠從這些大量數(shù)據(jù)中抽取出有價(jià)值信息的技術(shù)稱之為數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘方法有統(tǒng)計(jì)學(xué)方法、關(guān)聯(lián)規(guī)則挖掘、決策樹(shù)方法、聚類(lèi)方法等八種方法,關(guān)聯(lián)規(guī)則是其中最常用的研究方法。關(guān)聯(lián)規(guī)則算法是1993年由R.Atal,Inipusqi,Sqtm三人提出的Apriori算法,是指從海量數(shù)據(jù)中挖掘出有價(jià)值的能夠揭示實(shí)體和數(shù)據(jù)項(xiàng)間某些隱藏的聯(lián)系的有關(guān)知識(shí),其中描述關(guān)聯(lián)規(guī)則的兩個(gè)重要概念分別是Suppor(t支持度)和Confi-dence(可信度)。只有當(dāng)Support和Confidence兩者都較高的關(guān)聯(lián)規(guī)則才是有效的、需要進(jìn)一步進(jìn)行分析和應(yīng)用的規(guī)則。
二、使用Weka進(jìn)行關(guān)聯(lián)挖掘
Weka的全名是懷卡托智能分析環(huán)境(WaikatoEnviron-mentforKnowledgeAnalysis),是一款免費(fèi)的、非商業(yè)化的、基于JAVA環(huán)境下開(kāi)源的機(jī)器學(xué)習(xí)以及數(shù)據(jù)挖掘軟件[2]。它包含了許多數(shù)據(jù)挖掘的算法,是目前最完備的數(shù)據(jù)挖掘軟件之一。Weka軟件提供了Explorer、Experimenter、Knowledge-Flow、SimpleCLI四種模塊[2]。其中Explorer是用來(lái)探索數(shù)據(jù)環(huán)境的,Experimenter是對(duì)各種實(shí)驗(yàn)計(jì)劃進(jìn)行數(shù)據(jù)測(cè)試,KnowledgeFlow和Explorer類(lèi)似,但該模塊通過(guò)其特殊的接口可以讓使用者通過(guò)拖動(dòng)的形式去創(chuàng)建實(shí)驗(yàn)方案,Simple-CLI為簡(jiǎn)單的命令行界面。以下數(shù)據(jù)挖掘任務(wù)主要用Ex-plorer模塊來(lái)進(jìn)行。
(一)數(shù)據(jù)預(yù)處理
數(shù)據(jù)挖掘所需要的所有數(shù)據(jù)可以由系統(tǒng)排序模塊生成并進(jìn)行下載。這里我們下載近兩年的教師科研信息。為了使論文總分、學(xué)術(shù)著作總分、科研獲獎(jiǎng)總分、科研立項(xiàng)總分、科研總得分更有利于數(shù)據(jù)挖掘計(jì)算,在這里我們將以上得分分別確定分類(lèi)屬性值。
(二)數(shù)據(jù)載入
點(diǎn)擊Explorer進(jìn)入后有四種載入數(shù)據(jù)的方式,這里采用第一種Openfile形式。由于Weka所支持的標(biāo)準(zhǔn)數(shù)據(jù)格式為ARFF,我們將處理好的xls格式另存為csv,在weka中找到這個(gè)文件并重新保存為arff文件格式來(lái)實(shí)現(xiàn)數(shù)據(jù)的載入。由于所載入的數(shù)據(jù)噪聲比較多,這里應(yīng)根據(jù)數(shù)據(jù)挖掘任務(wù)對(duì)數(shù)據(jù)表中與本次數(shù)據(jù)任務(wù)不相關(guān)的屬性進(jìn)行移除,只將學(xué)歷、職稱、論文等級(jí)、學(xué)術(shù)著作等級(jí)、科研獲獎(jiǎng)等級(jí)、科研立項(xiàng)等級(jí)、科研總分等級(jí)留下。
(三)關(guān)聯(lián)挖掘與結(jié)果分析
WeakExplorer界面中提供了數(shù)據(jù)挖掘多種算法,在這里我們選擇“Associate”標(biāo)簽下的Apriori算法。之后將“l(fā)owerBoundMinSupprot”(最小支持度)參數(shù)值設(shè)為0.1,將“upperBoundMinSupprot”(最大支持度)參數(shù)值設(shè)為1,在“metiricType”的參數(shù)值選項(xiàng)中選擇lift選項(xiàng),將“minMetric”參數(shù)值設(shè)為1.1,將“numRules”(數(shù)據(jù)集數(shù))參數(shù)值設(shè)為10,其它選項(xiàng)保存默認(rèn)值,這樣就可以挖掘出支持度在10%到100%之間并且lift值超過(guò)1.1且排名前10名的關(guān)聯(lián)規(guī)則。其挖掘參數(shù)信息和關(guān)聯(lián)挖掘的部分結(jié)果。
三、挖掘結(jié)果與應(yīng)用
以上是針對(duì)教師基本情況和科研各項(xiàng)總分進(jìn)行的反復(fù)的數(shù)據(jù)挖掘工作,從挖掘結(jié)果中找到最佳模式進(jìn)行匯總。以下列出了幾項(xiàng)作為參考的關(guān)聯(lián)數(shù)據(jù)挖掘結(jié)果。
1、科研立項(xiàng)得分與論文、科研總得分關(guān)聯(lián)度高,即科研立項(xiàng)為A級(jí)的論文也一定是A。這與實(shí)際也是相符的,因?yàn)榭蒲辛㈨?xiàng)得A的教師應(yīng)該是主持了省級(jí)或是國(guó)家級(jí)的立項(xiàng)的同時(shí)也參與了其他教師的科研立項(xiàng),在課題研究的過(guò)程中一定會(huì)有國(guó)家級(jí)論文或者省級(jí)論文進(jìn)行發(fā)表來(lái)支撐立項(xiàng),所以這類(lèi)教師的論文得分也會(huì)很高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處要鼓勵(lì)和幫助教師搞科研,為教師的科研工作提供精神上的支持和物質(zhì)上的幫助,這樣在很大程度上能夠帶動(dòng)整個(gè)學(xué)??蒲泄ぷ鞯倪M(jìn)展。
2、副教授類(lèi)的教師科研立項(xiàng)得分很高,而講師類(lèi)教師和助教類(lèi)教師的科研立項(xiàng)得分很低,這樣符合實(shí)際情況。因?yàn)楦苯淌陬?lèi)的教師有一定的教學(xué)經(jīng)驗(yàn),并且很多副教授類(lèi)的教師還想晉職稱,所以大多數(shù)副教授類(lèi)教師都會(huì)申請(qǐng)一些課題。而對(duì)于講師類(lèi)和助教類(lèi)的教師,由于教學(xué)經(jīng)驗(yàn)不足很少能進(jìn)行省級(jí)以上的課題研究,因此這兩類(lèi)教師的科研立項(xiàng)分?jǐn)?shù)不高。針對(duì)這樣的結(jié)果,在今后的科研工作中,科研處可以采用一幫一、結(jié)對(duì)子的形式來(lái)幫助年輕教師,這樣可以使青年教師參與到老教師的科研課題研究工作中去,在課題研究工程中提高科研能力和教學(xué)能力。
統(tǒng)計(jì)學(xué)論文2000字(一):影響民族院校統(tǒng)計(jì)學(xué)專(zhuān)業(yè)回歸分析成績(jī)因素的研究論文
摘要:學(xué)習(xí)成績(jī)是評(píng)價(jià)學(xué)生素質(zhì)的重要方面,也是教師檢驗(yàn)教學(xué)能力、反思教學(xué)成果的重要標(biāo)準(zhǔn)。利用大連民族大學(xué)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)本科生有關(guān)數(shù)據(jù)(專(zhuān)業(yè)基礎(chǔ)課成績(jī)、平時(shí)成績(jī)和回歸分析期末成績(jī)),建立多元線性回歸模型,對(duì)影響回歸分析期末成績(jī)的因素進(jìn)行深入研究,其結(jié)果對(duì)今后的教學(xué)方法改進(jìn)和教學(xué)質(zhì)量提高具有十分重要的指導(dǎo)意義。
關(guān)鍵詞:多元線性回歸;專(zhuān)業(yè)基礎(chǔ)課成績(jī);平時(shí)成績(jī);期末成績(jī)
為了實(shí)現(xiàn)教學(xué)目標(biāo),提高教學(xué)質(zhì)量,有效提高學(xué)生學(xué)習(xí)成績(jī)是很有必要的。我們知道專(zhuān)業(yè)基礎(chǔ)課成績(jī)必定影響專(zhuān)業(yè)課成績(jī),而且平時(shí)成績(jī)也會(huì)影響專(zhuān)業(yè)課成績(jī),這兩類(lèi)成績(jī)與專(zhuān)業(yè)課成績(jī)基本上是呈正相關(guān)的,但它們之間的關(guān)系密切程度有多大?它們之間又存在怎樣的內(nèi)在聯(lián)系呢?就這些問(wèn)題,本文主要選取了2016級(jí)統(tǒng)計(jì)專(zhuān)業(yè)50名學(xué)生的四門(mén)專(zhuān)業(yè)基礎(chǔ)課成績(jī)以及回歸分析的平時(shí)成績(jī)和期末成績(jī),運(yùn)用SPSS統(tǒng)計(jì)軟件進(jìn)行分析研究,尋求回歸分析期末成績(jī)影響因素的變化規(guī)律,擬合出關(guān)系式,從而為強(qiáng)化學(xué)生的后續(xù)學(xué)習(xí)和提高老師的教學(xué)質(zhì)量提供了有利依據(jù)。
一、數(shù)據(jù)選取
回歸分析是統(tǒng)計(jì)專(zhuān)業(yè)必修課,也是統(tǒng)計(jì)學(xué)中的一個(gè)非常重要的分支,它在自然科學(xué)、管理科學(xué)和社會(huì)、經(jīng)濟(jì)等領(lǐng)域應(yīng)用十分廣泛。因此研究影響統(tǒng)計(jì)學(xué)專(zhuān)業(yè)回歸分析成績(jī)的相關(guān)性是十分重要的。
選取了統(tǒng)計(jì)專(zhuān)業(yè)50名學(xué)生的專(zhuān)業(yè)基礎(chǔ)課成績(jī)(包括數(shù)學(xué)分析、高等代數(shù)、解析幾何和概率論)、回歸分析的平時(shí)成績(jī)和期末成績(jī),結(jié)合多元線性回歸的基礎(chǔ)理論知識(shí)[1-2],建立多元回歸方程,進(jìn)行深入研究,可以直觀、高效、科學(xué)地分析各種因素對(duì)回歸分析期末成績(jī)?cè)斐傻挠绊憽?/p>
二、建立多元線性回歸模型1及數(shù)據(jù)分析
運(yùn)用SPSS統(tǒng)計(jì)軟件對(duì)回歸分析期末成績(jī)的影響因素進(jìn)行研究,可以得到準(zhǔn)確、科學(xué)合理的數(shù)據(jù)結(jié)果,全面分析評(píng)價(jià)學(xué)生考試成績(jī),對(duì)教師以后的教學(xué)工作和學(xué)生的學(xué)習(xí)會(huì)有較大幫助。自變量x1表示數(shù)學(xué)分析成績(jī),x2表示高等代數(shù)成績(jī),x3表示解析幾何成績(jī),x4表示概率論成績(jī),x5表示平時(shí)成績(jī);因變量y1表示回歸分析期末成績(jī),根據(jù)經(jīng)驗(yàn)可知因變量y1和自變量xi,i=1,2,3,4,5之間大致成線性關(guān)系,可建立線性回歸模型:
(1)
線性回歸模型通常滿足以下幾個(gè)基本假設(shè),
1.隨機(jī)誤差項(xiàng)具有零均值和等方差,即
(2)
這個(gè)假定通常稱為高斯-馬爾柯夫條件。
2.正態(tài)分布假定條件
由多元正態(tài)分布的性質(zhì)和上述假定可知,隨機(jī)變量y1服從n維正態(tài)分布。
從表1描述性統(tǒng)計(jì)表中可看到各變量的平均值1=79.68,2=74.66,3=77.22,4=78.10,5=81.04,1=75.48;xi的標(biāo)準(zhǔn)差分別為10.847,11.531,8.929,9.018,9.221,y1的標(biāo)準(zhǔn)差為8.141;有效樣本量n=50。
回歸分析期末成績(jī)y1的多元回歸模型1為:
y1=-5.254+0.221x1-0.4x2+0.154x3
+0.334x4+0.347x5
從表2中可以看到各變量的|t|值,在給定顯著水平?琢=0.05的情況下,通過(guò)t分布表可以查出,自由度為44的臨界值t?琢/2(44)=2.015,由于高等代數(shù)x2的|t|值為0.651小于t?琢/2(44),因此x2對(duì)y1的影響不顯著,其他自變量對(duì)y1都是線性顯著的。下面利用后退法[3]剔除自變量x2。
三、后退法建立多元線性回歸模型2及數(shù)據(jù)分析
從模型1中剔除了x2變量,多元回歸模型2為:
y1=-5.459+0.204x1+0.149x3+0.377x4+0.293x5(5)
在表4中,F(xiàn)統(tǒng)計(jì)量為90.326,在給定顯著水平?琢=0.05的情況下,查F分布表可得,自由度為p=4和n-p-1=45的臨界值F0.05(4,45)=2.579,所以F>F0.05(4,45),在表5中,所有自變量的|t|值都大于t?琢/2(45)=2.014,因此,多元回歸模型2的線性關(guān)系是顯著的。
四、結(jié)束語(yǔ)
通過(guò)對(duì)上述模型進(jìn)行分析,即各個(gè)自變量對(duì)因變量的邊際影響,可以得到以下結(jié)論:在保持其他條件不變的情況下,當(dāng)數(shù)學(xué)分析成績(jī)提高一分,則回歸分析成績(jī)可提高0.242分[4-5];同理,當(dāng)解析幾何成績(jī)、概率論成績(jī)和平時(shí)成績(jī)每提高一分,則回歸分析成績(jī)分別提高0.149分、0.377分和0.293分。
通過(guò)對(duì)學(xué)生專(zhuān)業(yè)基礎(chǔ)課成績(jī)、平時(shí)成績(jī)與回歸分析期末成績(jī)之間相關(guān)關(guān)系的研究,一方面有利于教師把控回歸分析教學(xué)課堂,提高教師意識(shí),注重專(zhuān)業(yè)基礎(chǔ)課教學(xué)的重要性,同時(shí),當(dāng)學(xué)生平時(shí)成績(jī)不好時(shí),隨時(shí)調(diào)整教學(xué)進(jìn)度提高學(xué)生平時(shí)學(xué)習(xí)能力;另一方面使學(xué)生認(rèn)識(shí)到,為了更好地掌握回歸分析知識(shí),應(yīng)加強(qiáng)專(zhuān)業(yè)基礎(chǔ)課的學(xué)習(xí),提高平時(shí)學(xué)習(xí)的積極性。因此,通過(guò)對(duì)回歸分析期末成績(jī)影響因素的研究能有效的解決教師教學(xué)和學(xué)生學(xué)習(xí)中的許多問(wèn)題。
統(tǒng)計(jì)學(xué)畢業(yè)論文范文模板(二):大數(shù)據(jù)背景下統(tǒng)計(jì)學(xué)專(zhuān)業(yè)“數(shù)據(jù)挖掘”課程的教學(xué)探討論文
摘要:互聯(lián)網(wǎng)技術(shù)、物聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)的蓬勃發(fā)展,造就了一個(gè)嶄新的大數(shù)據(jù)時(shí)代,這些變化對(duì)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)人才培養(yǎng)模式的變革起到了助推器的作用,而數(shù)據(jù)挖掘作為拓展和提升大數(shù)據(jù)分析方法與思路的應(yīng)用型課程,被廣泛納入統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)人才培養(yǎng)方案。本文基于數(shù)據(jù)挖掘課程的特點(diǎn),結(jié)合實(shí)際教學(xué)經(jīng)驗(yàn),對(duì)統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)開(kāi)設(shè)數(shù)據(jù)挖掘課程進(jìn)行教學(xué)探討,以期達(dá)到更好的教學(xué)效果。
關(guān)鍵詞:統(tǒng)計(jì)學(xué)專(zhuān)業(yè);數(shù)據(jù)挖掘;大數(shù)據(jù);教學(xué)
一、引言
通常人們總結(jié)大數(shù)據(jù)有“4V”的特點(diǎn):Volume(體量大),Variety(多樣性),Velocity(速度快)和Value(價(jià)值密度低)。從這樣大量、多樣化的數(shù)據(jù)中挖掘和發(fā)現(xiàn)內(nèi)在的價(jià)值,是這個(gè)時(shí)代帶給我們的機(jī)遇與挑戰(zhàn),同時(shí)對(duì)數(shù)據(jù)分析技術(shù)的要求也相應(yīng)提高。傳統(tǒng)教學(xué)模式并不能適應(yīng)和滿足學(xué)生了解數(shù)據(jù)處理和分析最新技術(shù)與方法的迫切需要。對(duì)于常常和數(shù)據(jù)打交道的統(tǒng)計(jì)學(xué)專(zhuān)業(yè)的學(xué)生來(lái)說(shuō),更是如此。
二、課程教學(xué)探討
針對(duì)統(tǒng)計(jì)學(xué)本科專(zhuān)業(yè)的學(xué)生而言,“數(shù)據(jù)挖掘”課程一般在他們?nèi)昙?jí)或者四年級(jí)所開(kāi)設(shè),他們?cè)谇捌谝呀?jīng)學(xué)習(xí)完統(tǒng)計(jì)學(xué)、應(yīng)用回歸分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析等課程,所以在“數(shù)據(jù)挖掘”課程的教學(xué)內(nèi)容選擇上要有所取舍,同時(shí)把握好難度。不能把“數(shù)據(jù)挖掘”課程涵蓋了的所有內(nèi)容不加選擇地要求學(xué)生全部掌握,對(duì)學(xué)生來(lái)說(shuō)是不太現(xiàn)實(shí)的,需要為統(tǒng)計(jì)學(xué)專(zhuān)業(yè)本科生“個(gè)性化定制”教學(xué)內(nèi)容。
(1)“數(shù)據(jù)挖掘”課程的教學(xué)應(yīng)該偏重于應(yīng)用,更注重培養(yǎng)學(xué)生解決問(wèn)題的能力。因此,教學(xué)目標(biāo)應(yīng)該是:使學(xué)生樹(shù)立數(shù)據(jù)挖掘的思維體系,掌握數(shù)據(jù)挖掘的基本方法,提高學(xué)生的實(shí)際動(dòng)手能力,為在大數(shù)據(jù)時(shí)代,進(jìn)一步學(xué)習(xí)各種數(shù)據(jù)處理和定量分析工具打下必要的基礎(chǔ)。按照這個(gè)目標(biāo),教學(xué)內(nèi)容應(yīng)以數(shù)據(jù)挖掘技術(shù)的基本原理講解為主,讓學(xué)生了解和掌握各種技術(shù)和方法的來(lái)龍去脈、功能及優(yōu)缺點(diǎn);以算法講解為輔,由于有R語(yǔ)言、python等軟件,學(xué)生了解典型的算法,能用軟件把算法實(shí)現(xiàn),對(duì)軟件的計(jì)算結(jié)果熟練解讀,對(duì)各種算法的改進(jìn)和深入研究則不作要求,有興趣的同學(xué)可以自行課下探討。
(2)對(duì)于已經(jīng)學(xué)過(guò)的內(nèi)容不再詳細(xì)講解,而是側(cè)重介紹它們?cè)跀?shù)據(jù)挖掘中的功能及綜合應(yīng)用。在新知識(shí)的講解過(guò)程中,注意和已學(xué)過(guò)知識(shí)的融匯貫通,既復(fù)習(xí)鞏固了原來(lái)學(xué)過(guò)的知識(shí),同時(shí)也無(wú)形中降低了新知識(shí)的難度。比如,在數(shù)據(jù)挖掘模型評(píng)估中,把混淆矩陣、ROC曲線、誤差平方和等知識(shí)點(diǎn)就能和之前學(xué)過(guò)的內(nèi)容有機(jī)聯(lián)系起來(lái)。
(3)結(jié)合現(xiàn)實(shí)數(shù)據(jù),讓學(xué)生由“被動(dòng)接收”式的學(xué)習(xí)變?yōu)椤爸鲃?dòng)探究”型的學(xué)習(xí)。在講解每種方法和技術(shù)之后,增加一個(gè)或幾個(gè)案例,以加強(qiáng)學(xué)生對(duì)知識(shí)的理解。除了充分利用已有的國(guó)內(nèi)外數(shù)據(jù)資源,還可以鼓勵(lì)學(xué)生去搜集自己感興趣的或者國(guó)家及社會(huì)大眾關(guān)注的問(wèn)題進(jìn)行研究,提升學(xué)生學(xué)習(xí)的成就感。
(4)充分考慮前述提到的三點(diǎn),課程內(nèi)容計(jì)劃安排見(jiàn)表1。
(5)課程的考核方式既要一定的理論性,又不能失掉實(shí)踐應(yīng)用性,所以需要結(jié)合平時(shí)課堂表現(xiàn)、平時(shí)實(shí)驗(yàn)項(xiàng)目完成情況和期末考試來(lái)綜合評(píng)定成績(jī)。采取期末閉卷理論考試占50%,平時(shí)實(shí)驗(yàn)項(xiàng)目完成占40%,課堂表現(xiàn)占10%,這樣可以全方位的評(píng)價(jià)學(xué)生的表現(xiàn)。
三、教學(xué)效果評(píng)估
經(jīng)過(guò)幾輪的教學(xué)實(shí)踐后,取得了如下的教學(xué)效果:
(1)學(xué)生對(duì)課程的興趣度在提升,課下也會(huì)不停地去思考數(shù)據(jù)挖掘有關(guān)的方法和技巧,發(fā)現(xiàn)問(wèn)題后會(huì)一起交流與討論。
(2)在大學(xué)生創(chuàng)新創(chuàng)業(yè)項(xiàng)目或者數(shù)據(jù)分析的有關(guān)競(jìng)賽中,選用數(shù)據(jù)挖掘方法的人數(shù)也越來(lái)越多,部分同學(xué)的成果還能在期刊上正式發(fā)表,有的同學(xué)還能在競(jìng)賽中取得優(yōu)秀的成績(jī)。
(3)統(tǒng)計(jì)學(xué)專(zhuān)業(yè)本科生畢業(yè)論文的選題中利用數(shù)據(jù)挖掘有關(guān)方法來(lái)完成的論文越來(lái)越多,論文的完成質(zhì)量也在不斷提高。
(4)本科畢業(yè)生的就業(yè)崗位中從事數(shù)據(jù)挖掘工作的人數(shù)有所提高,說(shuō)明滿足企業(yè)需求技能的人數(shù)在增加。繼續(xù)深造的畢業(yè)生選擇數(shù)據(jù)挖掘研究方向的人數(shù)也在逐漸增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā)。
教學(xué)實(shí)踐結(jié)果表明,通過(guò)數(shù)據(jù)挖掘課程的學(xué)習(xí),可以讓學(xué)生在掌握理論知識(shí)的基礎(chǔ)上,進(jìn)一步提升分析問(wèn)題和解決實(shí)際問(wèn)題的能力。
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹(shù);C4.5算法;教學(xué)管理;高校教學(xué)
中圖分類(lèi)號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過(guò)程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫(kù)技術(shù),通過(guò)對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績(jī)管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來(lái)的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡(jiǎn)介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過(guò)分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過(guò)程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫(kù)為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類(lèi):統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類(lèi)方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹(shù)技術(shù)構(gòu)造分類(lèi)模型,將事例分類(lèi)成不同的類(lèi)別。
2 決策樹(shù)算法基本理論
2.1 決策樹(shù)方法介紹
決策樹(shù)[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無(wú)序的,無(wú)規(guī)則的事例中推斷出類(lèi)似條件下會(huì)得到什么值這類(lèi)規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹(shù)歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。建模過(guò)程中,即樹(shù)的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問(wèn)題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來(lái)形成分類(lèi)器和預(yù)測(cè)模型。如圖1所示,為決策樹(shù)的示意圖。
決策樹(shù)一種類(lèi)似流程圖的樹(shù)形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類(lèi),生成具體的分類(lèi)規(guī)則,信息樣本的各個(gè)屬性值要在決策樹(shù)上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹(shù)。決策樹(shù)最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹(shù)的開(kāi)始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹(shù)進(jìn)行修剪,此過(guò)程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹(shù)的過(guò)匹配,進(jìn)而保證生成決策樹(shù)的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類(lèi)別,或者沒(méi)有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹(shù)算法,它是最早的決策樹(shù)算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來(lái)的,它繼承了ID3算法的全部?jī)?yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹(shù)算法中,C4.5算法不僅分類(lèi)準(zhǔn)確而且執(zhí)行速度快。
C4.5通過(guò)兩個(gè)步驟來(lái)建立決策樹(shù):第一階段樹(shù)的生成,第二階段樹(shù)的剪枝。C4.5算法采用信息增益率來(lái)記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹(shù)。C4.5算法構(gòu)造決策樹(shù)的基本策略如下:
首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類(lèi)別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類(lèi)別[Ci(i∈1,2,...,m)]。假設(shè)類(lèi)別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。
接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類(lèi)別的樣本集,根據(jù)A劃分計(jì)算的熵為:
然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹(shù)
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類(lèi)C Then;
3)返回label=類(lèi)C的單結(jié)點(diǎn)樹(shù)root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹(shù)root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測(cè)試屬性列表Attributes中的屬性;
8)IF測(cè)試屬性是連續(xù)的Then;
9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計(jì)算測(cè)試屬性的信息增益比率;
20)添加子樹(shù)Generate Tree C4.5;
21)對(duì)已建立的決策樹(shù)計(jì)算每個(gè)結(jié)點(diǎn)的分類(lèi)錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績(jī)管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問(wèn)題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績(jī)進(jìn)行全面且深度的分析,從而挖掘出成績(jī)與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹(shù)技術(shù)挖掘信息時(shí),主要操作步驟如下:
1)確定挖掘來(lái)源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績(jī),旨在通過(guò)對(duì)大量成績(jī)數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績(jī)的各方面因素,正確的針對(duì)問(wèn)題擬定分析過(guò)程。
2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問(wèn)題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過(guò)程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫(kù)中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過(guò)程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來(lái)建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹(shù)技術(shù)進(jìn)行分類(lèi)建模來(lái)解決相應(yīng)的問(wèn)題。
5)分類(lèi)挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來(lái)確定挖掘的分類(lèi)模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語(yǔ)言來(lái)實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過(guò)得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。
6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類(lèi)規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開(kāi)展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績(jī)主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類(lèi)規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學(xué).機(jī)器學(xué)習(xí)[D].曾華軍,張銀奎,譯,北京:機(jī)械工業(yè)出版社,2003.
關(guān)鍵詞:醫(yī)學(xué)院校;目標(biāo)驅(qū)動(dòng);課程設(shè)計(jì);畢業(yè)論文
中圖分類(lèi)號(hào):G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-9324(2012)12-0218-02
一、背景
“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”是國(guó)內(nèi)外高等院校一門(mén)重要的課程,是國(guó)家基礎(chǔ)教育較為重視的一門(mén)學(xué)科,受到不同專(zhuān)業(yè)學(xué)生的喜愛(ài)。其教學(xué)目標(biāo)是提高學(xué)生的數(shù)據(jù)分析水平和能力,除了教授學(xué)生數(shù)據(jù)分析的常見(jiàn)方法之外,還將引導(dǎo)學(xué)生如何對(duì)實(shí)際的問(wèn)題進(jìn)行建模,如何對(duì)模型進(jìn)行簡(jiǎn)化和求解。利用實(shí)例教學(xué)等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學(xué)生易于理解和接受。近年來(lái),數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來(lái)越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開(kāi)發(fā)、科學(xué)研究等方面都獲得了可喜的成果。運(yùn)用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對(duì)疾病的診斷、治療和醫(yī)學(xué)研究都是非常有價(jià)值的。因此,我們學(xué)院也把這門(mén)課程作為計(jì)算機(jī)專(zhuān)業(yè)及信息管理與信息系統(tǒng)專(zhuān)業(yè)的必修課。把計(jì)算機(jī)與醫(yī)學(xué)結(jié)合,使得學(xué)生的培養(yǎng)方案全面包括了計(jì)算機(jī)與醫(yī)學(xué)的知識(shí)點(diǎn)。由于該課程原本屬于研究生階段開(kāi)設(shè)的專(zhuān)業(yè)課程,教材也大多側(cè)重于介紹體系結(jié)構(gòu)、算法原理、效率分析與改進(jìn)等理論知識(shí),其中所涉及的內(nèi)容大多比較深,許多知識(shí)都超出了本科生的接受范圍,此外,教材對(duì)相關(guān)理論在實(shí)際應(yīng)用方面的說(shuō)明也比較少,不利于安排實(shí)驗(yàn)教學(xué)。因此要實(shí)現(xiàn)“數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程的教學(xué)目標(biāo),必須在理論教學(xué)和實(shí)驗(yàn)教學(xué)環(huán)節(jié)綜合考慮學(xué)時(shí)多少、教學(xué)條件以及學(xué)生的接受情況等因素,靈活地加以選擇安排。
二、存在的問(wèn)題
主要包括以下幾方面:①課堂上以教師講、學(xué)生聽(tīng)的教學(xué)形式為主,學(xué)生學(xué)習(xí)處于被動(dòng)狀態(tài),他們的創(chuàng)造性因此被嚴(yán)重扼殺;②教師對(duì)專(zhuān)業(yè)課程體系和學(xué)生的知識(shí)體系不夠重視,對(duì)課程體系的講解不到位,造成學(xué)生在學(xué)習(xí)時(shí)課程之間聯(lián)系不上,知識(shí)銜接不好,對(duì)知識(shí)的運(yùn)用和融會(huì)貫通比較差;③實(shí)驗(yàn)與理論脫節(jié)?!皵?shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘”課程理論講授的算法與實(shí)驗(yàn)軟件中的算法有很大差距,使得學(xué)生難以理解。比如對(duì)于理論上講授的關(guān)聯(lián)規(guī)則算法,實(shí)驗(yàn)中使用SQL SERVER 2005中的商務(wù)智能工具做實(shí)驗(yàn),學(xué)生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學(xué)院校的學(xué)生對(duì)純粹計(jì)算機(jī)理論知識(shí)接受困難。由于該門(mén)課程是交叉學(xué)科,涉及計(jì)算機(jī)、數(shù)學(xué)、統(tǒng)計(jì)學(xué)等知識(shí),如果學(xué)生的其他學(xué)科學(xué)得不好,就會(huì)對(duì)該課程的學(xué)習(xí)產(chǎn)生障礙;⑤教師講授沒(méi)有把理論課程結(jié)合到實(shí)際應(yīng)用中。有很多學(xué)生不知道學(xué)習(xí)這門(mén)課的意義,老師沒(méi)有很好引導(dǎo)學(xué)生,激活他們的學(xué)習(xí)熱情。
三、目標(biāo)驅(qū)動(dòng)的教學(xué)框架
對(duì)于以上問(wèn)題,本文提出了一個(gè)新的教學(xué)體系,設(shè)計(jì)了一套基于目標(biāo)驅(qū)動(dòng)的教學(xué)框架,把教師與學(xué)生緊密聯(lián)系起來(lái),從教學(xué)大綱的設(shè)置,教材的選擇,理論教學(xué),實(shí)驗(yàn)教學(xué),課程設(shè)計(jì)及畢業(yè)論文,全面引導(dǎo)學(xué)生從初步了解到深入學(xué)習(xí)的過(guò)程。對(duì)于我們學(xué)校的實(shí)際情況,有兩個(gè)專(zhuān)業(yè)的學(xué)生要學(xué)習(xí)這門(mén)課程。一個(gè)是計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè),一個(gè)是信息管理與信息系統(tǒng)專(zhuān)業(yè)。對(duì)于兩個(gè)不同的專(zhuān)業(yè),我們?cè)O(shè)置不同的教學(xué)大綱。比如對(duì)于計(jì)算機(jī)專(zhuān)業(yè)的學(xué)生,數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘教學(xué)總時(shí)數(shù)為72學(xué)時(shí),其中理論為54學(xué)時(shí),實(shí)驗(yàn)為36學(xué)時(shí)。
1.理論教學(xué)。對(duì)于信息管理與信息系統(tǒng)專(zhuān)業(yè)的學(xué)生,我們可以設(shè)置如下的教學(xué)計(jì)劃,可分為三個(gè)主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術(shù)》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎(chǔ)知識(shí),包括數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的基本概念和相關(guān)知識(shí)介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類(lèi)分析的實(shí)際應(yīng)用。本課程是信息管理與信息系統(tǒng)專(zhuān)業(yè)本科生專(zhuān)業(yè)必修課。通過(guò)該課程的學(xué)習(xí),要求學(xué)生掌握數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的基本概念,了解基本方法和應(yīng)用背景。掌握數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和建立,掌握數(shù)據(jù)挖掘的主要步驟和實(shí)現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實(shí)現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學(xué)時(shí)的安排,第一章緒論(6學(xué)時(shí));第二章數(shù)據(jù)倉(cāng)庫(kù)(4學(xué)時(shí));第三章數(shù)據(jù)預(yù)處理(8學(xué)時(shí));第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識(shí)的類(lèi)型(8學(xué)時(shí));第五章數(shù)據(jù)挖掘中常用算法(12學(xué)時(shí));第六章數(shù)據(jù)挖掘的工具及其應(yīng)用(8學(xué)時(shí));第七章數(shù)據(jù)挖掘應(yīng)用實(shí)例(8學(xué)時(shí))。
2.實(shí)驗(yàn)教學(xué)。本課程配合理論教學(xué),通過(guò)系統(tǒng)的實(shí)踐教學(xué)鍛煉,著重培養(yǎng)學(xué)生的獨(dú)立分析問(wèn)題和解決問(wèn)題的能力,熟練掌握數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)和建立以及各類(lèi)數(shù)據(jù)挖掘方法,使學(xué)生具有一定的數(shù)據(jù)分析和挖掘能力,能在認(rèn)識(shí)基礎(chǔ)上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實(shí)際例子,寫(xiě)出解決方案。學(xué)生應(yīng)在實(shí)驗(yàn)課前明確實(shí)驗(yàn)的目的和要求,然后針對(duì)相關(guān)問(wèn)題寫(xiě)出解決方案。實(shí)驗(yàn)時(shí)對(duì)實(shí)際方案的運(yùn)行結(jié)果應(yīng)能進(jìn)行分析并提出改進(jìn)方法,最終寫(xiě)出實(shí)驗(yàn)報(bào)告。通過(guò)實(shí)驗(yàn)教學(xué)應(yīng)達(dá)到以下基本要求:①理解數(shù)據(jù)倉(cāng)庫(kù)的工作機(jī)理及其構(gòu)建過(guò)程;②掌握典型的數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)及其開(kāi)發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術(shù)的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實(shí)際問(wèn)題。實(shí)驗(yàn)成績(jī)包括:實(shí)驗(yàn)教學(xué)過(guò)程成績(jī)、實(shí)驗(yàn)報(bào)告成績(jī),各占50%。實(shí)驗(yàn)過(guò)程表現(xiàn)成績(jī)包括:學(xué)習(xí)態(tài)度是否認(rèn)真、實(shí)驗(yàn)操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識(shí)等方面。實(shí)驗(yàn)報(bào)告成績(jī)包括:實(shí)驗(yàn)報(bào)告格式是否正確、原理是否論述清楚、實(shí)驗(yàn)結(jié)果分析討論是否符合邏輯,報(bào)告字跡是否清楚等方面。
3.課程設(shè)計(jì)。理論課和實(shí)驗(yàn)課接近結(jié)束時(shí),我們把最后三周作為本門(mén)課程的課程設(shè)計(jì)。課程設(shè)計(jì)的目的是讓學(xué)生進(jìn)一步深刻理解所學(xué)知識(shí)。由于本門(mén)課程很多算法不容易理解,如何讓學(xué)生把所學(xué)知識(shí)結(jié)合到醫(yī)學(xué)應(yīng)用中是課程設(shè)計(jì)的關(guān)鍵。比如我們對(duì)信息管理與信息系統(tǒng)專(zhuān)業(yè)的學(xué)生課程設(shè)計(jì),要求學(xué)生每人選擇一個(gè)老師給定的題目,課程設(shè)計(jì)有詳細(xì)的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學(xué)診斷中的應(yīng)用”要求學(xué)生能把本門(mén)課程相關(guān)的算法結(jié)合使用,最后給出詳細(xì)的分析。通過(guò)課程設(shè)計(jì),我們發(fā)現(xiàn),學(xué)生對(duì)本門(mén)課程更有興趣。
4.畢業(yè)論文。我們把課程一般開(kāi)設(shè)在大三的下學(xué)期,也就是說(shuō)學(xué)生學(xué)完這門(mén)課程后,就做了該門(mén)課的課程設(shè)計(jì),使得學(xué)生對(duì)數(shù)據(jù)挖掘相關(guān)知識(shí)有了比較深刻的認(rèn)識(shí)。這樣,我們可以引導(dǎo)學(xué)生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學(xué)生大學(xué)四年所學(xué)知識(shí),也對(duì)他們將來(lái)就業(yè)起到提前培訓(xùn)的作用。把理論結(jié)合實(shí)踐,老師對(duì)學(xué)生的引導(dǎo)也十分重要。
我們根據(jù)醫(yī)學(xué)院校的特征,提出了一套目標(biāo)驅(qū)動(dòng)的教學(xué)理念,從學(xué)生認(rèn)識(shí)這門(mén)課程到學(xué)生理論課的學(xué)習(xí),實(shí)驗(yàn)課的學(xué)習(xí),課程設(shè)計(jì)及畢業(yè)論文的完成,在老師的指導(dǎo)下,使用我們的考核體系,可提高學(xué)生對(duì)所學(xué)課程的興趣。
參考文獻(xiàn):
關(guān)鍵詞:遠(yuǎn)程開(kāi)放教育,數(shù)據(jù)挖掘,應(yīng)用,智能化
1 前言
現(xiàn)代遠(yuǎn)程開(kāi)放教育的全過(guò)程基本上都是通過(guò)瀏覽網(wǎng)站的形式進(jìn)行的,學(xué)生在Web上的行為都會(huì)產(chǎn)生大量的信息,這些信息在遠(yuǎn)程教育的全過(guò)程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來(lái)指導(dǎo)遠(yuǎn)程教育中的各個(gè)環(huán)節(jié),以此來(lái)為學(xué)生提供個(gè)性化的服務(wù)內(nèi)容,增強(qiáng)遠(yuǎn)程開(kāi)放教育的競(jìng)爭(zhēng)力。利用數(shù)據(jù)庫(kù)技術(shù)來(lái)存儲(chǔ)管理數(shù)據(jù),利用網(wǎng)絡(luò)和計(jì)算機(jī)學(xué)習(xí)的方法來(lái)分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識(shí),即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是最為關(guān)鍵的環(huán)節(jié)。論文參考網(wǎng)?;谶h(yuǎn)程開(kāi)放教育將是當(dāng)前和未來(lái)教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代遠(yuǎn)程開(kāi)放教育系統(tǒng)中。
2 數(shù)據(jù)挖掘概述
2.1數(shù)據(jù)挖掘(DataMining)定義
數(shù)據(jù)挖掘就是從大量存儲(chǔ)的數(shù)據(jù)中,利用模式識(shí)別、統(tǒng)計(jì)和數(shù)學(xué)的技術(shù),篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢(shì)的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。它主要依靠人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù),對(duì)數(shù)據(jù)進(jìn)行歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)未來(lái)趨勢(shì),為決策提供支持。
2.2數(shù)據(jù)挖掘的主要任務(wù)
(1)關(guān)聯(lián)分析。兩個(gè)或兩個(gè)以上變量的取值之間存在的規(guī)律性稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類(lèi)重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。
(2)聚類(lèi)分析。聚類(lèi)是把數(shù)據(jù)按照相似性歸納成若干類(lèi)別,同一類(lèi)中的數(shù)據(jù)彼此相似,不同類(lèi)中的數(shù)據(jù)相異。
(3)分類(lèi)。分類(lèi)就是找出一個(gè)類(lèi)別的概念描述,它代表了這類(lèi)數(shù)據(jù)的整體信息。
(4)預(yù)測(cè)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來(lái)數(shù)據(jù)的種類(lèi)及特征進(jìn)行預(yù)測(cè)。
(5)時(shí)序模式。時(shí)序模式是指通過(guò)時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預(yù)測(cè)未來(lái)的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。
(6)偏差分析。在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別。
2.3數(shù)據(jù)挖掘?qū)ο?/p>
根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等。
2.4數(shù)據(jù)挖掘技術(shù)實(shí)施的步驟
(1)確定業(yè)務(wù)對(duì)象。清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評(píng)價(jià),并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶。
(2)數(shù)據(jù)準(zhǔn)備。這個(gè)階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)分析和轉(zhuǎn)換。要對(duì)Web服務(wù)器上的數(shù)據(jù)進(jìn)行挖掘,必須研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問(wèn)題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來(lái),提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。
(3)數(shù)據(jù)挖掘。這個(gè)階段就是利用數(shù)據(jù)挖掘工具對(duì)經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘和發(fā)現(xiàn)知識(shí)的過(guò)程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當(dāng)具體使用操作時(shí),也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習(xí)慣的影響。數(shù)據(jù)挖掘利用人工智能領(lǐng)域中一些已經(jīng)成熟的算法和技術(shù)。如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹(shù)方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來(lái)進(jìn)行數(shù)據(jù)的挖掘。
(4)結(jié)果分析。論文參考網(wǎng)。數(shù)據(jù)挖掘的結(jié)果由分析人員根據(jù)發(fā)現(xiàn)知識(shí)的領(lǐng)域重要性、可信度和支持度等閥值來(lái)對(duì)發(fā)現(xiàn)結(jié)果進(jìn)行評(píng)價(jià),并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶。通常會(huì)用到可視化技術(shù)。
(5)知識(shí)的同化。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。
3 現(xiàn)代遠(yuǎn)程開(kāi)放教育系統(tǒng)簡(jiǎn)介
遠(yuǎn)程開(kāi)放教育系統(tǒng)能實(shí)現(xiàn)個(gè)性化學(xué)習(xí)、實(shí)時(shí)教學(xué)、實(shí)時(shí)考試和智能答疑。為每一個(gè)接受網(wǎng)絡(luò)遠(yuǎn)程教育的學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)進(jìn)程。能根據(jù)與當(dāng)前學(xué)習(xí)者相類(lèi)似的學(xué)生的學(xué)習(xí)模式自動(dòng)地對(duì)其后繼知識(shí)的學(xué)習(xí)進(jìn)行預(yù)測(cè)以及合理推薦,并對(duì)學(xué)習(xí)者的學(xué)習(xí)過(guò)程進(jìn)行分階段的評(píng)價(jià),依據(jù)其績(jī)效信息動(dòng)態(tài)調(diào)整其學(xué)習(xí)難度、練習(xí)與測(cè)試內(nèi)容,對(duì)學(xué)生提出的問(wèn)題實(shí)現(xiàn)智能化答疑,對(duì)該學(xué)習(xí)者薄弱環(huán)節(jié)進(jìn)行有效指導(dǎo),做到因材施教和全天候?qū)W習(xí)。
遠(yuǎn)程開(kāi)放教育系統(tǒng)由用戶系統(tǒng)、WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)服務(wù)器、用戶數(shù)據(jù)庫(kù)和資源數(shù)據(jù)庫(kù)組成。
用戶系統(tǒng)用于實(shí)現(xiàn)遠(yuǎn)程開(kāi)放教育系統(tǒng)的顯示功能,其功能是:實(shí)現(xiàn)信息的和接受,管理員通過(guò)它來(lái)實(shí)現(xiàn)系統(tǒng)的管理、更新、維護(hù)等,主要是通過(guò)XML語(yǔ)言和HTTP協(xié)議實(shí)現(xiàn)WEB瀏覽器與WEB服務(wù)器的鏈接和信息通訊。WEB服務(wù)器用于完成遠(yuǎn)程開(kāi)放教育系統(tǒng)的事務(wù)處理,用于處理學(xué)習(xí)過(guò)程中的各種事務(wù)。應(yīng)用服務(wù)器直接為WEB服務(wù)器提供相關(guān)服務(wù),處理WEB服務(wù)器以及XML文檔組成的用戶的事務(wù)請(qǐng)求信息。論文參考網(wǎng)。數(shù)據(jù)庫(kù)服務(wù)器用于完成數(shù)據(jù)處理,為應(yīng)用服務(wù)器提供相關(guān)服務(wù),完成數(shù)據(jù)查詢、修改和更新等服務(wù),并把運(yùn)行結(jié)果反饋給應(yīng)用服務(wù)器。資源數(shù)據(jù)庫(kù)中主要由遠(yuǎn)程開(kāi)放教育系統(tǒng)中要使用的課件庫(kù)、答疑庫(kù)、作業(yè)庫(kù)、試題庫(kù)和必要的超級(jí)鏈接等構(gòu)成。用戶數(shù)據(jù)庫(kù)主要用于存儲(chǔ)遠(yuǎn)程開(kāi)放教育系統(tǒng)中要使用的的注冊(cè)檔案、用戶目前的學(xué)習(xí)內(nèi)容、學(xué)習(xí)進(jìn)展、作業(yè)情況和考試情況等信息。
4 數(shù)據(jù)挖掘技術(shù)在遠(yuǎn)程開(kāi)放教育中的應(yīng)用
現(xiàn)代遠(yuǎn)程開(kāi)放教育是隨著現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種新型教育形式,其基本特征是利用計(jì)算機(jī)網(wǎng)絡(luò)和多媒體技術(shù),提供豐富的教學(xué)資源供學(xué)習(xí)者選用,教學(xué)形式由原來(lái)的以教為主變?yōu)橐詫W(xué)為主。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠(yuǎn)程開(kāi)放教育中的應(yīng)用主要有以下幾方面:
(1)在個(gè)性化學(xué)習(xí)方面的應(yīng)用
由于每個(gè)學(xué)習(xí)者的知識(shí)背景、學(xué)習(xí)習(xí)慣和學(xué)習(xí)目標(biāo)都不一樣,故個(gè)性化學(xué)習(xí)在遠(yuǎn)程開(kāi)放教育中就顯得非常重要。為了實(shí)現(xiàn)此功能,基于WEB的智能遠(yuǎn)程開(kāi)放教育系統(tǒng)首先要根據(jù)學(xué)習(xí)者的特點(diǎn)和學(xué)習(xí)目標(biāo)來(lái)收集學(xué)習(xí)者的數(shù)據(jù)信息,然后對(duì)收集到的信息進(jìn)行預(yù)處理,再應(yīng)用一種合理的挖掘算法或綜合應(yīng)用不同的算法,如關(guān)聯(lián)規(guī)則分析、聚類(lèi)和分類(lèi)技術(shù)、統(tǒng)計(jì)分析以及時(shí)序模式技術(shù)等,來(lái)處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問(wèn)模式,但是通過(guò)模式挖掘后,生成的規(guī)則數(shù)目大、表達(dá)晦澀且不好用,這時(shí)就需要用到智能查詢機(jī)制、可視化和聯(lián)機(jī)分析等技術(shù)對(duì)模式進(jìn)行分析評(píng)價(jià),經(jīng)過(guò)模式分析和應(yīng)用技術(shù)處理后,選擇一種學(xué)習(xí)者易于理解和接受的表達(dá)方式將知識(shí)數(shù)據(jù)顯現(xiàn)出來(lái)。利用數(shù)據(jù)挖掘與學(xué)習(xí)內(nèi)容綁定的技術(shù),系統(tǒng)就可以以可視化方式來(lái)指導(dǎo)學(xué)習(xí)者學(xué)習(xí)和個(gè)性化發(fā)展,這樣系統(tǒng)就實(shí)現(xiàn)了個(gè)性化學(xué)習(xí)功能。
(2)在資源庫(kù)建設(shè)方面的應(yīng)用
資源庫(kù)建設(shè)在整個(gè)系統(tǒng)中至關(guān)重要,為了建立覆蓋面廣、功能齊全的資源庫(kù),我們就必須編制信息資源目錄,征集種類(lèi)資源信息,并進(jìn)行資源、資源信息篩選、資源信息整理和存儲(chǔ);同時(shí)按學(xué)科門(mén)類(lèi)建設(shè)積件庫(kù)。當(dāng)老師在系統(tǒng)內(nèi)制作課件,為了有針對(duì)性和避免重復(fù),我們可以對(duì)所有學(xué)習(xí)者已選的課程進(jìn)行聚類(lèi),并通過(guò)聚類(lèi)學(xué)習(xí)算法來(lái)自動(dòng)確定每門(mén)課程的類(lèi)別標(biāo)記。接著利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,估計(jì)出一組相關(guān)同位類(lèi)課程,再利用泛化關(guān)聯(lián)規(guī)則,找到其上位類(lèi)課程,或利用序列模式,預(yù)測(cè)出與之有關(guān)的學(xué)生未來(lái)可能選擇的同級(jí)課程,最后圍繞學(xué)習(xí)者的需求權(quán)限進(jìn)行課程設(shè)置。
(3)在實(shí)時(shí)教學(xué)方面的應(yīng)用
在本系統(tǒng)中,由于引入了互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù),通過(guò)機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法設(shè)計(jì)出了個(gè)性化處理引擎,從大量的數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學(xué)生可以通過(guò)網(wǎng)絡(luò)實(shí)現(xiàn)每天24小時(shí)的學(xué)習(xí),而且本系統(tǒng)可以更多且及時(shí)的了解到學(xué)生的學(xué)習(xí)學(xué)習(xí)進(jìn)度、需求、能力、興趣愛(ài)好等方面的信息,并動(dòng)態(tài)地根據(jù)這些信息調(diào)整學(xué)習(xí)計(jì)劃和進(jìn)度,讓學(xué)生得到針對(duì)其“個(gè)性”的教育,實(shí)現(xiàn)因材施教。
(4)在智能答疑方面的應(yīng)用
基于WEB的遠(yuǎn)程教學(xué)系統(tǒng)中的智能答疑系統(tǒng)只要用戶能上網(wǎng),就可解答學(xué)生在學(xué)習(xí)過(guò)程中產(chǎn)生的問(wèn)題。它能根據(jù)學(xué)生用戶訪問(wèn)日志、問(wèn)題記錄等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,用智能抽取的方法實(shí)現(xiàn)智能答疑。從用戶訪問(wèn)日志和提問(wèn)信息里面可以分析出學(xué)生的行為。智能答疑系統(tǒng)后臺(tái)存儲(chǔ)了大量的由經(jīng)驗(yàn)豐富的教師精心挑選的問(wèn)題答案,對(duì)于用戶提出的問(wèn)題.系統(tǒng)首先通過(guò)對(duì)問(wèn)題的分析自動(dòng)在數(shù)據(jù)庫(kù)中尋找最適合的答案。這樣通過(guò)數(shù)據(jù)挖掘,針對(duì)學(xué)生用戶提問(wèn)記錄、日志不斷更新和調(diào)整學(xué)生用戶知識(shí)庫(kù),使問(wèn)題的回答更加精確。
(5)在實(shí)時(shí)考試方面的應(yīng)用
本系統(tǒng)的實(shí)時(shí)考試系統(tǒng)是一個(gè)基于數(shù)據(jù)庫(kù)和WEB的遠(yuǎn)程在線式實(shí)時(shí)的測(cè)試系統(tǒng)。它能考慮個(gè)別學(xué)習(xí)者的能力和特性,按照考試的目的和必要性,提供各種問(wèn)項(xiàng)信息,如難易程度、辨別程度等。并且還能同步打分,提供成績(jī)進(jìn)展情況,根據(jù)個(gè)人特性解釋問(wèn)題,按個(gè)人及科目對(duì)考試結(jié)果進(jìn)行各種統(tǒng)計(jì)分析和評(píng)價(jià),并存入學(xué)生用戶數(shù)據(jù)中。這些功能的實(shí)現(xiàn)是由于系統(tǒng)采用關(guān)聯(lián)規(guī)則、聚類(lèi)和分類(lèi)工具對(duì)數(shù)據(jù)庫(kù)中抽取的數(shù)據(jù)進(jìn)行處理,分析出學(xué)生的特性及其對(duì)課程各知識(shí)點(diǎn)的掌握程度,并結(jié)合學(xué)生的考試目的恰當(dāng)?shù)胤答伣o學(xué)生,這樣提高了學(xué)生學(xué)習(xí)的效率。
5 結(jié)束語(yǔ)
在現(xiàn)代遠(yuǎn)程開(kāi)放教育網(wǎng)站設(shè)計(jì)中,基于XML(ExtensibleMarkup Language,可擴(kuò)展標(biāo)記語(yǔ)言)的新一代系統(tǒng)設(shè)計(jì)環(huán)境,可以更好地描述半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),更有利于進(jìn)行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務(wù)技術(shù),以此為契機(jī)開(kāi)展數(shù)據(jù)挖掘和知識(shí)獲取,在現(xiàn)代遠(yuǎn)程開(kāi)放教育網(wǎng)站的設(shè)計(jì)中以學(xué)習(xí)者為中心,提供一種基于資源的學(xué)習(xí),教學(xué)資源可以適應(yīng)各種學(xué)習(xí)者的需要和背景進(jìn)行不同的組合,提供更加優(yōu)良的、個(gè)性化的服務(wù)。
參考文獻(xiàn):
[1]李爽,陳麗.國(guó)內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].北京,中國(guó)電化教育,2003(5)
[2]蘇新寧.?dāng)?shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003
[3]趙丹群.?dāng)?shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2000,(6)
[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠(yuǎn)程教育系統(tǒng)中的的應(yīng)用[J] .南京:文教資料,2006(10)