時間:2023-02-27 11:18:55
序論:在您撰寫數(shù)據(jù)挖掘技術(shù)應用時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)集;數(shù)據(jù)挖掘算法
0 引言
隨著信息科技的進步以及電子化時代的到來,現(xiàn)代信息社會中數(shù)據(jù)和數(shù)據(jù)庫呈現(xiàn)爆炸式增長。面對浩瀚的數(shù)據(jù)海洋,如何從這些龐大的數(shù)據(jù)中找出它們之間存在的“潛伏”的關(guān)系和規(guī)則,進而根據(jù)這些關(guān)系和規(guī)則預測未來的發(fā)展趨勢,已經(jīng)成為二十一世紀探索的熱點問題。
數(shù)據(jù)挖掘(Data Mining)技術(shù)的誕生,為解決這一問題提供了可以參考的方法,是開發(fā)信息資源的一種新的數(shù)據(jù)處理技術(shù)。它不僅能對過去的數(shù)據(jù)進行查詢,而且能夠找出過去數(shù)據(jù)之間的潛在聯(lián)系,進行更高層次的分析,以便更好地解決決策、預測等問題。
1 數(shù)據(jù)挖掘概述
數(shù)據(jù)挖掘就是從大型數(shù)據(jù)集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中,挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。數(shù)據(jù)挖掘的目的是為了從這些數(shù)據(jù)中抽取一些有價值的知識或信息,提高信息利用率。
數(shù)據(jù)挖掘主要有以下對象:
(1)關(guān)系型數(shù)據(jù)庫、事務(wù)型數(shù)據(jù)庫、面向?qū)ο蟮臄?shù)據(jù)庫;
(2)數(shù)據(jù)倉庫/多維數(shù)據(jù)庫;
(3)空間數(shù)據(jù)(如地圖信息);
(4)工程數(shù)據(jù)(如建筑、集成電路的信息);
(5)文本和多媒體數(shù)據(jù)(如文本、圖象、音頻、視頻數(shù)據(jù));
(6)時間相關(guān)的數(shù)據(jù)(如歷史數(shù)據(jù)或股票交換數(shù)據(jù));
(7)萬維網(wǎng)(如半結(jié)構(gòu)化的HTML,結(jié)構(gòu)化的XML以及其他網(wǎng)絡(luò)信息)。
數(shù)據(jù)挖掘的步驟一般會因不同的實際應用情況而有所變化,其過程就是用一定的數(shù)據(jù)挖掘算法從給定的數(shù)據(jù)庫中提取模型,以及圍繞數(shù)據(jù)挖掘所進行的預處理和結(jié)果表達等一系列的步驟,是一個需要經(jīng)過反復的多次處理的過程。圖1顯示的是數(shù)據(jù)挖掘過程,主要由以下步驟組成:
(1)數(shù)據(jù)清理(消除噪音或不一致數(shù)據(jù));
(2)數(shù)據(jù)集成(多種數(shù)據(jù)源可以組合在一起);
(3)數(shù)據(jù)選擇(從數(shù)據(jù)庫中提取與分析任務(wù)相關(guān)的數(shù)據(jù));
(4)數(shù)據(jù)變換(數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式;如通過匯總或聚集操作);
(5)數(shù)據(jù)挖掘(基本步驟,使用智能方法提取數(shù)據(jù)模式);
(6)模式評估(根據(jù)某種興趣度度量,識別提供知識的真正有趣的模式);
(7)知識表示(使用可視化和知識表示技術(shù),向用戶提供挖掘的知識)。
例如,應用數(shù)據(jù)挖掘算法中聚類分析的方法,可以在城市規(guī)劃的過程中,根據(jù)類型、價格、地理位置等來劃分不同類型的住宅。具體使用哪種數(shù)據(jù)挖掘算法,要根據(jù)具體情況和應用要求而定。一種數(shù)據(jù)挖掘算法可能在一種情況下適用,而在另一種情況下就不適用。在特定的應用環(huán)境下,應找出最適用的數(shù)據(jù)挖掘算法,并加以實施。
3 數(shù)據(jù)挖掘的應用
3.1 數(shù)據(jù)挖掘在零售業(yè)中的應用
由于零售業(yè)便于搜集大量的銷售數(shù)據(jù)、顧客購物記錄、貨物運送、消費模式和服務(wù)記錄等特點,使其成為數(shù)據(jù)挖掘的主要應用領(lǐng)域。
零售商們采用數(shù)據(jù)倉庫使他們有更好的機會運用數(shù)據(jù)挖掘技術(shù)。通過數(shù)據(jù)挖掘,零售商們可以了解銷售全局、對商品分組布局、降低庫存成本、分析銷售市場趨勢,從而更加有效地對商品進行促銷。大型的零售連鎖店和雜貨店用大量的“信息豐富” 的銷售數(shù)據(jù),通過數(shù)據(jù)挖掘揭示一些沒有發(fā)現(xiàn)的“隱藏關(guān)系”,其中最著名的啤酒和尿布的故事即是數(shù)據(jù)挖掘在零售業(yè)中典型的應用。
3.2 數(shù)據(jù)挖掘在體育競技中的應用
先進信息技術(shù)的運用是美國NBA職籃聯(lián)盟成功的眾多因素中非常重要的一個。例如,魔術(shù)隊教練利用IBM公司開發(fā)的數(shù)據(jù)挖掘應用軟件Advanced Scout,對不同的隊員布陣時的相對優(yōu)勢進行了系統(tǒng)的分析,并根據(jù)分析結(jié)果取得了對邁阿密熱隊4連勝的戰(zhàn)績。
3.3 數(shù)據(jù)挖掘在企業(yè)中的應用
數(shù)據(jù)挖掘在企業(yè)信息處理中的應用是一個將信息轉(zhuǎn)化為企業(yè)商業(yè)知識的過程。它主要用于企業(yè)的客戶關(guān)系管理、市場分析、營銷策略和趨勢預測等方面。
數(shù)據(jù)挖掘技術(shù)已經(jīng)廣泛應用在美國銀行和金融領(lǐng)域中。例如用數(shù)據(jù)挖掘工具Marksman可以分析消費者的賒賬卡、家庭貸款、投資產(chǎn)品以及儲蓄等信息,并對客戶進行分類,從而預測何時哪類產(chǎn)品最適合哪類客戶,因而被美國Firstar等銀行使用。此外,近年來數(shù)據(jù)挖掘技術(shù)在信用記分的研究和應用方面也取得了很大的進步。銀行利用Credit Scoring技術(shù)對客戶的一些信息(如基本資料、資產(chǎn)以及以往信用等)進行分析、評估,做出最有利的決定。
數(shù)據(jù)挖掘在電信行業(yè)中的應用也很廣泛。它可以幫助電信企業(yè)制定合理的電話收費和服務(wù)標準、針對特別的客戶群的優(yōu)惠政策、防止費用欺詐等。
3.4 數(shù)據(jù)挖掘在科學探索中的應用
隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展和完善,已經(jīng)逐步應用到尖端科學的探索中。數(shù)據(jù)挖掘技術(shù)在生物學中的應用主要集中于分子生物學特別是基因工程的研究上。通過用計算生物分子系列分析方法,尤其是基因數(shù)據(jù)庫搜索技術(shù)已在基因研究上做出了很多重大發(fā)現(xiàn)。
SKICAT(Sky Image Cataloging and Analysis Tool)是天文學上一個非常著名的系統(tǒng)。該系統(tǒng)使用數(shù)據(jù)挖掘算法中的決策樹方法構(gòu)造分星體類器對星體進行分類,結(jié)果使得能分辨的星體與以前的方法相比,在亮度上要低一個數(shù)量級之多,并且在效率上這種方法比以往的方法高40倍以上。
3.5 數(shù)據(jù)挖掘在信息安全中的應用
利用數(shù)據(jù)挖掘作為入侵檢測的數(shù)據(jù)分析技術(shù),把“潛伏”的安全信息從海量的安全事件數(shù)據(jù)中提取出來,抽象出有利于進行判斷和比較的與安全相關(guān)的普遍特征,進而發(fā)現(xiàn)不確定的入侵行為,并作出判斷、決策(如圖3)。相對于傳統(tǒng)的入侵檢測分析技術(shù),數(shù)據(jù)挖掘具有良好的自適應性、誤警率低且能減輕數(shù)據(jù)過載,大大提高了檢測和響應的效率和速度。
圖3 數(shù)據(jù)挖掘方法的入侵檢測系統(tǒng)流程圖數(shù)據(jù)挖掘這一新興技術(shù)至今已經(jīng)在商業(yè)、銀行、金融、制造業(yè)、互聯(lián)網(wǎng)絡(luò)、教育、科學研究等領(lǐng)域廣泛應用,并且給我們的社會和生活帶來了極大的改觀。
參考文獻
[1]Margaret H.Dunham: DATA MINING Introductory and Advanced Topics[M].北京:清華大學出版社,2003.
[2]Mehmed Kantardzic: DATA MINING Concepts,Models,Methods,and Algorithms[M].北京:清華大學出版社,2003.
[3]梁循.數(shù)據(jù)挖掘算法與應用[M].北京:北京大學出版社,2006.
數(shù)據(jù)挖掘(DataMining,DM),是隨著數(shù)據(jù)庫和人工智能發(fā)展起來的新興的信息處理技術(shù)。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程,其主要特點是對數(shù)據(jù)庫中的大量數(shù)據(jù)進行抽取、轉(zhuǎn)換、分析和其他模型化處理,并從中提取輔助決策的關(guān)鍵性數(shù)據(jù)。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預測未來可能發(fā)生的行為。數(shù)據(jù)挖掘是一門涉及面很廣的交叉性新興學科,涉及到數(shù)據(jù)庫、人工智能、數(shù)理統(tǒng)計、可視化、并行計算等領(lǐng)域。
2、數(shù)據(jù)挖掘技術(shù)
2.1關(guān)聯(lián)規(guī)則方法
關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,所挖掘出的關(guān)聯(lián)規(guī)則量往往非常巨大,但是。并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應用價值,對這些關(guān)聯(lián)規(guī)則進行有效的評價。篩選出用戶真正感興趣的。有意義的關(guān)聯(lián)規(guī)則尤為重要。
2.2分類和聚類方法
分類就是假定數(shù)據(jù)庫中的每個對象屬于一個預先給定的類。從而將數(shù)據(jù)庫中的數(shù)據(jù)分配到給定的類中。而聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異。分類和聚類的區(qū)別在于分類事先知道類別數(shù)和各類的典型特征,而聚類則事先不知道。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價。
2.3數(shù)據(jù)統(tǒng)計方法
使用這些方法一般首先建立一個數(shù)據(jù)模型或統(tǒng)計模型,然后根據(jù)這種模型提取有關(guān)的知識。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法。貝葉斯推理、回歸分析、方差分析等技術(shù)是許多挖掘應用中有力的工具之一。
2.4神經(jīng)網(wǎng)絡(luò)方法
神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。這些優(yōu)點使得神經(jīng)元網(wǎng)絡(luò)非常適合解決數(shù)據(jù)挖掘的問題。因此近年來越來越受到人們的關(guān)注。典型的神經(jīng)網(wǎng)絡(luò)模型主要分3大類;用于分類、預測和模式識別的前饋式神經(jīng)網(wǎng)絡(luò)模型;用于聯(lián)想記憶和優(yōu)化計算的反饋式神經(jīng)網(wǎng)絡(luò)模型;用于聚類的自組織映射方法。新晨
2.5決策樹方法
決策樹學習是一種通過逼近離散值日標函數(shù)的方法,把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例。葉子結(jié)點即為實例所屬的分類,利用信息論中的互信息(信息增益)尋找數(shù)據(jù)庫中具有最大信息量的字段。建立決策樹的一個結(jié)點,再根據(jù)字段的不同取值建立樹的分支;在每個分枝子集中,重復建立樹的下層結(jié)點和分支的過程,即可建立決策樹。
關(guān)鍵詞:數(shù)據(jù)挖掘;用戶偏好;考試系統(tǒng);入侵檢測
中圖法分類號:TP274文獻標識碼:A文章編號:1009-3044(2010)22-6231-02
Survey on Data Mining Technology
WANG Wen
(School of Computer Science and Technology, China University of Mining and Technology, Xuzhou 221116, China)
Abstract: Data Mining technology is an important part of modern computer technology. Using Data Mining can solve many problems in artificial intelligence. In this article, the development and the principle of Data Mining are introduced. Some of the newly application of Data Mining are involved. This article also have the expects for the future development of Data Mining.
Key words: data mining; user preference; examination system; intrusion detection system
隨著時代的發(fā)展,計算機科學在以飛快的速度前進著。在計算機科學的眾多領(lǐng)域中,人工智能是最富有挑戰(zhàn)性和創(chuàng)造性的一個領(lǐng)域。近幾十年來,隨著人工智能技術(shù)的日漸成熟,人們對人工智能的研究更加深入,對人工智能更加重視??茖W界對于人工智能的重要性也已形成共識。
自進入21世紀以來,電子數(shù)據(jù)獲取與計算機技術(shù)方面的不斷發(fā)展以及網(wǎng)絡(luò)的廣泛普及與應用,人們?nèi)粘I钪薪邮盏臄?shù)據(jù)和信息較以往正以飛快的速度增加,因而形成了獨特的知識爆炸時代。就在最近幾十年很多超大型數(shù)據(jù)庫的產(chǎn)生使得整個社會發(fā)生著天翻地覆的變化,遍及銀行存款、超級市場銷售、粒子物理、天文學、化學、醫(yī)學以及政府統(tǒng)計等領(lǐng)域。在這個數(shù)字化、信息化時代,這么大規(guī)模的數(shù)據(jù)庫以及以后可能誕生的更大規(guī)模的數(shù)據(jù)庫的數(shù)據(jù)管理問題將會是以后對數(shù)據(jù)處理的一個重要關(guān)注點。眾多科技工作者共同關(guān)注的焦點集中在了如何從這些大型數(shù)據(jù)庫中發(fā)現(xiàn)有用的、信息、模式以及如何實現(xiàn)有效的數(shù)據(jù)處理方法。因而“數(shù)據(jù)挖掘”(Data Mining) 的新領(lǐng)域逐漸走進了人們的事業(yè),并且在人們的關(guān)注和不斷研究下飛速發(fā)展,這是一個與統(tǒng)計學、人工智能、模式識別、機器學習、數(shù)據(jù)庫技術(shù)以及高性能并行計算等領(lǐng)域都有很大相關(guān)的新學科,正是計算機學科的一個研究重點。
1 數(shù)據(jù)挖掘的一般過程
數(shù)據(jù)挖掘一般分為如下四個步驟(圖1)。
1.1 數(shù)據(jù)預處理
收集和凈化來自各種數(shù)據(jù)源或數(shù)據(jù)倉庫的信息,并加以存儲, 一般存于數(shù)據(jù)倉庫中。
1.2 模型搜索
利用數(shù)據(jù)挖掘在數(shù)據(jù)庫中匹配模型,這個搜索過程可以由系統(tǒng)自動執(zhí)行,自下而上搜索原始數(shù)據(jù)以發(fā)現(xiàn)它們之間的某種聯(lián)系;也可以進行用戶交互,由分析人員發(fā)問,自頂向下尋找以驗證假設(shè)的正確性。一個問題的搜索過程可能用到許多模型,如神經(jīng)網(wǎng)絡(luò)、基于規(guī)則的系統(tǒng)(決策樹)、機器學習、基于實例的推理等。
1.3 評價輸出結(jié)果
一般來說,數(shù)據(jù)挖掘的搜索過程需要反復多次,當分析人員評價輸出結(jié)果后,它們可能會形成一些新的問題,或者要求對某一方面作更精細的查詢,通過反復的搜索過程即可滿足分析人員的這種需求。
1.4 生成報告
知識的發(fā)現(xiàn)過程可以由數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)變換、數(shù)據(jù)挖掘、模式評估和知識表示等幾個步驟組成。數(shù)據(jù)挖掘可以與用戶或知識庫交互,把用戶關(guān)心的模式提交給廣大用戶,或作為新的知識存放在知識庫中。
2 數(shù)據(jù)挖掘應用
2.1 數(shù)據(jù)挖掘在實現(xiàn)網(wǎng)站用戶偏好度的應用
數(shù)據(jù)挖掘就是從大量的數(shù)據(jù)中發(fā)現(xiàn)隱含的規(guī)律性的內(nèi)容,解決數(shù)據(jù)的應用質(zhì)量問題。使數(shù)據(jù)能夠被更加高效的利用,對無用的數(shù)據(jù)加以摒棄,是數(shù)據(jù)挖掘技術(shù)最主要的實現(xiàn)形式,也是其最重要的應用方式。傳統(tǒng)的數(shù)據(jù)庫中的數(shù)據(jù)相對于Web的數(shù)據(jù)而言,其結(jié)構(gòu)性很強,是完全結(jié)構(gòu)化的數(shù)據(jù),而半結(jié)構(gòu)化則是Web上的數(shù)據(jù)最大特點。因而,面向單個數(shù)據(jù)倉庫的數(shù)據(jù)挖掘較之面向Web的數(shù)據(jù)挖掘比要簡單許多。據(jù)統(tǒng)計,網(wǎng)站上的絕大部分內(nèi)容對絕大部分用戶來說是無用的信息。事實是對于某個特定用戶來說,其關(guān)心的內(nèi)容僅是網(wǎng)站上極小部分的內(nèi)容,而網(wǎng)站上提供的更多的內(nèi)容對于這個用戶來說是其不感興趣的,并且過多的信息往往會掩蓋有用的信息,使得用戶的查詢效率降低,并且對于網(wǎng)站也不是一件利事。
對于Web數(shù)據(jù)挖掘技術(shù)而言,半結(jié)構(gòu)化數(shù)據(jù)源模型和半結(jié)構(gòu)化數(shù)據(jù)模型的查詢與集成問題是應當首要解決的問題。解決Web上的異構(gòu)數(shù)據(jù)的集成與查詢問題,有一個模型來清晰地描述Web上的數(shù)據(jù)是很必要的。因此,針對數(shù)據(jù)半結(jié)構(gòu)化的Web數(shù)據(jù)的特點,尋找一個半結(jié)構(gòu)化的數(shù)據(jù)模型至關(guān)重要。并且除此定義一個半結(jié)構(gòu)化數(shù)據(jù)模型之外,一種半結(jié)構(gòu)化模型抽取技術(shù)(自動地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù))也是應當提出的。因而半結(jié)構(gòu)化模型和半結(jié)構(gòu)化數(shù)據(jù)模型抽取技術(shù)是面向Web的數(shù)據(jù)挖掘?qū)崿F(xiàn)的重要前提。
用戶瀏覽網(wǎng)站上的內(nèi)容時,他會被很的多因素影響,網(wǎng)頁的外觀,信息標題,網(wǎng)頁鏈接以及個人的興趣和習慣等等。我們可以設(shè)定合理的假設(shè),建立他們之間的模型,利用以上提到的方法解決用戶偏好度的問題。
2.2 數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應用
數(shù)據(jù)挖掘在在線考試系統(tǒng)方面的應用最主要體現(xiàn)在題庫的構(gòu)建,下面分別介紹題庫的構(gòu)建中數(shù)據(jù)挖掘的應用情況。
在設(shè)計數(shù)據(jù)庫方面,數(shù)據(jù)庫主要由題庫、答案庫和答案關(guān)鍵字庫構(gòu)成,題型庫又涵括科目、題號、題型、題目、難度、分值等字段;答案庫中包含科目、題號、分值、答案以及在同一題中有不同答案時應提供的不同答案序號等字段;答案關(guān)鍵字庫中有題號、答案序號、權(quán)重和答案關(guān)鍵字。此后在將答案錄入答案庫。對于客觀題而言,僅僅需要錄入唯一的答案;但對于主觀題而言,則需要盡量給出多個參考答案并將每個答案的關(guān)鍵字及其所對應的權(quán)值、答案序號輸入答案關(guān)鍵字庫。
通常有兩類數(shù)據(jù)挖掘方法:①統(tǒng)計型,應用概率分析、相關(guān)性、聚類分析和判別分析等技術(shù)得以實現(xiàn);②通過人工智能中的機器學習,經(jīng)過訓練以及學習輸入大量的樣品集,以得出需要的模式或參數(shù)。由于每一種方法都根據(jù)其特點都有其優(yōu)勢以及相應的引用領(lǐng)域,最后結(jié)果的質(zhì)量和效果將受到數(shù)據(jù)挖掘技術(shù)選擇的影響,采用多種技術(shù)結(jié)合的方法,其各自的優(yōu)勢可以達到互補的要求,從而實現(xiàn)最佳配置。下面介紹了兩種數(shù)據(jù)挖掘方法: ①決策樹算法:為每個問題的答案構(gòu)造一個二叉樹,每個分支或者是一個新的決策點,或者是一個葉子節(jié)點。在沿著決策樹從上到下的遍歷過程中,對每個問題的不同回答導致不同的分支,最后到達一個葉子節(jié)點,每個葉子節(jié)點都會對應確定的權(quán)值,通過對權(quán)值的計算判定得分;②模糊論方法:利用模糊集合理論,對實際問題進行模糊判斷、模糊決策、模糊模式識別、模糊簇聚分析。由于主觀題答案很靈活,答案不可能完全匹配,采用此方法將考生答案與答案庫中的答案進行對照,以確定答案的正確度,從而更客觀準確地評定主觀題分數(shù)。
2.3 數(shù)據(jù)挖掘在網(wǎng)絡(luò)入侵檢測系統(tǒng)方面的應用
入侵檢測就是通過運用一些分析方法對從各種渠道獲得的反映網(wǎng)絡(luò)狀況和網(wǎng)絡(luò)行為的數(shù)據(jù)進行分析、提煉,再根據(jù)分析結(jié)果對這些數(shù)據(jù)進行評價,從而能夠識別出正常和異常的數(shù)據(jù)或者對潛在的新型入侵做出預測,以保證網(wǎng)絡(luò)的安全運行。
基于分布式數(shù)據(jù)挖掘的入侵檢測系統(tǒng)要對一個網(wǎng)段上的信息進行全面而細致的監(jiān)測,同時在網(wǎng)絡(luò)上多個點進行數(shù)據(jù)采集,如網(wǎng)關(guān)和特別需要保護的服務(wù)器等。整個系統(tǒng)構(gòu)成分為本地分類器、規(guī)則學習模塊和集中分類器三塊基本構(gòu)件。本地分類器負責對從網(wǎng)絡(luò)上各個點采集到的數(shù)據(jù)通過預處理模塊去除掉無效數(shù)據(jù),并將原始數(shù)據(jù)處理成為以后進行數(shù)據(jù)挖掘算法可識別的格式,以實現(xiàn)對數(shù)據(jù)的初步檢測和處理。本地分類器有2個輸出:一個輸出為分類數(shù)據(jù),用于提交給規(guī)則學習模塊,另外一個為數(shù)據(jù)摘要,用于提交給集中分類器。規(guī)則學習模塊負責對標記過的分類數(shù)據(jù)進行深層次的數(shù)據(jù)挖掘,從而學習到新的知識。學習到的知識被直接錄入到規(guī)則庫中,這樣保證了規(guī)則庫可以根據(jù)網(wǎng)上的變化可以隨時達到更新的需求。另外一種方式是通過規(guī)則學習模塊實現(xiàn)人工訓練系統(tǒng),從而實現(xiàn)升級規(guī)則庫的需求。最后將分布式數(shù)據(jù)挖掘的結(jié)果形成數(shù)據(jù)摘要發(fā)送給集中分類器,由集中分類器對各點數(shù)據(jù)摘要進行匯集,從而做出綜合判斷,達到有效地檢測協(xié)同攻擊的效果,最后將檢測結(jié)果提交給決策模塊。
3 結(jié)束語
數(shù)據(jù)挖掘技術(shù)是人工智能學科的一個重要分支,也是現(xiàn)代計算機科學的一個研究重點?,F(xiàn)在基于數(shù)據(jù)挖掘技術(shù)的科研可以說是碩果累累,自從人工智能這個概念被提出來之后,其發(fā)展一直是計算機學科的熱門而且其分支廣而泛,都在不同的領(lǐng)域發(fā)揮著十分重要的作用。相信在計算機研究人員的不斷努力下數(shù)據(jù)挖掘會在更多的方面服務(wù)人們,并且期待著新的理論的提出。
參考文獻:
[1] 何克抗.建立題庫的理論[M].長沙:國防科技大學出版社,1995.
[2] 劉波,段麗艷.一個基于Internet的通用題庫系統(tǒng)的設(shè)計與實現(xiàn)[J].華南師范大學學報:自然科學版,2000(1):39-44.
[3] 王實,高文.數(shù)據(jù)挖掘中的聚類方法[J].計算機科學,2000,27(4):42-45.
關(guān)鍵詞:數(shù)據(jù)挖掘 分類規(guī)則 算法
中圖分類號:TP393 文獻標識碼:A
一、數(shù)據(jù)挖掘在市場營銷的應用
數(shù)據(jù)挖掘技術(shù)在企業(yè)市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎(chǔ),其基本假定是“消費者過去的行為是其今后消費傾向的最好說明”。
通過收集、加工和處理涉及消費者消費行為的大量信息,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然后以此為基礎(chǔ),對所識別出來的消費群體進行特定內(nèi)容的定向營銷,這與傳統(tǒng)的不區(qū)分消費者對象特征的大規(guī)模營銷手段相比,大大節(jié)省了營銷成本,提高了營銷效果,從而為企業(yè)帶來更多的利潤。
就目前而言,關(guān)聯(lián)規(guī)則挖掘技術(shù)已經(jīng)被廣泛應用在西方金融行業(yè)企業(yè)中,它可以成功預測銀行客戶需求。各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產(chǎn)品信息,供使用本行ATM機的用戶了解。如果數(shù)據(jù)庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產(chǎn)品都可以通過信用卡賬單郵寄給客戶。當客戶打電話咨詢的時候,數(shù)據(jù)庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什么產(chǎn)品感興趣。如考慮屬性之間的類別層次關(guān)系,時態(tài)關(guān)系,多表挖掘等。近年來圍繞關(guān)聯(lián)規(guī)則的研究主要集中于兩個方面,即擴展經(jīng)典關(guān)聯(lián)規(guī)則能夠解決問題的范圍,改善經(jīng)典關(guān)聯(lián)規(guī)則挖掘算法效率和規(guī)則興趣性。
二、入侵檢測中數(shù)據(jù)挖掘技術(shù)的引入
入侵檢測技術(shù)是對(網(wǎng)絡(luò))系統(tǒng)的運行狀態(tài)進行監(jiān)視,發(fā)現(xiàn)各種攻擊企圖、攻擊行為或者攻擊結(jié)果,以保證系統(tǒng)資源的機密性、完整性與可用性。
根據(jù)數(shù)據(jù)分析方法(也就是檢測方法)的不同,我們可以將入侵檢測系統(tǒng)分為兩類:(1)誤用檢測(Misuse? Detection)。又稱為基于特征的檢測,它是根據(jù)已知的攻擊行為建立一個特征庫,然后去匹配已發(fā)生的動作,如果一致則表明它是一個入侵行為。(2)異常檢測(Anomaly Detection)。又稱為基于行為的檢測,它是建立一個正常的特征庫,根據(jù)使用者的行為或資源使用狀況來判斷是否入侵。
將這兩種分析方法結(jié)合起來,可以獲得更好的性能。異常檢測可以使系統(tǒng)檢測新的、未知的攻擊或其他情況;誤用檢測通過防止耐心的攻擊者逐步改變行為模式使得異常檢測器將攻擊行為認為是合法的,從而保護異常檢測的完整性。
三、算法在入侵檢測中的具體使用
(一)基于誤用的檢測型。
首先從網(wǎng)絡(luò)或是主機上獲取原始二進制的數(shù)據(jù)文件,再把這些數(shù)據(jù)進行處理,轉(zhuǎn)換成ASCII碼表示的數(shù)據(jù)分組形式。再經(jīng)過預處理模塊將這些網(wǎng)絡(luò)數(shù)據(jù)表示成連接記錄的形式,每個連接記錄都是由選定的特征屬性表示的。再進行完上面的工作后,對上述的由特征屬性組成的模式記錄進行處理,總結(jié)出其中的統(tǒng)計特征,包括在一時間段內(nèi)與目標主機相同的連接記錄的次數(shù)、發(fā)生SYN錯誤的連接百分比、目標端口相同的連接所占的百分比等等一系列的統(tǒng)計特征。最后,就可以進行下面的檢測分析工作,利用分類算法,比如RIPPER 、C4.5等建立分類模型。只有這樣才能建立一個實用性較強、效果更好的分類模型。
(二)基于異常的入侵模型。
異常檢測的主要工作就是通過構(gòu)造正常活動集合,然后利用得到的一組觀察數(shù)值的偏離程度來判斷用戶行為的變化,以此來覺得是否屬于入侵的一種檢測技術(shù)。異常檢測的優(yōu)點在于它具有檢測未知攻擊模式的能力,不論攻擊者采用什么樣的攻擊策略,異常檢測模型依然可以通過檢測它與已知模式集合之間的差異來判斷用戶的行為是否異常。
在異常檢測中主要用到的兩個算法就是模式比較和聚類算法:(1)模式比較。在模式比較算法中首先通過關(guān)聯(lián)規(guī)則和序列規(guī)則建立正常的行為模式,然后通過模式比較算法來區(qū)別正常行為和入侵行為。(2)聚類算法。聚類分析的基本思想主要源于入侵與正常模式上的不同及正常行為數(shù)目應遠大于入侵行為數(shù)目的條件,因此能夠?qū)?shù)據(jù)集劃分為不同的類別,由此分辨出正常和異常行為來檢測入侵。數(shù)據(jù)挖掘中常用的聚類算法有K-means、模糊聚類、遺傳聚類等?;诰垲惖娜肭謾z測是一種無監(jiān)督的異常檢測算法,通過對未標識數(shù)據(jù)進行訓練來檢測入侵。該方法不需要手工或其他的分類,也不需要進行訓練。因此呢功能發(fā)現(xiàn)新型的和未知的入侵類型。
四、結(jié)論
入侵檢測中數(shù)據(jù)挖掘技術(shù)方面的研究已經(jīng)有很多,發(fā)表的論文也已經(jīng)有好多,但是應用難點在于如何根據(jù)具體應用的要求,從用于安全的先驗知識出發(fā),提取出可以有效反映系統(tǒng)特性的屬性,并應用合適的算法進行數(shù)據(jù)挖掘。另一技術(shù)難點在于如何將數(shù)據(jù)挖掘結(jié)果自動應用到實際IDS中。
入侵檢測采用的技術(shù)有多種類型,其中基于數(shù)據(jù)挖掘技術(shù)的入侵檢測技術(shù)成為當前入侵檢測技術(shù)發(fā)展的一個熱點,但數(shù)據(jù)挖掘還處于發(fā)展時期,因此有必要對它進行更深入的研究。
(作者單位:湖北工業(yè)大學 計算機學院)
參考文獻:
[1]. 范明,孟小峰.數(shù)據(jù)挖掘――概念與技術(shù).機械工業(yè)出版社,2001。
關(guān)鍵詞:數(shù)據(jù)挖掘;技術(shù);神經(jīng)網(wǎng)絡(luò)技術(shù)
1 數(shù)據(jù)挖掘技術(shù)的方法
數(shù)據(jù)挖掘技術(shù)的方法主要分為統(tǒng)計、聚類和遺傳分析[1]。統(tǒng)計方法可以滿足數(shù)據(jù)庫處理分析,包括:有線、非線、回歸等多項統(tǒng)計方法;聚類方法應用于數(shù)據(jù)挖掘的內(nèi)部處理,梳理內(nèi)部數(shù)據(jù)的關(guān)系,基于聚類方法的存在,數(shù)據(jù)挖掘技術(shù)可以滿足經(jīng)濟、模擬等多項數(shù)據(jù)領(lǐng)域的需求;遺傳分析是數(shù)據(jù)挖掘方法的重點,以生物進化為導向,將重組、變異導入到數(shù)據(jù)庫內(nèi),推進數(shù)據(jù)的后續(xù)發(fā)展,將后續(xù)模擬的數(shù)據(jù),應用在現(xiàn)代數(shù)據(jù)庫的某個部分,發(fā)揮同樣作用,遺傳算法高度模擬生物進化的方式,結(jié)合繁殖、基因、突變、重組的概念,引入新數(shù)據(jù),促使數(shù)據(jù)庫中新個體的形成,所以數(shù)據(jù)挖掘中的遺傳算法,既可以作為數(shù)據(jù)分析的方法,也可以體現(xiàn)預算和評估的特點。
2 數(shù)據(jù)挖掘的技術(shù)支持
2.1 神經(jīng)網(wǎng)絡(luò)技術(shù)
神經(jīng)網(wǎng)絡(luò)主要以數(shù)學模型為主,重點針對復雜數(shù)據(jù),快速完成數(shù)據(jù)抽取。神經(jīng)網(wǎng)絡(luò)技術(shù)處理的能力,可以超出計算機的分析水平,保障輸入神經(jīng)網(wǎng)絡(luò)中的數(shù)據(jù)屬于數(shù)值型,即可快速導出趨勢性變化的數(shù)據(jù)。神經(jīng)網(wǎng)絡(luò)技術(shù)通過模擬大腦的神經(jīng)元結(jié)構(gòu),利用MP,實現(xiàn)非線性規(guī)劃,根據(jù)數(shù)據(jù)信息的特性,決定信息的存儲位置,實現(xiàn)自主處理。神經(jīng)網(wǎng)絡(luò)技術(shù)在數(shù)據(jù)挖掘中,不僅可以實現(xiàn)數(shù)據(jù)的快速分類,還可以對數(shù)據(jù)進行模擬預測,促使數(shù)據(jù)挖掘處于優(yōu)化的狀態(tài),完成難度聚類。神經(jīng)網(wǎng)絡(luò)技術(shù)的代表為RBF和BP。
2.2 決策樹技術(shù)
此技術(shù)以模擬離散函數(shù)為主,借助樹木模型,對實際案例進行綜合分類處理。決策樹的葉子,代表不同結(jié)點,而結(jié)點則是組成實例不同屬性的測試,未來枝葉的分支,表示可能覆蓋的屬性預測[2]。決策樹在根部向枝葉推進的過程中,蘊含豐富的數(shù)據(jù)挖掘,目的是得出有價值的屬性信息,所以決策樹理論支持數(shù)據(jù)挖掘的分析和分類,對相同屬性的數(shù)據(jù)進行歸類存儲,進而挖掘數(shù)據(jù)分類中遵循的規(guī)則。
3 數(shù)據(jù)挖掘技術(shù)的應用領(lǐng)域
3.1 通信服務(wù)行業(yè)
在數(shù)據(jù)挖掘技術(shù)的帶動和參與下,通信服務(wù)行業(yè)逐漸趨向于“三網(wǎng)融合”,即:電信、互聯(lián)和電視,勢必涉及諸多數(shù)據(jù)運營,數(shù)據(jù)挖掘技術(shù)可以針對三網(wǎng)狀態(tài),實行模式分析,挖掘商業(yè)潛能。例如:數(shù)據(jù)挖掘技術(shù)可以對通信數(shù)據(jù)進行分析,得出通信系統(tǒng)實時運行的參數(shù)和狀態(tài),以聚類的方式,歸類系統(tǒng)數(shù)據(jù),還可直接分析用戶的實際行為,拓寬業(yè)務(wù)途徑,同時發(fā)現(xiàn)發(fā)展機遇,提升通信服務(wù)行業(yè)的社會效益。
3.2 高校管理系統(tǒng)
數(shù)據(jù)挖掘技術(shù)在高校中的應用較為明顯,例如:學生信息管理系統(tǒng)、教務(wù)評價系統(tǒng)、成績查詢系統(tǒng)、選課系統(tǒng)等,都可體現(xiàn)數(shù)據(jù)挖掘技術(shù)的優(yōu)點。高校學生數(shù)量較多,通過數(shù)據(jù)挖掘技術(shù),可以為學生提供一體化服務(wù),學生在入學之際,即可將信息錄入在管理系統(tǒng)內(nèi),整個在校期間,都可通過管理系統(tǒng),查詢個人信息,管理者也可以根據(jù)管理系統(tǒng),快速調(diào)取學生信息,如:圖書借閱、飯卡充值等,隨時關(guān)注學生的信息動態(tài)[3]。高校在數(shù)據(jù)管理方面,已經(jīng)實現(xiàn)多系統(tǒng)的融合發(fā)展,在數(shù)據(jù)挖掘技術(shù)的支持下,將不同功能的數(shù)據(jù)系統(tǒng),兼容于統(tǒng)一系統(tǒng),不論是學生,還是教務(wù)人員,利用獨立賬號、密碼,都可實現(xiàn)個人信息管理或查詢,對數(shù)據(jù)挖掘技術(shù)提供更高的發(fā)展要求。
3.3 醫(yī)學領(lǐng)域
醫(yī)學領(lǐng)域不僅涉及大量的信息數(shù)據(jù),而且數(shù)據(jù)的編排、匯總非常復雜,大量數(shù)據(jù)同時出現(xiàn)的過程中,幾乎不會出現(xiàn)相同數(shù)據(jù),因此,醫(yī)學領(lǐng)域的數(shù)據(jù)管理,具備一定難度。數(shù)據(jù)挖掘技術(shù)成功應用于醫(yī)院數(shù)據(jù)管理中,特別是在病歷管理、醫(yī)藥信息管理方面,例如:數(shù)據(jù)挖掘技術(shù)可以整合醫(yī)藥信息,將醫(yī)藥信息存儲于數(shù)據(jù)庫系統(tǒng)內(nèi),醫(yī)務(wù)人員可以通過檢索的方式,在管理系統(tǒng)內(nèi),迅速獲得所需信息,避免信息篩選錯誤,提高信息識別的能力。由此,醫(yī)務(wù)人員在信息管理和校對方面,提高操作效率,確保數(shù)據(jù)挖掘的質(zhì)量。
3.4 金融行業(yè)
金融行業(yè)中的數(shù)據(jù)分類比較明確,如:信貸數(shù)據(jù)、儲蓄數(shù)據(jù)等,需對數(shù)據(jù)采取合理的分配和管理。數(shù)據(jù)挖掘技術(shù)在金融行業(yè)中,為數(shù)據(jù)管理提供可靠的空間,成為管理金融數(shù)據(jù)的最佳方式[4]。數(shù)據(jù)挖掘技術(shù)具備獨立分析的能力,可以在數(shù)據(jù)庫中,設(shè)置多維參考點,對不同類型的數(shù)據(jù)實行嚴格區(qū)分,根據(jù)數(shù)據(jù)的異同性質(zhì),實行準確處理,發(fā)揮數(shù)據(jù)挖掘的優(yōu)勢,維持金融數(shù)據(jù)的運行。數(shù)據(jù)挖掘技術(shù)還可以根據(jù)金融數(shù)據(jù)的動態(tài)變化,有效發(fā)現(xiàn)影響金融活動的不良因素,防止金融行業(yè)出現(xiàn)數(shù)據(jù)漏洞,造成管理弊端。
綜上所述,隨著數(shù)據(jù)挖掘技術(shù)的發(fā)展,其在行業(yè)領(lǐng)域中的應用越來越廣泛,為數(shù)據(jù)運行提供強大的技術(shù)支持。數(shù)據(jù)挖掘技術(shù)可以迅速獲取有效信息,體現(xiàn)準確識別的能力,改善數(shù)據(jù)運行,因此,數(shù)據(jù)挖掘技術(shù)成為行業(yè)發(fā)展與進步的重要途徑,不僅提高信息處理的能力,還可以保障信息處理的效率和價值,同時提高行業(yè)信息技術(shù)水平。
[參考文獻]
[1]羅斌.數(shù)據(jù)挖掘研究進展[J].中國水運,2012(07):90-92.
[2]張昀.數(shù)據(jù)挖掘技術(shù)研究[J].軟件導刊,2012(09):45-47.
隨著科技的進一步發(fā)展,已經(jīng)帶動著各大領(lǐng)域的創(chuàng)新和發(fā)展。而我國在近年來,城市信息化的普及也在不斷推進,網(wǎng)絡(luò)技術(shù)的改革和發(fā)展也顯得格外重要。而特別很多企業(yè)對于自身的信息和數(shù)據(jù)儲存、共享以及處理都格外注重,要求技術(shù)本身要包含安全性、便捷性以及可靠性。,而是在大數(shù)據(jù)提出后,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一種新的主流技術(shù),而研究數(shù)據(jù)挖掘技術(shù)的理念、方法以及應用領(lǐng)域,將對我國工程施工領(lǐng)域的未來帶來更多的機遇和挑戰(zhàn)。
關(guān)鍵詞:
大數(shù)據(jù)時代數(shù)據(jù)挖掘技術(shù)分析和研究運用數(shù)據(jù)挖掘技術(shù),也被稱為數(shù)字處理技術(shù),顧名思義,就是對于目前各大企業(yè)的內(nèi)部數(shù)據(jù),進行整理、調(diào)整、挖掘?qū)嵤┮约霸u估等一系列處理操作,其主要的目標是保證全局數(shù)據(jù)都能夠得到充分的優(yōu)化。而大數(shù)據(jù)則是區(qū)分于以往抽樣調(diào)查的方法,而是對于全局數(shù)據(jù)進行分析,從而保證分析的全面以及完成。而大數(shù)據(jù)技術(shù)也包含4個優(yōu)點,即高數(shù)量、高速度、多元化以及高價值。而筆者將通過本文,就大數(shù)據(jù)時代的數(shù)據(jù)挖掘技術(shù)與應用進行分析和探討。
1相關(guān)概念的簡介
1.1大數(shù)據(jù)的概念關(guān)于大數(shù)據(jù)的理念提出,可以追溯到麥肯錫研究院于2011年的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個新領(lǐng)域》,其中闡述的觀念就涵蓋數(shù)據(jù)方面,即數(shù)據(jù)已經(jīng)融入到了人們的日常生活中,也是生產(chǎn)運作的一個重要因素。而大數(shù)據(jù)的運用,對于消費以及生產(chǎn)水平都是一種有效的提升提升,根據(jù)美國曾經(jīng)的《大數(shù)據(jù)研究和發(fā)展倡議》資料,截至2011年一年,全球總的數(shù)據(jù)就增加了1.8ZB,而進行人均計算,相當于每個人都具有至少200GB的數(shù)據(jù)資源,而且這一數(shù)據(jù)還在呈現(xiàn)出日益增長的趨勢,根據(jù)統(tǒng)計計算,這一數(shù)值將會按照約為50%/年的速度增長。
1.2數(shù)據(jù)挖掘作為一個新型學科,數(shù)據(jù)挖掘技術(shù)源于20世紀的80年代,那時其效用與目前存在本質(zhì)差異,科學家最初研究大數(shù)據(jù),主要是用于一些人工智能技術(shù)的開發(fā)。簡而言之,技術(shù)層面上,數(shù)據(jù)挖掘就是一個對數(shù)據(jù)進行發(fā)掘創(chuàng)新的過程,即要求目標數(shù)據(jù)具有隱蔽性、挖掘價值以及挖掘潛力,而且需要操作者在一堆冗雜的、隨機的、模糊的數(shù)據(jù)庫中進行挖掘;而對于商業(yè)層面上來說,數(shù)據(jù)挖掘就是在一些大量的數(shù)據(jù)信息中獲得規(guī)律以及價值信息,從而為決策提供重要的知識憑據(jù)。
2數(shù)據(jù)挖掘的研究手段
對于數(shù)據(jù)挖掘而言,不同的研究手段將是其開展的重要基礎(chǔ),而研究手段的決定,主要需要依靠科學的計算為依據(jù),分析和對比數(shù)據(jù)中存在的一些不為人知的規(guī)則,然后通過研究手段的改變?nèi)恫煌膯栴},對于實際操作來說,就是針對不同的數(shù)據(jù)找出不同的解決方法,而常見數(shù)據(jù)挖掘的研究手段主要可以分為四類,即聚類研究、分類和預測以及關(guān)聯(lián)研究。
2.1聚類研究將抽選的數(shù)據(jù)或者對象的庫進行類似“分類”的聚類劃分,然后再將其中的相同或者相近的數(shù)據(jù)劃分為一個組類,由此建立起多個組類開展研究的過程。整個過程突出的是一種無知識基礎(chǔ)、無監(jiān)督管控的學習過程。而整個過程由于分類研究有本質(zhì)的差異,因為聚類研究在事先根本無法得到目標的重要屬性數(shù)據(jù),而這種分析方法主要可以用于多個區(qū)域,例如心理、統(tǒng)計、醫(yī)藥、銷售以及數(shù)據(jù)識別等,而根據(jù)其隸屬度的取值,有能將其分為兩種研究方法,即硬聚類與模糊聚類,對于前者來說,就是將目標按照影響標準進行劃分,即目標如果屬于某類,必定不屬于其他類;而對于后者來說,主要取決與隸屬度的取值不同。而劃分過程可能會將目標劃分入多個聚類中。此外聚類的計算方法也能分為多種,即包含密度算法、層次算法、劃分算法、網(wǎng)格算法以及模型算法等等。
2.2分類與估測對于分類與數(shù)值估測來說,都是屬于是問題預測方式,其中前者要求估測各個類中的標號,這些標號都是分散且無規(guī)律的,而估測方法可以采用函數(shù)模型,要求模型類型為連續(xù)值函數(shù)。分類估測作為數(shù)據(jù)挖掘的起始工作,主要需要反應已經(jīng)獲知的訓練數(shù)據(jù)庫的特點,從而根據(jù)以上基礎(chǔ)完成其中對每一類的情況以及特點完成相應的分類操作,而整個操作也是受到督促的,對于一般的分類算法可以有決策樹、粗糙集、貝葉斯、遺傳等算法,而估測主要是基于分類以及回歸基礎(chǔ),估測數(shù)據(jù)將來的動向,即包含局勢外推、時間序列以及回歸分析幾類。
2.3關(guān)聯(lián)研究關(guān)聯(lián)研究是源于自然生物間微妙的關(guān)系,而某事情的發(fā)生和發(fā)展也會引發(fā)連鎖的事情發(fā)展,也就類似所謂“蝴蝶效應”的定義。而關(guān)聯(lián)研究的研究目標即是研究物與物之間的微妙關(guān)系,包含一些依賴關(guān)系等等,從而找出其中的規(guī)則,基于規(guī)則,分析將來的動向。以購物為例,分析購物者的心理規(guī)律以及習慣,可以從他們對于購物的一系列表現(xiàn),例如購物籃的物品類型、放置規(guī)律、購物消費理念、購物環(huán)境需求等等,而掌握這些規(guī)律,足以讓一個銷售企業(yè)獲得巨大的消費市場以及商機。
3大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用
3.1數(shù)據(jù)準備準備流程需要依附于研究者已經(jīng)建立起長期且豐富數(shù)據(jù)資源的數(shù)據(jù)庫,而根據(jù)這些無規(guī)則的原始數(shù)據(jù)進行相應的挖掘前的準備的工作,例如數(shù)據(jù)的處理、擇取、清除、推敲以及轉(zhuǎn)變,作為基礎(chǔ)的流程,數(shù)據(jù)準備操作在整個流程中起到重要的基礎(chǔ)作用。
3.2數(shù)據(jù)挖掘開展數(shù)據(jù)挖掘操作,需要根據(jù)挖掘?qū)ο蟮那闆r擇選最優(yōu)的計算方法,從而獲取其中的規(guī)律性,例如對應采用決策樹算法、分類算法、神經(jīng)網(wǎng)絡(luò)算法以及Apriori算法等。
3.3數(shù)據(jù)挖掘的模式評估研究模式評估的對象主要是通過數(shù)據(jù)挖掘處理過程數(shù)據(jù),而評估流程是了解、研究且取得其中數(shù)據(jù)的規(guī)則,然后對數(shù)據(jù)進行轉(zhuǎn)變“翻譯”成通俗易懂的語言,供人們?nèi)パ芯亢退伎肌?/p>
3.4數(shù)據(jù)挖掘的知識應用知識應用是數(shù)據(jù)挖掘的最后一步,通常知識運用就是一種現(xiàn)實運用的過程,通過數(shù)據(jù)準備、挖掘、研究評估,最后將結(jié)果數(shù)據(jù)或者規(guī)律用于現(xiàn)實中,從而體現(xiàn)數(shù)據(jù)的本身的價值,這就是知識應用的內(nèi)涵。
4大數(shù)據(jù)時代的數(shù)據(jù)挖掘的運用
4.1市場營銷方面市場營銷行業(yè)已經(jīng)是目前數(shù)據(jù)挖掘采用最多的行業(yè),數(shù)據(jù)挖掘的作用主要體現(xiàn)在的對于消費者群體的消費習慣以及行為進行解析,從而改變銷售方法,提升產(chǎn)品的銷售量,此外,除了一些購物消費以外,數(shù)據(jù)挖掘技術(shù)以及拓展到了各大金融行業(yè),例如保險行業(yè)、銀行行業(yè)以及電子商務(wù)行業(yè)等等。例如:在市場營銷方面,采用數(shù)據(jù)挖掘中的聚類研究,即客戶一系列無規(guī)則、無意識的行為數(shù)據(jù),對他們進行識別,即根據(jù)客戶的忠誠度、消費意識進行分類,幫助企業(yè)尋找其中的潛在客戶以及固定客戶群。
4.2數(shù)據(jù)挖掘的科學分析科學本身就是一個尋找規(guī)律、發(fā)現(xiàn)規(guī)律以及利用規(guī)律的過程,而且任何科學研究都是需要基于數(shù)據(jù)作為基礎(chǔ),所以數(shù)據(jù)挖掘?qū)τ诳茖W領(lǐng)域也具有重要的意義和價值,特別是針對一些未知的事物、領(lǐng)域或者知識,通過數(shù)據(jù)挖掘可以有效展示數(shù)據(jù)規(guī)則。例如對于太空行星的分析,遺傳基因DNA的數(shù)據(jù)以及遺傳規(guī)律等。
4.3制造業(yè)與其他行業(yè)不同,制造業(yè)運用數(shù)據(jù)挖掘的目的主要是產(chǎn)品質(zhì)量檢查方面,例如研究產(chǎn)品的數(shù)據(jù),找出其中規(guī)則。分析整體生產(chǎn)流程,解析其中過程,找出影響生產(chǎn)質(zhì)量以及效率的問題,然后通過對這些問題進行解決,提升企業(yè)經(jīng)濟效益。對于制造業(yè)而言,數(shù)據(jù)挖掘運用主要體現(xiàn)在決策方面,即首先通過數(shù)據(jù)篩選,獲取有用的知識和數(shù)據(jù),然后采用決策樹算法,統(tǒng)計決策,然后選擇其中正確的決策,即像根據(jù)目前產(chǎn)品的流行情況,預測目前生產(chǎn)產(chǎn)品的受歡迎度,然后決策生產(chǎn)的時間以及周期。
4.4教育方面對于教育行業(yè)來說,最重要的除了教師的教學方法以外,學生的學習情況、心理動向以及教學評估都是十分重要的,采用數(shù)據(jù)挖掘技術(shù),則可以有效將這些數(shù)據(jù)通過分類、篩選以及處理,得出有效的數(shù)據(jù)規(guī)則,供學校教學改革時進行參考。例如:教學質(zhì)量評估數(shù)據(jù)挖掘模塊的開發(fā),即將教學質(zhì)量相關(guān)的項目通過QSLSevrer進行整合和存儲,例如教學準備、教學內(nèi)容、教學方式以及教學態(tài)度等,最后學生可以進行自行瀏覽并且完成評估,而評估結(jié)果則會上傳系統(tǒng)進行最后通過數(shù)據(jù)挖掘,篩選其中有用的信息,再通過Apr1ori算法挖掘其中關(guān)聯(lián)規(guī)律。
5結(jié)語
雖然數(shù)據(jù)挖掘技術(shù)不是一項新興的技術(shù),但是其還具有較大的研究價值與運用前景,特別是在特殊領(lǐng)域的運用,對于一系列數(shù)據(jù)進行科學冗雜的處理,然后分析其中規(guī)則價值,可以有效提升各大行業(yè)的經(jīng)濟效益。
參考文獻
[1]趙倩倩,程國建,冀乾宇,戎騰學.大數(shù)據(jù)崛起與數(shù)據(jù)挖掘芻議[J].電腦知識與技術(shù),2014,11(33):7831-7833.
[2]韓英.淺析大數(shù)據(jù)時代的數(shù)據(jù)挖掘與精細管理[J].成都航空職業(yè)技術(shù)學院學報,2013,12(04):63-71.
【關(guān)鍵詞】信息時代;數(shù)據(jù);利用;挖掘;應用
1.數(shù)據(jù)挖掘的起源
隨著科學技術(shù)的日新月異,信息正在處于爆炸的時代,但是在數(shù)據(jù)龐大的背后,人們對其利用和提取的價值是有限的,有時候是不能滿足現(xiàn)實的需要。當前大部分只是對所有的數(shù)據(jù)進行儲存、統(tǒng)計、查詢,很難找出數(shù)據(jù)背后存在的某種關(guān)系和規(guī)律,更不能對數(shù)據(jù)的未來發(fā)展進行準確的預測。這也就導致了雖然信息數(shù)據(jù)非常多但是價值卻占到很少的一部分。正是因為有這種情況的產(chǎn)生,信息挖掘技術(shù)才會得到發(fā)展和應用。
2.數(shù)據(jù)挖掘的定義
所謂的信息挖掘通過對一些已有的數(shù)據(jù)存在不確定性、信息量大、不完整的數(shù)據(jù)進行分析提取,提取出數(shù)據(jù)背后存在的一些價值和有用的信息。通過對這些數(shù)據(jù)的分析提取為一些技術(shù)部門和相關(guān)的人員的戰(zhàn)略決策提供很大的支持。
3.數(shù)據(jù)挖掘的過程
數(shù)據(jù)的挖掘是通過數(shù)據(jù)挖掘算法提取出數(shù)據(jù)模型,還有就是針對數(shù)據(jù)挖掘所采取的一些方法和步驟,一般都是經(jīng)歷幾次甚至多次的處理過程。最后才會在數(shù)據(jù)上提取到其存在的潛在價值,整個過程主要包括一下幾個階段。
(1)目標定義階段
做任何事情之前通過對將要做的事情進行計劃分析,然后制定對所做這件事情需要達到的目標,這樣事情就會很容易成功。數(shù)據(jù)挖掘也不例外,在對數(shù)據(jù)進行挖掘的時候,需要相關(guān)的人員了解和明確對所挖掘的數(shù)據(jù)要達到的目的,這也很大程度上會決定數(shù)據(jù)挖掘的成功與否。因此相關(guān)人員要在指定明確的目標,然后選擇一定的技術(shù)手段和方式對數(shù)據(jù)進行挖掘。
(2)數(shù)據(jù)準備階段
根據(jù)已有的數(shù)據(jù)挖掘目標,就應該對所有的數(shù)據(jù)進行分析處理,大略的挑出能達到目標的一些數(shù)據(jù),剔除一些沒有意義的數(shù)據(jù)。還有就是對數(shù)據(jù)進行一些變化,主要就是為了能夠在一些有特征的數(shù)據(jù)找出符合要求的數(shù)據(jù),減少在數(shù)據(jù)挖掘過程中需要考慮的其他因素。
(3)數(shù)據(jù)挖掘階段
這個階段是整個數(shù)據(jù)挖掘階段最重要、最核心的階段。相關(guān)的工作人員應該在已有的數(shù)據(jù)挖掘目標的基礎(chǔ)上選擇合理、科學的數(shù)據(jù)挖掘方法對數(shù)據(jù)進行挖掘,提取出數(shù)據(jù)背后隱藏的價值。
(4)數(shù)據(jù)挖掘結(jié)果解釋和評估階段
首先應該對數(shù)據(jù)挖掘出來的信息進行研究,把最終滿足要求的數(shù)據(jù)提取出來。因為數(shù)據(jù)的挖掘的最終目的就是為客戶服務(wù),所以還應該針對客戶的一些特殊要求對挖掘出來的數(shù)據(jù)進行提煉,經(jīng)過客戶對所挖掘的數(shù)據(jù)結(jié)果的評估后,將一些不滿足要求的數(shù)據(jù)剔除。還有就是把挖掘的數(shù)據(jù)應該進行合理的優(yōu)化使其更加人性化,給客戶優(yōu)質(zhì)的服務(wù)。
4.數(shù)據(jù)挖掘的研究方向
(1)對于數(shù)據(jù)挖掘系統(tǒng)來說,其不可能對各類型的數(shù)據(jù)進行數(shù)據(jù)挖掘,因此應該針對不同類型的數(shù)據(jù)研究出不同的數(shù)據(jù)挖掘系統(tǒng),這樣就可以在數(shù)據(jù)挖掘時能夠快速、高效的對數(shù)據(jù)進行挖掘。
(2)數(shù)據(jù)挖掘系統(tǒng)應該具備能夠?qū)?shù)據(jù)進行高效率的挖掘,因為隨著信息化時代的到來,數(shù)據(jù)會越來越多,越來越復雜。如果其系統(tǒng)不能高效的工作,會很大程度上影響到數(shù)據(jù)挖掘的整體進度。
(3)數(shù)據(jù)挖掘結(jié)果的準確性、通俗性以及有效性也是數(shù)據(jù)挖掘所需要達到的,只有這幾方面都能滿足要求,才會能夠很好的服務(wù)客戶。
(4)隨著信息時代和科學技術(shù)的快速發(fā)展,人們也越來越關(guān)注到一些個人隱私。所以在對數(shù)據(jù)挖掘的過程中不應該侵犯到他人的隱私。還有就是對挖掘出來的數(shù)據(jù)有一定的安全保護措施,防止數(shù)據(jù)丟失。
(5)挖掘出來的數(shù)據(jù)也應該能夠及時的和現(xiàn)有的數(shù)據(jù)進行結(jié)合和補充,這樣就能使數(shù)據(jù)得到更廣泛的應用和利用。
5.數(shù)據(jù)挖掘的應用領(lǐng)域
隨著科技的不斷發(fā)展和信息化時代的到來,數(shù)據(jù)挖掘技術(shù)也取得了一些成就,在許多行業(yè)也得到了一定的應用
(1)科學研究
因為許多科學研究的數(shù)據(jù)的大量性、復雜性使得一般的分析工具很大對數(shù)據(jù)進行分析、提取,因此數(shù)據(jù)挖掘技術(shù)在這種情況下深受科學研究方面的廣大歡迎,其也在這個行業(yè)得到了快速的發(fā)展和應用。通過數(shù)據(jù)挖掘在科學研究的應用,促進了科學的快速發(fā)展,使其能夠為社會提供有價值的科學成果,為國家做出貢獻。
(2)風險分析和欺詐辨別
因為許多行業(yè)的數(shù)據(jù)存在具有龐大性、真假難辨性,所以對這些數(shù)據(jù)進行挖掘分析,分析出有價值、真的數(shù)據(jù),防止因為假的數(shù)據(jù)給我們帶來的不必要的麻煩。還可以經(jīng)過對數(shù)據(jù)的挖掘分析提高對風險的分析能力。還有就是一些行業(yè)的數(shù)據(jù)可能被不法分子利用對人們進行欺詐,通過數(shù)據(jù)挖掘可以對這些數(shù)據(jù)進行辨別,從而避免了經(jīng)濟損失。
(3)制造業(yè)的應用
數(shù)據(jù)挖掘一般就是對制造業(yè)的制造部件的缺陷進行分析,通過分析挖掘出能夠優(yōu)化制造部件的數(shù)據(jù),從而避免制造部件的缺陷。
(4)學校教育的應用
學校的數(shù)據(jù)也是非常龐大、復雜的,因此數(shù)據(jù)挖掘也在學校的各個信息系統(tǒng)得到了一定的應用。學校通過數(shù)據(jù)挖掘挖掘出對學校、老師、學生有價值的數(shù)據(jù),從而讓學??茖W的管理,老師更加高效的工作和教學,學生更加高效的學習。
參考文獻:
[1] Jiawei Han.Data Mining:Concepts and Techniques[M].機械工業(yè)出版社.2004
[2] 劉同明等.數(shù)據(jù)挖掘技術(shù)及其應用[J].北京:國防工業(yè)出版社.2001.(9)
[3] 康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù)[J].北京:機械工業(yè)出版社.2004.(1):131~175