歡迎來到優(yōu)發(fā)表網(wǎng)!

購物車(0)

期刊大全 雜志訂閱 SCI期刊 期刊投稿 出版社 公文范文 精品范文

數(shù)據(jù)分析分析技術范文

時間:2023-09-05 16:32:12

序論:在您撰寫數(shù)據(jù)分析分析技術時,參考他人的優(yōu)秀作品可以開闊視野,小編為您整理的7篇范文,希望這些建議能夠激發(fā)您的創(chuàng)作熱情,引導您走向新的創(chuàng)作高度。

數(shù)據(jù)分析分析技術

第1篇

關鍵詞 數(shù)據(jù)挖掘技術 警務系統(tǒng) 數(shù)據(jù)分析 應用

中圖分類號:TP311 文獻標識碼:A

1數(shù)據(jù)挖掘技術在警務數(shù)據(jù)分析系統(tǒng)中的重要性

警務系統(tǒng)由于工作的特點,要不斷地接受外來數(shù)據(jù)和有序存儲舊數(shù)據(jù),這就對警務系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來越高的要求,傳統(tǒng)的警務數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會已經(jīng)不能再有效的完善數(shù)據(jù)庫的運行,這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應該有卓越的性能,將對案情有幫助的信息從大數(shù)據(jù)庫中有效的提取出來。數(shù)據(jù)挖掘技術是一項在能夠提高警務系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項技術,能在短時間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源,將其進行分析和建模,從而從這些數(shù)據(jù)中獲得有力的線索。

2目前警務系統(tǒng)特點

現(xiàn)今的警務系統(tǒng)是跟隨時代不斷發(fā)展的一個工作效率高、工作素質(zhì)強的組織系統(tǒng),有案件處理速度快、案件分析效率高的特點。這些特點,都需要警務系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應用,通過對數(shù)據(jù)的處理分析、檢查對比得出較有價值的案件線索,從而提高效率。警務系統(tǒng)的正常運行離不開數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)挖掘技術更是數(shù)據(jù)處理系統(tǒng)的重要組成部分,它確保了整個系統(tǒng)的運行速度,對案件的偵查有促進作用。

3構建警務系統(tǒng)數(shù)據(jù)存儲器

基于警務系統(tǒng)的數(shù)據(jù)特點,警務系統(tǒng)應該建立一個高速運行的警務系統(tǒng)數(shù)據(jù)存儲器?!皵?shù)據(jù)存儲器”在結構上分為三個部分,分別是關系系統(tǒng)、OLAP服務器以及客戶處理系統(tǒng)。這三個部分的作用效果如下:

3.1關系系統(tǒng)

關系系統(tǒng)是這三個組成部分的基礎部分,這個系統(tǒng)負責對系統(tǒng)中的數(shù)據(jù)進行整理和提取、刷新,將數(shù)據(jù)在整個系統(tǒng)中的存儲位置有序的排列好,防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關系系統(tǒng)在運行的過程中通過警務系統(tǒng)不斷的收集新的信息,將其整理保存,始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護。

3.2 OLAP服務器

OLAP是聯(lián)機處理的縮寫,是將多角度的信息共享并由一個關鍵的出發(fā)點而聯(lián)機進行數(shù)據(jù)處理分析的一個軟件技術,在警務系統(tǒng)中可將需要處理的信息進行聯(lián)機處理分析,將信息較快的處理出來,得到有效的結論。

3.3客戶處理系統(tǒng)

客戶處理系統(tǒng)是將數(shù)據(jù)進行分析處理以及檢索和報告的一個系統(tǒng),通過對數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來,形成有用的線索,供警務系統(tǒng)人員進行案件的偵破和處理,是數(shù)據(jù)存儲器的重要部分,特別是數(shù)據(jù)挖掘技術的應用時整個系統(tǒng)的運作重心。

4數(shù)據(jù)挖掘技術

數(shù)據(jù)挖掘技術是將數(shù)據(jù)庫中的數(shù)據(jù)進行采集、集成以及分析的一項技術,其應用到警務系統(tǒng)中可以對案件相關信息進行檢索和分析,應用了多維數(shù)據(jù)分析處理及關聯(lián)規(guī)則的應用、聚類分析方法的實際處理等數(shù)據(jù)挖掘分析處理模式將警務系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來,形成一個較為完整的數(shù)據(jù)挖掘模式。

在挖掘出境數(shù)據(jù)時,數(shù)據(jù)挖掘技術的決策樹技術有效應用,與縣贏得算法技術相互應,將數(shù)據(jù)較為完整的從警務系統(tǒng)中巨大的信息庫中挖掘出來,實現(xiàn)了數(shù)據(jù)挖掘的分級處理模式的有效應用。

5數(shù)據(jù)挖掘技術在現(xiàn)代警務系統(tǒng)中的應用

在警務系統(tǒng)中,數(shù)據(jù)挖掘系統(tǒng)在案件的相關數(shù)據(jù)中整理生成了一個多維數(shù)據(jù)模型,使信息可視化、將案件信息的關系更加清楚的展現(xiàn)在警務系統(tǒng)的工作人員面前,通過多角度、多方面的分析和挖掘,將系統(tǒng)中的有用信息全部呈現(xiàn)在報告中,實現(xiàn)了信息的有效用。

6結語

警務系統(tǒng)中的信息有多樣化、復雜化、信息量巨大的特點,使用傳統(tǒng)的數(shù)據(jù)庫是不能按照現(xiàn)代的社會發(fā)展速度生存的,對數(shù)據(jù)進行高效的分析處理和采集,是現(xiàn)代警務數(shù)據(jù)處理系統(tǒng)應該具有的一項特點。在數(shù)據(jù)處理速度快的前提下,數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應該是突出的,本文中提到的數(shù)據(jù)挖掘技術就是解決數(shù)據(jù)處理問題的有效解決辦法,其運行通過對數(shù)據(jù)的建模、分析、采集等手段強化了數(shù)據(jù)處理系統(tǒng)的能力,為警務系統(tǒng)中案件處理效率的提升做出了一定的貢獻。目前社會的高速發(fā)展離不開大數(shù)據(jù)的支持,大數(shù)據(jù)時代對數(shù)據(jù)的處理系統(tǒng)要求越來越高,數(shù)據(jù)挖掘技術近些年在警務信息系統(tǒng)中的引用為警務系統(tǒng)的發(fā)展提供了技術上的有效支持,警務系統(tǒng)未來的發(fā)展肯定也離不開數(shù)據(jù)的有效處理工作,數(shù)據(jù)挖掘系統(tǒng)在未來的警務數(shù)據(jù)分析系統(tǒng)中也會有不斷地改善和提高。

參考文獻

[1] 劉敏,朱鵬,方有軒.面向市場分析人員的經(jīng)分模型庫的設計與實現(xiàn)[J].電腦與電信,2016(09) .

第2篇

[關鍵詞]數(shù)據(jù)倉庫聯(lián)機分析處理多維數(shù)據(jù)分析

中圖分類號:TP3文獻標識碼:A文章編號:1671-7597(2009)1110077-01

一、引言

聯(lián)機分析處理(Online Analytical Processing,OLAP)的概念最早是由關系數(shù)據(jù)庫之父E.F.Codd于1993年提出的,OLAP是針對特定問題的聯(lián)機數(shù)據(jù)訪問和分析。通過對信息(維數(shù)據(jù))的多種可能的觀察形式進行快速、穩(wěn)定一致和交互性的存取,允許管理決策人員對數(shù)據(jù)進行深入地觀察。OLAP的目標是滿足決策支持或多維環(huán)境特定的查詢和報表需求,它的技術核心是“維”這個概念,因此OLAP也可以說是多維數(shù)據(jù)分析工具的集合。

二、OLAP的多維數(shù)據(jù)結構

數(shù)據(jù)在多維空間中的分布總是稀疏的、不均勻的。在事件發(fā)生的位置,數(shù)據(jù)聚合在一起,其密度很大。因此,OLAP系統(tǒng)的開發(fā)者要設法解決多維數(shù)據(jù)空間的數(shù)據(jù)稀疏和數(shù)據(jù)聚合問題。事實上,有許多方法可以構造多維數(shù)據(jù)。

(一)超立方結構。超立方結構指用三維或更多的維數(shù)來描述一個對象,每個維彼此垂直。數(shù)據(jù)的測量值發(fā)生在維的交叉點上,數(shù)據(jù)空間的各個部分都有相同的維屬性。

這種結構可應用在多維數(shù)據(jù)庫和面向關系數(shù)據(jù)庫的OLAP系統(tǒng)中,其主要特點是簡化終端用戶的操作。超立方結構有一種變形,即收縮超立方結構。這種結構的數(shù)據(jù)密度更大,數(shù)據(jù)的維數(shù)更少,并可加入額外的分析維。

(二)多立方結構。在多立方結構中,將大的數(shù)據(jù)結構分成多個多維結構。這些多維結構是大數(shù)據(jù)維數(shù)的子集,面向某一特定應用對維進行分割,即將超立方結構變?yōu)樽恿⒎浇Y構。它具有很強的靈活性,提高了數(shù)據(jù)的分析效率。

一般來說,多立方結構靈活性較大,但超立方結構更易于理解。超立方結構可以提供高水平的報告和多維視圖。多立方結構具有良好的視圖翻轉(zhuǎn)性和靈活性。多立方結構是存儲稀疏矩陣的一個更有效方法,并能減少計算量。因此,復雜的系統(tǒng)及預先建立的通用應用傾向于使用多立方結構,以使數(shù)據(jù)結構能更好地得到調(diào)整,滿足常用的應用需求。

許多產(chǎn)品結合了上述兩種結構,它們的數(shù)據(jù)物理結構是多立方結構,但卻利用超立方結構來進行計算,結合了超立方結構的簡化性和多立方結構的旋轉(zhuǎn)存儲特性。

三、OLAP的多維數(shù)據(jù)分析

多維數(shù)據(jù)分析是指對以多維形式組織起來的數(shù)據(jù)采取切片、切塊、旋轉(zhuǎn)和鉆取等各種分析動作,以求剖析數(shù)據(jù),使最終用戶能從多個角度、多側面地觀察數(shù)據(jù)倉庫中的數(shù)據(jù),從而深入地了解包含在數(shù)據(jù)中的信息、內(nèi)涵。多維分析方式迎合了人們的思維模式,因:

(一)切片。定義1:在多維數(shù)組的某一維上選定一維成員的動作成為切片,即在多維數(shù)組(維1、維2、....維n,變量)中選一維:維i,并取其一維成員(設為“維成員vi”),所得的多維數(shù)組的子集(維1,...維成員vi,...,維n,變量)稱為在維i上的一個切片。

按照定義1,一次切片一定是原來的維數(shù)減1。所以,所得的切片并不一定是二維的“平面”,其維數(shù)取決于原來的多維數(shù)據(jù)的維數(shù),這樣的切片定義不通俗易懂。下面給出另一個比較直觀的定義。

定義2:選定多維數(shù)組的一個二維子集的動作叫做切片,既選定多維數(shù)組(維1、維2、....維n,變量)中的兩個維:維i和維j,在這兩個維上取某一區(qū)間或者任意維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i和維j上的一個二維子集,稱這個二維子集為多維數(shù)組在維i和維j上的一個切片,表示為(維i和維j,變量)。

按照定義2,不管原來的維數(shù)有多少,數(shù)據(jù)切片的結果一定是一個二維的“平面”。從另一個角度來講,切片就是在某個或某些維上選定一個維成員,而在某兩個維上取一定區(qū)間的維成員或全部維成員。從定義2可知:

1.一個多維數(shù)組的切片最終是由該數(shù)組中除切片所在平面的兩個維之外的其它維的成員值確定的。

2.維是觀察數(shù)據(jù)的角度,那么切片的作用或結果就是舍棄一些觀察角度,使人們能在兩個維上來集中觀察數(shù)據(jù),因為人的空間想象力有限,所以,對于維數(shù)較多的多維數(shù)據(jù)空間,進行數(shù)據(jù)切片是十分有意義的。比照定義1,我們可以將切片的這兩個定義聯(lián)系起來,對于一個n維數(shù)組,按定義1進行的n-2切片的結果,就必定對應于按定義2進行的某一次切片的結果。

(二)切塊。定義1:在多維數(shù)組的某一維上選定某一區(qū)間的維成員的動作稱為切塊,即限制多維數(shù)組在某一維的取值區(qū)間。顯然,當這一區(qū)間只取一個維成員時,即得到一個切片。

定義2:選定多維數(shù)組的一個三維子集的動作稱為切塊,即選定多維數(shù)組(維1、維2、....維n,變量)中的三個維:維i、維j、維r,在這三個維上取某一區(qū)間或任意的維成員,而將其余的維都取定一個維成員,則得到的就是多維數(shù)組在維i、維j、維r上的三維子集,我們稱這個三維子集為多維數(shù)組在維i、維j、維r上的一個切塊,表示為(維i、維j、維r,變量)。切塊與切片的作用與目的是相似的。

(三)旋轉(zhuǎn)。旋轉(zhuǎn)既是改變一個報告或者頁面的維方向。例如:旋轉(zhuǎn)可能包含了交換行與列;或是把某一個行維移到列維,或是把頁面顯示中的一個維和頁面外的維進行交換(令其成為新的行或者列的一個)。

(四)鉆取。

鉆取處理是使用戶在數(shù)據(jù)倉庫的多層數(shù)據(jù)中,能夠通過導航信息而獲得更多的細節(jié)性數(shù)據(jù),鉆取一般是指向下鉆取。大多數(shù)的OLAP工具可以讓用戶鉆取至一個數(shù)據(jù)集中有更好細節(jié)描述的數(shù)據(jù)層,而更完整的工具可讓用戶隨處鉆取,即除一般往下鉆取外,隨處鉆取還包括向上鉆取和交叉鉆取。

(五)多視圖模式。人們發(fā)現(xiàn),獲取相同的信息,圖形顯示所帶來的直觀性有時是簡單的數(shù)據(jù)表所無法提供的。一個OLAP系統(tǒng),應當采取多種不同的格式顯示數(shù)據(jù),使用戶能夠獲得最佳的觀察數(shù)據(jù)的視角。

四、結語

隨著數(shù)據(jù)倉庫的發(fā)展,OLAP也得到了迅猛的發(fā)展。數(shù)據(jù)倉庫側重于存儲和管理面向決策主題的數(shù)據(jù),而OLAP則側重于數(shù)據(jù)倉庫中的數(shù)據(jù)分析,并將其轉(zhuǎn)換成輔助決策信息。OLAP的一個重要特點是多維數(shù)據(jù)分析,這與數(shù)據(jù)倉庫的多維數(shù)據(jù)組織正好形成相互結合、相互補充的關系。將有助于我們解決數(shù)據(jù)處理中的復雜問題。

參考文獻:

[1]彭木根,數(shù)據(jù)倉庫技術與實現(xiàn),電子工業(yè)出版社,2002.9.

第3篇

1計算機大數(shù)據(jù)分析中云計算技術作用分析

云計算技術可以給提供計算機數(shù)據(jù)傳遞與共享的條件,融合軟硬件數(shù)據(jù)保存,促進計算機處理工作更好的開展。云計算技術可以給用戶提供良好的網(wǎng)絡環(huán)境與保存空間,處理數(shù)據(jù)傳遞環(huán)節(jié)的各項問題。與傳統(tǒng)大數(shù)據(jù)分析技術相比,云計算計算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計算技術獲得云終端的數(shù)據(jù),切實滿足人們對于數(shù)據(jù)的需求?,F(xiàn)階段計算機市場形成完善的結構體系,圍繞云計算技術推動計算機大數(shù)據(jù)分析工作的開展,奠定后期云計算技術發(fā)展的基礎。目前,人們生活中全面運用云計算技術,基于云計算技術研發(fā)的服務器及操作系統(tǒng)方便人們處理各類信息技術。同時,云計算技術數(shù)據(jù)保存有著較強的安全性,極小可能出現(xiàn)數(shù)據(jù)丟失情況,滿足人們的實際需求,直接體現(xiàn)出云計算技術的優(yōu)勢。優(yōu)化云計算環(huán)境下計算機的數(shù)據(jù)處理中心,就可以不斷提升計算機的云計算能力,讓云計算不僅為網(wǎng)絡信息所用,還在計算機網(wǎng)絡安全中發(fā)揮極為重要的作用。目前,計算機的使用人群更為注重的是在高速發(fā)達的信息社會,自己的信息,也就是使用計算機網(wǎng)絡的安全性能是否能得到保障,這時候考驗的就是云計系統(tǒng)的完善性。目前存在的最主要計算機安全問題就是黑客問題和系統(tǒng)漏洞問題。系統(tǒng)漏洞這一人為因素可以通過不斷檢索進行漏洞的發(fā)現(xiàn)和修補,面對黑客的攻擊,能夠做的就是防患于未然,不斷地升級和優(yōu)化系統(tǒng),最終達到完善的數(shù)據(jù)處理效果。

2云計算技術下計算機大數(shù)據(jù)分析面臨的問題

2.1網(wǎng)絡技術安全

由于相關技術的不斷發(fā)展,云計算環(huán)境下的網(wǎng)絡安全技術正在朝著穩(wěn)定和成熟的方向發(fā)展,但在具體的應用過程中依然表現(xiàn)出一定的網(wǎng)絡安全問題,因此用戶在使用過程中應該做好相關的應對工作。網(wǎng)絡安全問題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^程中,一旦出現(xiàn)服務性中斷問題,難以保證數(shù)據(jù)的安全性,啟動被動保護模式的情況使信息的安全性更加難以保障,這也成為云計算模式下的網(wǎng)絡技術安全中的重點問題,一旦得不到及時有效的解決,用戶在使用過程中就會受到不同程度的威脅。

2.2網(wǎng)絡環(huán)境安全

網(wǎng)絡環(huán)境安全是保證網(wǎng)絡正常使用,信息傳輸質(zhì)量有保證的重要前提,一旦網(wǎng)絡環(huán)境存在不安全因素,將會引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡環(huán)境安全也是云計算技術價值得以發(fā)揮的重要前提。計算機在使用過程中如果長期受到病毒的困擾和黑客的威脅,將會降低人們對計算機的信賴性,甚至在工作和生活中將會在網(wǎng)絡環(huán)境安全方面投入更多的成本。

3計算機大數(shù)據(jù)分析中云計算技術的具體應用

3.1數(shù)據(jù)傳輸安全分析

在云計算的作用下,云安全含義逐漸形成,具體來說,云安全主要指在用戶借助云計算技術來實現(xiàn)計算機大數(shù)據(jù)分析時,讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關系,隨著應用群體數(shù)量的增多,涉及的計算機數(shù)據(jù)范疇將不斷擴充,假設計算機遭受病毒的攻擊,可以在云計算技術的作用下實現(xiàn)病毒的攔截,以此讓計算機數(shù)據(jù)安全性得到保證。從云計算技術自身角度來說,其提供的各個服務均是由IaaS基礎設施級服務以及PaaS平臺級服務兩項內(nèi)容構建而成。首先,IaaS基礎設施級服務其作用在于,可以給用戶提供對應的服務,也就是對各個計算機基礎設備進行操作和應用,其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次,PaaS平臺級服務則是指,把云計算中各個服務器及開發(fā)環(huán)境當作服務,通過PaaS平臺用戶能夠結合自身需求實現(xiàn)對應操作流程的部署和應用。

3.2監(jiān)督數(shù)據(jù)資源共享

網(wǎng)絡資源在傳輸過程中遭遇到的安全威脅是用戶時時刻刻關注的問題,因此在具體的工作和管理中,需要提高云計算網(wǎng)絡安全技術的應用程度,通過不斷創(chuàng)新安全模式,完善相應的防護體系,從而有效消除安全性問題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應用過程中,可以借助云計算技術的優(yōu)勢,對數(shù)據(jù)傳輸?shù)恼麄€路徑進行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問題及時進行預警,有效預防黑客的攻擊,降低網(wǎng)絡安全事故發(fā)生的概率。對此,有關部門應該提高重視程度,同時完善相應的監(jiān)督管理制度,采用科學的管理方式,實現(xiàn)預期的監(jiān)測目標。

3.3提高數(shù)據(jù)使用安全

計算機用戶本身的安全意識也是當前需要關注的重要方面,為了進一步提升用戶數(shù)據(jù)信息和計算機系統(tǒng)的安全系數(shù),需要重視身份認證工作的提升,具體可以使用實名制的方式進行認證處理,從而不斷提升整個網(wǎng)絡結構的安全性。對于網(wǎng)絡應用過程中涉及到的安全問題,可以通過實名追蹤的方式進行可疑目標鎖定,從而有效控制惡意攻擊情況的發(fā)生。但在應用過程中也需要重視假人名情況的出現(xiàn),提高網(wǎng)絡數(shù)據(jù)信息竊取的預防水平。計算機網(wǎng)絡環(huán)境算是一種相對開放的環(huán)境,在使用過程中會面向大量的用戶,通過重視用戶的身份認證,可以有效避免用戶對數(shù)據(jù)的非法訪問。同時在使用者進行計算機登錄和使用的時候,需要對用戶名和密碼進行核實。按照權限的不同,確保數(shù)據(jù)庫信息的安全有效性。通過對數(shù)據(jù)庫信息加密處理,可以確保數(shù)據(jù)庫信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎上進行算法的處理改進,使用者可以通過自身的權限獲取想要了解的信息,如果沒有解密方式,不法分子將會難以獲取數(shù)據(jù)的原始信息。

3.4網(wǎng)絡安全等級防護

在云計算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計等功能,能夠滿足不同云計算環(huán)境下不同安全等級的保護要求,并且通過服務層的安全保護框架,實現(xiàn)對不同等級云服務客戶端的安全保護,為使用者提供安全可靠的資源訪問服務。在訪問云服務商時,用戶可通過通信網(wǎng)絡、API接口和Web服務方式訪問云服務器,但是用戶終端系統(tǒng)的安全防護不在網(wǎng)絡安全等級保護框架體系內(nèi)。在保護框架體系內(nèi),資源層和服務層安全是云計算環(huán)境安全保護的重點,資源層包括物理資源安全和虛擬資源安全,應按照安全設計要求構建資源層安全保護框架。云計算環(huán)境下的網(wǎng)絡安全等級保護要針對不同等級云計算平臺確定不同的安全目標,一般情況下安全保護等級最低為二級,并根據(jù)安全目標和等級要求實施安全設計步驟,具體包括:第一步,根據(jù)云平臺的租戶數(shù)量和業(yè)務系統(tǒng)情況確定云計算安全保護標準,制定云計算平臺的安全保護策略,以避免在云計算平臺上發(fā)生安全事件;第二步,細化安全技術要求,針對安全計算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡以及安全管理中心制定出相應的安全保護策略;第三步,根據(jù)云計算功能框架中的各層功能和保護要求,制定安全技術機制,使其滿足云計算功能框架的安全保護要求。在完成云計算環(huán)境下的網(wǎng)絡安全等級保護設計之后,還應增加虛擬化安全、鏡像安全、接口安全等安全控制點,并采用訪問控制技術、身份識別技術等安全防護技術,實現(xiàn)與云計算平臺上各功能層次的對接,提出各層的安全保護措施。

3.5重視相應程序開發(fā)

網(wǎng)絡安全應用程序需要隨著技術的進步和人們生活和工作的需要進行逐步提升,從而及時對病毒程序進行開發(fā)和處理,確保計算機系統(tǒng)可以敏銳捕捉到病毒的活動跡象,提升自身的防御能力。通常情況下,對于計算機的服務,內(nèi)網(wǎng)隱蔽處理,可以提升網(wǎng)站平臺的訪問速度,可以避免不安全網(wǎng)址帶來的不良效應,從而為計算機的安全防御提供一定的屏障。在計算機數(shù)據(jù)的使用中,由于安全性威脅導致的數(shù)據(jù)丟失問題,可以通過備份和恢復改善。這種恢復性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動態(tài)備份以及靜態(tài)備份等幾種情況。計算機黑客數(shù)量增多,凈化網(wǎng)絡環(huán)境顯然存在較大難度,但通過必要的防范措施依然可以在數(shù)據(jù)庫信息的保護中起到關鍵作用。而使用防火墻保護工具就能很好的為計算機網(wǎng)絡提供一種安全保障。通過防火墻,可以在一定程度上防止黑客的侵害。

第4篇

關鍵詞 數(shù)據(jù)挖掘 基因序列 生物信息學 遺傳疾病 患病家族連鎖分析

在生物信息學的成果的理論基礎之上,通過統(tǒng)計的方法查找未知的生物化學功能的疾病基因的位置。這個方法預先通過患病家族連鎖分析,再推斷包含這些基因的染色體區(qū)域片段,然后檢查該區(qū)域來尋找基因[1]。

數(shù)據(jù)挖掘在DNA數(shù)據(jù)分析的發(fā)展狀況

現(xiàn)今所采用的是分子生物學與微電子技術相結合的核酸分析檢測技術[2]。DNA芯片技術的基本原理是將cDNA或寡核昔酸探針以105~106位點/cm2>/sup>的密度結合在固相支持物(即芯片)上,每個位點上的cDNA或寡核昔酸探針的順序是已知的,將該探針與熒光標記的待測樣品DNA,RNA或cDNA在芯片上進行雜交,然后用激光共聚焦顯微鏡對芯片進行掃描,并配合計算機系統(tǒng)對雜交信號做出比較和檢測,從而迅速得出所需的信息。

基因數(shù)據(jù)挖掘常用的方法:①核酸與蛋白質(zhì)比較的預測分析:蛋白質(zhì)序列之間或核酸序列之間的兩兩比對,通過比較兩個序列之間的相似區(qū)域和保守性位點,尋找二者可能的分子進化關系。進一步的比對是將多個蛋白質(zhì)或核酸同時進行比較,尋找這些有進化關系的序列之間共同的保守區(qū)域、位點和profile,從而探索導致它們產(chǎn)生共同功能的序列模式。此外,還可以把蛋白質(zhì)序列與核酸序列相比來探索核酸序列可能的表達框架;把蛋白質(zhì)序列與具有三維結構信息的蛋白質(zhì)相比,從而獲得蛋白質(zhì)折疊類型的信息。②針對核酸序列的預測方法:針對核酸序列的預測就是在核酸序列中尋找基因,找出基因的位置和功能位點的位置,以及標記已知的序列模式等過程。在此過程中,確認一段DNA序列是一個基因需要有多個證據(jù)的支持。一般而言,在重復片段頻繁出現(xiàn)的區(qū)域里,基因編碼區(qū)和調(diào)控區(qū)不太可能出現(xiàn);如果某段DN段的假想產(chǎn)物與某個已知的蛋白質(zhì)或其他基因的產(chǎn)物具有較高序列相似性的話,那么這個DN段就非??赡軐儆谕怙@子片段;在一段DNA序列上出現(xiàn)統(tǒng)計上的規(guī)律性,即所謂的“密碼子偏好性”,也是說明這段DNA是蛋白質(zhì)編碼區(qū)的有力證據(jù);其他的證據(jù)包括與“模板”序列的模式相匹配、簡單序列模式如TATA Box等相匹配等。

案例分析

疾病是由于基因的片段內(nèi)的某個位置存在或發(fā)生改變而引起的,也就是發(fā)生突變。能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要數(shù)據(jù)挖掘技術的支持。對基因的數(shù)據(jù)挖掘,就是對這些突變位置的尋找,并且找出該位置與所有者身患的疾病之間的關系。

方法的選擇:筆者在設計中選用單純的DNA序列進行比較,基因在計算機的表示和存儲時,可以使用一條很長的字符串來表示基因的某一條序列,使用文件的形式進行對基因工作者的提取成果創(chuàng)建一級數(shù)據(jù)庫,使用文件修整的方法進行數(shù)據(jù)的清洗,以滿足數(shù)據(jù)在二級數(shù)據(jù)庫中的一致性。同時在文件比較過程中,生成某兩個數(shù)據(jù)文件的差異狀況,保存在二級數(shù)據(jù)庫庫中,進一步的操作是對差異的位置的某個類型所占的比例。最后通過事先的對患者患病信息的統(tǒng)計得到的某種疾病在群中所占的比例,與其相比較,如果這兩個比例相等,則可以認為這個位置的某個類型引起疾病的發(fā)生。從醫(yī)學院得到一些基因片段文件信息和患者(所有者)患病情況。

系統(tǒng)的實現(xiàn):基因片段在計算機中以文件形式存儲,用文件名標識其所有者(源體)。片段起始地址和長度信息和所有患者患病情況保存在本機數(shù)據(jù)庫中。在程序測試過程中,將片段復制成40份,對其中部分文件的序列進行稍作修改,對所有患者的患病狀況進行稍作修改,以創(chuàng)造測試環(huán)境。顯示在與基因數(shù)據(jù)挖掘軟件同在一根目錄下的序列文件的集合。

其中一個文件所存儲的基因信息,見圖1。

啟動統(tǒng)計程序界面,單擊清空數(shù)據(jù)庫中的臨時用表數(shù)據(jù),將數(shù)據(jù)庫中有可能的雜音信息去掉。并對其中的所有文件進行統(tǒng)計前片段剪切,使所有片段的起始地址和長度都相同,避免發(fā)生序列移位。

沒有進行片段剪切之前,瀏覽文件所存的片段信息,片段剪切完成之后,設置進行比較操作的甲、乙組的文件添加,因為本次測試只檢驗片段中的一塊區(qū)域(文件中片段的所有信息),所以在起始序號那里添加為0,終止序號那里添加為175。這樣則可以保證統(tǒng)計文件的所有信息都被統(tǒng)計。

單擊結果顯示按鈕,可以見到程序以表格和條形圖標方式??梢钥吹?、3、5、12、14、16、18、13、31、34、87、94、139、166位置的條形段較高。說明在這些接受統(tǒng)計的片段中,在上面提到的位置處存在的差異較大,與某遺傳疾病的關聯(lián)的可能性就越大。

如果用戶想要在初步統(tǒng)計結果的基礎上,按照數(shù)據(jù)庫中所有者的疾病狀況進行詳細統(tǒng)計的話,單擊菜單欄的詳細統(tǒng)計按鈕,選擇按疾病詳細統(tǒng)計,則將彈出窗口。

選擇弱視,輸入,則在文本框中顯示與其關聯(lián)的位置為1、3、5、12、14、16、18、13、31、34、87、94、139、166。

由此,用戶可以根據(jù)本系統(tǒng)所給出的預測對弱視遺傳疾病與序列中的特定位置,選擇適當算法進行進一步的計算及檢驗,證明預測結果是否符合關聯(lián)理論。數(shù)據(jù)挖掘方法體系中的智能聚類的相關技術則可較好的解決類別數(shù)判定、結果驗證等問題。

結 論

對于生物信息或基因的數(shù)據(jù)挖掘和通常的數(shù)據(jù)挖掘相比,無論在數(shù)據(jù)的復雜程度、數(shù)據(jù)量還有分析和建立模型的算法而言,都要復雜得多。從分析算法上講,需要一些新的和好的算法;但技術和軟件還遠沒有達到成熟的地步,因此需要不斷探索及研究。

參考文獻

1 黃詒森.生物化學[M].北京:人民衛(wèi)生出版社,2002:29-37.

第5篇

關鍵詞:告警數(shù)據(jù) Hadoop Spark

1 引言

隨著電信網(wǎng)絡的不斷演進,全省數(shù)據(jù)網(wǎng)、交換網(wǎng)、接入網(wǎng)設備單月產(chǎn)生告警原始日志近億條。以上告警通過網(wǎng)元網(wǎng)管、專業(yè)綜合網(wǎng)管、智能網(wǎng)管系統(tǒng)[1]三層收斂,監(jiān)控人員每月需處理影響業(yè)務或網(wǎng)絡質(zhì)量的告警事件為20萬條,但一些對網(wǎng)絡可能造成隱患的告警信息被過濾掉。如何從海量告警數(shù)據(jù)中獲取與網(wǎng)絡性能指標、運維效率相關的有價值的數(shù)據(jù),對于傳統(tǒng)的關系型數(shù)據(jù)庫架構而言,似乎是一個不可能完成的任務。

在一般告警量情況下,ORACLE數(shù)據(jù)處理能力基本可以滿足分析需求,但當告警分析量上升到億級,如果采用傳統(tǒng)的數(shù)據(jù)存儲和計算方式,一方面數(shù)據(jù)量過大,表的管理、維護開銷過大,要做到每個字段建索引,存儲浪費巨大;另一方面計算分析過程耗時過長,無法滿足實時和準實時分析需求。因此必須采用新的技術架構來分析處理海量告警信息,支撐主動維護工作顯得尤為必要,為此我們引入了大數(shù)據(jù)技術。

2 分析目標

(1)數(shù)據(jù)源:電信運營商網(wǎng)絡設備告警日志數(shù)據(jù),每天50 G。

(2)數(shù)據(jù)分析目標:完成高頻翻轉(zhuǎn)類(瞬斷)告警分析;完成自定義網(wǎng)元、自定義告警等可定制告警分析;完成被過濾掉的告警分析、TOPN告警分析;核心設備和重要業(yè)務監(jiān)控。

(3)分析平臺硬件配置:云計算平臺分配8臺虛擬機,每臺虛機配置CPU16核;內(nèi)存32 G;硬盤2 T。

3 制定方案

進入大數(shù)據(jù)時代,行業(yè)內(nèi)涌現(xiàn)了大量的數(shù)據(jù)挖掘技術,數(shù)據(jù)處理和分析更高效、更有價值。Google、Facebook等公司提供可行的思路是通過類似Hadoop[2]的分布式計算、MapReduce[3]、Spark[4]算法等構造而成的新型架構,挖掘有價值信息。

Hadoop是Apache基金會用JAVA語言開發(fā)的分布式框架,通過利用計算機集群對大規(guī)模數(shù)據(jù)進行分布式計算分析。Hadoop框架最重要的兩個核心是HDFS和MapReduce,HDFS用于分布式存儲,MapReduce則實現(xiàn)分布式任務計算。

一個HDFS集群包含元數(shù)據(jù)節(jié)點(NameNode)、若干數(shù)據(jù)節(jié)點(DataNode)和客戶端(Client)。NameNode管理HDFS的文件系統(tǒng),DataNode存儲數(shù)據(jù)塊文件。HDFS將一個文件劃分成若干個數(shù)據(jù)塊,這些數(shù)據(jù)塊存儲DataNode節(jié)點上。

MapReduce是Google公司提出的針對大數(shù)據(jù)的編程模型。核心思想是將計算過程分解成Map(映射)和Reduce(歸約)兩個過程,也就是將一個大的計算任務拆分為多個小任務,MapReduce框架化繁為簡,輕松地解決了數(shù)據(jù)分布式存儲的計算問題,讓不熟悉并行編程的程序員也能輕松寫出分布式計算程序。MapReduce最大的不足則在于Map和Reduce都是以進程為單位調(diào)度、運行、結束的,磁盤I/O開銷大、效率低,無法滿足實時計算需求。

Spark是由加州伯克利大學AMP實驗室開發(fā)的類Hadoop MapReduce的分布式并行計算框架,主要特點是彈性分布式數(shù)據(jù)集RDD[5],中間輸出結果可以保存在內(nèi)存中,節(jié)省了大量的磁盤I/O操作。Spark除擁有Hadoop MapReduce所具有的優(yōu)點外,還支持多次迭代計算,特別適合流計算和圖計算。

基于成本、效率、復雜性等因素,我們選擇了HDFS+Spark實現(xiàn)對告警數(shù)據(jù)的挖掘分析。

4 分析平臺設計

4.1 Hadoop集群搭建

基于CentOS-6.5系統(tǒng)環(huán)境搭建Hadoop集群,配置如表1所示。

4.2 Spark參數(shù)設置[6]

Spark參數(shù)設置如表2所示。

4.3 數(shù)據(jù)采集層

數(shù)據(jù)采集:由于需采集的告警設備種類繁多,故采取分布式的告警采集,數(shù)據(jù)網(wǎng)設備、交換網(wǎng)設備、接入網(wǎng)設備分別通過IP綜合網(wǎng)管、天元綜合網(wǎng)管、PON綜合網(wǎng)管進行采集,采集周期5分鐘一次。采集機先將采集到的告警日志文件,通過FTP接口上傳到智能網(wǎng)管系統(tǒng)文件服務器上,再對文件進行校驗,通過Sqoop推送到Hadoop集群上。

4.4 邏輯處理層

(1)建立高頻翻轉(zhuǎn)告警監(jiān)控工作流程

先將海量告警進行初步刪選,通過數(shù)量、位置和時間三個維度的分析,得出高頻翻轉(zhuǎn)類告警清單列表,最后由專業(yè)工程師甄別確認,對某類告警進行重點關注和監(jiān)控。

(2)差異化定制方案

按組網(wǎng)架構細分,針對核心重要節(jié)點的所有告警均納入實時監(jiān)控方案;

按業(yè)務網(wǎng)絡細分,針對不同業(yè)務網(wǎng)絡設計個性化的監(jiān)控方案;

按客戶業(yè)務細分,針對客戶數(shù)字出租電路設計個性化的監(jiān)控方案。

4.5 數(shù)據(jù)分析層

Spark讀取Hive[7]表的告警數(shù)據(jù),然后在Spark引擎中進行SQL統(tǒng)計分析。Spark SQL模K在進行分析時,將外部告警數(shù)據(jù)源轉(zhuǎn)化為DataFrame[8],并像操作RDD或者將其注冊為臨時表的方式處理和分析這些數(shù)據(jù)。一旦將DataFrame注冊成臨時表,就可以使用類SQL的方式操作查詢分析告警數(shù)據(jù)。表3是利用Spark SQL對告警工單做的一個簡單分析:

5 平臺實踐應用

探索運維數(shù)據(jù)分析的新方法,利用大數(shù)據(jù)分析技術,分析可能影響業(yè)務/設備整體性能的設備告警,結合網(wǎng)絡性能數(shù)據(jù),找到網(wǎng)絡隱患,實現(xiàn)主動維護的工作目標。

5.1 高頻翻轉(zhuǎn)類告警監(jiān)控

首先制定了高頻翻轉(zhuǎn)類告警分析規(guī)則,將連續(xù)7天每天原始告警發(fā)生24次以上定義為高頻翻轉(zhuǎn)類告警,并基于大數(shù)據(jù)平臺開發(fā)了相應的分析腳本,目前已實現(xiàn)全專業(yè)所有告警類型的分析。表4是全省高頻翻轉(zhuǎn)類TOP10排名。

5.2 核心設備和重要業(yè)務監(jiān)控

目前以設備廠商或?qū)<医?jīng)驗評定告警監(jiān)控級別往往會與實際形成偏差,主要表現(xiàn)在以下幾個方面:監(jiān)控級別的差異化設定基于已知的告警類型,一旦網(wǎng)絡重大故障上報未知的告警類型就無法在第一時間有效監(jiān)控到;同一類型的故障告警出現(xiàn)在不同網(wǎng)絡層面可能影響業(yè)務的程度是完全不同的;不同保障級別的客戶對故障告警監(jiān)控的實時性要求也是不同的。

通過大數(shù)據(jù)分析平臺對差異化監(jiān)控提供了靈活的定制手段,可根據(jù)告警關鍵字,分專業(yè)、地市、網(wǎng)管、機房、告警頻次等維度自主定制需要的告警數(shù)據(jù),實現(xiàn)日、周、月、某個時間區(qū)等統(tǒng)計分析。

應用案例:省NOC通過大數(shù)據(jù)分析出一條編號為CTVPN80113的中國平安大客戶電路在一段時間內(nèi)頻繁產(chǎn)生線路劣化告警,但用戶未申告,省NOC隨即預警給政企支撐工程師,政支工程師與用戶溝通后,派維護人員至現(xiàn)場處理,發(fā)現(xiàn)線路接頭松動,緊急處理后告警消除、業(yè)務恢復。

5.3 被過濾告警分析

全省每天網(wǎng)絡告警數(shù)據(jù)300萬條~500萬條,其中99%都會根據(jù)告警過濾規(guī)則進行過濾篩選,把過濾后的告警呈現(xiàn)給網(wǎng)絡監(jiān)控人員。過濾規(guī)則的準確性直接影響告警數(shù)據(jù)的質(zhì)量。一般來說告警過濾規(guī)則可以從具有豐富運維經(jīng)驗的網(wǎng)絡維護人員獲得,但是這個過程非常繁瑣,而且通過人工途徑獲得的告警過濾規(guī)則在不同的應用環(huán)境可能存在差異,無法滿足網(wǎng)絡維護的整體需要。采用大數(shù)據(jù)技術對被過濾的告警進行分析可以很好地完善過濾規(guī)則,讓真正急迫需要處理的告警優(yōu)先呈現(xiàn)給維護人員及時處理,真正做到先于客戶發(fā)現(xiàn)故障。表5是動環(huán)專業(yè)被過濾的告警情況分布。

5.4 動環(huán)深放電分析

動環(huán)網(wǎng)管通過C接口采集蓄電池電壓數(shù)據(jù),在停電告警產(chǎn)生之后,電壓數(shù)據(jù)首次下降到45 V,表示該局站電池出現(xiàn)深放電現(xiàn)象,通過計算這一放電過程的持續(xù)時間,記為深放電時長,該時長可以初步反映電池的放電性能。一個局站每天產(chǎn)生幾十萬條電壓等動環(huán)實時數(shù)據(jù)。

在告警數(shù)據(jù)分析的基礎上,實現(xiàn)對蓄電池電壓變化數(shù)據(jù)的分析,提醒分公司關注那些深放電次數(shù)過多和放電時長過短的局站,核查蓄電池、油機配置、發(fā)電安排等,并進行整治。利用Spark SQL統(tǒng)計了一個月內(nèi)撫州、贛州、吉安三分公司幾十億條動環(huán)數(shù)據(jù),分析了其中深放電的情況如表6所示。

6 結論

本文利用HDFS+Spark技術,實驗性地解決告警數(shù)據(jù)存儲和分析等相關問題:一是通過數(shù)據(jù)分析,從海量告警數(shù)據(jù)中發(fā)現(xiàn)潛在的網(wǎng)絡隱患;二是結合資源信息和不同專業(yè)的告警,最終為用戶提供綜合預警;三是轉(zhuǎn)變網(wǎng)絡監(jiān)控思路和方式,通過數(shù)據(jù)匯聚、數(shù)據(jù)相關性分析、數(shù)據(jù)可視化展示,提高了網(wǎng)絡監(jiān)控效率;最后還擴展到對動環(huán)實時數(shù)據(jù)、信令數(shù)據(jù)進行分析。

從實際運行效果來看,HDFS和Spark完全可以取代傳統(tǒng)的數(shù)據(jù)存儲和計算方式,滿足電信運營商主動運維的需求。

參考文獻:

[1] 中國電信股份有限公司. 中國電信智能網(wǎng)管技術規(guī)范-總體分冊[Z]. 2015.

[2] Tom white. Hadoop權威指南[M]. 4版. 南京: 東南大學出版社, 2015.

[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.

[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.

[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.

[6] S鵬. Apache Spark源碼剖析[M]. 北京: 電子工業(yè)出版社, 2015.

[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.

[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.

[9] 員建廈. 基于動態(tài)存儲策略的數(shù)據(jù)管理系統(tǒng)[J]. 無線電工程, 2014,44(11): 52-54.

第6篇

關鍵詞:大數(shù)據(jù) 智能 數(shù)據(jù)分析

中圖分類號:F503 文獻標識碼:A 文章編號:1674-098X(2014)04(a)-0021-01

對于數(shù)據(jù)分析來說,其主要的目的就是通過對數(shù)據(jù)的分析去發(fā)現(xiàn)問題或預測趨勢。從數(shù)據(jù)鉆取、大規(guī)模分析的技術手段、以及算法執(zhí)行上來說,大規(guī)模分析是和小規(guī)模數(shù)據(jù)在技術上是有很大差異的。想要探究大數(shù)據(jù)下的智能數(shù)據(jù)分析技術,首先要對數(shù)據(jù)分析這一概念進行深入研究。

1 數(shù)據(jù)分析

數(shù)據(jù)分析的過程其實簡單的說就是做報告,做什么樣的報告反映什么樣的指標。最開始的時候基本上是data processing。例如零售行業(yè)來說,最主要的指標就是庫存、銷售同比增長情況、利潤同比增長情況、促銷率等等。對于不同的行業(yè)會有不同的相關的KPI需要跟蹤,所以報告的內(nèi)容也會有所側重,但是只要你一個行業(yè)做久了,熟悉了套路之后,基本上就是以同樣的方法開展。

對于數(shù)據(jù)分析,如果公司部門分的比較細的(例如可能有建模組),那么做數(shù)據(jù)分析可能永遠都是做data processing了。對于模型的分析,需要你對業(yè)務有了深入的了解就可以建立一些模型出來(例如推薦模型)等等。

數(shù)據(jù)分析主要涉及的技能:

(1)數(shù)據(jù)庫的能力。越全面越好,如果不是理工科的,最起碼要會select那些簡單的查詢語句。

(2)EXCEL、PPT的能力。報告的呈現(xiàn)一般都是Excel+PPT的形式,最好VBA,這樣就可以將很多人工的工作轉(zhuǎn)化為自動化的能力,提高工作效率,領導也對你刮目相看,自己也有更多空余的時間準備其他方面的知識。

(3)市場分析能力。學會觀察市場的走向和關注的內(nèi)容,例如零售行業(yè),現(xiàn)在大家都對CRM很熱衷,那相關的分析方法和方式是怎么樣的,你要自己去了解。從來不會有人手把手的將所有東西都告訴你,你必須自己學會去增長知識。

(4)一些會計的知識。因為通過以上分析,就是會計管理的一部分內(nèi)容,最后還是公司盈利問題。有興趣的也可以去看看戰(zhàn)略管理方面的,對于做數(shù)據(jù)分析也很有好處的說。

綜合來看,可以說數(shù)據(jù)分析=技術+市場+戰(zhàn)略。

2 如何培養(yǎng)數(shù)據(jù)分析能力

理論:

基礎的數(shù)據(jù)分析知識,至少知道如何做趨勢分析、比較分析和細分,不然拿到一份數(shù)據(jù)就無從下手;

(2)基礎的統(tǒng)計學知識,至少基礎的統(tǒng)計量要認識,知道這些統(tǒng)計量的定義和適用條件,統(tǒng)計學方法可以讓分析過程更加嚴謹,結論更有說服力;

(3)對數(shù)據(jù)的興趣,以及其它的知識多多益善,讓分析過程有趣起來。

實踐:

(1)明確分析的目的。如果分析前沒有明確分析的最終目標,很容易被數(shù)據(jù)繞進去,最終自己都不知道自己得出的結論到底是用來干嘛的;

(2)多結合業(yè)務去看數(shù)據(jù)。數(shù)據(jù)從業(yè)務運營中來,分析當然要回歸到業(yè)務中去,多熟悉了解業(yè)務可以使數(shù)據(jù)看起來更加透徹;

(3)了解數(shù)據(jù)的定義和獲取。最好從數(shù)據(jù)最初是怎么獲取的開始了解,當然指標的統(tǒng)計邏輯和規(guī)則是必須熟記于心的,不然很容易就被數(shù)據(jù)給坑了;

(4)最后就是不斷地看數(shù)據(jù)、分析數(shù)據(jù),這是個必經(jīng)的過程,往往一個工作經(jīng)驗豐富的非數(shù)據(jù)分析的運營人員要比剛進來不久的數(shù)據(jù)分析師對數(shù)據(jù)的了解要深入得多,就是這個原因。

3 大數(shù)據(jù)

大數(shù)據(jù)就是通過統(tǒng)計分析計算機收集的數(shù)據(jù),在人們可能不知道“為什么”的前提下,了解到事物的狀態(tài)、趨勢、結果等“是什么”。

對于大數(shù)據(jù),一直來說,數(shù)據(jù)規(guī)模導致的存儲、運算等技術問題從來不是最重要的瓶頸。瓶頸只在于前端數(shù)據(jù)的收集途徑,以及后端商業(yè)思想引領的模型和算法問題。早期的各類OLAP工具已經(jīng)足夠了,后來類似海杜普這樣的研究則徹底降低了分布式數(shù)據(jù)的架構成本和門檻,就徹底將大數(shù)據(jù)帶入了一個普及的領域。

從技術層面說,大數(shù)據(jù)和以前的數(shù)據(jù)時代的最大差異在于,以前是數(shù)據(jù)找應用/算法的過程(例如各大銀行的大集中項目,以及數(shù)據(jù)建倉),而大數(shù)據(jù)時代的重要技術特征之一,是應用/算法去找數(shù)據(jù)的過程,因為數(shù)據(jù)規(guī)模變成了技術上最大的挑戰(zhàn)。

大數(shù)據(jù)的特點:

(1)大數(shù)據(jù)不等同于數(shù)據(jù)大,我們處理問題是根據(jù)這個問題的所有數(shù)據(jù)而非樣本數(shù)據(jù),即樣本就是總體;不是精確性而是混雜性;不是因果關系而是相關關系。

(2)大數(shù)據(jù)應用的幾個可能:當文字變成數(shù)據(jù),此時人可以用之閱讀,機器可以用之分析;當方位變成數(shù)據(jù),商業(yè)廣告,疫情傳染監(jiān)控,雅安地震時的谷歌尋人;當溝通變成數(shù)據(jù),就成了社交圖譜。一切都可以量化,將世界看作可以理解的數(shù)據(jù)的海洋,為我們提供了一個從來未有過的審視現(xiàn)實的視角。

(3)數(shù)據(jù)創(chuàng)新的價值:數(shù)據(jù)的再利用。例如重組數(shù)據(jù):隨著大數(shù)據(jù)出現(xiàn),數(shù)據(jù)的總和比部分更有價值,重組總和和本身價值也比單個總和更大;可擴展數(shù)據(jù):在設計數(shù)據(jù)收集時就設計好了它的可擴展性,可以增加數(shù)據(jù)的潛在價值;數(shù)據(jù)的折舊值:數(shù)據(jù)會無用,需淘汰更新;數(shù)據(jù)廢氣:比如語音識別,當用戶指出語音識別程序誤解了他的意思,實際上就有效的訓練了這個系統(tǒng)。

總之,大數(shù)據(jù)是因為對它的分析使用,才產(chǎn)生和體現(xiàn)它的價值,而不是因為其用到了突出的技術和算法才體現(xiàn)了它的價值。

4 大數(shù)據(jù)下的智能數(shù)據(jù)分析

在大數(shù)據(jù)的背景下,必須考慮數(shù)據(jù)之間的關聯(lián)性。一個單獨的數(shù)據(jù)是沒有意義的,實際中,選擇處在兩個極端的數(shù)據(jù)往往更容易找出它們之間的聯(lián)系,把它們放在一個框架中看才能發(fā)現(xiàn)問題。因此,可以用以下四種方法在大數(shù)據(jù)背景下進行智能數(shù)據(jù)分析:

(1)從解決問題的角度出發(fā)收集數(shù)據(jù);

(2)把收集的數(shù)據(jù)整理好,放入一個框架內(nèi),并利用這個框架幫助決策者做出決定;

(3)評估決定與行動的效果,這將告訴我們框架是否合理;

(4)如果有新的數(shù)據(jù)出現(xiàn),我們將考察能否利用它對前面三步做出改進,以及我們今天是否還需要收集更多種類的數(shù)據(jù)。

5 結語

數(shù)據(jù)分析的最終目的是幫助業(yè)務發(fā)現(xiàn)問題并解決問題,提升公司價值,而這些是從數(shù)據(jù)發(fā)覺的,而不是盲目下結論。每家公司都有自己業(yè)務生產(chǎn)的數(shù)據(jù),通過數(shù)據(jù)分析、同比環(huán)比、漏斗分析及模型等,發(fā)現(xiàn)業(yè)務上存在的問題,幫助公司業(yè)務的優(yōu)化。

參考文獻

[1] 李貴兵,羅洪.大數(shù)據(jù)下的智能數(shù)據(jù)分析技術研究[J].科技資訊,2013(30).

第7篇

關鍵詞:聯(lián)機數(shù)據(jù)分析;處理數(shù)據(jù);分析和轉(zhuǎn)換數(shù)據(jù)

中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)03-0006-03

為了提升大學物理公共課程的教學水平,更好地了解學生的學習情況,需要引用聯(lián)機數(shù)據(jù)技術,通過科學建立模型對教學數(shù)據(jù)進行處理和分析。維度模型的建立是為了能夠全方位地剖析數(shù)據(jù)。

1 建立數(shù)據(jù)模型

建立模型是為了更加直觀地表達數(shù)據(jù)和事實。對于同一批數(shù)據(jù),人們總是會以不同的角度對其進行觀察,這就是維度。維度模型從不同的角度分析數(shù)據(jù),最終得出一張事實表。

如圖1所示,維度模型包括了教材維度表,學期維度表,教師維度表,學生維度表和教學事實表。為了更好地分析教學效果,維度模型從四個不同的角度進行分析,每一張維度表上都注明了詳細的數(shù)據(jù)內(nèi)容。最后,在總結四張維度表的基礎上,概括了最終的教學事實表。

2 OLAP技術

2.1 數(shù)據(jù)的采集

原有的Visual和SQL數(shù)據(jù)庫上儲存了學生的信息,教師的信息以及教學的數(shù)據(jù)等等。如圖二所示,教務數(shù)據(jù)庫中包含了課程信息表,學生信息表以及選課成績表。DTS工具能夠從不同的數(shù)據(jù)庫中自動抽取需要進行分析的數(shù)據(jù),并且將其全部集中在一個新的數(shù)據(jù)庫中。新的SQL數(shù)據(jù)庫既可以儲存信息,還能夠?qū)π畔⑦M行管理。聯(lián)機分析處理技術從不同的角度分析數(shù)據(jù),有助于全面了解學生的學習情況和教師的教學質(zhì)量。

2.2 數(shù)據(jù)分析的結構

從圖2中可以看出,數(shù)據(jù)分析的結構包括了四層,其中最底層的是各種信息數(shù)據(jù)庫和文本文件,在此基礎上建立數(shù)據(jù)ETL,然后建立相應的維度模型,最后利用聯(lián)機分析技術對數(shù)據(jù)進行分析。采集數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)是使用聯(lián)機分析技術的基礎,也是必不可少的一步。多維度分析是該結構中的最后一步,最終的結果將會把數(shù)據(jù)轉(zhuǎn)換成圖表的形式呈現(xiàn)出來。

2.3 轉(zhuǎn)換數(shù)據(jù)

由于不同數(shù)據(jù)的語法可能存在差異,因此,把不同的數(shù)據(jù)轉(zhuǎn)換成相同的結構顯得尤為必要。在聯(lián)機分析技術應用的過程中,轉(zhuǎn)換數(shù)據(jù)是關鍵的一步,能否成功轉(zhuǎn)換數(shù)據(jù),決定了維度模型的建立是否具有科學性與全面性。轉(zhuǎn)換數(shù)據(jù)是為了解決語法,語義結構不同引起的問題。

和數(shù)據(jù)語義不同相比,處理不同語法的數(shù)據(jù)顯得更為簡單。如果數(shù)據(jù)本身和目標數(shù)據(jù)之間存在語法結構不同的問題,那么只需要通過函數(shù)對其進行轉(zhuǎn)換即可。一般來說,數(shù)據(jù)本身的內(nèi)容并不會影響轉(zhuǎn)換過程,只要建立原數(shù)據(jù)和目標數(shù)據(jù)之間的對應關系,就能解決數(shù)據(jù)名稱存在沖突的問題。例如,學生數(shù)據(jù)庫本身的信息包括了學生的ID和班級,這就相當于最終目標數(shù)據(jù)中學生對應的名稱和班別。如果數(shù)據(jù)類型不同,可以運用相應的函數(shù)對其進行轉(zhuǎn)換,例如trim()函數(shù)就能完成數(shù)據(jù)的轉(zhuǎn)換。下面是利用函數(shù)對原數(shù)據(jù)中學生的ID,專業(yè)以及院名進行轉(zhuǎn)換的過程,其轉(zhuǎn)換代碼如下:

Function Main()

DTSDestination(“ID”)=trim(DTSSourse(“名稱”))

DTSDestination(“專業(yè)”)=cstr(DTSSourse(“專業(yè)”))

DTSDestination(“院名”)=trim(DTSSourse(“學院”))

Main=DTSTransformStat_OK

End Function

轉(zhuǎn)換不同語義結構的數(shù)據(jù)是一個復雜的過程,它需要重視數(shù)據(jù)本身的信息和內(nèi)容。因此,僅僅通過一步完成數(shù)據(jù)轉(zhuǎn)換的過程是幾乎不可能的,它需要將原數(shù)據(jù)進行一次次轉(zhuǎn)換,才能得到最終的目標數(shù)據(jù)。例如每一個教師都有以及開展項目,在原數(shù)據(jù)中只能看到項目的名稱和論文的名稱,如果需要將其轉(zhuǎn)換成教師的論文數(shù)量和項目數(shù)量,則需要經(jīng)過兩步的數(shù)據(jù)轉(zhuǎn)換。

2.4 數(shù)據(jù)結果分析

原數(shù)據(jù)從SQL中提取出來,然后通過函數(shù)對其進行轉(zhuǎn)換,最后利用聯(lián)機分析技術進行數(shù)據(jù)管理和分析,從不同的角度研究數(shù)據(jù),從而全面分析學生的學習情況和教師的教學情況。數(shù)據(jù)分析的方法有很多種,其目的都是為了全方位地剖析數(shù)據(jù)。

2.4.1 高校教師教學質(zhì)量的對比分析

在教師維度表中,我們已經(jīng)按照教師的從業(yè)年齡,學歷以及職稱對其進行劃分,不同職稱的教師,其教學質(zhì)量有著明顯的區(qū)別。教師的學歷不同,教齡有所差異,這都和教學效果息息相關。

2.4.2 不同時期對教學質(zhì)量的影響分析

聯(lián)機分析處理技術能夠從多角度分析數(shù)據(jù),教學質(zhì)量不可能是一成不變的,它與多個因素密不可分,時間也是其中一個因素。在不同的時期,由于政策的變動和外界因素的影響,教師的教學質(zhì)量也會隨之而受到不同程度的影響。

2.4.3 教學質(zhì)量和其他因素息息相關

除了時間和教師的水平會對教學質(zhì)量造成一定的影響,還有其他因素同樣會影響教學效果,例如:學生的學習能力,學校選用的課本等。綜合考慮各個因素對教學效果的影響,有利于教育部門更好地作出相應的政策調(diào)整。

3 計算機分析處理技術中的數(shù)據(jù)處理方法分析

無可置疑,計算機技術的出現(xiàn)顛覆了人們傳統(tǒng)的思想和工作模式。如今,計算機技術已經(jīng)全面滲透到我們生活中和工作中的各個方面。不管是在工業(yè)生產(chǎn)還是科研數(shù)據(jù)處理中,計算機技術都發(fā)揮著不可替代的作用。如今我們需要處理的數(shù)據(jù)正與日俱增,這就意味著傳統(tǒng)的數(shù)據(jù)處理方法已經(jīng)無法滿足人們的需求了。儀表生產(chǎn)和系統(tǒng)控制要求數(shù)據(jù)具有高度精確性,這些數(shù)字在顯示之前,都必須經(jīng)過一系列的轉(zhuǎn)換,計算以及處理。首先,數(shù)據(jù)會以一種形式經(jīng)過轉(zhuǎn)換器,然后變成另一種新的形式,只有這樣計算機才能對數(shù)據(jù)進行處理和分析。處理數(shù)據(jù)是一個復雜多變的過程,它的方法并不是單一的,根據(jù)數(shù)據(jù)處理的目標不同,需要選擇不同的數(shù)據(jù)處理方法。例如,有的數(shù)據(jù)需要進行標度轉(zhuǎn)換,但有些數(shù)據(jù)只需要進行簡單計算即可,計算機技術的不斷進步是為了更好地應對人們對數(shù)據(jù)處理新的需要。

計算機數(shù)據(jù)處理技術的應用離不開系統(tǒng),它比傳統(tǒng)的系統(tǒng)更加具有優(yōu)越性:

1)自動更正功能,計算機系統(tǒng)在處理數(shù)據(jù)時,對于計算結果出現(xiàn)的誤差能夠及時修正,確保結果的準確度。

2)傳統(tǒng)模擬系統(tǒng)只能進行數(shù)據(jù)的簡單計算,而計算機系統(tǒng)則能夠處理復雜多變的數(shù)據(jù),其適用范圍和領域更加廣。

3)計算機系統(tǒng)不需要過多的硬件,只需要編寫相應的程序就能夠完成數(shù)據(jù)的處理,在節(jié)省空間的同時也降低了數(shù)據(jù)處理的成本。

4)計算機系統(tǒng)特有的監(jiān)控系統(tǒng),能夠隨時監(jiān)測系統(tǒng)的安全性,從而確保數(shù)據(jù)的準確度。

對于不同的數(shù)據(jù),往往需要采用不同的處理方式,處理數(shù)據(jù)的簡單方法包括查表,計算等。除此之外,標度轉(zhuǎn)換,數(shù)字濾波同樣是應用十分廣的處理技術。

3.1 數(shù)據(jù)計算

在各種數(shù)據(jù)處理方法中,計算法是最為簡單的一種,利用現(xiàn)有的數(shù)據(jù)設置程序,然后直接通過計算得出最終的目標數(shù)據(jù)。一般來說,利用這種方法處理數(shù)據(jù)需要遵循一個過程:首先,求表達式,這是計算法最基本的一步;其次,設計電路,在此之前必須將轉(zhuǎn)換器的位數(shù)確定下來;最后,利用第一步已經(jīng)求出的表達式運算數(shù)據(jù)。

3.2 數(shù)據(jù)查表

3.2.1 按順序查表格

當需要搜索表格中的數(shù)據(jù)時,往往需要按照一定的順序和步驟。首先,明確表格的地址和長度,然后再設置關鍵詞,最后按照順序進行搜索。

3.2.2 通過計算查表格

這是一種較為簡單的方法,適用范圍并不廣。只有當數(shù)據(jù)之間表現(xiàn)出明顯的規(guī)律或者數(shù)據(jù)之間存在某種關系時,才能夠使用這種方法查表格。

3.2.3 利用程序查表格

相比于上述的兩種方法,利用程序查表格是一種相對復雜的方法,但是這種方法的優(yōu)點在于查找效率高,并且準確度高。

3.3 數(shù)據(jù)濾波處理

采集數(shù)據(jù)并不難,但是確保每一個數(shù)據(jù)的真實性卻十分困難,尤其是在工業(yè)系統(tǒng)中,數(shù)據(jù)的測量難以確保絕對準確,因為在測量的過程中,外界環(huán)境對數(shù)據(jù)的影響往往是難以預估的。為了提高數(shù)據(jù)處理的精確度和準確率,需要借助檢測系統(tǒng)對采集的數(shù)據(jù)進行深加工。盡可能地讓處理的數(shù)據(jù)接近真實的數(shù)據(jù),并且在數(shù)據(jù)采集的過程中最大限度地減少外界因素對其的影響,從而提高計算結果的準確度。

濾波處理技術的應用首先要確定數(shù)據(jù)的偏差,一般來說,每兩個測量數(shù)據(jù)之間都會存在一定的誤差,首先需要計算數(shù)據(jù)與數(shù)據(jù)之間可能出現(xiàn)的最大誤差。一旦超出這一數(shù)值,可以認定數(shù)據(jù)無效,只有符合偏差范圍內(nèi)的數(shù)據(jù),才能進行下一步的處理。

為了減少由于外界影響導致數(shù)據(jù)失真的情況,利用程序過濾數(shù)據(jù)是很有必要的。濾波技術有幾種,根據(jù)不同的需要可以選擇相應的數(shù)據(jù)處理技術,每一種數(shù)據(jù)濾波技術都有其適用范圍和優(yōu)點。數(shù)據(jù)濾波技術包括算術平均值濾波,加權平均值濾波,中值濾波,限幅濾波,限速濾波以及其他類型的濾波技術。

3.4 轉(zhuǎn)換量程和標度

在測量數(shù)據(jù)的過程中,每一種參數(shù)都有相應的單位,為了方便數(shù)據(jù)處理,需要使用轉(zhuǎn)換器把數(shù)據(jù)轉(zhuǎn)換為統(tǒng)一的信號。標度轉(zhuǎn)換是必不可少的,為了加強系統(tǒng)的管理和監(jiān)測,需要不同單位的數(shù)字量。轉(zhuǎn)換方法包括非線性參數(shù)標度變換,參數(shù)標度變換,量程轉(zhuǎn)換,這幾種轉(zhuǎn)換方法在數(shù)據(jù)處理的過程中較為常見。當計算過程遇到困難,可以結合其他的標度轉(zhuǎn)換方法進行數(shù)據(jù)處理。

3.5 非線性補償計算法

3.5.1 線性插值計算方法

信號的輸入和輸出往往會存在一定的關系。曲線的斜率和誤差之間存在正相關關系,斜率越大,誤差越大。由此可見,這一計算方法僅僅適用于處理變化不大的數(shù)據(jù)。當曲線繪制選用的數(shù)據(jù)越多,曲線的準確程度越高,偏差越小。

3.5.2 拋物線計算方法

拋物線計算方法是一種常用的數(shù)據(jù)處理方法,只需要采集三組數(shù)據(jù),就可以連成一條拋物線。相比于直線,拋物線更加接近真實的曲線,從而提高數(shù)據(jù)的準確度。拋物線計算法的過程,只需要求出最后兩步計算中的M值,就能夠直接輸入數(shù)據(jù)得出結果。

3.6 數(shù)據(jù)長度的處理

當輸入數(shù)據(jù)和輸出數(shù)據(jù)的長度不一,需要對其進行轉(zhuǎn)換,使數(shù)據(jù)長度達到一致。由于采集數(shù)據(jù)所使用的轉(zhuǎn)換器和轉(zhuǎn)換數(shù)據(jù)所選擇的轉(zhuǎn)換器不同,因此,當輸入位數(shù)大于輸出位數(shù),可以通過移位的方法使位數(shù)變成相同。相反,當輸入位數(shù)少于輸出位數(shù)時,可以使用填充的方法將其轉(zhuǎn)換成相同的位數(shù)。

4 結語

本文對聯(lián)機分析技術進行了詳細的論述,該技術的應用對于評價教學效果有著重要的意義。在物理公共課程中,教學數(shù)據(jù)數(shù)量巨大,如果利用傳統(tǒng)的方法對其進行分析,將會耗費大量的人力物力,而采用OLAP技術則能更加快速準確地分析處理數(shù)據(jù)。數(shù)據(jù)分析是評估教學質(zhì)量必經(jīng)的過程,而使用QLAP技術是為了能夠多層次,全方位地分析各個因素對教學質(zhì)量的影響,從而更好地改進高校教育中存在的不足。除了分析物理課程數(shù)據(jù),聯(lián)機分析技術同樣適用于其他課程的數(shù)據(jù)處理和分析。

參考文獻:

[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:電子工業(yè)出版社,2003.