首頁(yè) > 精品范文 > 數(shù)據(jù)分析分析技術(shù)
時(shí)間:2023-05-31 15:11:02
序論:寫(xiě)作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇數(shù)據(jù)分析分析技術(shù)范文,愿它們成為您寫(xiě)作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞 數(shù)據(jù)挖掘技術(shù) 警務(wù)系統(tǒng) 數(shù)據(jù)分析 應(yīng)用
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A
1數(shù)據(jù)挖掘技術(shù)在警務(wù)數(shù)據(jù)分析系統(tǒng)中的重要性
警務(wù)系統(tǒng)由于工作的特點(diǎn),要不斷地接受外來(lái)數(shù)據(jù)和有序存儲(chǔ)舊數(shù)據(jù),這就對(duì)警務(wù)系統(tǒng)的數(shù)據(jù)處理系統(tǒng)有越來(lái)越高的要求,傳統(tǒng)的警務(wù)數(shù)據(jù)處理系統(tǒng)在信息量巨大的現(xiàn)今社會(huì)已經(jīng)不能再有效的完善數(shù)據(jù)庫(kù)的運(yùn)行,這就需要新型的數(shù)據(jù)處理系統(tǒng)接替工作。新型的數(shù)據(jù)處理系統(tǒng)在案件的信息提取、視頻分析等方面都應(yīng)該有卓越的性能,將對(duì)案情有幫助的信息從大數(shù)據(jù)庫(kù)中有效的提取出來(lái)。數(shù)據(jù)挖掘技術(shù)是一項(xiàng)在能夠提高警務(wù)系統(tǒng)在數(shù)據(jù)的提取和挖掘效率的一項(xiàng)技術(shù),能在短時(shí)間內(nèi)將案件中的數(shù)據(jù)作為數(shù)據(jù)源,將其進(jìn)行分析和建模,從而從這些數(shù)據(jù)中獲得有力的線索。
2目前警務(wù)系統(tǒng)特點(diǎn)
現(xiàn)今的警務(wù)系統(tǒng)是跟隨時(shí)代不斷發(fā)展的一個(gè)工作效率高、工作素質(zhì)強(qiáng)的組織系統(tǒng),有案件處理速度快、案件分析效率高的特點(diǎn)。這些特點(diǎn),都需要警務(wù)系統(tǒng)中數(shù)據(jù)處理系統(tǒng)的有效應(yīng)用,通過(guò)對(duì)數(shù)據(jù)的處理分析、檢查對(duì)比得出較有價(jià)值的案件線索,從而提高效率。警務(wù)系統(tǒng)的正常運(yùn)行離不開(kāi)數(shù)據(jù)處理系統(tǒng),而數(shù)據(jù)挖掘技術(shù)更是數(shù)據(jù)處理系統(tǒng)的重要組成部分,它確保了整個(gè)系統(tǒng)的運(yùn)行速度,對(duì)案件的偵查有促進(jìn)作用。
3構(gòu)建警務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)器
基于警務(wù)系統(tǒng)的數(shù)據(jù)特點(diǎn),警務(wù)系統(tǒng)應(yīng)該建立一個(gè)高速運(yùn)行的警務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)器。“數(shù)據(jù)存儲(chǔ)器”在結(jié)構(gòu)上分為三個(gè)部分,分別是關(guān)系系統(tǒng)、OLAP服務(wù)器以及客戶處理系統(tǒng)。這三個(gè)部分的作用效果如下:
3.1關(guān)系系統(tǒng)
關(guān)系系統(tǒng)是這三個(gè)組成部分的基礎(chǔ)部分,這個(gè)系統(tǒng)負(fù)責(zé)對(duì)系統(tǒng)中的數(shù)據(jù)進(jìn)行整理和提取、刷新,將數(shù)據(jù)在整個(gè)系統(tǒng)中的存儲(chǔ)位置有序的排列好,防止數(shù)據(jù)丟失和數(shù)據(jù)殘缺的現(xiàn)象發(fā)生。關(guān)系系統(tǒng)在運(yùn)行的過(guò)程中通過(guò)警務(wù)系統(tǒng)不斷的收集新的信息,將其整理保存,始終將數(shù)據(jù)系統(tǒng)中的有效信息得到較完好的保護(hù)。
3.2 OLAP服務(wù)器
OLAP是聯(lián)機(jī)處理的縮寫(xiě),是將多角度的信息共享并由一個(gè)關(guān)鍵的出發(fā)點(diǎn)而聯(lián)機(jī)進(jìn)行數(shù)據(jù)處理分析的一個(gè)軟件技術(shù),在警務(wù)系統(tǒng)中可將需要處理的信息進(jìn)行聯(lián)機(jī)處理分析,將信息較快的處理出來(lái),得到有效的結(jié)論。
3.3客戶處理系統(tǒng)
客戶處理系統(tǒng)是將數(shù)據(jù)進(jìn)行分析處理以及檢索和報(bào)告的一個(gè)系統(tǒng),通過(guò)對(duì)數(shù)據(jù)之間的聯(lián)系將數(shù)據(jù)的信息整理和挖掘出來(lái),形成有用的線索,供警務(wù)系統(tǒng)人員進(jìn)行案件的偵破和處理,是數(shù)據(jù)存儲(chǔ)器的重要部分,特別是數(shù)據(jù)挖掘技術(shù)的應(yīng)用時(shí)整個(gè)系統(tǒng)的運(yùn)作重心。
4數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)是將數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行采集、集成以及分析的一項(xiàng)技術(shù),其應(yīng)用到警務(wù)系統(tǒng)中可以對(duì)案件相關(guān)信息進(jìn)行檢索和分析,應(yīng)用了多維數(shù)據(jù)分析處理及關(guān)聯(lián)規(guī)則的應(yīng)用、聚類(lèi)分析方法的實(shí)際處理等數(shù)據(jù)挖掘分析處理模式將警務(wù)系統(tǒng)中的數(shù)據(jù)有效的聯(lián)系起來(lái),形成一個(gè)較為完整的數(shù)據(jù)挖掘模式。
在挖掘出境數(shù)據(jù)時(shí),數(shù)據(jù)挖掘技術(shù)的決策樹(shù)技術(shù)有效應(yīng)用,與縣贏得算法技術(shù)相互應(yīng),將數(shù)據(jù)較為完整的從警務(wù)系統(tǒng)中巨大的信息庫(kù)中挖掘出來(lái),實(shí)現(xiàn)了數(shù)據(jù)挖掘的分級(jí)處理模式的有效應(yīng)用。
5數(shù)據(jù)挖掘技術(shù)在現(xiàn)代警務(wù)系統(tǒng)中的應(yīng)用
在警務(wù)系統(tǒng)中,數(shù)據(jù)挖掘系統(tǒng)在案件的相關(guān)數(shù)據(jù)中整理生成了一個(gè)多維數(shù)據(jù)模型,使信息可視化、將案件信息的關(guān)系更加清楚的展現(xiàn)在警務(wù)系統(tǒng)的工作人員面前,通過(guò)多角度、多方面的分析和挖掘,將系統(tǒng)中的有用信息全部呈現(xiàn)在報(bào)告中,實(shí)現(xiàn)了信息的有效用。
6結(jié)語(yǔ)
警務(wù)系統(tǒng)中的信息有多樣化、復(fù)雜化、信息量巨大的特點(diǎn),使用傳統(tǒng)的數(shù)據(jù)庫(kù)是不能按照現(xiàn)代的社會(huì)發(fā)展速度生存的,對(duì)數(shù)據(jù)進(jìn)行高效的分析處理和采集,是現(xiàn)代警務(wù)數(shù)據(jù)處理系統(tǒng)應(yīng)該具有的一項(xiàng)特點(diǎn)。在數(shù)據(jù)處理速度快的前提下,數(shù)據(jù)處理系統(tǒng)的管理能力和聯(lián)系能力也應(yīng)該是突出的,本文中提到的數(shù)據(jù)挖掘技術(shù)就是解決數(shù)據(jù)處理問(wèn)題的有效解決辦法,其運(yùn)行通過(guò)對(duì)數(shù)據(jù)的建模、分析、采集等手段強(qiáng)化了數(shù)據(jù)處理系統(tǒng)的能力,為警務(wù)系統(tǒng)中案件處理效率的提升做出了一定的貢獻(xiàn)。目前社會(huì)的高速發(fā)展離不開(kāi)大數(shù)據(jù)的支持,大數(shù)據(jù)時(shí)代對(duì)數(shù)據(jù)的處理系統(tǒng)要求越來(lái)越高,數(shù)據(jù)挖掘技術(shù)近些年在警務(wù)信息系統(tǒng)中的引用為警務(wù)系統(tǒng)的發(fā)展提供了技術(shù)上的有效支持,警務(wù)系統(tǒng)未來(lái)的發(fā)展肯定也離不開(kāi)數(shù)據(jù)的有效處理工作,數(shù)據(jù)挖掘系統(tǒng)在未來(lái)的警務(wù)數(shù)據(jù)分析系統(tǒng)中也會(huì)有不斷地改善和提高。
參考文獻(xiàn)
[1] 劉敏,朱鵬,方有軒.面向市場(chǎng)分析人員的經(jīng)分模型庫(kù)的設(shè)計(jì)與實(shí)現(xiàn)[J].電腦與電信,2016(09) .
1計(jì)算機(jī)大數(shù)據(jù)分析中云計(jì)算技術(shù)作用分析
云計(jì)算技術(shù)可以給提供計(jì)算機(jī)數(shù)據(jù)傳遞與共享的條件,融合軟硬件數(shù)據(jù)保存,促進(jìn)計(jì)算機(jī)處理工作更好的開(kāi)展。云計(jì)算技術(shù)可以給用戶提供良好的網(wǎng)絡(luò)環(huán)境與保存空間,處理數(shù)據(jù)傳遞環(huán)節(jié)的各項(xiàng)問(wèn)題。與傳統(tǒng)大數(shù)據(jù)分析技術(shù)相比,云計(jì)算計(jì)算可以提高大數(shù)據(jù)分析質(zhì)量。人們借助云計(jì)算技術(shù)獲得云終端的數(shù)據(jù),切實(shí)滿足人們對(duì)于數(shù)據(jù)的需求。現(xiàn)階段計(jì)算機(jī)市場(chǎng)形成完善的結(jié)構(gòu)體系,圍繞云計(jì)算技術(shù)推動(dòng)計(jì)算機(jī)大數(shù)據(jù)分析工作的開(kāi)展,奠定后期云計(jì)算技術(shù)發(fā)展的基礎(chǔ)。目前,人們生活中全面運(yùn)用云計(jì)算技術(shù),基于云計(jì)算技術(shù)研發(fā)的服務(wù)器及操作系統(tǒng)方便人們處理各類(lèi)信息技術(shù)。同時(shí),云計(jì)算技術(shù)數(shù)據(jù)保存有著較強(qiáng)的安全性,極小可能出現(xiàn)數(shù)據(jù)丟失情況,滿足人們的實(shí)際需求,直接體現(xiàn)出云計(jì)算技術(shù)的優(yōu)勢(shì)。優(yōu)化云計(jì)算環(huán)境下計(jì)算機(jī)的數(shù)據(jù)處理中心,就可以不斷提升計(jì)算機(jī)的云計(jì)算能力,讓云計(jì)算不僅為網(wǎng)絡(luò)信息所用,還在計(jì)算機(jī)網(wǎng)絡(luò)安全中發(fā)揮極為重要的作用。目前,計(jì)算機(jī)的使用人群更為注重的是在高速發(fā)達(dá)的信息社會(huì),自己的信息,也就是使用計(jì)算機(jī)網(wǎng)絡(luò)的安全性能是否能得到保障,這時(shí)候考驗(yàn)的就是云計(jì)系統(tǒng)的完善性。目前存在的最主要計(jì)算機(jī)安全問(wèn)題就是黑客問(wèn)題和系統(tǒng)漏洞問(wèn)題。系統(tǒng)漏洞這一人為因素可以通過(guò)不斷檢索進(jìn)行漏洞的發(fā)現(xiàn)和修補(bǔ),面對(duì)黑客的攻擊,能夠做的就是防患于未然,不斷地升級(jí)和優(yōu)化系統(tǒng),最終達(dá)到完善的數(shù)據(jù)處理效果。
2云計(jì)算技術(shù)下計(jì)算機(jī)大數(shù)據(jù)分析面臨的問(wèn)題
2.1網(wǎng)絡(luò)技術(shù)安全
由于相關(guān)技術(shù)的不斷發(fā)展,云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全技術(shù)正在朝著穩(wěn)定和成熟的方向發(fā)展,但在具體的應(yīng)用過(guò)程中依然表現(xiàn)出一定的網(wǎng)絡(luò)安全問(wèn)題,因此用戶在使用過(guò)程中應(yīng)該做好相關(guān)的應(yīng)對(duì)工作。網(wǎng)絡(luò)安全問(wèn)題具體表現(xiàn)在用戶在使用信息傳輸?shù)倪^(guò)程中,一旦出現(xiàn)服務(wù)性中斷問(wèn)題,難以保證數(shù)據(jù)的安全性,啟動(dòng)被動(dòng)保護(hù)模式的情況使信息的安全性更加難以保障,這也成為云計(jì)算模式下的網(wǎng)絡(luò)技術(shù)安全中的重點(diǎn)問(wèn)題,一旦得不到及時(shí)有效的解決,用戶在使用過(guò)程中就會(huì)受到不同程度的威脅。
2.2網(wǎng)絡(luò)環(huán)境安全
網(wǎng)絡(luò)環(huán)境安全是保證網(wǎng)絡(luò)正常使用,信息傳輸質(zhì)量有保證的重要前提,一旦網(wǎng)絡(luò)環(huán)境存在不安全因素,將會(huì)引發(fā)病毒的入侵和黑客的攻擊。因此網(wǎng)絡(luò)環(huán)境安全也是云計(jì)算技術(shù)價(jià)值得以發(fā)揮的重要前提。計(jì)算機(jī)在使用過(guò)程中如果長(zhǎng)期受到病毒的困擾和黑客的威脅,將會(huì)降低人們對(duì)計(jì)算機(jī)的信賴性,甚至在工作和生活中將會(huì)在網(wǎng)絡(luò)環(huán)境安全方面投入更多的成本。
3計(jì)算機(jī)大數(shù)據(jù)分析中云計(jì)算技術(shù)的具體應(yīng)用
3.1數(shù)據(jù)傳輸安全分析
在云計(jì)算的作用下,云安全含義逐漸形成,具體來(lái)說(shuō),云安全主要指在用戶借助云計(jì)算技術(shù)來(lái)實(shí)現(xiàn)計(jì)算機(jī)大數(shù)據(jù)分析時(shí),讓數(shù)據(jù)安全性得到了保證。用戶端數(shù)據(jù)和數(shù)據(jù)安全往往呈現(xiàn)出正比關(guān)系,隨著應(yīng)用群體數(shù)量的增多,涉及的計(jì)算機(jī)數(shù)據(jù)范疇將不斷擴(kuò)充,假設(shè)計(jì)算機(jī)遭受病毒的攻擊,可以在云計(jì)算技術(shù)的作用下實(shí)現(xiàn)病毒的攔截,以此讓計(jì)算機(jī)數(shù)據(jù)安全性得到保證。從云計(jì)算技術(shù)自身角度來(lái)說(shuō),其提供的各個(gè)服務(wù)均是由IaaS基礎(chǔ)設(shè)施級(jí)服務(wù)以及PaaS平臺(tái)級(jí)服務(wù)兩項(xiàng)內(nèi)容構(gòu)建而成。首先,IaaS基礎(chǔ)設(shè)施級(jí)服務(wù)其作用在于,可以給用戶提供對(duì)應(yīng)的服務(wù),也就是對(duì)各個(gè)計(jì)算機(jī)基礎(chǔ)設(shè)備進(jìn)行操作和應(yīng)用,其中包含了CPU處理、數(shù)據(jù)保存、數(shù)據(jù)傳遞等。其次,PaaS平臺(tái)級(jí)服務(wù)則是指,把云計(jì)算中各個(gè)服務(wù)器及開(kāi)發(fā)環(huán)境當(dāng)作服務(wù),通過(guò)PaaS平臺(tái)用戶能夠結(jié)合自身需求實(shí)現(xiàn)對(duì)應(yīng)操作流程的部署和應(yīng)用。
3.2監(jiān)督數(shù)據(jù)資源共享
網(wǎng)絡(luò)資源在傳輸過(guò)程中遭遇到的安全威脅是用戶時(shí)時(shí)刻刻關(guān)注的問(wèn)題,因此在具體的工作和管理中,需要提高云計(jì)算網(wǎng)絡(luò)安全技術(shù)的應(yīng)用程度,通過(guò)不斷創(chuàng)新安全模式,完善相應(yīng)的防護(hù)體系,從而有效消除安全性問(wèn)題,提升數(shù)據(jù)傳輸?shù)陌踩院头€(wěn)定性。具體在應(yīng)用過(guò)程中,可以借助云計(jì)算技術(shù)的優(yōu)勢(shì),對(duì)數(shù)據(jù)傳輸?shù)恼麄€(gè)路徑進(jìn)行監(jiān)控,保證傳輸通道環(huán)境的安全性,一旦出現(xiàn)問(wèn)題及時(shí)進(jìn)行預(yù)警,有效預(yù)防黑客的攻擊,降低網(wǎng)絡(luò)安全事故發(fā)生的概率。對(duì)此,有關(guān)部門(mén)應(yīng)該提高重視程度,同時(shí)完善相應(yīng)的監(jiān)督管理制度,采用科學(xué)的管理方式,實(shí)現(xiàn)預(yù)期的監(jiān)測(cè)目標(biāo)。
3.3提高數(shù)據(jù)使用安全
計(jì)算機(jī)用戶本身的安全意識(shí)也是當(dāng)前需要關(guān)注的重要方面,為了進(jìn)一步提升用戶數(shù)據(jù)信息和計(jì)算機(jī)系統(tǒng)的安全系數(shù),需要重視身份認(rèn)證工作的提升,具體可以使用實(shí)名制的方式進(jìn)行認(rèn)證處理,從而不斷提升整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)的安全性。對(duì)于網(wǎng)絡(luò)應(yīng)用過(guò)程中涉及到的安全問(wèn)題,可以通過(guò)實(shí)名追蹤的方式進(jìn)行可疑目標(biāo)鎖定,從而有效控制惡意攻擊情況的發(fā)生。但在應(yīng)用過(guò)程中也需要重視假人名情況的出現(xiàn),提高網(wǎng)絡(luò)數(shù)據(jù)信息竊取的預(yù)防水平。計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境算是一種相對(duì)開(kāi)放的環(huán)境,在使用過(guò)程中會(huì)面向大量的用戶,通過(guò)重視用戶的身份認(rèn)證,可以有效避免用戶對(duì)數(shù)據(jù)的非法訪問(wèn)。同時(shí)在使用者進(jìn)行計(jì)算機(jī)登錄和使用的時(shí)候,需要對(duì)用戶名和密碼進(jìn)行核實(shí)。按照權(quán)限的不同,確保數(shù)據(jù)庫(kù)信息的安全有效性。通過(guò)對(duì)數(shù)據(jù)庫(kù)信息加密處理,可以確保數(shù)據(jù)庫(kù)信息的安全性。這種加密處理可以在原有數(shù)據(jù)信息的基礎(chǔ)上進(jìn)行算法的處理改進(jìn),使用者可以通過(guò)自身的權(quán)限獲取想要了解的信息,如果沒(méi)有解密方式,不法分子將會(huì)難以獲取數(shù)據(jù)的原始信息。
3.4網(wǎng)絡(luò)安全等級(jí)防護(hù)
在云計(jì)算環(huán)境下的安全管理中心具備系統(tǒng)管理、安全管理和安全審計(jì)等功能,能夠滿足不同云計(jì)算環(huán)境下不同安全等級(jí)的保護(hù)要求,并且通過(guò)服務(wù)層的安全保護(hù)框架,實(shí)現(xiàn)對(duì)不同等級(jí)云服務(wù)客戶端的安全保護(hù),為使用者提供安全可靠的資源訪問(wèn)服務(wù)。在訪問(wèn)云服務(wù)商時(shí),用戶可通過(guò)通信網(wǎng)絡(luò)、API接口和Web服務(wù)方式訪問(wèn)云服務(wù)器,但是用戶終端系統(tǒng)的安全防護(hù)不在網(wǎng)絡(luò)安全等級(jí)保護(hù)框架體系內(nèi)。在保護(hù)框架體系內(nèi),資源層和服務(wù)層安全是云計(jì)算環(huán)境安全保護(hù)的重點(diǎn),資源層包括物理資源安全和虛擬資源安全,應(yīng)按照安全設(shè)計(jì)要求構(gòu)建資源層安全保護(hù)框架。云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全等級(jí)保護(hù)要針對(duì)不同等級(jí)云計(jì)算平臺(tái)確定不同的安全目標(biāo),一般情況下安全保護(hù)等級(jí)最低為二級(jí),并根據(jù)安全目標(biāo)和等級(jí)要求實(shí)施安全設(shè)計(jì)步驟,具體包括:第一步,根據(jù)云平臺(tái)的租戶數(shù)量和業(yè)務(wù)系統(tǒng)情況確定云計(jì)算安全保護(hù)標(biāo)準(zhǔn),制定云計(jì)算平臺(tái)的安全保護(hù)策略,以避免在云計(jì)算平臺(tái)上發(fā)生安全事件;第二步,細(xì)化安全技術(shù)要求,針對(duì)安全計(jì)算環(huán)境、安全區(qū)域邊界、安全通信網(wǎng)絡(luò)以及安全管理中心制定出相應(yīng)的安全保護(hù)策略;第三步,根據(jù)云計(jì)算功能框架中的各層功能和保護(hù)要求,制定安全技術(shù)機(jī)制,使其滿足云計(jì)算功能框架的安全保護(hù)要求。在完成云計(jì)算環(huán)境下的網(wǎng)絡(luò)安全等級(jí)保護(hù)設(shè)計(jì)之后,還應(yīng)增加虛擬化安全、鏡像安全、接口安全等安全控制點(diǎn),并采用訪問(wèn)控制技術(shù)、身份識(shí)別技術(shù)等安全防護(hù)技術(shù),實(shí)現(xiàn)與云計(jì)算平臺(tái)上各功能層次的對(duì)接,提出各層的安全保護(hù)措施。
3.5重視相應(yīng)程序開(kāi)發(fā)
網(wǎng)絡(luò)安全應(yīng)用程序需要隨著技術(shù)的進(jìn)步和人們生活和工作的需要進(jìn)行逐步提升,從而及時(shí)對(duì)病毒程序進(jìn)行開(kāi)發(fā)和處理,確保計(jì)算機(jī)系統(tǒng)可以敏銳捕捉到病毒的活動(dòng)跡象,提升自身的防御能力。通常情況下,對(duì)于計(jì)算機(jī)的服務(wù),內(nèi)網(wǎng)隱蔽處理,可以提升網(wǎng)站平臺(tái)的訪問(wèn)速度,可以避免不安全網(wǎng)址帶來(lái)的不良效應(yīng),從而為計(jì)算機(jī)的安全防御提供一定的屏障。在計(jì)算機(jī)數(shù)據(jù)的使用中,由于安全性威脅導(dǎo)致的數(shù)據(jù)丟失問(wèn)題,可以通過(guò)備份和恢復(fù)改善。這種恢復(fù)性功能也可以保證數(shù)據(jù)的一致性和完整性。通常由邏輯備份、動(dòng)態(tài)備份以及靜態(tài)備份等幾種情況。計(jì)算機(jī)黑客數(shù)量增多,凈化網(wǎng)絡(luò)環(huán)境顯然存在較大難度,但通過(guò)必要的防范措施依然可以在數(shù)據(jù)庫(kù)信息的保護(hù)中起到關(guān)鍵作用。而使用防火墻保護(hù)工具就能很好的為計(jì)算機(jī)網(wǎng)絡(luò)提供一種安全保障。通過(guò)防火墻,可以在一定程度上防止黑客的侵害。
關(guān)鍵詞:油田生產(chǎn);大數(shù)據(jù);數(shù)據(jù)挖掘
前言
新疆油田重油開(kāi)發(fā)公司是以稠油開(kāi)采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫(kù)已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開(kāi)發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營(yíng)業(yè)務(wù)板塊的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)包括的內(nèi)容主要有單井、區(qū)塊的日月報(bào)數(shù)據(jù)、試井與生產(chǎn)測(cè)井?dāng)?shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫(kù)的數(shù)據(jù)資源種類(lèi)齊全,質(zhì)量高。2010年新疆油田重油開(kāi)發(fā)公司正式開(kāi)始進(jìn)行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問(wèn)題,使用大數(shù)據(jù)技術(shù)對(duì)油田進(jìn)行全面感知、分析預(yù)測(cè)、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進(jìn)行。
1 油田大數(shù)據(jù)的概念及處理流程
大數(shù)據(jù)有四個(gè)特點(diǎn)即量大(Volume)、快速生產(chǎn)(Velocity)、類(lèi)型豐富(Variety)、真實(shí)性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進(jìn)行管理、處理實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識(shí),再將知識(shí)轉(zhuǎn)化為智慧。這個(gè)過(guò)程應(yīng)用于油田可以理解為是對(duì)油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個(gè)處理步驟包括:對(duì)數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價(jià)值規(guī)律、建立預(yù)測(cè)模型、對(duì)結(jié)果進(jìn)行可視化的估計(jì)、驗(yàn)證結(jié)果、評(píng)估模型。
2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究
新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個(gè)有效的大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)。此平臺(tái)主要包括四個(gè)基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺(tái)、進(jìn)行分布式的存儲(chǔ)平臺(tái)、大數(shù)據(jù)的分析與展示平臺(tái)。最底層是數(shù)據(jù)抽取平臺(tái)主要是實(shí)現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進(jìn)行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲(chǔ)平臺(tái)主要是對(duì)數(shù)據(jù)進(jìn)行匯總、建模、分析,最后將處理好的數(shù)據(jù)進(jìn)行儲(chǔ)存。其功能與數(shù)據(jù)倉(cāng)庫(kù)相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進(jìn)行分類(lèi)、建模,生成預(yù)測(cè)的結(jié)果,結(jié)合專家經(jīng)驗(yàn)利用測(cè)試的樣本選定評(píng)價(jià)方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計(jì)為運(yùn)行軟件,運(yùn)用建模方法實(shí)現(xiàn)數(shù)據(jù)的可視化界面設(shè)計(jì),更好的實(shí)現(xiàn)人機(jī)交互。
3 大數(shù)據(jù)分析技術(shù)研究
進(jìn)行大數(shù)據(jù)分析時(shí)我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。
3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)
大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱,不同時(shí)間,不同地點(diǎn)的多種不同結(jié)構(gòu)和類(lèi)別的數(shù)據(jù)抽取處理成一種所表達(dá)的算法和內(nèi)涵一致便于處理類(lèi)型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時(shí)可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計(jì)值法、填補(bǔ)平均值替換錯(cuò)誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時(shí)需要進(jìn)行數(shù)據(jù)庫(kù)的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個(gè)過(guò)程為數(shù)據(jù)轉(zhuǎn)換。
3.2 大數(shù)據(jù)分析技術(shù)
應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類(lèi)分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對(duì)多個(gè)指標(biāo)和因素間的相關(guān)性進(jìn)行描述,一般將密切相關(guān)的多個(gè)變量歸納為一類(lèi),這一類(lèi)數(shù)據(jù)就屬于一個(gè)影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類(lèi)分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個(gè)類(lèi)型,并按照這些特性劃分為幾個(gè)類(lèi)別,同種類(lèi)型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征。回歸分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個(gè)變量和其他變量間隱藏的關(guān)系。利用回歸方程,進(jìn)行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡(jiǎn)單得表示出來(lái)。
在使用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門(mén)技術(shù)。該技術(shù)將大量復(fù)雜的、隨機(jī)性的、模糊的、不完整的數(shù)據(jù)進(jìn)行分析,挖掘出對(duì)人類(lèi)未來(lái)有用的數(shù)據(jù),即提前獲得未知信息的過(guò)程[3]。數(shù)據(jù)挖掘功能分為預(yù)測(cè)功能和描述功能。數(shù)據(jù)預(yù)測(cè)是指對(duì)數(shù)據(jù)進(jìn)行處理推算,完成預(yù)測(cè)的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類(lèi)型有關(guān),有的功能適用于不同類(lèi)型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。
4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究
4.1 異常井自動(dòng)識(shí)別
油田生產(chǎn)過(guò)程中影響最大的一個(gè)因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對(duì)異常井的重視。最初,異常井的識(shí)別主要是依靠生產(chǎn)部門(mén)的生產(chǎn)人員,必須經(jīng)過(guò)人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說(shuō)大量的檢索工作、耗費(fèi)時(shí)間長(zhǎng)等,對(duì)異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個(gè)月相比波動(dòng)很大,并大于正常的波動(dòng)范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類(lèi)分析技術(shù)對(duì)異常井進(jìn)行識(shí)別,提高效率。為了實(shí)現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進(jìn)行,能夠及時(shí)發(fā)現(xiàn)異常井的存在。
4.2 異常井智能診斷
異常井診斷是油田每天進(jìn)行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對(duì)其進(jìn)行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對(duì)后期進(jìn)行計(jì)劃實(shí)施造成很大的影響。這時(shí)可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井的特征功圖庫(kù),對(duì)比油井當(dāng)前的功圖和所建立的特征功圖,實(shí)現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時(shí)一種工況可能會(huì)有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個(gè)工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫(kù),對(duì)比相關(guān)因子的指標(biāo)項(xiàng),找到異常的原因,采取適合的方案進(jìn)行修改,從而提高單井的生產(chǎn)效率。
4.3 間抽井開(kāi)關(guān)井計(jì)劃制訂
當(dāng)油田開(kāi)發(fā)進(jìn)入后期階段就會(huì)出現(xiàn)很多問(wèn)題,過(guò)度開(kāi)發(fā)使得地層的能量越來(lái)越少,致使更多供液不足的井開(kāi)發(fā)出來(lái)。將這類(lèi)井稱之為間歇出油井。新疆油田一般會(huì)使用人工方法制訂間歇出油井的開(kāi)關(guān)時(shí)間計(jì)劃,但是對(duì)于計(jì)劃的合理性沒(méi)有進(jìn)行檢驗(yàn)。若是能夠控制好間歇出油井的開(kāi)關(guān)時(shí)間,對(duì)油田實(shí)現(xiàn)節(jié)能減排是至關(guān)重要的。這時(shí)可以采用因子分析方法和回歸分析法進(jìn)行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開(kāi)關(guān)時(shí)間的因素,建立合適的分析模型,對(duì)模型進(jìn)行線性回歸,進(jìn)行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開(kāi)關(guān)時(shí)間的合理方案,達(dá)到節(jié)能減排的效果。
4.4 油井清防蠟預(yù)測(cè)
目前油田上對(duì)于油井清蠟采取平均每口井一個(gè)月清洗一次蠟的措施,按照人工計(jì)劃進(jìn)行,出現(xiàn)了許多問(wèn)題。比如,一些井還沒(méi)有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒(méi)有得到及時(shí)清洗。這樣既浪費(fèi)大量的人力物力,而且還對(duì)油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進(jìn)行分析,建立油井Y蠟?zāi)P停倮没貧w分析法對(duì)建立的模型建立曲線方程,進(jìn)行預(yù)測(cè),找到結(jié)蠟時(shí)間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進(jìn)行,提高油田的精細(xì)化管理。
5 結(jié)束語(yǔ)
總之,對(duì)比以前利用人工進(jìn)行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對(duì)于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進(jìn)行可視化分析,關(guān)注問(wèn)題的主要影響因素找到管理中存在的不足,預(yù)防未來(lái)問(wèn)題的出現(xiàn)。大數(shù)據(jù)的核心價(jià)值就是通過(guò)以往大量數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)出未來(lái),從而更好地指導(dǎo)油田的生產(chǎn)工作。
參考文獻(xiàn)
[1]楊澤民.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].軟件,2013(11):71-72.
論文摘要:電子商務(wù)(EC)在現(xiàn)代商務(wù)企業(yè)的發(fā)展中占有越來(lái)越重要的地位。如何利用信息技術(shù)掌握更多的商務(wù)信息已備受商家們的關(guān)注,站點(diǎn)分析技術(shù)正是為商家和網(wǎng)站提供了這樣一種有效的分析工具。
本文討論了一些站點(diǎn)分析的相關(guān)技術(shù)信息和幾種網(wǎng)站分析瀏覽者行為的理論與算法,及數(shù)據(jù)倉(cāng)庫(kù)的相關(guān)理論知識(shí)。并對(duì)站點(diǎn)日志數(shù)據(jù)進(jìn)行了實(shí)例分析,并指出了站點(diǎn)分析技術(shù)發(fā)展的方向。
一、緒論
互聯(lián)網(wǎng)技術(shù)不斷革新與發(fā)展,給全球經(jīng)濟(jì)帶來(lái)新的革命,從而也影響著人們的生活。互聯(lián)網(wǎng)為企業(yè)提供了一種真正屬于自己并面對(duì)廣大網(wǎng)民的信息載體,企業(yè)通過(guò)這一載體,可以自由地將企業(yè)的產(chǎn)品、服務(wù)等其他相關(guān)信息在線。
電子商務(wù)就是網(wǎng)上實(shí)行各種商務(wù)活動(dòng)的總包裝,種種所謂電子商務(wù)解決方案,實(shí)際上就是實(shí)現(xiàn)各種網(wǎng)上商務(wù)活動(dòng)的硬件與軟件系統(tǒng)。它將影響到每一個(gè)人、每一個(gè)企業(yè)。電子商務(wù)的主體是我們每一個(gè)人、每一個(gè)企業(yè),電子商務(wù)發(fā)展的過(guò)程就是對(duì)人們的生活、企業(yè)的運(yùn)行的一種模式的一個(gè)巨大改變的過(guò)程。對(duì)于進(jìn)入虛擬世界的商家而言,僅僅吸引注意力還不行,對(duì)它們而言,站點(diǎn)的訪問(wèn)率絕對(duì)不僅僅是一個(gè)數(shù)字,它還是一種信息,如果網(wǎng)站能夠從網(wǎng)絡(luò)中獲得網(wǎng)民的信息并從中分析其行為誘因,那么就容易掌握網(wǎng)民的需求,從而利用互聯(lián)網(wǎng)去創(chuàng)造更多商機(jī)。
電子商務(wù)站點(diǎn)用戶行為的分析這一問(wèn)題也因此成為現(xiàn)如今的熱門(mén)話題,被人們普遍關(guān)心起來(lái),尤其是被眾商家所重視。Web站點(diǎn)的日志數(shù)據(jù)正以每天數(shù)十兆的速度增長(zhǎng)。如何分析這些數(shù)據(jù),如何從這些大量數(shù)據(jù)中發(fā)現(xiàn)有用的、重要的知識(shí)(包括模式、規(guī)則、可視化結(jié)構(gòu)等)也成為現(xiàn)在人們最關(guān)注的信息。
在此情況下,站點(diǎn)用戶行為分析就可為網(wǎng)站或商家提供出大量有價(jià)值的信息,包括站點(diǎn)的受歡迎度的對(duì)比、商業(yè)廣告點(diǎn)擊情況總括、產(chǎn)品的反饋信息、站點(diǎn)各種信息的點(diǎn)擊情況等等。另外,還可根據(jù)不同的頁(yè)面內(nèi)容來(lái)分類(lèi)瀏覽者,以便做出更合理的頁(yè)面分類(lèi),促使網(wǎng)站逐步向個(gè)性化、最優(yōu)化狀態(tài)發(fā)展。這一技術(shù)對(duì)互聯(lián)網(wǎng)的發(fā)展壯大有著不可忽視的巨大作用,它的發(fā)展對(duì)信息技術(shù)亦將產(chǎn)生深遠(yuǎn)的影響。
在電子商務(wù)早期階段時(shí),Web站點(diǎn)數(shù)據(jù)流分析通常是在主頁(yè)上安裝計(jì)數(shù)器以及在一個(gè)外部日志文件上運(yùn)行簡(jiǎn)單的統(tǒng)計(jì)程序記錄點(diǎn)擊率。但是,簡(jiǎn)單的點(diǎn)擊計(jì)數(shù)既不準(zhǔn)確也遠(yuǎn)未達(dá)到營(yíng)銷(xiāo)目的所需的詳細(xì)程度。因此,各公司開(kāi)始尋找更先進(jìn)的分析工具,這類(lèi)工具可以提供誰(shuí)在訪問(wèn)公司W(wǎng)eb站點(diǎn)以及訪問(wèn)者一旦進(jìn)入站點(diǎn)后將做些什么的全面信息。站點(diǎn)開(kāi)始分析的地方是Web服務(wù)器的訪問(wèn)日志。每當(dāng)用戶在站點(diǎn)上請(qǐng)求一個(gè)網(wǎng)頁(yè)時(shí),這個(gè)請(qǐng)求就被記錄在訪問(wèn)日志中。如:目前有多少用戶正在訪問(wèn)站點(diǎn)、他們正在看哪些網(wǎng)頁(yè)以及他們?cè)谡军c(diǎn)中呆了多長(zhǎng)時(shí)間。顯然,日志分析和行為概況的正確組合可以對(duì)Web站點(diǎn)的成功產(chǎn)生直接影響。此外,從日志分析中得到的信息是很難從真實(shí)世界中捕獲到的,但這些信息卻可以較容易地在線收集到。Web數(shù)據(jù)流分析工具的這些最新進(jìn)展可以使網(wǎng)站獲得有關(guān)上網(wǎng)客戶和他們習(xí)慣的詳細(xì)報(bào)告。
二、站點(diǎn)信息統(tǒng)計(jì)方法
Web頁(yè)面數(shù)據(jù)主要是半結(jié)構(gòu)化數(shù)據(jù),計(jì)算機(jī)網(wǎng)絡(luò)技術(shù)和信息技術(shù)的飛速發(fā)展,使得半結(jié)構(gòu)化數(shù)據(jù)呈現(xiàn)日益繁榮的趨勢(shì)。半結(jié)構(gòu)化數(shù)據(jù),是一種介于模式固定的結(jié)構(gòu)化數(shù)據(jù),和完全沒(méi)有模式的無(wú)序數(shù)據(jù)之間,在查詢前無(wú)法預(yù)先確定其具體的類(lèi)型和格式;同時(shí)它們相應(yīng)的數(shù)據(jù)結(jié)構(gòu)是不固定、不完全或不規(guī)則的,即這些數(shù)據(jù)有的本身就沒(méi)有結(jié)構(gòu),有的只有十分松散的結(jié)構(gòu),有的數(shù)據(jù)的結(jié)構(gòu)是隱含的,需要從數(shù)據(jù)中進(jìn)行抽取。而有時(shí),盡管數(shù)據(jù)本身是有精確結(jié)構(gòu)的,但為了一定的目的,而故意忽視它的結(jié)構(gòu)。半結(jié)構(gòu)化數(shù)據(jù)具有以下五方面的
主要特點(diǎn):
1.結(jié)構(gòu)是不規(guī)則的。包含異構(gòu)數(shù)據(jù)、相同的數(shù)據(jù)信息用不同類(lèi)型或不同的結(jié)構(gòu)表示。
2.結(jié)構(gòu)是隱含的。如電子文檔SGML格式。
3.結(jié)構(gòu)是部分的,有時(shí)部分?jǐn)?shù)據(jù)根本無(wú)結(jié)構(gòu),而部分?jǐn)?shù)據(jù)只有粗略的結(jié)構(gòu)。
4.指示性結(jié)構(gòu)與約束性結(jié)構(gòu)。傳統(tǒng)的數(shù)據(jù)庫(kù)使用嚴(yán)格的分類(lèi)策略來(lái)保護(hù)數(shù)據(jù)。而指示性數(shù)據(jù)結(jié)構(gòu)是對(duì)結(jié)構(gòu)的一種非精確的描述。它可接受所有新數(shù)據(jù),代價(jià)是要頻繁修改結(jié)構(gòu)。
5.半結(jié)構(gòu)化數(shù)據(jù)通常在數(shù)據(jù)存在之后才能通過(guò)當(dāng)前數(shù)據(jù)歸納出其結(jié)構(gòu),稱之為事后模式引導(dǎo)。模式有時(shí)可被忽略,同時(shí)數(shù)據(jù)與數(shù)據(jù)模式間的區(qū)別逐漸消除。
三、數(shù)據(jù)分析的方法
Web頁(yè)面的數(shù)據(jù)通常是利用統(tǒng)計(jì)模型和數(shù)學(xué)模型來(lái)分析的。使用的模型有線性分析和非線性分析;連續(xù)回歸分析和邏輯回歸分析;單變量和多變量分析以及時(shí)間序列分析等。這些統(tǒng)計(jì)分析工具能提供可視化功能和分析功能來(lái)尋找數(shù)據(jù)間關(guān)系、構(gòu)造模型來(lái)分析、解釋數(shù)據(jù)。并通過(guò)交互式過(guò)程和迭代過(guò)程用來(lái)求精模型,最終開(kāi)發(fā)出最具適應(yīng)性的模型來(lái)將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。
知識(shí)發(fā)現(xiàn)是從數(shù)據(jù)倉(cāng)庫(kù)的大量數(shù)據(jù)中篩取信息,尋找經(jīng)常出現(xiàn)的模式,檢查趨勢(shì)并發(fā)掘?qū)嵤K欠治鯳eb頁(yè)面數(shù)據(jù)的重要方法。知識(shí)發(fā)現(xiàn)與模式識(shí)別的算法有以下幾種:
1.依賴性分析
依賴性分析算法搜索數(shù)據(jù)倉(cāng)庫(kù)的條目和對(duì)象,從中尋找重復(fù)出現(xiàn)概率很高的模式。它展示了數(shù)據(jù)間未知的依賴關(guān)系。利用依賴性分析算法可以從某一數(shù)據(jù)對(duì)象的信息來(lái)推斷另一數(shù)據(jù)對(duì)象的信息。例如:在雜貨店中,一堆椒鹽餅干放在陳列飲料的走道上,這是因?yàn)榻?jīng)過(guò)依賴性分析,商店認(rèn)為:很大一部分買(mǎi)飲料的顧客如果在取飲料的路上看到椒鹽餅干的話就會(huì)購(gòu)買(mǎi),因而此種分析影響了商店布局。
2.聚類(lèi)和分類(lèi)
在某些情況下,無(wú)法界定要分析的數(shù)據(jù)類(lèi),用聚類(lèi)算法發(fā)現(xiàn)一些不知道的數(shù)據(jù)類(lèi)或懷疑的數(shù)據(jù)類(lèi)。聚類(lèi)的過(guò)程是以某一特定時(shí)間為依據(jù),找出一個(gè)共享一些公共類(lèi)別的群體,它稱為無(wú)監(jiān)督學(xué)習(xí)。分類(lèi)過(guò)程,這是發(fā)現(xiàn)一些規(guī)定某些商品或時(shí)間是否屬于某一特定數(shù)據(jù)子集的規(guī)則。這些數(shù)據(jù)類(lèi)很少在關(guān)系數(shù)據(jù)庫(kù)中進(jìn)行定義,因而規(guī)范的數(shù)據(jù)模型中沒(méi)有它們的位置。最典型的例子是信用卡核準(zhǔn)過(guò)程,可確定能否按商品價(jià)格和其它標(biāo)準(zhǔn)把某一購(gòu)買(mǎi)者歸入可接受的那一類(lèi)中。分類(lèi)又稱為有監(jiān)督學(xué)習(xí)。
3.神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)通過(guò)學(xué)習(xí)待分析數(shù)據(jù)中的模式來(lái)構(gòu)造模型。它對(duì)隱式類(lèi)型進(jìn)行分類(lèi)。圖像分析是神經(jīng)網(wǎng)絡(luò)最成功的應(yīng)用之一。神經(jīng)網(wǎng)絡(luò)用于模型化非線性的、復(fù)雜的或噪聲高的數(shù)據(jù)。一般神經(jīng)模型由三個(gè)層次組成:數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)輸入、中間層(各種神經(jīng)元)和輸出。它通常用恰當(dāng)?shù)臄?shù)據(jù)庫(kù)示例來(lái)訓(xùn)練和學(xué)習(xí)、校正預(yù)測(cè)的模型,提高預(yù)測(cè)結(jié)果的準(zhǔn)確性。
4.數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則
關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘的一個(gè)重要內(nèi)容,通常關(guān)聯(lián)規(guī)則反映的是數(shù)據(jù)間的定性關(guān)聯(lián)關(guān)系。如一個(gè)商品交易數(shù)據(jù)庫(kù),一條記錄表示用戶一次購(gòu)買(mǎi)的商品種類(lèi),每個(gè)屬性(A、B……)代表一種商品,每個(gè)屬性都是布爾類(lèi)型的。一條關(guān)聯(lián)規(guī)則的例子是:{A、B}{D}[2%][60%],規(guī)則的含義是“如果用戶購(gòu)買(mǎi)商品A和B,那么也可能購(gòu)買(mǎi)商品D,因?yàn)橥瑫r(shí)購(gòu)買(mǎi)商品A、B和D的交易記錄占總交易數(shù)的2%而購(gòu)買(mǎi)A和B的交易中,有60%的交易也包含D”。規(guī)則中60%是規(guī)則的信任度,2%是規(guī)則的支持度。數(shù)據(jù)挖掘就是要發(fā)現(xiàn)所有滿足用戶定義的最小信任度和支持度閥值限制的關(guān)聯(lián)規(guī)則。數(shù)據(jù)只是定性地描述一個(gè)交易是否包含某商品,而對(duì)交易量沒(méi)有定量描述,這種布爾類(lèi)型數(shù)據(jù)間的關(guān)聯(lián)規(guī)則被稱為定性關(guān)聯(lián)規(guī)則。但數(shù)據(jù)記錄的屬性往往是數(shù)值型或字符型的,這些數(shù)據(jù)間也存在對(duì)決策有幫助的關(guān)聯(lián)規(guī)則,相對(duì)于定性關(guān)聯(lián)規(guī)則,這些規(guī)則被稱為定量關(guān)聯(lián)規(guī)則。
另外,數(shù)據(jù)挖掘目前仍面臨著數(shù)據(jù)質(zhì)量的問(wèn)題。由于數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)來(lái)自多個(gè)數(shù)據(jù)源,而在合并中存在很多障礙,如:沒(méi)有建立合并視圖所需的公共關(guān)鍵字;數(shù)據(jù)值相互抵觸;元數(shù)據(jù)的說(shuō)明不完備或丟失;數(shù)據(jù)值的不潔凈等等。數(shù)據(jù)挖掘是在標(biāo)準(zhǔn)化的數(shù)據(jù)基礎(chǔ)上進(jìn)行的,因而這些都會(huì)嚴(yán)重破壞數(shù)據(jù)的準(zhǔn)確性,導(dǎo)致最終決策的失誤。所有這些問(wèn)題都在等待著人們?nèi)グl(fā)掘更好的解決方法。
參考資料
1.周斌,吳泉源,高洪奎:“用戶訪問(wèn)模式數(shù)據(jù)挖掘的模型與算法研究”,《計(jì)算機(jī)研究與發(fā)展》,1999 vol.36 No.7 P.870-875;
2.Srikant R,Vu W,Agrawal R.Mining association rules with itemconstrains.IBM Almaden Research Center,Tech Rep:97.056,1997;
3.Park J S,Chen M,Yu P S.Aneffective hash based algorithm for miningassociation ru1es.In:ACM InternationalConference on Management of Data,Caliform,1995;
4.Inmon,William H,Building the DataWarehouse(2nd ed.).Wiley.NewYork(1996);
【關(guān)鍵詞】Hadoop 電力行業(yè) 大數(shù)據(jù)分析
隨著互聯(lián)網(wǎng)+時(shí)代的到來(lái),各行業(yè)數(shù)據(jù)的共享與融合越來(lái)越迫切。電力生產(chǎn)關(guān)系民生和經(jīng)濟(jì)發(fā)展,隨著電力信息化的發(fā)展,涉及發(fā)電、輸電、變電、配電、用電等各個(gè)環(huán)節(jié)的數(shù)據(jù)呈爆發(fā)性增長(zhǎng),PB數(shù)量級(jí)的數(shù)據(jù),已無(wú)法通過(guò)傳統(tǒng)的數(shù)據(jù)管理、抽取、分析技術(shù)挖掘數(shù)據(jù)間的多重關(guān)聯(lián)關(guān)系,從而更有效的實(shí)現(xiàn)電力風(fēng)險(xiǎn)預(yù)警,提高生產(chǎn)效率和智能調(diào)度功能。
1 Hadoop平臺(tái)介紹
Hadoop是Apache軟件基金會(huì)旗下的一個(gè)開(kāi)源分布式計(jì)算平臺(tái)。以Hadoop分布式文件系統(tǒng)和MapReduce為核心的Hadoop為用戶提供了系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu)。HDFS的高容錯(cuò)性、高伸縮性等優(yōu)點(diǎn)允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統(tǒng),MapReduce分布式編程模型允許用戶在不了解分布式系統(tǒng)底層細(xì)節(jié)的情況下開(kāi)發(fā)并行應(yīng)用程序。所以用戶可以利用Hadoop輕松地組織計(jì)算機(jī)資源,從而搭建自己的分布式計(jì)算平臺(tái),并且可以充分利用集群的計(jì)算和存儲(chǔ)能力,完成海量數(shù)據(jù)的處理。
Avro是doug cutting主持的RPC項(xiàng)目,有點(diǎn)類(lèi)似Google的protobuf和Facebook的thrift。是用于數(shù)據(jù)序列化的系統(tǒng)。提供了豐富的數(shù)據(jù)結(jié)構(gòu)類(lèi)型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲(chǔ)持久性數(shù)據(jù)的文件集、遠(yuǎn)程PRC調(diào)用以及簡(jiǎn)單的動(dòng)態(tài)語(yǔ)言集成功能。
實(shí)現(xiàn)了MapReduce編程框架,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。能夠使編程人員在不理解分布式并行編程概念的情況下也能方便將自己的程序運(yùn)行在分布式系統(tǒng)上。
HDFS分布式文件系統(tǒng),其設(shè)計(jì)目標(biāo)包括:檢測(cè)和快速恢復(fù)硬件故障;數(shù)據(jù)流的訪問(wèn);簡(jiǎn)化一致性模型等。
Zookeeper是Google的Chubby一個(gè)開(kāi)源的實(shí)現(xiàn)。它是一個(gè)針對(duì)大型分布式系統(tǒng)的可靠協(xié)調(diào)系統(tǒng),提供的功能包括:配置維護(hù)、名字服務(wù)、分布式同步、組服務(wù)等。ZooKeeper的目標(biāo)就是封裝好復(fù)雜易出錯(cuò)的關(guān)鍵服務(wù),將簡(jiǎn)單易用的接口和性能高效、功能穩(wěn)定的系統(tǒng)提供給用戶。
Pig是SQL-like語(yǔ)言,是在MapReduce上構(gòu)建的一種高級(jí)查詢語(yǔ)言,把一些運(yùn)算編譯進(jìn)MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網(wǎng)格運(yùn)算部門(mén)開(kāi)發(fā)的又一個(gè)克隆Google的項(xiàng)目Sawzall。
Chukwa是基于Hadoop的大集群監(jiān)控系統(tǒng),是開(kāi)源的數(shù)據(jù)搜集系統(tǒng)。通過(guò)HDFS來(lái)存儲(chǔ)數(shù)據(jù),并依賴MapReduce來(lái)處理數(shù)據(jù)。
2 數(shù)據(jù)抽取分析模型
目前電力行業(yè)數(shù)據(jù)包含結(jié)構(gòu)化數(shù)據(jù)如常規(guī)oracle,MySQL等數(shù)據(jù)庫(kù)類(lèi)型,同時(shí)也存在大量log日志文件,e文件等非結(jié)構(gòu)化數(shù)據(jù),為能全面有效的實(shí)現(xiàn)多業(yè)務(wù),多數(shù)據(jù)綜合建模分析,設(shè)計(jì)如圖2所示,數(shù)據(jù)處理模型。主要由數(shù)據(jù)抽取、格式清洗和DFS分布式文件系統(tǒng)構(gòu)成,同時(shí)為下一步大數(shù)據(jù)建模分析打好基礎(chǔ)。
數(shù)據(jù)抽取模塊主要負(fù)責(zé)從原業(yè)務(wù)系統(tǒng)獲得結(jié)構(gòu)化和非結(jié)構(gòu)化業(yè)務(wù)數(shù)據(jù)。通過(guò)在數(shù)據(jù)抽取工具中配置前端機(jī)器名稱、端口號(hào)、加密用戶名密碼、數(shù)據(jù)表等信息,實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)的抽取工作。對(duì)于日志類(lèi)文件由于在原服務(wù)運(yùn)行期間日志文件是持續(xù)寫(xiě)入狀態(tài),因此必須在原系統(tǒng)設(shè)置,系統(tǒng)日志按時(shí)間節(jié)點(diǎn)分割,一般可按具體業(yè)務(wù)運(yùn)行情況和日志產(chǎn)生量和產(chǎn)生大小進(jìn)行設(shè)定,避免因日志文件過(guò)大或網(wǎng)絡(luò)繁忙,在抽取時(shí)對(duì)業(yè)務(wù)造成影響。
格式清洗模塊主要是對(duì)原始數(shù)據(jù)中多種不同配置格式進(jìn)行統(tǒng)一,特別是對(duì)非結(jié)構(gòu)化數(shù)據(jù),需定義每個(gè)字段的含義和位置以及統(tǒng)一分隔符,同時(shí)還會(huì)去掉一些記錄不完整的壞數(shù)據(jù),保證數(shù)據(jù)的格式統(tǒng)一,信息完成。最后導(dǎo)入HDFS文件系統(tǒng)進(jìn)行存儲(chǔ)。
數(shù)據(jù)分析通過(guò)Map/Reduce操作實(shí)現(xiàn),通過(guò)設(shè)計(jì)業(yè)務(wù)分析模型,定位此項(xiàng)數(shù)據(jù)分析所需輸入數(shù)據(jù),并將數(shù)據(jù)數(shù)據(jù)分割成若干獨(dú)立的塊,并根據(jù)Inputformat把Y料讀入成一組(key,value)對(duì),然后通過(guò)mapper count分給不同的mapper進(jìn)行處理。再設(shè)計(jì)模型中,通過(guò)設(shè)置滿足要求的map任務(wù)值,并引入哈希算法,將mapper對(duì)應(yīng)初始的(initialkey,initialvalue)生成中間數(shù)據(jù)集(interkey,intervalue)劃分為多個(gè)任務(wù),將模值相等的任務(wù)丟到統(tǒng)一節(jié)點(diǎn)上計(jì)算,以實(shí)現(xiàn)比較平衡的分類(lèi)效果。
Reducer對(duì)mapper產(chǎn)生的(interkey,intervalue)中間數(shù)據(jù)集,進(jìn)行驅(qū)蟲(chóng)、過(guò)濾等后期處理后,得到結(jié)果。為實(shí)現(xiàn)輸出文件格式支持通過(guò)key來(lái)高效的自由訪問(wèn),并得到有序的數(shù)據(jù)輸出,在reducer中加入排序環(huán)節(jié),將所有的中間數(shù)據(jù)集根據(jù)key來(lái)排序的。這樣每個(gè)小塊都很容易生成一個(gè)序列化的輸出文件。
通過(guò)展示系統(tǒng),實(shí)現(xiàn)各業(yè)務(wù)模型數(shù)據(jù)分析結(jié)果圖形化的展示在監(jiān)控大屏上,同時(shí)桌面用戶還可通過(guò)瀏覽器或客戶端在終端上查詢分析結(jié)果。
3 總結(jié)
通過(guò)hadoop平臺(tái)構(gòu)建電力行業(yè)大數(shù)據(jù)分析模型,可按照業(yè)務(wù)需要進(jìn)行靈活進(jìn)行組合,提高各專業(yè)間的數(shù)據(jù)共享融合,實(shí)現(xiàn)由點(diǎn)狀業(yè)務(wù)分析模式,到貫穿“三集五大”各專業(yè)的網(wǎng)狀業(yè)務(wù)分析模式,可進(jìn)一步提高電網(wǎng)的健壯性、互動(dòng)性和智能化,為社會(huì)經(jīng)濟(jì)穩(wěn)定發(fā)展提供保障。
關(guān)鍵詞:大數(shù)據(jù)分析; 工程造價(jià); 精確性
一、大數(shù)據(jù)分析對(duì)工程造價(jià)精確性的影響原理
(一)工程造價(jià)影響評(píng)估數(shù)據(jù)優(yōu)化處理利用大數(shù)據(jù)分析技術(shù)開(kāi)展工程造價(jià)分析的過(guò)程中,需要針對(duì)工程收集相關(guān)的數(shù)據(jù),針對(duì)數(shù)據(jù)進(jìn)行全面的分析。針對(duì)工程確定造價(jià)的過(guò)程中,可以更好的收集相關(guān)信息,實(shí)現(xiàn)對(duì)于信息的全面管理。利用大數(shù)據(jù)分析技能夠?qū)τ诠こ淘靸r(jià)項(xiàng)目進(jìn)行精準(zhǔn)評(píng)估,具體應(yīng)用公式如下X=X-XminXmax-Xmin。根據(jù)該公式我們能夠看到,利用大數(shù)據(jù)分析技術(shù)減去最低值與最高值,通過(guò)這種方式確定工程造價(jià)的評(píng)估范圍,該范圍具有很強(qiáng)的適用性。
(二)恢復(fù)評(píng)估結(jié)果原值針對(duì)評(píng)估結(jié)果需要恢復(fù)其原值,這樣才能進(jìn)一步縮小工程造價(jià)的影響范圍。具體的公式如下:X=X′(Xmax-Xmin)+Xmin。通過(guò)這一公式針對(duì)工程總價(jià)結(jié)果恢復(fù)原則,最終進(jìn)一步提高評(píng)估數(shù)據(jù)的科學(xué)性與合理性,這樣工程造價(jià)數(shù)據(jù)更具真實(shí)性與可靠性。
(三)建立數(shù)據(jù)分析機(jī)制施工項(xiàng)目應(yīng)該建立數(shù)據(jù)分析機(jī)制,建立專門(mén)的數(shù)據(jù)分析機(jī)構(gòu),針對(duì)施工項(xiàng)目的特征以及相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)分析,全面評(píng)估施工項(xiàng)目的相關(guān)成本。施工企業(yè)應(yīng)該在內(nèi)部購(gòu)入信息化設(shè)備,建立符合工程項(xiàng)目的模型,確定粒子群模型,通過(guò)建立相關(guān)的模型簡(jiǎn)化計(jì)算過(guò)程,提升工程造價(jià)的核算價(jià)值。同時(shí)施工項(xiàng)目還要訓(xùn)練相關(guān)的工作人員應(yīng)用大數(shù)據(jù)技術(shù)的能力,這樣才能最大限度的保證數(shù)據(jù)分析工作的順利開(kāi)展,提升大數(shù)據(jù)分析效果。
(四)靈活開(kāi)展數(shù)據(jù)分析利用大數(shù)據(jù)分析技術(shù)開(kāi)展工程造價(jià)工作的過(guò)程中,應(yīng)該保證數(shù)據(jù)分析的靈活性,從不同的角度開(kāi)展數(shù)據(jù)分析,全面的分析施工項(xiàng)目中的各種數(shù)據(jù),及時(shí)發(fā)現(xiàn)問(wèn)題。不同的數(shù)據(jù)之間能夠形成相互驗(yàn)證的關(guān)系,這對(duì)于提升工程造價(jià)工作水準(zhǔn)具有積極的效果。
二、大數(shù)據(jù)分析對(duì)于提升工程造價(jià)精準(zhǔn)性的影響
(一)提升工程造價(jià)的合理性。大數(shù)據(jù)分析能夠?qū)τ诖罅康臄?shù)據(jù)進(jìn)行全面的分析,數(shù)據(jù)更加全面合理,因此能夠全面的提升工程造價(jià)的合理性,對(duì)于提高工程造價(jià)數(shù)據(jù)的科學(xué)性具有積極意義。大數(shù)據(jù)分析技術(shù)的應(yīng)用能夠從不同角度提供工程預(yù)算數(shù)據(jù),這樣能夠多方位的印證施工項(xiàng)目工程造價(jià)中的相關(guān)數(shù)據(jù),發(fā)現(xiàn)問(wèn)題能夠及時(shí)的進(jìn)行更改,這樣才能全面的提升工程總價(jià)水平,為施工項(xiàng)目的開(kāi)展提供更加可靠的數(shù)據(jù)。
(二)增加工程造價(jià)的動(dòng)態(tài)性。傳統(tǒng)的工程造價(jià)項(xiàng)目數(shù)據(jù)都是固定的,不會(huì)根據(jù)工程項(xiàng)目的開(kāi)展進(jìn)行變動(dòng),這種情況下一旦實(shí)際工程中出現(xiàn)一些偏離,工程造價(jià)數(shù)據(jù)的利用價(jià)值就會(huì)降低。利用大數(shù)據(jù)分析進(jìn)行工程造價(jià)的過(guò)程中,在項(xiàng)目施工的過(guò)程中能夠根據(jù)項(xiàng)目施工情況的變化調(diào)整工程施工項(xiàng)目數(shù)據(jù),改變前期確定的工程造價(jià)。由此我們能夠看到大數(shù)據(jù)分析能夠提升工程造價(jià)的動(dòng)態(tài)性,對(duì)于全面提升工程造價(jià)水平具有積極意義。
(三)增加工程造價(jià)的全面性工程造價(jià)需要對(duì)于工程項(xiàng)目各個(gè)方面進(jìn)行數(shù)據(jù)分析,這樣才能全面提升工程造價(jià)數(shù)據(jù)的科學(xué)性。大數(shù)據(jù)分析是對(duì)于工程項(xiàng)目的各個(gè)方面的數(shù)據(jù)進(jìn)行全面的收集,這樣工程項(xiàng)目的全面性得以提升。利用大數(shù)據(jù)分析計(jì)算不僅能夠分析工程項(xiàng)目數(shù)據(jù)中的各種財(cái)務(wù)數(shù)據(jù),還會(huì)分析一些非財(cái)務(wù)數(shù)據(jù),這些數(shù)據(jù)非常的全面,能夠從不同的角度體現(xiàn)工程項(xiàng)目施工情況,這對(duì)于提升工程造價(jià)精確性具有積極意義。
(四)增加工程造價(jià)的指導(dǎo)作用工程造價(jià)是為了更好的指導(dǎo)工程項(xiàng)目的施工工作,利用大數(shù)據(jù)分析技術(shù)能夠全面的開(kāi)展對(duì)于工程項(xiàng)目相關(guān)數(shù)據(jù)的收集與分析,提高工程造價(jià)的可參考性,因此項(xiàng)目開(kāi)展施工的過(guò)程中會(huì)更多的參考工程造價(jià)數(shù)據(jù)進(jìn)行施工管理,這樣能夠全面的提升工程造價(jià)的實(shí)用性,對(duì)于提升工程項(xiàng)目管理水平具有積極意義。為了更好的發(fā)揮其指導(dǎo)意義,利用大數(shù)據(jù)分析計(jì)算開(kāi)展工程造價(jià)工作的過(guò)程中,應(yīng)該加強(qiáng)數(shù)據(jù)與施工項(xiàng)目數(shù)據(jù)之間的聯(lián)系,這樣才能保證工程造價(jià)的可參考價(jià)值,為施工項(xiàng)目的順利完成提供可靠的保證。
三、利用大數(shù)據(jù)分析提升工程造價(jià)精準(zhǔn)性的措施
(一)優(yōu)化硬件設(shè)施大數(shù)據(jù)分析的應(yīng)用需要擁有良好的硬件設(shè)置作為保證,為了能夠更好地利用大數(shù)據(jù)分析技術(shù)開(kāi)展工程造價(jià)工作,施工項(xiàng)目單位的工作人員應(yīng)該不斷的優(yōu)化數(shù)據(jù)分析相關(guān)的硬件設(shè)施。首先,施工項(xiàng)目應(yīng)該引進(jìn)更加先進(jìn)的設(shè)備,通過(guò)硬件設(shè)備的完善為工程造價(jià)工作的開(kāi)展提供良好的環(huán)境。其次,施工單位需要培養(yǎng)大量的優(yōu)秀人才。大數(shù)據(jù)分析工作屬于一種系統(tǒng)性非常強(qiáng)的工作,需要大量的掌握計(jì)算機(jī)技術(shù)的人才,因此為了能夠讓大數(shù)據(jù)分析技術(shù)更好地應(yīng)用工程造價(jià),施工單位內(nèi)部應(yīng)該培養(yǎng)與之配套的人才,這樣才能讓大數(shù)據(jù)技術(shù)真正的應(yīng)用工程造價(jià)工作中去,為工程造價(jià)工作更好地開(kāi)展提供可靠地保證。再次,施工項(xiàng)目人員應(yīng)該在內(nèi)部建立一個(gè)數(shù)據(jù)庫(kù),把項(xiàng)目施工中的各種數(shù)據(jù)信息都存在在數(shù)據(jù)庫(kù)中,這樣能夠更方面數(shù)據(jù)分析人員利用大數(shù)據(jù)技術(shù)開(kāi)展數(shù)據(jù)分析,全面提升數(shù)據(jù)分析水準(zhǔn)。
(二)加強(qiáng)軟件管理大數(shù)據(jù)技術(shù)的應(yīng)用不僅需要硬件支撐,還需要與之配套的軟件設(shè)施,這樣才能最大限度的發(fā)揮大數(shù)據(jù)分析的優(yōu)勢(shì)作用。因此,施工項(xiàng)目單位開(kāi)展工程造價(jià)工作前應(yīng)該加強(qiáng)對(duì)于單位內(nèi)部的軟件管理。首先,應(yīng)該優(yōu)化人力資源,提升員工對(duì)數(shù)據(jù)分析技術(shù)的掌握程度,針對(duì)工作人員進(jìn)行技能培訓(xùn),讓相關(guān)的工作人員掌握必要的大數(shù)據(jù)技術(shù)開(kāi)展數(shù)據(jù)分析。其次,施工單位應(yīng)該建立與施工項(xiàng)目適應(yīng)的軟件設(shè)置,根據(jù)施工項(xiàng)目實(shí)際情況以及數(shù)據(jù)分析需要設(shè)置必要的數(shù)據(jù)分析職能,建立屬于施工項(xiàng)目自身的軟件系統(tǒng),這樣才能更好地發(fā)揮大數(shù)據(jù)分析的優(yōu)勢(shì),讓數(shù)據(jù)分析全面的服務(wù)于工程造價(jià)工作,全面提升工程總價(jià)水準(zhǔn)。
(三)建立造價(jià)分析工作常態(tài)化分工協(xié)作體系工程造價(jià)分析工作需要各個(gè)部門(mén)互相配合,這樣才能最大限度地提升工程總價(jià)工作水平。因此為了能夠更好地利用大數(shù)據(jù)分析技術(shù)開(kāi)展工程造價(jià)工作,施工單位應(yīng)該建立造價(jià)分析工作常態(tài)化的分工協(xié)調(diào)體系。優(yōu)化單位內(nèi)部工作流程,落實(shí)工作責(zé)任,把大數(shù)據(jù)分析的具體職能深入的落實(shí)到單位內(nèi)部的各個(gè)人員以及相關(guān)部門(mén)手中,這樣才能最大限度的保證工程施工項(xiàng)目能夠更好地開(kāi)展施工,提高工程造價(jià)數(shù)據(jù)的精確性。在數(shù)據(jù)收集的過(guò)程總,應(yīng)該讓每個(gè)工作部門(mén)都積極的參與進(jìn)來(lái),這樣能夠提升數(shù)據(jù)的范圍,保證數(shù)據(jù)更加真實(shí)可靠。只有真實(shí)可靠的數(shù)據(jù)來(lái)源才能更好地保證大數(shù)據(jù)分析結(jié)果更加的科學(xué)。另外,還要做好數(shù)據(jù)的存儲(chǔ)與保管工作,把大量數(shù)據(jù)存儲(chǔ)于數(shù)據(jù)庫(kù)內(nèi)部,這樣才能夠擴(kuò)大大數(shù)據(jù)分析的范圍,提升分析結(jié)果的科學(xué)性。
(四)加強(qiáng)對(duì)于大數(shù)據(jù)分析環(huán)境下對(duì)于工程造價(jià)的監(jiān)督為了能夠更好地利用大數(shù)據(jù)分析開(kāi)展工程造價(jià)工作,施工單位利用大數(shù)據(jù)分析技術(shù)的過(guò)程中,應(yīng)該加強(qiáng)對(duì)于大數(shù)據(jù)分析工作的監(jiān)督與管理,這樣能夠及時(shí)的發(fā)現(xiàn)大數(shù)據(jù)分析中的問(wèn)題,針對(duì)問(wèn)題提出有效的解決措施,防止大數(shù)據(jù)分析技術(shù)應(yīng)用不充分影響工程造價(jià)工作的開(kāi)展。在監(jiān)督管理工作開(kāi)展的過(guò)程中,需要保證相關(guān)工作人員的獨(dú)立性與專業(yè)性,只有保證獨(dú)立性才能提升監(jiān)督管理效果。保證專業(yè)性是為了更好地發(fā)揮監(jiān)管職能,及時(shí)的發(fā)現(xiàn)問(wèn)題,解決問(wèn)題。
一、制約稅收風(fēng)險(xiǎn)數(shù)據(jù)分析的因素分析
1.基礎(chǔ)數(shù)據(jù)質(zhì)量不高,影響風(fēng)險(xiǎn)數(shù)據(jù)分析的準(zhǔn)確度。數(shù)據(jù)分析應(yīng)用必須建立在真實(shí)、準(zhǔn)確、完整的數(shù)據(jù)基礎(chǔ)之上。在目前的數(shù)據(jù)分析應(yīng)用實(shí)踐中,一些基礎(chǔ)數(shù)據(jù)質(zhì)量不高,還不能適應(yīng)稅收風(fēng)險(xiǎn)數(shù)據(jù)分析的需要。外部數(shù)據(jù)方面表現(xiàn)為納稅人稅務(wù)登記、日常申報(bào)及財(cái)務(wù)數(shù)據(jù)中存在錯(cuò)誤或不完整,導(dǎo)致信息采集缺失或分析失誤;第三方涉稅信息不足,缺乏有效流轉(zhuǎn)渠道,導(dǎo)致不能進(jìn)行縱向比對(duì),不能獲取更多地?cái)?shù)據(jù)資源,不能檢驗(yàn)納稅人自行報(bào)送數(shù)據(jù)的真實(shí)性和準(zhǔn)確性。內(nèi)部數(shù)據(jù)方面表現(xiàn)為前臺(tái)工作人中責(zé)任心不強(qiáng),錄入基礎(chǔ)數(shù)據(jù)不準(zhǔn)確、不完善;基層稅源管理部門(mén)對(duì)信息采集不重視,不能及時(shí)更新納稅人相關(guān)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)等導(dǎo)致信息分析不準(zhǔn)確。2.數(shù)據(jù)來(lái)源應(yīng)用范圍窄,影響風(fēng)險(xiǎn)數(shù)據(jù)分析的深入性和實(shí)用性。從目前風(fēng)險(xiǎn)數(shù)據(jù)分析的來(lái)源來(lái)看,主要依靠金三系統(tǒng)風(fēng)險(xiǎn)預(yù)警評(píng)估系統(tǒng)的風(fēng)險(xiǎn)預(yù)警信息、部分省區(qū)數(shù)據(jù)綜合分析利用平臺(tái)的預(yù)警信息和上級(jí)部門(mén)推送的專項(xiàng)分析任務(wù),真正依靠自己挖掘出的數(shù)據(jù)進(jìn)行分析的部分還較少。在日常稅源監(jiān)控、納稅評(píng)估工作中運(yùn)用分析多,針對(duì)稅收收入變化、稅收政策變化、稅制改革影響等方面應(yīng)用較少,對(duì)區(qū)域經(jīng)濟(jì)有針對(duì)性和指導(dǎo)性的分析少。在宏觀指標(biāo)的分析上應(yīng)用少,導(dǎo)致數(shù)據(jù)分析的實(shí)用性變?nèi)酢?.信息化水平不高,影響風(fēng)險(xiǎn)數(shù)據(jù)分析的質(zhì)量與效率。在基層稅務(wù)部門(mén),目前的信息化應(yīng)用水平還不夠高,成為制約數(shù)據(jù)分析應(yīng)用的重要因素之一。主要表現(xiàn)為基層稅務(wù)干部信息化水平普遍不高,受年齡和學(xué)歷限制,稅收知識(shí)更新?lián)Q代慢,計(jì)算機(jī)基礎(chǔ)薄弱,不能主動(dòng)利用手中掌握的數(shù)據(jù)資源發(fā)現(xiàn)問(wèn)題或進(jìn)行分析。復(fù)合型人才缺乏,不能適應(yīng)數(shù)據(jù)分析的需要。另一方面,上級(jí)局在下達(dá)專項(xiàng)分析任務(wù)后需要基層進(jìn)行落實(shí)時(shí),無(wú)法按照疑點(diǎn)進(jìn)行深入分析和落實(shí),影響了工作質(zhì)量和效率。4.綜合涉稅信息不健全,影響風(fēng)險(xiǎn)數(shù)據(jù)分析的完整性。全面掌握納稅人涉稅信息是做好數(shù)據(jù)分析應(yīng)用的基礎(chǔ)和前提之一。目前僅依靠稅務(wù)部門(mén)的信息資源,還不能全面、及時(shí)、準(zhǔn)確的掌握納稅人所有的數(shù)據(jù)資源。與供電、財(cái)政、銀行、海關(guān)、銀行、房管、土地等政府部門(mén)缺乏有效的信息傳遞與反饋渠道,信息的集中度和共享度不高,導(dǎo)致風(fēng)險(xiǎn)分析和識(shí)別質(zhì)量不高,指向性不強(qiáng),不能適用數(shù)據(jù)分析應(yīng)用的要求。日常工作中真正采集到的第三方信息運(yùn)用的很少,信息的不對(duì)稱導(dǎo)致數(shù)據(jù)的完整性受限,分析應(yīng)用的作用得不到有效發(fā)揮。
二、深化稅收風(fēng)險(xiǎn)數(shù)據(jù)分析應(yīng)用的思路
1.提高思想認(rèn)識(shí),牢固樹(shù)立信息管稅理念。一是基層稅務(wù)部門(mén)應(yīng)該樹(shù)立風(fēng)險(xiǎn)管理和信息管稅的理念,充分利用現(xiàn)代信息技術(shù),對(duì)涉稅信息進(jìn)行采集、分析和利用,從宏觀上加以把握和引導(dǎo),達(dá)到提高稅收風(fēng)險(xiǎn)管理水平的目的。二是引導(dǎo)廣大稅務(wù)干部樹(shù)立信息管稅的理念,適應(yīng)信息化時(shí)代的要求,及時(shí)更新自己的觀念和知識(shí)。在日常工作中要注意采集涉稅信息,熟練掌握稅收政策,并進(jìn)行各種稅收軟件進(jìn)行基本的分析,提高信息化應(yīng)用管理的能力。2.提高數(shù)據(jù)質(zhì)量,打好風(fēng)險(xiǎn)數(shù)據(jù)分析應(yīng)用基礎(chǔ)。做好數(shù)據(jù)分析工作,首先要保證數(shù)據(jù)采集的質(zhì)量。一是做好基礎(chǔ)數(shù)據(jù)的采集工作。針對(duì)納稅人自行報(bào)送的稅務(wù)登記、日常申報(bào)、財(cái)務(wù)數(shù)據(jù)等要加強(qiáng)審核,確保錄入的真實(shí)性和完整性。二是做好第三方信息的采集工作。加強(qiáng)與政府有關(guān)部門(mén)的溝通和協(xié)調(diào),做好第三方信息的采集和利用工作,確保信息渠道暢通,通過(guò)內(nèi)外部信息數(shù)據(jù)的分析,及時(shí)掌握稅源管理的情況。三是加強(qiáng)對(duì)數(shù)據(jù)的監(jiān)控工作。通過(guò)數(shù)據(jù)綜合分析利用平臺(tái)加強(qiáng)對(duì)數(shù)據(jù)的分析監(jiān)控,發(fā)現(xiàn)存在疑點(diǎn)數(shù)據(jù)時(shí)及時(shí)進(jìn)行通報(bào),并傳遞到前臺(tái)和基層稅源管理部門(mén)進(jìn)行處理和反饋。3.拓寬分析范圍,提高風(fēng)險(xiǎn)數(shù)據(jù)分析系統(tǒng)性。風(fēng)險(xiǎn)數(shù)據(jù)的分析是一項(xiàng)綜合性工作,數(shù)據(jù)的選取、分析目標(biāo)的選擇、分析的手段等,都要從稅收工作的多方面入手,而不應(yīng)局限于某一方面。一是綜合確定分析選題,堅(jiān)持宏觀定方向,微觀找問(wèn)題的原則。宏觀方面可以根據(jù)稅收政策的變動(dòng)、稅制改革的影響來(lái)選擇,從稅源結(jié)構(gòu)、收入變化、稅源增減變化等等入手,圍繞領(lǐng)導(dǎo)關(guān)注的熱點(diǎn)、階段工作重點(diǎn)、業(yè)務(wù)管理難點(diǎn)等尋找數(shù)據(jù)分析的突破口。微觀方面可以通過(guò)日常稅源監(jiān)控發(fā)現(xiàn)有價(jià)值的信息,再由業(yè)務(wù)部門(mén)和技術(shù)部門(mén)進(jìn)行數(shù)據(jù)的提取和分析,查找問(wèn)題存在的原因,提出專題分析的措施和意見(jiàn)。二是完善分析手段。充分利用金稅三期系統(tǒng)、數(shù)據(jù)綜合分析利用平臺(tái)等,密切注意信息技術(shù)的發(fā)展和新形勢(shì),利用先進(jìn)的數(shù)據(jù)庫(kù)技術(shù)、數(shù)據(jù)展現(xiàn)工具和數(shù)據(jù)挖掘工具,不斷創(chuàng)新分析手段。進(jìn)一步完善分析指標(biāo)體系,拓展數(shù)據(jù)分析模型,提高對(duì)數(shù)據(jù)的深度挖掘能力和綜合分析能力。4.加強(qiáng)協(xié)調(diào)配合,健全風(fēng)險(xiǎn)數(shù)據(jù)分析應(yīng)用機(jī)制。稅收風(fēng)險(xiǎn)管理工作是一項(xiàng)系統(tǒng)性的工程,風(fēng)險(xiǎn)數(shù)據(jù)產(chǎn)生于稅收工作中的多個(gè)環(huán)節(jié),也涉及到多個(gè)部門(mén),因此風(fēng)險(xiǎn)數(shù)據(jù)的分析應(yīng)用需要各個(gè)部門(mén)的通力配合。一是做好統(tǒng)籌規(guī)劃,設(shè)立專門(mén)部門(mén),具體承擔(dān)數(shù)據(jù)分析應(yīng)用工作的組織、協(xié)調(diào)、監(jiān)督等工作,制定風(fēng)險(xiǎn)數(shù)據(jù)分析的工作流程,明確各部門(mén)的職責(zé),設(shè)置相應(yīng)的崗位,確保數(shù)據(jù)分析工作流暢運(yùn)轉(zhuǎn)。二是各級(jí)、各部門(mén)要共同參與、密切配合,政策法規(guī)、稅收、收入核算、征管、信息中心等部門(mén)都要參與進(jìn)來(lái),形成數(shù)據(jù)分析的工作機(jī)制。5.積極培養(yǎng)人才,提高風(fēng)險(xiǎn)數(shù)據(jù)分析應(yīng)用水平。風(fēng)險(xiǎn)數(shù)據(jù)分析工作對(duì)數(shù)據(jù)分析人員提出了更深更高的要求。要?jiǎng)偃螖?shù)據(jù)分析工作,需要既掌握稅收業(yè)務(wù)知識(shí)、計(jì)算機(jī)知識(shí),又掌握稅收政策的變化、經(jīng)濟(jì)形勢(shì)發(fā)展變化的復(fù)合型人才。一是善于用人,把業(yè)務(wù)能力強(qiáng)、信息技術(shù)水平高的人才充實(shí)到數(shù)據(jù)分析崗上,給予他們施展才華的平臺(tái)。二是加強(qiáng)對(duì)人才的培訓(xùn),通過(guò)短期培訓(xùn)、繼續(xù)教育等多種形式,促進(jìn)數(shù)據(jù)分析人才的快速成長(zhǎng)。三是強(qiáng)化基層稅務(wù)干部的培訓(xùn)。采取不同方式,加強(qiáng)對(duì)稅收政策、業(yè)務(wù)以及計(jì)算機(jī)知識(shí)等的培訓(xùn),使全體干部掌握數(shù)據(jù)分析方法,提高數(shù)據(jù)分析的綜合能力,為數(shù)據(jù)分析應(yīng)用打好人才基礎(chǔ)
作者:黎濤