首頁(yè) > 精品范文 > 數(shù)據(jù)分析統(tǒng)計(jì)學(xué)方法
時(shí)間:2023-07-23 09:15:44
序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇數(shù)據(jù)分析統(tǒng)計(jì)學(xué)方法范文,愿它們成為您寫作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)理統(tǒng)計(jì)
基金項(xiàng)目:華北理工大學(xué)研究生教育教學(xué)改革項(xiàng)目資助(項(xiàng)目編號(hào):K1503)
基金項(xiàng)目:華北理工大學(xué)教育教學(xué)改革研究與實(shí)踐重點(diǎn)項(xiàng)目資助(項(xiàng)目編號(hào):Z1514-05;J 1509-09)
G643;O21-4
谷歌公司的經(jīng)濟(jì)學(xué)家兼加州大學(xué)的教授哈爾?范里安先生過(guò)去說(shuō)過(guò)統(tǒng)計(jì)學(xué)家將會(huì)成為像電腦工程師一樣受歡迎的工作。在未來(lái)10年里,人們獲得數(shù)據(jù)、處理數(shù)據(jù)、分析數(shù)據(jù)、判斷數(shù)據(jù)、提取信息的能力將變得非常重要,不僅僅在教育領(lǐng)域,各行各業(yè)都需要數(shù)據(jù)專家,“大數(shù)據(jù)”時(shí)代的到來(lái)使得數(shù)據(jù)處理與分析技術(shù)日新月異,深刻的影響著各個(gè)行業(yè)、領(lǐng)域及學(xué)科的發(fā)展,尤其是與數(shù)據(jù)關(guān)系密切的行業(yè)及學(xué)科,而作為工科各專業(yè)碩士研究生重要的公共基礎(chǔ)課數(shù)理統(tǒng)計(jì)學(xué)是天生與數(shù)據(jù)打交道的學(xué)科。
怎樣在“大數(shù)據(jù)”時(shí)代背景下培養(yǎng)出適應(yīng)面向企業(yè)自主創(chuàng)新需求的數(shù)據(jù)分析人員或掌握現(xiàn)代數(shù)據(jù)處理技術(shù)的工程師,如何把當(dāng)下流行的“大數(shù)據(jù)”處理技術(shù)與相關(guān)數(shù)理統(tǒng)計(jì)學(xué)課程教學(xué)有機(jī)的結(jié)合,以激發(fā)學(xué)生對(duì)數(shù)據(jù)處理與分析技術(shù)發(fā)展的興趣,這些都是我們?cè)谂c數(shù)理統(tǒng)計(jì)學(xué)相關(guān)的課程教學(xué)中不得不思考的問(wèn)題。然而,當(dāng)前高校工科各專業(yè)碩士研究生數(shù)理統(tǒng)計(jì)教學(xué)的現(xiàn)狀卻與其重要程度相去甚遠(yuǎn),整個(gè)教學(xué)過(guò)程的諸多環(huán)節(jié)都存在較大的不足,主要表現(xiàn)為:1.教學(xué)內(nèi)容偏重理論,學(xué)生學(xué)習(xí)興趣不高;2. 輕統(tǒng)計(jì)實(shí)驗(yàn);忽略對(duì)統(tǒng)計(jì)相關(guān)軟件的教學(xué);3.沒(méi)有注重?cái)?shù)理統(tǒng)計(jì)的學(xué)習(xí)與研究生專業(yè)相結(jié)合,實(shí)用性強(qiáng)調(diào)不夠。4. 輕能力培養(yǎng);輕案例分析等。
這些現(xiàn)象導(dǎo)致的直接后果就是學(xué)生動(dòng)手能力上的缺陷和創(chuàng)新能力的缺乏, 不能夠自覺利用數(shù)理統(tǒng)計(jì)知識(shí)解決實(shí)際問(wèn)題, 尤其缺乏對(duì)統(tǒng)計(jì)數(shù)據(jù)的分析能力。因此,需要數(shù)理統(tǒng)計(jì)學(xué)隨著環(huán)境的變化不斷創(chuàng)新新的數(shù)理統(tǒng)計(jì)思維和教學(xué)內(nèi)容。避免教學(xué)內(nèi)容與大數(shù)據(jù)時(shí)代脫節(jié)。為此筆者在該課程的教學(xué)過(guò)程中,有意識(shí)地進(jìn)行了一些教學(xué)改革嘗試。提出了幾點(diǎn)工科研究生數(shù)理統(tǒng)計(jì)教學(xué)的改革措施。
(1)調(diào)整教學(xué)內(nèi)容,將與數(shù)理統(tǒng)計(jì)相關(guān)的大數(shù)據(jù)處理案例引進(jìn)課堂。有很多有普遍性的應(yīng)用統(tǒng)計(jì)實(shí)際案例,可以在本課程的教學(xué)過(guò)程中有選擇的引入介紹給學(xué)生,讓學(xué)生們了解利用所學(xué)統(tǒng)計(jì)方法進(jìn)行實(shí)際數(shù)據(jù)分析的操作過(guò)程和得出結(jié)論的思維方法。以期解決工科研究生對(duì)確定性思維到隨機(jī)性思維方式的轉(zhuǎn)變的不適應(yīng)性。
(2)適應(yīng)大數(shù)據(jù)時(shí)代數(shù)理統(tǒng)計(jì)學(xué)課程的教學(xué)環(huán)境。實(shí)現(xiàn)教學(xué)方式的多樣性。大數(shù)據(jù)時(shí)代背景下,互聯(lián)網(wǎng)十分發(fā)達(dá),學(xué)生根據(jù)自己的興趣去收集、整理和分析數(shù)據(jù),既可以改變他們對(duì)統(tǒng)計(jì)方法的進(jìn)一步認(rèn)識(shí),也可以增加他們的學(xué)習(xí)興趣。甚至可以以專業(yè)QQ群,郵件的方式和同學(xué)、老師之間相互交流,交流者處于相互平等的地位,可以暢所欲言,隨時(shí)隨地都可以交流,起到事半功倍的效果。這種交流使得教師不再是知識(shí)的權(quán)威,而是把教師上課作為一種更好自主學(xué)習(xí)的引導(dǎo),這種交流使得他們的思想變得更加成熟。同時(shí)參與各種網(wǎng)絡(luò)論壇,貼吧回答問(wèn)題等使得他們更能體現(xiàn)自己的價(jià)值,這種交流也使得學(xué)生的學(xué)習(xí)熱情和學(xué)習(xí)精神得到更好的激發(fā)。
(3)引導(dǎo)工科研究生開展與本專業(yè)相結(jié)合的課題研究,強(qiáng)調(diào)實(shí)用性,注重統(tǒng)計(jì)思維能力培養(yǎng)。適應(yīng)大數(shù)據(jù)時(shí)代數(shù)理統(tǒng)計(jì)學(xué)課程教學(xué)環(huán)境,實(shí)現(xiàn)教學(xué)方式的多樣性。以期彌補(bǔ)學(xué)生缺少數(shù)據(jù)分析實(shí)例的訓(xùn)練,解決學(xué)以致用的不足。在目前的數(shù)理統(tǒng)計(jì)教學(xué)安排下,受學(xué)時(shí)所限,如果相當(dāng)一部分時(shí)間用來(lái)學(xué)習(xí)公式、定理的推導(dǎo)及證明,勢(shì)必沒(méi)有時(shí)間進(jìn)行實(shí)際的數(shù)據(jù)分析練習(xí)。在大數(shù)據(jù)時(shí)代背景下,隨著海量數(shù)據(jù)、復(fù)雜形式數(shù)據(jù)的出現(xiàn),使得統(tǒng)計(jì)方法的發(fā)展和以前有了很大的不同,沒(méi)有實(shí)際的數(shù)據(jù)分析訓(xùn)練,學(xué)生們就無(wú)法對(duì)統(tǒng)計(jì)的廣泛應(yīng)用性及重要性有深刻的體會(huì),也不利于保持和提高他們的學(xué)習(xí)興趣。這要求具體工作者提出新的統(tǒng)計(jì)思想和方法,加深對(duì)已有統(tǒng)計(jì)思想的理解,以解決實(shí)際問(wèn)題。
(4)改革成績(jī)?cè)u(píng)定方式。現(xiàn)有的考試模式為通過(guò)有限的一到兩個(gè)小時(shí)的期末考試,進(jìn)行概念的辨析和理論及方法的推導(dǎo)計(jì)算,由此來(lái)判斷研究生關(guān)于數(shù)理統(tǒng)計(jì)課程的學(xué)習(xí)情況有很大的不足,特別是對(duì)可以利用軟件進(jìn)行的某些實(shí)際數(shù)據(jù)分析的考察沒(méi)有辦法實(shí)現(xiàn)。因此,有必要通過(guò)日常課堂“論文選題―提交―討論”與期末理論考試相結(jié)合的形式對(duì)學(xué)生數(shù)理統(tǒng)計(jì)學(xué)習(xí)進(jìn)行考核。加大對(duì)學(xué)生平時(shí)考察的力度,相應(yīng)地減少期末考試成績(jī)的比重。讓學(xué)生選擇一些與自己專業(yè)有關(guān)的數(shù)據(jù)進(jìn)行嘗試性的數(shù)據(jù)分析、一些統(tǒng)計(jì)科普著作的讀書報(bào)告等并寫成論文的形式提交,做為對(duì)學(xué)生成績(jī)的評(píng)定方式,更能綜合、客觀地評(píng)價(jià)學(xué)生的學(xué)習(xí)情況。
數(shù)據(jù)分析在現(xiàn)代生活中發(fā)揮的作用越來(lái)越大,而道磽臣品椒可以與數(shù)據(jù)分析有機(jī)的結(jié)合,從而在提高數(shù)據(jù)分析效率的同時(shí),保持分析結(jié)果的有效性,為生產(chǎn)和實(shí)踐活動(dòng)提供準(zhǔn)確的參考。以上的思考和建議僅是我們?cè)诮虒W(xué)研究和教學(xué)過(guò)程中的一點(diǎn)體會(huì),還有許多工作亟待深入,比如適合工科研究生數(shù)理統(tǒng)計(jì)課程的大數(shù)據(jù)案例選取,與課程內(nèi)容的有效銜接;案例教學(xué)法如何實(shí)施;教學(xué)方式多樣化問(wèn)題;課堂教學(xué)與網(wǎng)絡(luò)交流結(jié)合;理論介紹與軟件應(yīng)用訓(xùn)練結(jié)合問(wèn)題等。教學(xué)改革與實(shí)踐是一項(xiàng)艱巨的任務(wù),以培養(yǎng)學(xué)生的實(shí)際運(yùn)用能力和正確解釋數(shù)據(jù)分析結(jié)果的能力為目的,強(qiáng)調(diào)統(tǒng)計(jì)思想和方法應(yīng)用的培養(yǎng),讓學(xué)生們了解利用所學(xué)統(tǒng)計(jì)方法進(jìn)行實(shí)際數(shù)據(jù)分析的操作過(guò)程和得出結(jié)論的思維方法將是一項(xiàng)長(zhǎng)期的工作。
參考文獻(xiàn)
[1].游士兵,張 佩,姚雪梅.大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇[J].珞珈管理評(píng)論, 2013, ( 02): 165-171.
統(tǒng)計(jì)學(xué)研究的對(duì)象是數(shù)據(jù),數(shù)據(jù)科學(xué)顧名思義也是以數(shù)據(jù)為研究對(duì)象,這產(chǎn)生一種直觀的錯(cuò)覺,似乎數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)之間存在某種與生俱來(lái)的淵源關(guān)系。Wu(1998)直言不諱,數(shù)據(jù)科學(xué)就是統(tǒng)計(jì)學(xué)的重命名,相應(yīng)地,數(shù)據(jù)科學(xué)家替代了統(tǒng)計(jì)學(xué)家這個(gè)稱謂。若此,那是什么促成了這種名義上的替代?顯然僅僅因?yàn)閿?shù)據(jù)量大本身并不足以促成“統(tǒng)計(jì)學(xué)”向“數(shù)據(jù)科學(xué)”的轉(zhuǎn)變,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)這些概念似乎就已經(jīng)足夠了。問(wèn)題的關(guān)鍵在于,二者所指的“數(shù)據(jù)”并非同一概念,數(shù)據(jù)②本身是一個(gè)很寬泛的概念,只要是對(duì)客觀事物記錄下來(lái)的、可以鑒別的符號(hào)都可以稱之為數(shù)據(jù),包括數(shù)字、文字、音頻、視頻等等。統(tǒng)計(jì)學(xué)研究的數(shù)據(jù)雖然類型豐富,如類別數(shù)據(jù)、有序數(shù)據(jù)等定性數(shù)據(jù),定距數(shù)據(jù)、定比數(shù)據(jù)等定量數(shù)據(jù),但這些都是結(jié)構(gòu)化數(shù)據(jù);數(shù)據(jù)科學(xué)所謂的數(shù)據(jù)則更為寬泛,不僅包括這些傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù),即,大數(shù)據(jù)。大數(shù)據(jù)(以半/非結(jié)構(gòu)型數(shù)據(jù)為主)使基于關(guān)系型數(shù)據(jù)庫(kù)的傳統(tǒng)分析工具很難發(fā)揮作用,或者說(shuō)傳統(tǒng)的數(shù)據(jù)庫(kù)和統(tǒng)計(jì)分析方法很難在可容忍的時(shí)間范圍內(nèi)完成存儲(chǔ)、管理和分析等一系列數(shù)據(jù)處理過(guò)程,為了有效地處理這類數(shù)據(jù),需要一種新的范式———數(shù)據(jù)科學(xué)。真正意義上的現(xiàn)代統(tǒng)計(jì)學(xué)是從處理小數(shù)據(jù)、不完美的實(shí)驗(yàn)等這類現(xiàn)實(shí)問(wèn)題發(fā)展起來(lái)的,而數(shù)據(jù)科學(xué)是因?yàn)樘幚泶髷?shù)據(jù)這類現(xiàn)實(shí)問(wèn)題而興起的。因此數(shù)據(jù)科學(xué)的研究對(duì)象是大數(shù)據(jù),而統(tǒng)計(jì)學(xué)以結(jié)構(gòu)型數(shù)據(jù)為研究對(duì)象。退一步,單從數(shù)量級(jí)來(lái)講,也已發(fā)生了質(zhì)變。對(duì)于結(jié)構(gòu)化的大規(guī)模數(shù)據(jù),傳統(tǒng)的方法只是理論上的(可行性)或不經(jīng)濟(jì)的(有效性),實(shí)踐中還需要借助數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、并行處理技術(shù)等現(xiàn)代計(jì)算技術(shù)才能實(shí)現(xiàn)。
二、數(shù)據(jù)科學(xué)的統(tǒng)計(jì)學(xué)內(nèi)涵
(一)理論基礎(chǔ)
數(shù)據(jù)科學(xué)中的數(shù)據(jù)處理和分析方法是在不同學(xué)科領(lǐng)域中分別發(fā)展起來(lái)的,譬如,統(tǒng)計(jì)學(xué)、統(tǒng)計(jì)學(xué)習(xí)或稱統(tǒng)計(jì)機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、應(yīng)用數(shù)學(xué)、數(shù)據(jù)密集型計(jì)算、密集計(jì)算方法等。在量化分析的浪潮下甚至出現(xiàn)了“metric+模式”,如計(jì)量經(jīng)濟(jì)學(xué)、文獻(xiàn)計(jì)量學(xué)、網(wǎng)絡(luò)計(jì)量學(xué)、生物統(tǒng)計(jì)學(xué)等。因此,有學(xué)者將數(shù)據(jù)科學(xué)定義為計(jì)算機(jī)科學(xué)技術(shù)、數(shù)學(xué)與統(tǒng)計(jì)學(xué)知識(shí)、專業(yè)應(yīng)用知識(shí)三者的交集,這意味著數(shù)據(jù)科學(xué)是一門新興的交叉學(xué)科。但是這種沒(méi)有側(cè)重的疊加似乎只是羅列了數(shù)據(jù)科學(xué)所涉及到的學(xué)科知識(shí),并沒(méi)有進(jìn)行實(shí)質(zhì)性的分析,就好似任何現(xiàn)實(shí)活動(dòng)都可以拆解為不同的細(xì)分學(xué)科,這是必然的。根據(jù)Naur(1960,1974)的觀點(diǎn),數(shù)據(jù)科學(xué)或稱數(shù)據(jù)學(xué)是計(jì)算機(jī)科學(xué)的一個(gè)替代性稱謂。但是這種字面上的轉(zhuǎn)換,并沒(méi)有作為一個(gè)獨(dú)立的學(xué)科而形成。Cleveland(2001)首次將數(shù)據(jù)科學(xué)作為一個(gè)獨(dú)立的學(xué)科提出時(shí),將數(shù)據(jù)科學(xué)表述為統(tǒng)計(jì)學(xué)加上它在計(jì)算技術(shù)方面的擴(kuò)展。這種觀點(diǎn)表明,數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計(jì)學(xué)在研究范圍(對(duì)象)和分析方法上不斷擴(kuò)展的結(jié)果。一如統(tǒng)計(jì)學(xué)最初只是作為征兵、征稅等行政管理的附屬活動(dòng),而現(xiàn)在包括了范圍更廣泛的理論和方法。從研究范圍的擴(kuò)展來(lái)看,是從最初的結(jié)構(gòu)型大規(guī)模數(shù)據(jù)(登記數(shù)據(jù)),到結(jié)構(gòu)型的小規(guī)模數(shù)據(jù)(抽樣數(shù)據(jù))、結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(微觀數(shù)據(jù)),再擴(kuò)展到現(xiàn)在的非(半)結(jié)構(gòu)型的大規(guī)模數(shù)據(jù)(大數(shù)據(jù))和關(guān)系數(shù)據(jù)等類型更為豐富的數(shù)據(jù)。從分析方法的擴(kuò)展來(lái)看,是從參數(shù)方法到非參數(shù)方法,從基于模型到基于算法,一方面?zhèn)鹘y(tǒng)的統(tǒng)計(jì)模型需要向更一般的數(shù)據(jù)概念延伸;另一方面,算法(計(jì)算機(jī)實(shí)現(xiàn))成為必要的“可行性分析”,而且在很多方面算法模型的優(yōu)勢(shì)越來(lái)越突出。注意到,數(shù)據(jù)分析有驗(yàn)證性的數(shù)據(jù)分析和探索性的數(shù)據(jù)分析兩個(gè)基本取向,但不論是哪一種取向,都有一個(gè)基本的前提假設(shè),就是觀測(cè)數(shù)據(jù)是由背后的一個(gè)(隨機(jī))模型生成,因此數(shù)據(jù)分析的基本問(wèn)題就是找出這個(gè)(隨機(jī))模型。Tukey(1980,2000)明確提到,EDA和CDA并不是替代關(guān)系,兩者皆必不可少,強(qiáng)調(diào)EDA是因?yàn)樗坏凸懒恕?shù)據(jù)導(dǎo)向是計(jì)算機(jī)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展的方向,這一觀點(diǎn)已被越來(lái)越多的統(tǒng)計(jì)學(xué)家所認(rèn)同。但是數(shù)據(jù)導(dǎo)向仍然有基于模型與基于算法兩種聲音,其中,前文提到的EDA和CDA都屬于基于模型的方法,它們都假定數(shù)據(jù)背后存在某種生成機(jī)制;而算法模型則認(rèn)為復(fù)雜的現(xiàn)實(shí)世界無(wú)法用數(shù)學(xué)公式來(lái)刻畫,即,不設(shè)置具體的數(shù)學(xué)模型,同時(shí)對(duì)數(shù)據(jù)也不做相應(yīng)的限制性假定。算法模型自20世紀(jì)80年代中期以來(lái)隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展而得到快速成長(zhǎng),然而很大程度上是在統(tǒng)計(jì)學(xué)這個(gè)領(lǐng)域之外“悄然”進(jìn)行的,比如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹、隨機(jī)森林等機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘方法。若響應(yīng)變量記為y,預(yù)測(cè)變量記為x,擾動(dòng)項(xiàng)和參數(shù)分別記為ε和β,則基于模型的基本形式是:y=f(x,β,ε),其目的是要研究清楚y與x之間的關(guān)系并對(duì)y做出預(yù)測(cè),其中,f是一個(gè)有顯式表達(dá)的函數(shù)形式(若f先驗(yàn)假定,則對(duì)應(yīng)CDA;若f是探索得到的,則對(duì)應(yīng)EDA),比如線性回歸、Logistic回歸、Cox回歸等。可見,傳統(tǒng)建模的基本觀點(diǎn)是,不僅要得到正確的模型———可解釋性強(qiáng),而且要得到準(zhǔn)確的模型———外推預(yù)測(cè)能力強(qiáng)。而對(duì)于現(xiàn)實(shí)中復(fù)雜的、高維的、非線性的數(shù)據(jù)集,更切合實(shí)際的做法是直接去尋找一個(gè)恰當(dāng)?shù)念A(yù)測(cè)規(guī)則(算法模型),不過(guò)代價(jià)是可解釋性較弱,但是算法模型的計(jì)算效率和可擴(kuò)展性更強(qiáng)。基于算法的基本形式類似于非參數(shù)方法y=f(x,ε),但是比非參數(shù)方法的要求更低yx,因?yàn)榉菂?shù)方法很多時(shí)候要求f或其一階導(dǎo)數(shù)是平滑的,而這里直接跳過(guò)了函數(shù)機(jī)制的探討,尋找的只是一個(gè)預(yù)測(cè)規(guī)則(后續(xù)的檢驗(yàn)也是基于預(yù)測(cè)構(gòu)造的)。在很多應(yīng)用場(chǎng)合,算法模型得到的是針對(duì)具體問(wèn)題的解(譬如某些參數(shù)是被當(dāng)作一個(gè)確定的值通過(guò)優(yōu)化算法得到的),并不是統(tǒng)計(jì)意義上的推斷解。
(二)技術(shù)維度
數(shù)據(jù)科學(xué)是基于數(shù)據(jù)的決策,數(shù)據(jù)分析的本質(zhì)既不是數(shù)學(xué),也不是軟件程序,而是對(duì)數(shù)據(jù)的“閱讀”和“理解”。技術(shù)只是輔助數(shù)據(jù)理解的工具,一個(gè)毫無(wú)統(tǒng)計(jì)學(xué)知識(shí)的人應(yīng)用統(tǒng)計(jì)軟件也可以得到統(tǒng)計(jì)結(jié)果,但無(wú)論其過(guò)程還是結(jié)果都是可疑的,對(duì)統(tǒng)計(jì)結(jié)果的解釋也無(wú)法令人信服。“從計(jì)算機(jī)科學(xué)自身來(lái)看,這些應(yīng)用領(lǐng)域提供的主要研究對(duì)象就是數(shù)據(jù)。雖然計(jì)算機(jī)科學(xué)一貫重視數(shù)據(jù)的研究,但數(shù)據(jù)在其中的地位將會(huì)得到更進(jìn)一步的加強(qiáng)”。不可否認(rèn),統(tǒng)計(jì)分析逐漸向計(jì)算機(jī)科學(xué)技術(shù)靠近的趨勢(shì)是明顯的。這一方面是因?yàn)椋瑪?shù)據(jù)量快速膨脹,數(shù)據(jù)來(lái)源、類型和結(jié)構(gòu)越來(lái)越復(fù)雜,迫切需要開發(fā)更高效率的存儲(chǔ)和分析工具,可以很好地適應(yīng)數(shù)據(jù)量的快速膨脹;另一方面,計(jì)算機(jī)科學(xué)技術(shù)的迅猛發(fā)展為新方法的實(shí)現(xiàn)提供了重要的支撐。對(duì)于大數(shù)據(jù)而言,大數(shù)據(jù)分析丟不掉計(jì)算機(jī)科學(xué)這個(gè)屬性的一個(gè)重要原因還不單純是因?yàn)樾枰y(tǒng)計(jì)軟件來(lái)協(xié)助基本的統(tǒng)計(jì)分析和計(jì)算,而是大數(shù)據(jù)并不能像早先在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)那樣可以直接用于統(tǒng)計(jì)分析。事實(shí)上,面對(duì)越來(lái)越龐雜的數(shù)據(jù),核心的統(tǒng)計(jì)方法并沒(méi)有實(shí)質(zhì)性的改變,改變的只是實(shí)現(xiàn)它的算法。因此,從某種程度上來(lái)講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計(jì)學(xué)的方法論,而是計(jì)算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲(chǔ)、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對(duì),是如何實(shí)現(xiàn)統(tǒng)計(jì)分析的輔助工具,核心的數(shù)據(jù)分析邏輯并沒(méi)有實(shí)質(zhì)性的改變。因此,就目前而言,大數(shù)據(jù)分析的關(guān)鍵是計(jì)算機(jī)技術(shù)如何更新升級(jí)來(lái)適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計(jì)分析的需要。
(三)應(yīng)用維度
在商業(yè)應(yīng)用領(lǐng)域,數(shù)據(jù)科學(xué)被定義為,將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的商業(yè)信息①的完整過(guò)程。數(shù)據(jù)科學(xué)家要同時(shí)具備數(shù)據(jù)分析技術(shù)和商業(yè)敏感性等綜合技能。換句話說(shuō),數(shù)據(jù)科學(xué)家不僅要了解數(shù)據(jù)的來(lái)源、類型和存儲(chǔ)調(diào)用方式,而且還要知曉如何選擇相應(yīng)的分析方法,同時(shí)對(duì)分析結(jié)果也能做出切合實(shí)際的解釋②。這實(shí)際上提出了兩個(gè)層面的要求:①長(zhǎng)期目標(biāo)是數(shù)據(jù)科學(xué)家從一開始就應(yīng)該熟悉整個(gè)數(shù)據(jù)分析流程,而不是數(shù)據(jù)庫(kù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、經(jīng)濟(jì)學(xué)、商業(yè)分析等片段化碎片化的知識(shí)。②短期目標(biāo)實(shí)際上是一個(gè)“二級(jí)定義”,即,鼓勵(lì)已經(jīng)在專業(yè)領(lǐng)域內(nèi)有所成就的統(tǒng)計(jì)學(xué)家、程序員、商業(yè)分析師相互學(xué)習(xí)。在提及數(shù)據(jù)科學(xué)的相關(guān)文獻(xiàn)中,對(duì)應(yīng)用領(lǐng)域有更多的傾向;數(shù)據(jù)科學(xué)與統(tǒng)計(jì)學(xué)、數(shù)學(xué)等其他學(xué)科的區(qū)別恰在于其更傾向于實(shí)際應(yīng)用。甚至有觀點(diǎn)認(rèn)為,數(shù)據(jù)科學(xué)是為應(yīng)對(duì)大數(shù)據(jù)現(xiàn)象而專門設(shè)定的一個(gè)“職業(yè)”。其中,商業(yè)敏感性是數(shù)據(jù)科學(xué)家區(qū)別于一般統(tǒng)計(jì)人員的基本素質(zhì)。對(duì)數(shù)據(jù)的簡(jiǎn)單收集和報(bào)告不是數(shù)據(jù)科學(xué)的要義,數(shù)據(jù)科學(xué)強(qiáng)調(diào)對(duì)數(shù)據(jù)多角度的理解,以及如何就大數(shù)據(jù)提出相關(guān)的問(wèn)題(很多重要的問(wèn)題,我們非但不知道答案而且不知道問(wèn)題何在以及如何發(fā)問(wèn))。同時(shí)數(shù)據(jù)科學(xué)家要有良好的表達(dá)能力,能將數(shù)據(jù)中所發(fā)現(xiàn)的事實(shí)清楚地表達(dá)給相關(guān)部門以便實(shí)現(xiàn)有效協(xié)作。從商業(yè)應(yīng)用和服務(wù)社會(huì)的角度來(lái)看,強(qiáng)調(diào)應(yīng)用這個(gè)維度無(wú)可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念,數(shù)據(jù)分析的目的很大程度上也是為了增進(jìn)商業(yè)理解,而且包括數(shù)據(jù)科學(xué)家、首席信息官這些提法也都肇始于實(shí)務(wù)部門。不過(guò),早在20世紀(jì)90年代中期,已故圖靈獎(jiǎng)得主格雷(JimGray)就已經(jīng)意識(shí)到,數(shù)據(jù)庫(kù)技術(shù)的下一個(gè)“大數(shù)據(jù)”挑戰(zhàn)將會(huì)來(lái)自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。2008年9月4日刊出的《自然》以“bigdata”作為專題(封面)探討了環(huán)境科學(xué)、生物醫(yī)藥、互聯(lián)網(wǎng)技術(shù)等領(lǐng)域所面臨的大數(shù)據(jù)挑戰(zhàn)。2011年2月11日,《科學(xué)》攜其子刊《科學(xué)-信號(hào)傳導(dǎo)》、《科學(xué)-轉(zhuǎn)譯醫(yī)學(xué)》、《科學(xué)-職業(yè)》專門就日益增長(zhǎng)的科學(xué)研究數(shù)據(jù)進(jìn)行了廣泛的討論。格雷還進(jìn)一步提出科學(xué)研究的“第四范式”是數(shù)據(jù)(數(shù)據(jù)密集型科學(xué)),不同于實(shí)驗(yàn)、理論、和計(jì)算這三種范式,在該范式下,需要“將計(jì)算用于數(shù)據(jù),而非將數(shù)據(jù)用于計(jì)算”。這種觀點(diǎn)實(shí)際上是將數(shù)據(jù)從計(jì)算科學(xué)中單獨(dú)區(qū)別開來(lái)了。
三、數(shù)據(jù)科學(xué)范式對(duì)統(tǒng)計(jì)分析過(guò)程的直接影響
以前所謂的大規(guī)模數(shù)據(jù)都是封閉于一個(gè)機(jī)構(gòu)內(nèi)的(數(shù)據(jù)孤島),而大數(shù)據(jù)注重的是數(shù)據(jù)集間的關(guān)聯(lián)關(guān)系,也可以說(shuō)大數(shù)據(jù)讓孤立的數(shù)據(jù)形成了新的聯(lián)系,是一種整體的、系統(tǒng)的觀念。從這個(gè)層面來(lái)說(shuō),將大數(shù)據(jù)稱為“大融合數(shù)據(jù)”或許更為恰當(dāng)。事實(shí)上,孤立的大數(shù)據(jù),其價(jià)值十分有限,大數(shù)據(jù)的革新恰在于它與傳統(tǒng)數(shù)據(jù)的結(jié)合、線上和線下數(shù)據(jù)的結(jié)合,當(dāng)放到更大的環(huán)境中所產(chǎn)生的“1+1>2”的價(jià)值。譬如消費(fèi)行為記錄與企業(yè)生產(chǎn)數(shù)據(jù)結(jié)合,移動(dòng)通訊基站定位數(shù)據(jù)用于優(yōu)化城市交通設(shè)計(jì),微博和社交網(wǎng)絡(luò)數(shù)據(jù)用于購(gòu)物推薦,搜索數(shù)據(jù)用于流感預(yù)測(cè)、利用社交媒體數(shù)據(jù)監(jiān)測(cè)食品價(jià)等等。特別是數(shù)據(jù)集之間建立的均衡關(guān)系,一方面無(wú)形中增強(qiáng)了對(duì)數(shù)據(jù)質(zhì)量的監(jiān)督和約束;另一方面,為過(guò)去難以統(tǒng)計(jì)的指標(biāo)和變量提供了另辟蹊徑的思路。從統(tǒng)計(jì)學(xué)的角度來(lái)看,數(shù)據(jù)科學(xué)(大數(shù)據(jù))對(duì)統(tǒng)計(jì)分析過(guò)程的各個(gè)環(huán)節(jié)(數(shù)據(jù)收集、整理、分析、評(píng)價(jià)、等)都提出了挑戰(zhàn),其中,集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個(gè)方面。
(一)數(shù)據(jù)收集方面
在統(tǒng)計(jì)學(xué)被作為一個(gè)獨(dú)立的學(xué)科分離出來(lái)之前(1900年前),統(tǒng)計(jì)學(xué)家們就已經(jīng)開始處理大規(guī)模數(shù)據(jù)了,但是這個(gè)時(shí)期主要是全國(guó)范圍的普查登記造冊(cè),至多是一些簡(jiǎn)單的匯總和比較。之后(1920-1960年)的焦點(diǎn)逐漸縮聚在小規(guī)模數(shù)據(jù)(樣本),大部分經(jīng)典的統(tǒng)計(jì)方法(統(tǒng)計(jì)推斷)以及現(xiàn)代意義上的統(tǒng)計(jì)調(diào)查(抽樣調(diào)查)正是在這個(gè)時(shí)期產(chǎn)生。隨后的45年里,統(tǒng)計(jì)方法因廣泛的應(yīng)用而得到快速發(fā)展。變革再次來(lái)自于統(tǒng)計(jì)分析的初始環(huán)節(jié)———數(shù)據(jù)收集方式的轉(zhuǎn)變:傳統(tǒng)的統(tǒng)計(jì)調(diào)查方法通常是經(jīng)過(guò)設(shè)計(jì)的、系統(tǒng)收集的,而大數(shù)據(jù)是零散實(shí)錄的、有機(jī)的,這些數(shù)據(jù)通常是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,比如社交媒體數(shù)據(jù)、搜索記錄、網(wǎng)絡(luò)日志等數(shù)據(jù)流等,而且數(shù)據(jù)隨時(shí)都在增加(數(shù)據(jù)集是動(dòng)態(tài)的)。與以往大規(guī)模數(shù)據(jù)不同的是,數(shù)據(jù)來(lái)源和類型更加豐富,數(shù)據(jù)庫(kù)間的關(guān)聯(lián)性也得到了前所未有的重視(大數(shù)據(jù)的組織形式是數(shù)據(jù)網(wǎng)絡(luò)),問(wèn)題也變得更加復(fù)雜。隨著移動(dòng)電話和網(wǎng)絡(luò)的逐漸滲透,固定電話不再是識(shí)別住戶的有效工具變量,相應(yīng)的無(wú)回答率也在增加(移動(dòng)電話的拒訪率一般高于固定電話),同時(shí)統(tǒng)計(jì)調(diào)查的成本在增加,人口的流動(dòng)性在增加,隱私意識(shí)以及法律對(duì)隱私的保護(hù)日益趨緊,涉及個(gè)人信息的數(shù)據(jù)從常規(guī)調(diào)查中越來(lái)越難以取得(從各國(guó)的經(jīng)驗(yàn)來(lái)看,拒訪率或無(wú)回答率的趨勢(shì)是增加的),對(duì)時(shí)效性的要求也越來(lái)越高。因此,官方統(tǒng)計(jì)的數(shù)據(jù)來(lái)源已經(jīng)無(wú)法局限于傳統(tǒng)的統(tǒng)計(jì)調(diào)查,迫切需要整合部門行政記錄數(shù)據(jù)、商業(yè)記錄數(shù)據(jù)、個(gè)人行為記錄數(shù)據(jù)等多渠道數(shù)據(jù)源,與部門和搜索引擎服務(wù)商展開更廣泛的合作。
(二)數(shù)據(jù)分析方面
現(xiàn)代統(tǒng)計(jì)分析方法的核心是抽樣推斷(參數(shù)估計(jì)和假設(shè)檢驗(yàn)),然而數(shù)據(jù)收集方式的改變直接淡化了樣本的意義。比如基于瀏覽和偏好數(shù)據(jù)構(gòu)建的推薦算法,誠(chéng)然改進(jìn)算法可以改善推薦效果,但是增加數(shù)據(jù)同樣可以達(dá)到相同的目的,甚至效果更好。即所謂的“大量的數(shù)據(jù)勝于好的算法”這與統(tǒng)計(jì)學(xué)的關(guān)鍵定律(大數(shù)定律和中心極限定理)是一致的。同樣,在大數(shù)據(jù)分析中,可以用數(shù)量來(lái)產(chǎn)生質(zhì)量,而不再需要用樣本來(lái)推斷總體。事實(shí)上,在某些場(chǎng)合(比如社會(huì)網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法成為計(jì)算機(jī)時(shí)代統(tǒng)計(jì)學(xué)發(fā)展無(wú)法回避的一個(gè)重要趨勢(shì)。算法模型不僅對(duì)數(shù)據(jù)分布結(jié)構(gòu)有更少的限制性假定,而且在計(jì)算效率上有很大的優(yōu)勢(shì)。特別是一些積極的開源軟件的支撐,以及天生與計(jì)算機(jī)的相容性,使算法模型越來(lái)越受到學(xué)界的廣泛重視。大數(shù)據(jù)分析首先涉及到存儲(chǔ)、傳輸?shù)却髷?shù)據(jù)管理方面的問(wèn)題。僅從數(shù)量上來(lái)看,信息爆炸、數(shù)據(jù)過(guò)剩、數(shù)據(jù)泛濫、數(shù)據(jù)墳?zāi)埂⒇S富的數(shù)據(jù)貧乏的知識(shí)……這些詞組表達(dá)的主要是我們匱乏的、捉襟見肘的存儲(chǔ)能力,同時(shí),存儲(chǔ)數(shù)據(jù)中有利用價(jià)值的部分卻少之又少或塵封窖藏難以被發(fā)現(xiàn)。這除了對(duì)開采工具的渴求,當(dāng)時(shí)的情緒主要還是遷怨于盲目的記錄,把過(guò)多精力放在捕捉和存儲(chǔ)外在信息。在這種情況下,開采有用的知識(shí)等價(jià)于拋棄無(wú)用的數(shù)據(jù)。然而,大數(shù)據(jù)時(shí)代的思路改變了,開始變本加厲巨細(xì)靡遺地記錄一切可以記錄的數(shù)據(jù)。因?yàn)?數(shù)據(jù)再怎么拋棄還是會(huì)越來(lái)越多。我們不能通過(guò)刪減數(shù)據(jù)來(lái)適應(yīng)自己的無(wú)能,為自己不愿做出改變找借口,而是應(yīng)該面對(duì)現(xiàn)實(shí),提高處理海量數(shù)據(jù)的能力。退一步,該刪除哪些數(shù)據(jù)呢?當(dāng)前無(wú)用的數(shù)據(jù)將來(lái)也無(wú)用嗎?顯然刪除數(shù)據(jù)的成本要大于存儲(chǔ)的成本。大數(shù)據(jù)存儲(chǔ)目前廣泛應(yīng)用的是GFS、HDFS等基于計(jì)算機(jī)群組的文件系統(tǒng),它可以通過(guò)簡(jiǎn)單增加計(jì)算機(jī)來(lái)無(wú)限地?cái)U(kuò)充存儲(chǔ)能力。值得注意的是,分布式文件系統(tǒng)存儲(chǔ)的數(shù)據(jù)僅僅是整個(gè)架構(gòu)中最基礎(chǔ)的描述,是為其他部件服務(wù)的(比如MapReduce),并不能直接用于統(tǒng)計(jì)分析。而NoSQL這類分布式存儲(chǔ)系統(tǒng)可以實(shí)現(xiàn)高級(jí)查詢語(yǔ)言,事實(shí)上,有些RDBMS開始借鑒MapReduce的一些思路,而基于MapReduce的高級(jí)查詢語(yǔ)言也使MapReduce更接近傳統(tǒng)的數(shù)據(jù)庫(kù)編程,二者的差異將變得越來(lái)越模糊。大數(shù)據(jù)分析的可行性問(wèn)題指的是,數(shù)據(jù)量可能大到已經(jīng)超過(guò)了目前的存儲(chǔ)能力,或者盡管沒(méi)有大到無(wú)法存儲(chǔ),但是如果算法對(duì)內(nèi)存和處理器要求很高,那么數(shù)據(jù)相對(duì)也就“大”了。換句話說(shuō),可行性問(wèn)題主要是,數(shù)據(jù)量太大了,或者算法的復(fù)雜度太高。大數(shù)據(jù)分析的有效性問(wèn)題指的是,盡管目前的硬件條件允許,但是耗時(shí)太久,無(wú)法在可容忍的或者說(shuō)可以接受的時(shí)間范圍內(nèi)完成。目前對(duì)有效性的解決辦法是采用并行處理。注意到,高性能計(jì)算和網(wǎng)格計(jì)算也是并行處理,但是對(duì)于大數(shù)據(jù)而言,由于很多節(jié)點(diǎn)需要訪問(wèn)大量數(shù)據(jù),因此很多計(jì)算節(jié)點(diǎn)會(huì)因?yàn)榫W(wǎng)絡(luò)帶寬的限制而不得不空閑等待。而MapReduce會(huì)盡量在計(jì)算節(jié)點(diǎn)上存儲(chǔ)數(shù)據(jù),以實(shí)現(xiàn)數(shù)據(jù)的本地快速訪問(wèn)。因此,數(shù)據(jù)本地化是MapReduce的核心特征。
四、結(jié)論
(一)數(shù)據(jù)科學(xué)不能簡(jiǎn)單地理解為統(tǒng)計(jì)學(xué)的重命名,二者所指“數(shù)據(jù)”并非同一概念,前者更為寬泛,不僅包括結(jié)構(gòu)型數(shù)據(jù),而且還包括文本、圖像、視頻、音頻、網(wǎng)絡(luò)日志等非結(jié)構(gòu)型和半結(jié)構(gòu)型數(shù)據(jù);同時(shí),數(shù)量級(jí)也是后者難以企及的(PB以上)。但是數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué),數(shù)據(jù)科學(xué)可以看作是統(tǒng)計(jì)學(xué)在研究范圍(對(duì)象)和分析方法上不斷擴(kuò)展的結(jié)果,特別是數(shù)據(jù)導(dǎo)向的、基于算法的數(shù)據(jù)分析方法越來(lái)越受到學(xué)界的廣泛重視。
(二)從某種程度上來(lái)講,大數(shù)據(jù)考驗(yàn)的并不是統(tǒng)計(jì)學(xué)的方法論,而是計(jì)算機(jī)科學(xué)技術(shù)和算法的適應(yīng)性。譬如大數(shù)據(jù)的存儲(chǔ)、管理以及分析架構(gòu),這些都是技術(shù)上的應(yīng)對(duì),核心的數(shù)據(jù)分析邏輯并沒(méi)有實(shí)質(zhì)性的改變。因此,大數(shù)據(jù)分析的關(guān)鍵是計(jì)算機(jī)技術(shù)如何更新升級(jí)以適應(yīng)這種變革,以便可以像從前一樣滿足統(tǒng)計(jì)分析的需要。
(三)大數(shù)據(jù)問(wèn)題很大程度上來(lái)自于商業(yè)領(lǐng)域,受商業(yè)利益驅(qū)動(dòng),因此數(shù)據(jù)科學(xué)還被普遍定義為,將數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的商業(yè)信息的完整過(guò)程。這種強(qiáng)調(diào)應(yīng)用維度的觀點(diǎn)無(wú)可厚非,因?yàn)榇颂幨菙?shù)據(jù)產(chǎn)生的土壤,符合數(shù)據(jù)科學(xué)數(shù)據(jù)導(dǎo)向的理念。不過(guò),早在20世紀(jì)90年代中期,已故圖靈獎(jiǎng)得主格雷就已經(jīng)意識(shí)到,數(shù)據(jù)庫(kù)技術(shù)的下一個(gè)“大數(shù)據(jù)”挑戰(zhàn)將會(huì)來(lái)自科學(xué)領(lǐng)域而非商業(yè)領(lǐng)域(科學(xué)研究領(lǐng)域成為產(chǎn)生大數(shù)據(jù)的重要土壤)。他提出科學(xué)研究的“第四范式”是數(shù)據(jù),不同于實(shí)驗(yàn)、理論、和計(jì)算這三種范式,在該范式下,需要“將計(jì)算用于數(shù)據(jù),而非將數(shù)據(jù)用于計(jì)算”。這種觀點(diǎn)實(shí)際上將數(shù)據(jù)從計(jì)算科學(xué)中單獨(dú)區(qū)別開了。
(四)數(shù)據(jù)科學(xué)范式對(duì)統(tǒng)計(jì)分析過(guò)程的各個(gè)環(huán)節(jié)都提出了挑戰(zhàn),集中表現(xiàn)在數(shù)據(jù)收集和數(shù)據(jù)分析這兩個(gè)方面。數(shù)據(jù)收集不再是刻意的、經(jīng)過(guò)設(shè)計(jì)的,而更多的是用戶使用電子數(shù)碼產(chǎn)品的副產(chǎn)品或用戶自行產(chǎn)生的內(nèi)容,這種改變的直接影響是淡化了樣本的意義,同時(shí)增進(jìn)了數(shù)據(jù)的客觀性。事實(shí)上,在某些場(chǎng)合(比如社會(huì)網(wǎng)絡(luò)數(shù)據(jù)),抽樣本身是困難的。數(shù)據(jù)的存儲(chǔ)和分析也不再一味地依賴于高性能計(jì)算機(jī),而是轉(zhuǎn)向由中低端設(shè)備構(gòu)成的大規(guī)模群組并行處理,采用橫向擴(kuò)展的方式。
【關(guān)鍵詞】統(tǒng)計(jì)學(xué);統(tǒng)計(jì)思想;認(rèn)識(shí)
1關(guān)于統(tǒng)計(jì)學(xué)
統(tǒng)計(jì)學(xué)是一門實(shí)質(zhì)性的社會(huì)科學(xué),既研究社會(huì)生活的客觀規(guī)律,也研究統(tǒng)計(jì)方法。統(tǒng)計(jì)學(xué)是繼承和發(fā)展基礎(chǔ)統(tǒng)計(jì)的理論成果,堅(jiān)持統(tǒng)計(jì)學(xué)的社會(huì)科學(xué)性質(zhì),使統(tǒng)計(jì)理論研究更接近統(tǒng)計(jì)工作實(shí)際,在國(guó)家和社會(huì)得到廣泛發(fā)展。
2統(tǒng)計(jì)學(xué)中的幾種統(tǒng)計(jì)思想
2.1統(tǒng)計(jì)思想的形成
統(tǒng)計(jì)思想不是天然形成的,需要經(jīng)歷統(tǒng)計(jì)觀念、統(tǒng)計(jì)意識(shí)、統(tǒng)計(jì)理念等階段。統(tǒng)計(jì)思想是根據(jù)人類社會(huì)需求的變化而開展各種統(tǒng)計(jì)實(shí)踐、統(tǒng)計(jì)理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計(jì)思想。
2.2比較常用的幾種統(tǒng)計(jì)思想
所謂統(tǒng)計(jì)思想,就是統(tǒng)計(jì)實(shí)際工作、統(tǒng)計(jì)學(xué)理論及應(yīng)用研究中必須遵循的基本理念和指導(dǎo)思想。統(tǒng)計(jì)思想主要包括:均值思想、變異思想、估計(jì)思想、相關(guān)思想、擬合思想、檢驗(yàn)思想。現(xiàn)分述如下:
2.2.1均值思想
均值是對(duì)所要研究對(duì)象的簡(jiǎn)明而重要的代表。均值概念幾乎涉及所有統(tǒng)計(jì)學(xué)理論,是統(tǒng)計(jì)學(xué)的基本思想。均值思想也要求從總體上看問(wèn)題,但要求觀察其一般發(fā)展趨勢(shì),避免個(gè)別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.2.2變異思想
統(tǒng)計(jì)研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計(jì)方法就是要認(rèn)識(shí)事物數(shù)量方面的差異。統(tǒng)計(jì)學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對(duì)同類事物特征的抽象和宏觀度量。
2.2.3估計(jì)思想
估計(jì)以樣本推測(cè)總體,是對(duì)同類事物的由此及彼式的認(rèn)識(shí)方法。使用估計(jì)方法有一個(gè)預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計(jì)理論對(duì)置信程度的測(cè)量就是保持邏輯嚴(yán)謹(jǐn)?shù)谋匾襟E。
2.2.4相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個(gè)別事務(wù)所組成,這些個(gè)別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個(gè)體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
2.2.5擬合思想
擬合是對(duì)不同類型事物之間關(guān)系之表象的抽象。任何一個(gè)單一的關(guān)系必須依賴其他關(guān)系而存在,所有實(shí)際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對(duì)規(guī)律或趨勢(shì)的擬合。擬合的成果是模型,反映一般趨勢(shì)。趨勢(shì)表達(dá)的是“事物和關(guān)系的變化過(guò)程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
2.2.6檢驗(yàn)思想
統(tǒng)計(jì)方法總是歸納性的,其結(jié)論永遠(yuǎn)帶有一定的或然性,基于局部特征和規(guī)律所推廣出來(lái)的判斷不可能完全可信,檢驗(yàn)過(guò)程就是利用樣本的實(shí)際資料來(lái)檢驗(yàn)事先對(duì)總體某些數(shù)量特征的假設(shè)是否可信。
2.3統(tǒng)計(jì)思想的特點(diǎn)
作為一門應(yīng)用統(tǒng)計(jì)學(xué),它從數(shù)理統(tǒng)計(jì)學(xué)派汲取新的營(yíng)養(yǎng),并且越來(lái)越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來(lái)越密切,但在統(tǒng)計(jì)思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點(diǎn)能從以下四個(gè)方面體現(xiàn)出:(1)統(tǒng)計(jì)思想強(qiáng)調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計(jì)思想強(qiáng)調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計(jì)思想強(qiáng)調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計(jì)思想強(qiáng)調(diào)定性分析與定量分析的統(tǒng)一。
3對(duì)統(tǒng)計(jì)思想的一些思考
3.1要更正當(dāng)前存在的一些不正確的思想認(rèn)識(shí)
英國(guó)著名生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾頓曾經(jīng)說(shuō)過(guò):“統(tǒng)計(jì)學(xué)具有處理復(fù)雜問(wèn)題的非凡能力,當(dāng)科學(xué)的探索者在前進(jìn)的過(guò)程中荊棘載途時(shí),唯有統(tǒng)計(jì)學(xué)可以幫助他們打開一條通道”。但事實(shí)并非這么簡(jiǎn)單,因?yàn)槲覀兯媾R的現(xiàn)實(shí)問(wèn)題可能要比想象的復(fù)雜得多。此外,有些人認(rèn)為方法越復(fù)雜越科學(xué),在實(shí)際的分析研究中,喜歡簡(jiǎn)單問(wèn)題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實(shí),真正的科學(xué)是使復(fù)雜的問(wèn)題簡(jiǎn)單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認(rèn)為只有推斷統(tǒng)計(jì)才是科學(xué),描述統(tǒng)計(jì)不是科學(xué),并延伸擴(kuò)大到只有數(shù)理統(tǒng)計(jì)是科學(xué)、社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)不是科學(xué)這樣的認(rèn)識(shí)。這種認(rèn)識(shí)是極其錯(cuò)誤的,至少是對(duì)社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)的無(wú)知。比利時(shí)數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計(jì)學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計(jì)學(xué)創(chuàng)建成改良社會(huì)的一種工具。經(jīng)濟(jì)學(xué)和人口統(tǒng)計(jì)學(xué)中的某些近代概念,如GNP、人口增長(zhǎng)率等等,均是凱特勒及其弟子們的遺產(chǎn)。新晨
3.2要不斷拓展統(tǒng)計(jì)思維方式
統(tǒng)計(jì)學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測(cè)到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識(shí)或去驗(yàn)證一個(gè)假設(shè),即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過(guò)偶然性去發(fā)現(xiàn)必然性。演繹推理是對(duì)統(tǒng)計(jì)認(rèn)識(shí)能力的深化,尤其是在根據(jù)必然性去研究和認(rèn)識(shí)偶然性方面,具有很大的作用。
3.3深化對(duì)數(shù)據(jù)分析的認(rèn)識(shí)
任何統(tǒng)計(jì)研究都離不開數(shù)據(jù)分析。因?yàn)檫@是得到統(tǒng)計(jì)研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計(jì)分析的形式隨時(shí)代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計(jì)分析的目的卻一直沒(méi)有改變。對(duì)統(tǒng)計(jì)數(shù)據(jù)分析的原因有以下三個(gè)方面:一是基于同樣的數(shù)據(jù)會(huì)得出不同、甚至相反的分析結(jié)論;二是我們所面對(duì)的分析數(shù)據(jù)有時(shí)是缺損的或存在不真實(shí)性;三是我們所面對(duì)的分析數(shù)據(jù)有時(shí)則又是海量的,讓人無(wú)從下手。雖然統(tǒng)計(jì)數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析(DDA)、推斷性數(shù)據(jù)分析(IDA)和探索性數(shù)據(jù)分析(EDA)等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問(wèn)題似乎也越來(lái)越多。所以,我們必須深化對(duì)數(shù)據(jù)分析的認(rèn)識(shí),圍繞“準(zhǔn)確解答特定問(wèn)題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
參考文獻(xiàn):
[1]陳福貴.統(tǒng)計(jì)思想雛議[J]北京統(tǒng)計(jì),2004,(05).
[2]龐有貴.統(tǒng)計(jì)工作及統(tǒng)計(jì)思想[J]科技情報(bào)開發(fā)與經(jīng)濟(jì),2004,(03).
一、統(tǒng)計(jì)學(xué)中的幾種常見統(tǒng)計(jì)思想
統(tǒng)計(jì)思想主要包括:均值思想、變異思想、估計(jì)思想、相關(guān)思想、擬合思想、檢驗(yàn)思想等。統(tǒng)計(jì)思想不是天然形成的,需要經(jīng)歷統(tǒng)計(jì)觀念、統(tǒng)計(jì)意識(shí)、統(tǒng)計(jì)理念等階段。統(tǒng)計(jì)思想是根據(jù)人類社會(huì)需求的變化而開展各種統(tǒng)計(jì)實(shí)踐、統(tǒng)計(jì)理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計(jì)思想。作為一門應(yīng)用統(tǒng)計(jì)學(xué),它從數(shù)理統(tǒng)計(jì)學(xué)派汲取新的營(yíng)養(yǎng),并且越來(lái)越廣泛的應(yīng)用數(shù)學(xué)方法,聯(lián)系也越來(lái)越密切,但在統(tǒng)計(jì)思想的體現(xiàn)上與通用學(xué)派相比,還有著自己的特別之處。其基本特點(diǎn):(1)統(tǒng)計(jì)思想強(qiáng)調(diào)方法性與應(yīng)用性的統(tǒng)一;(2)統(tǒng)計(jì)思想強(qiáng)調(diào)科學(xué)性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計(jì)思想強(qiáng)調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計(jì)思想強(qiáng)調(diào)定性分析與定量分析的統(tǒng)一。
1.均值思想
均值是對(duì)所要研究對(duì)象的簡(jiǎn)明而重要的代表。均值概念幾乎涉及所有統(tǒng)計(jì)學(xué)理論,是統(tǒng)計(jì)學(xué)的基本思想。均值思想也要求從總體上看問(wèn)題,但要求觀察其一般發(fā)展趨勢(shì),避免個(gè)別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想
統(tǒng)計(jì)研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計(jì)方法就是要認(rèn)識(shí)事物數(shù)量方面的差異。統(tǒng)計(jì)學(xué)反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對(duì)同類事物特征的抽象和宏觀度量。
3.估計(jì)思想
估計(jì)以樣本推測(cè)總體,是對(duì)同類事物的由此及彼式的認(rèn)識(shí)方法。使用估計(jì)方法有一個(gè)預(yù)設(shè):樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計(jì)理論對(duì)置信程度的測(cè)量就是保持邏輯嚴(yán)謹(jǐn)?shù)谋匾襟E。
4.相關(guān)思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個(gè)別事務(wù)所組成,這些個(gè)別事物是相互關(guān)聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎(chǔ)上形成。因而,總體中的個(gè)體之間、這一總體與另一總體之間總是相互關(guān)聯(lián)的。
5.擬合思想
擬合是對(duì)不同類型事物之間關(guān)系之表象的抽象。任何一個(gè)單一的關(guān)系必須依賴其他關(guān)系而存在,所有實(shí)際事物的關(guān)系都表現(xiàn)得非常復(fù)雜,這種方法就是對(duì)規(guī)律或趨勢(shì)的擬合。擬合的成果是模型,反映一般趨勢(shì)。趨勢(shì)表達(dá)的是“事物和關(guān)系的變化過(guò)程在數(shù)量上所體現(xiàn)的模式和基于此而預(yù)示的可能性”。
6.檢驗(yàn)思想
統(tǒng)計(jì)方法總是歸納性的,其結(jié)論永遠(yuǎn)帶有一定的或然性,基于局部特征和規(guī)律所推廣出來(lái)的判斷不可能完全可信,檢驗(yàn)過(guò)程就是利用樣本的實(shí)際資料來(lái)檢驗(yàn)事先對(duì)總體某些數(shù)量特征的假設(shè)是否可信。
二、對(duì)統(tǒng)計(jì)思想的若干思考
1.要改變當(dāng)前存在的一些不正確的思想認(rèn)識(shí)
英國(guó)著名生物學(xué)家、統(tǒng)計(jì)學(xué)家高爾頓曾經(jīng)說(shuō)過(guò):“統(tǒng)計(jì)學(xué)具有處理復(fù)雜問(wèn)題的非凡能力,當(dāng)科學(xué)的探索者在前進(jìn)的過(guò)程中荊棘載途時(shí),唯有統(tǒng)計(jì)學(xué)可以幫助他們打開一條通道”。但事實(shí)并非這么簡(jiǎn)單,因?yàn)槲覀兯媾R的現(xiàn)實(shí)問(wèn)題可能要比想象的復(fù)雜得多。此外,有些人認(rèn)為方法越復(fù)雜,越科學(xué)。在實(shí)際的分析研究中,喜歡簡(jiǎn)單問(wèn)題復(fù)雜化,似乎這樣才能顯示其科學(xué)含量。其實(shí),真正的科學(xué)是使復(fù)雜的問(wèn)題簡(jiǎn)單化而不是追求復(fù)雜化。與此相關(guān)聯(lián)的是,有些人認(rèn)為只有推斷統(tǒng)計(jì)才是科學(xué),描述統(tǒng)計(jì)不是科學(xué),并延伸擴(kuò)大到只有數(shù)理統(tǒng)計(jì)是科學(xué)、社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)不是科學(xué)這樣的認(rèn)識(shí)。這種認(rèn)識(shí)是極其錯(cuò)誤的,至少是對(duì)社會(huì)經(jīng)濟(jì)統(tǒng)計(jì)的無(wú)知。比利時(shí)數(shù)學(xué)家凱特勒不僅研究概率論,并且注重于把統(tǒng)計(jì)學(xué)應(yīng)用于人類事物,試圖把統(tǒng)計(jì)學(xué)創(chuàng)建成改良社會(huì)的一種工具。經(jīng)濟(jì)學(xué)和人口統(tǒng)計(jì)學(xué)中的某些近代概念,如GNP、人口增長(zhǎng)率等等,均是凱特勒及其弟子們的遺產(chǎn)。
2.要不斷拓展統(tǒng)計(jì)思維方式
統(tǒng)計(jì)學(xué)是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測(cè)到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識(shí)或去驗(yàn)證一個(gè)假設(shè)。即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎(chǔ)上透過(guò)偶然性去發(fā)現(xiàn)必然性。演繹推理是對(duì)統(tǒng)計(jì)認(rèn)識(shí)能力的深化,尤其是在根據(jù)必然性去研究和認(rèn)識(shí)偶然性方面,具有很大的作用。
關(guān)鍵詞 大數(shù)據(jù)時(shí)代 數(shù)據(jù)分析
一、相關(guān)概述
大數(shù)據(jù)環(huán)境下經(jīng)濟(jì)社會(huì)生活都出現(xiàn)了較大的變化,同時(shí)自然科學(xué)和人文科學(xué)等也都有了較大的提升。在此背景下,依靠計(jì)算機(jī)信息技術(shù)的不斷發(fā)展,研究者能夠使用一定的方法和技能對(duì)較為復(fù)雜且規(guī)模較大的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)處理,并有效挖掘其中的價(jià)值信息。大數(shù)據(jù)環(huán)境為統(tǒng)計(jì)學(xué)的研究和發(fā)展提供了好的機(jī)遇,同時(shí)也對(duì)統(tǒng)計(jì)學(xué)的拓展提出了一定的挑戰(zhàn)。
大數(shù)據(jù)環(huán)境下數(shù)據(jù)在各個(gè)行業(yè)和領(lǐng)域中都有所滲透,并逐漸成為主要的生產(chǎn)要素。大數(shù)據(jù)本身具有價(jià)值密度低、數(shù)據(jù)體量大、數(shù)據(jù)類型多、數(shù)據(jù)處理速度快的特點(diǎn)。不過(guò)由于數(shù)據(jù)量的急速增長(zhǎng),也使得在數(shù)據(jù)分析和研究過(guò)程中由于數(shù)據(jù)庫(kù)缺少必要的管理工具進(jìn)行數(shù)據(jù)采集和管理,而導(dǎo)致數(shù)據(jù)搜索、數(shù)據(jù)分析、數(shù)據(jù)存取和數(shù)據(jù)共享等出現(xiàn)一定的困難。一般情況下,在大數(shù)據(jù)環(huán)境下,往往存在著數(shù)據(jù)存儲(chǔ)、處理技術(shù)、數(shù)據(jù)安全等相關(guān)的技術(shù)性問(wèn)題。這些問(wèn)題的存在一定程度上影響和制約了數(shù)據(jù)的開發(fā)和應(yīng)用效率。盡管大數(shù)據(jù)下進(jìn)行數(shù)據(jù)分析存在一定困難,但是其在實(shí)踐中的應(yīng)用空間和領(lǐng)域卻十分廣泛,對(duì)于經(jīng)濟(jì)社會(huì)的發(fā)展具有重要的推動(dòng)力。
二、大數(shù)據(jù)環(huán)境下數(shù)據(jù)分析過(guò)程分析
(一)數(shù)據(jù)的價(jià)值挖掘過(guò)程
面對(duì)海量的大數(shù)據(jù)環(huán)境,數(shù)據(jù)使用者應(yīng)當(dāng)圍繞數(shù)據(jù)分析目標(biāo)和具體要求對(duì)大數(shù)據(jù)進(jìn)行有效挖掘,提取有用數(shù)據(jù),摒棄無(wú)用數(shù)據(jù),從海量數(shù)據(jù)中進(jìn)行價(jià)值挖掘,結(jié)合數(shù)據(jù)類型提升數(shù)據(jù)使用價(jià)值。在進(jìn)行具體的大數(shù)據(jù)挖掘時(shí)可以按照具體的案例來(lái)進(jìn)行,比如在進(jìn)行廣告人群匹配時(shí),在進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)挖掘上主要是面對(duì)著兩種數(shù)據(jù)。一種是廣告庫(kù)數(shù)據(jù),主要包含了廣告庫(kù)以及廣告的客戶信息等。這種數(shù)據(jù)一般都具有較高的結(jié)構(gòu)性,能夠在傳統(tǒng)的數(shù)據(jù)庫(kù)中進(jìn)行采集和應(yīng)用、分析。另外一種數(shù)據(jù)是客戶的后期行為數(shù)據(jù)。通過(guò)對(duì)此兩種數(shù)據(jù)的結(jié)合分析,有效挖掘其中的有效價(jià)值。與此同時(shí),在具體的應(yīng)用實(shí)踐過(guò)程中,還需要積極發(fā)揮第二種信息的作用和價(jià)值,這樣能夠獲得客戶所需的信息。依靠對(duì)群體行為和群體智能的分析,最終形成具體的反饋機(jī)制和反饋流程,在此基礎(chǔ)上為信息使用者提供優(yōu)質(zhì)可靠的數(shù)據(jù)處理信息,為信息使用者科學(xué)決策提供有效的信息和數(shù)據(jù)支持。
(二)數(shù)據(jù)的處理與分析過(guò)程
在此過(guò)程中,一方面要及時(shí)更新抽樣調(diào)查的工作理念。一般情況下,大數(shù)據(jù)的樣本資料都是之前的材料匯總,這就要求在對(duì)此數(shù)據(jù)進(jìn)行分析處理時(shí)應(yīng)當(dāng)首先對(duì)數(shù)據(jù)整體進(jìn)行梳理和了解,并逐步向數(shù)據(jù)局部進(jìn)行延伸。同時(shí)在對(duì)海量數(shù)據(jù)進(jìn)行分析處理時(shí)還應(yīng)當(dāng)解決好調(diào)查目標(biāo)設(shè)定不合理、抽樣框架不穩(wěn)定以及樣本數(shù)量受限制等問(wèn)題。另一方面,也要進(jìn)一步提升大數(shù)據(jù)環(huán)境下數(shù)據(jù)精確度標(biāo)準(zhǔn)。由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)的來(lái)源比較廣,數(shù)據(jù)處理質(zhì)量和效果也各有差異,因此應(yīng)當(dāng)在允許數(shù)據(jù)之間存在準(zhǔn)確度差異的同時(shí)提升數(shù)據(jù)精準(zhǔn)度的標(biāo)準(zhǔn)。要在積極吸收各種數(shù)據(jù)資源的基礎(chǔ)上,提升數(shù)據(jù)處理能力和質(zhì)量,科學(xué)應(yīng)對(duì)數(shù)據(jù)復(fù)雜性和變量關(guān)系復(fù)雜性等問(wèn)題。除此之外,也應(yīng)當(dāng)圍繞大數(shù)據(jù)中的數(shù)據(jù)分析,對(duì)數(shù)據(jù)關(guān)系的分析重點(diǎn)進(jìn)行合理轉(zhuǎn)換。既要重視對(duì)數(shù)據(jù)中因果關(guān)系的分析和梳理,同時(shí)也要重視對(duì)事物之間相關(guān)性的分析研究,及時(shí)轉(zhuǎn)換分析思路,圍繞數(shù)據(jù)分析目標(biāo)和事物之間關(guān)聯(lián)關(guān)系進(jìn)行大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析工作。
三、大數(shù)據(jù)對(duì)統(tǒng)計(jì)的影響分析
(一)能夠進(jìn)一步拓展統(tǒng)計(jì)學(xué)研究領(lǐng)域
大數(shù)據(jù)環(huán)境對(duì)于各個(gè)研究領(lǐng)域都能夠產(chǎn)生比較大的影響,對(duì)于統(tǒng)計(jì)學(xué)也是一樣。統(tǒng)計(jì)學(xué)研究的是客體、客觀事物之間的數(shù)量關(guān)系和數(shù)量特征,數(shù)量性是統(tǒng)計(jì)學(xué)研究對(duì)象最為主要的特征。由于在傳統(tǒng)的統(tǒng)計(jì)學(xué)研究實(shí)踐中實(shí)驗(yàn)數(shù)據(jù)和調(diào)查數(shù)據(jù)是最主要的研究數(shù)據(jù),因此在大數(shù)據(jù)環(huán)境下,統(tǒng)計(jì)學(xué)研究對(duì)象既包括了之前的結(jié)構(gòu)化數(shù)據(jù),同時(shí)也包括了非結(jié)構(gòu)化數(shù)據(jù),這些非結(jié)構(gòu)化數(shù)據(jù)不能夠單純地依靠數(shù)量關(guān)系來(lái)加以衡量和表示。這其中就包括了文本、聲音、圖片、動(dòng)畫等數(shù)據(jù)信息。從這個(gè)意義上講,大數(shù)據(jù)環(huán)境下統(tǒng)計(jì)學(xué)的研究領(lǐng)域有了較大范圍的擴(kuò)展。
(二)能夠?qū)y(tǒng)計(jì)計(jì)算的規(guī)范性產(chǎn)生影響
按照傳統(tǒng)的統(tǒng)計(jì)學(xué)研究方法,在反應(yīng)事物量的特征時(shí)大都是依靠方差、平均值、相對(duì)數(shù)等來(lái)進(jìn)行,這些研究方法能夠反映出事物之間的界限和關(guān)系,并且也能夠依靠數(shù)據(jù)計(jì)算規(guī)范來(lái)反映出具體的數(shù)據(jù)。不過(guò)在當(dāng)前的大數(shù)據(jù)環(huán)境下,非結(jié)構(gòu)性數(shù)據(jù)常常難以使用傳統(tǒng)的數(shù)據(jù)計(jì)算規(guī)范來(lái)加以計(jì)算。從這個(gè)角度上講,大數(shù)據(jù)環(huán)境下統(tǒng)計(jì)的數(shù)據(jù)計(jì)算規(guī)范也受到了較大的挑戰(zhàn)。
(三)能夠?qū)y(tǒng)計(jì)的數(shù)據(jù)整理和分析過(guò)程產(chǎn)生影響
統(tǒng)計(jì)學(xué)中數(shù)據(jù)審核之前主要是針對(duì)數(shù)據(jù)的完整性和準(zhǔn)確性。不過(guò)在當(dāng)前的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)審核除了要保障原先的數(shù)據(jù)完整性、準(zhǔn)確性外,還應(yīng)當(dāng)保證數(shù)據(jù)審核的速度、效率以及數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性等。除此之外,還應(yīng)當(dāng)準(zhǔn)確確定數(shù)據(jù)處理的規(guī)模,合理確定數(shù)據(jù)量的級(jí)別。盡管大數(shù)據(jù)自身具有混亂性和不穩(wěn)定性的特點(diǎn),但是使用合理的數(shù)據(jù)整理方法也能夠在大數(shù)據(jù)中有效挖掘出數(shù)據(jù)之間的隱蔽關(guān)系,提升數(shù)據(jù)挖掘的價(jià)值性。因此,大數(shù)據(jù)下統(tǒng)計(jì)研究對(duì)象本身具有準(zhǔn)確和不準(zhǔn)確兩種情況,它們分別具有不同的價(jià)值屬性,一般情況下不需要對(duì)其進(jìn)行刪除或者替換。
對(duì)于數(shù)據(jù)存儲(chǔ)來(lái)講,之前的統(tǒng)計(jì)研究數(shù)據(jù)存儲(chǔ)過(guò)程中都是將審核、匯總或者編制的表格、圖表等,并將它們進(jìn)行適當(dāng)?shù)谋4嫣幚怼2贿^(guò)在大數(shù)據(jù)環(huán)境下進(jìn)行數(shù)據(jù)的保存就還需要重視數(shù)據(jù)存儲(chǔ)成本的管控,并結(jié)合自身實(shí)際制定規(guī)章制度和計(jì)劃合理確定數(shù)據(jù)存儲(chǔ)的規(guī)模和目錄。
(四)能夠?qū)?shù)據(jù)開發(fā)和利用過(guò)程產(chǎn)生影響
這主要涉及大數(shù)據(jù)環(huán)境下數(shù)據(jù)的積累、開發(fā)以及應(yīng)用。在傳統(tǒng)的數(shù)據(jù)統(tǒng)計(jì)工作過(guò)程中,研究者都是圍繞自身目標(biāo)來(lái)對(duì)相關(guān)數(shù)據(jù)進(jìn)行分類和匯總,通過(guò)存儲(chǔ)和提取過(guò)程,對(duì)數(shù)據(jù)進(jìn)行有效挖掘,并在此基礎(chǔ)上為后續(xù)的數(shù)據(jù)分析和查詢提供支撐。大數(shù)據(jù)環(huán)境下,數(shù)據(jù)量比較大,只有對(duì)數(shù)據(jù)信息進(jìn)行適當(dāng)處理才能夠獲得其中價(jià)值量比較高的信息。正是基于大數(shù)據(jù)自身的復(fù)雜性,統(tǒng)計(jì)研究者應(yīng)當(dāng)對(duì)前期數(shù)據(jù)進(jìn)行適當(dāng)處理。圍繞數(shù)據(jù)的規(guī)模和結(jié)構(gòu)、層次等進(jìn)行合理分類和匯總,在確保真實(shí)性的同時(shí)提升數(shù)據(jù)的價(jià)值性。與此同時(shí),由于大數(shù)據(jù)環(huán)境下數(shù)據(jù)具有流動(dòng)性特點(diǎn),使得數(shù)據(jù)本身也具有再生性特征,并進(jìn)一步增加了數(shù)據(jù)的價(jià)值性。因此有必要針對(duì)統(tǒng)計(jì)研究中的大數(shù)據(jù)進(jìn)行深入的數(shù)據(jù)挖掘,依靠數(shù)據(jù)整合提升數(shù)據(jù)價(jià)值性。在數(shù)據(jù)應(yīng)用上則主要是針對(duì)統(tǒng)計(jì)學(xué)現(xiàn)象的預(yù)測(cè)和解釋,實(shí)現(xiàn)在大數(shù)據(jù)環(huán)境下數(shù)據(jù)相關(guān)關(guān)系的預(yù)測(cè)和分析。
總的來(lái)講,大數(shù)據(jù)環(huán)境不僅改變了經(jīng)濟(jì)社會(huì)生活,也對(duì)統(tǒng)計(jì)等相關(guān)科學(xué)產(chǎn)生了巨大的影響,如何實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下的統(tǒng)計(jì)研究是統(tǒng)計(jì)學(xué)領(lǐng)域的重要課題。進(jìn)一步強(qiáng)化對(duì)大數(shù)據(jù)的理解和把握,重視大數(shù)據(jù)在統(tǒng)計(jì)中的研究和應(yīng)用,有效分析和挖掘大數(shù)據(jù)中的價(jià)值信息,更好地推動(dòng)統(tǒng)計(jì)學(xué)的理論和實(shí)踐應(yīng)用。
(次世青、高東宇單位為首都航天機(jī)械公司;次青波單位為中國(guó)航天標(biāo)準(zhǔn)化研究所)
參考文獻(xiàn)
[1] 田茂再.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)重構(gòu)研究中的幾個(gè)熱點(diǎn)問(wèn)題[J].統(tǒng)計(jì)研究,2015(05).
關(guān)鍵詞:大數(shù)據(jù);經(jīng)濟(jì)統(tǒng)計(jì);專業(yè)建設(shè)
當(dāng)前,大數(shù)據(jù)已經(jīng)滲透到社會(huì)、經(jīng)濟(jì)、政治以及文化等眾多領(lǐng)域。大數(shù)據(jù)在給各行各業(yè)帶來(lái)了新的歷史發(fā)展機(jī)遇的同時(shí),也將給各行各業(yè)帶來(lái)新的挑戰(zhàn)。顯然,對(duì)高等教育來(lái)講也同樣如此。相應(yīng)的,對(duì)直接服務(wù)于經(jīng)濟(jì)統(tǒng)計(jì)人才培養(yǎng)的經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)建設(shè)來(lái)講,迫切需要回答的問(wèn)題是,在新形勢(shì)下,專業(yè)建設(shè)遇到新的挑戰(zhàn)又將是怎樣的呢?進(jìn)一步的,為了積極應(yīng)對(duì)新的挑戰(zhàn)又需要對(duì)舊的培養(yǎng)模式進(jìn)行怎樣的修正和改進(jìn)呢?從現(xiàn)有的文獻(xiàn)資料看,雖然學(xué)術(shù)界已經(jīng)積累了大量與(經(jīng)濟(jì))統(tǒng)計(jì)學(xué)專業(yè)建設(shè)相關(guān)的研究成果(如龐皓,1991;曾五一,1999;曾五一和尚衛(wèi)平,1999;曾五一等,2010;朱宇兵,2009等),但基于大數(shù)據(jù)背景對(duì)這些問(wèn)題較為深入的研究還比較缺乏,本研究則可以視為是對(duì)此進(jìn)行彌補(bǔ)的一個(gè)努力嘗試。
1經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)建設(shè)的發(fā)展現(xiàn)狀
從某種意義上講,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)是一個(gè)新的專業(yè)。2012年10月,教育部頒布了《普通高等學(xué)校本科專業(yè)目錄(2012年)》。在新專業(yè)目錄中,除保留統(tǒng)計(jì)學(xué)為理學(xué)類一級(jí)學(xué)科(包括統(tǒng)計(jì)學(xué)和應(yīng)用統(tǒng)計(jì)學(xué)兩個(gè)二級(jí)學(xué)科)之外,在經(jīng)濟(jì)學(xué)類的經(jīng)濟(jì)學(xué)一級(jí)學(xué)科下增設(shè)經(jīng)濟(jì)統(tǒng)計(jì)學(xué)。正是在這樣的背景下,目前我國(guó)高校經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)的開設(shè)一般有兩種情況,一種是新專業(yè)目錄頒布后新設(shè)立的,如中央財(cái)經(jīng)大學(xué)、對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)、西南政法大學(xué)以及中南民族大學(xué)等;一種則是由原來(lái)的統(tǒng)計(jì)學(xué)專業(yè)更名而來(lái)的,如中南財(cái)經(jīng)政法大學(xué)、天津財(cái)經(jīng)大學(xué)、江西財(cái)經(jīng)大學(xué)、南京財(cái)經(jīng)大學(xué)以及中央民族大學(xué)等。從發(fā)展歷史過(guò)程看,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)并非是一個(gè)全新的專業(yè),而是由以前的統(tǒng)計(jì)學(xué)專業(yè)發(fā)展而來(lái)。在1998年9月國(guó)家教育部頒布的《普通高等學(xué)校本科專業(yè)目錄和專業(yè)介紹》中,統(tǒng)計(jì)學(xué)被列為理學(xué)類一級(jí)學(xué)科,但可選擇授予經(jīng)濟(jì)學(xué)或理學(xué)學(xué)位。在這種背景下,根據(jù)具體的辦學(xué)條件和偏好,各高校采用了不同的教育模式,一類是強(qiáng)調(diào)各類統(tǒng)計(jì)學(xué)所具有的共性。它肯定統(tǒng)計(jì)學(xué)的“理學(xué)性質(zhì)”,按照理學(xué)類學(xué)科的特點(diǎn)設(shè)置課程。另一類則是強(qiáng)調(diào)各類統(tǒng)計(jì)學(xué)的個(gè)性,如財(cái)經(jīng)類院校統(tǒng)計(jì)學(xué)專業(yè)(曾五一等,2010)。前者的數(shù)量較少,它是將統(tǒng)計(jì)學(xué)作為應(yīng)用數(shù)學(xué)的一個(gè)分支來(lái)看待,所開設(shè)課程主要是數(shù)學(xué)和各種數(shù)理統(tǒng)計(jì)方法。后者數(shù)量占有絕大的比重,其專業(yè)方向包括國(guó)民經(jīng)濟(jì)統(tǒng)計(jì)、經(jīng)濟(jì)統(tǒng)計(jì)、管理統(tǒng)計(jì)、金融證券統(tǒng)計(jì)等(李寶瑜,2004)。從我國(guó)統(tǒng)計(jì)學(xué)學(xué)科建設(shè)的發(fā)展過(guò)程看,其特征主要表現(xiàn)為兩個(gè)轉(zhuǎn)變,即從起初的側(cè)重理論培養(yǎng)向當(dāng)前的強(qiáng)調(diào)實(shí)際應(yīng)用轉(zhuǎn)變以及從起初的主要服務(wù)政府部門向當(dāng)前的主要服務(wù)社會(huì)企業(yè)組織轉(zhuǎn)變。由于新專業(yè)目錄頒布時(shí)間還很短,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)還沒(méi)有建立起新的培養(yǎng)模式,主要還是其前身———(經(jīng)濟(jì)學(xué)方向的)統(tǒng)計(jì)學(xué)——培養(yǎng)模式的一種延續(xù)。從我們掌握的資料看,目前各高校經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)的培養(yǎng)方案還主要是參照1998年《普通高等學(xué)校本科專業(yè)介紹》制定的,其培養(yǎng)目標(biāo)是所謂的“復(fù)合型人才”,即具有堅(jiān)實(shí)的經(jīng)濟(jì)理論基礎(chǔ),既懂?dāng)?shù)理統(tǒng)計(jì)方法、又懂經(jīng)濟(jì)統(tǒng)計(jì)方法,并能熟練掌握現(xiàn)代計(jì)算手段的經(jīng)濟(jì)統(tǒng)計(jì)人才(曾五一等,2010)。這種人才既是統(tǒng)計(jì)人才又是經(jīng)濟(jì)管理人才,不僅能勝任基層企業(yè)和政府部門的日常統(tǒng)計(jì)業(yè)務(wù),而且能從事市場(chǎng)調(diào)查、經(jīng)濟(jì)預(yù)測(cè)、信息分析和其他經(jīng)濟(jì)管理工作。相應(yīng)的,在具體的課程體系構(gòu)建和安排上,各高校大都貫徹了“大統(tǒng)計(jì)”的學(xué)科觀點(diǎn),遵循“厚基礎(chǔ)、寬口徑、重應(yīng)用”的復(fù)合型人才培養(yǎng)原則(向書堅(jiān)和平衛(wèi)英,2010),即在強(qiáng)調(diào)較為完整系統(tǒng)地介紹統(tǒng)計(jì)學(xué)主要理論和分析方法的同時(shí),還強(qiáng)調(diào)其與經(jīng)濟(jì)學(xué)其他學(xué)科的密切聯(lián)系,按照經(jīng)濟(jì)類學(xué)科的特點(diǎn)設(shè)置課程。也就是說(shuō),經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)的課程設(shè)置具有顯著的二元性特征。從各高校的具體設(shè)置看,統(tǒng)計(jì)學(xué)方面的課程一般有數(shù)學(xué)基礎(chǔ)課、概率論、數(shù)理統(tǒng)計(jì)、運(yùn)籌學(xué)、隨機(jī)過(guò)程、回歸分析、時(shí)間序列分析、多元統(tǒng)計(jì)分析、抽樣調(diào)查、非參數(shù)統(tǒng)計(jì)、統(tǒng)計(jì)預(yù)測(cè)與決策等;而經(jīng)濟(jì)學(xué)方面的課程一般則有微觀經(jīng)濟(jì)學(xué)、宏觀經(jīng)濟(jì)學(xué)、會(huì)計(jì)學(xué)、國(guó)際經(jīng)濟(jì)學(xué)以及與專業(yè)方向(如國(guó)民經(jīng)濟(jì)統(tǒng)計(jì)、財(cái)務(wù)會(huì)計(jì)統(tǒng)計(jì)、金融證券統(tǒng)計(jì)等)有關(guān)的課程。此外,和其他專業(yè)一樣,經(jīng)濟(jì)統(tǒng)計(jì)學(xué)也重視學(xué)生應(yīng)用和創(chuàng)新能力的培養(yǎng),特別強(qiáng)調(diào)本專業(yè)的畢業(yè)生應(yīng)該具有熟練地采集數(shù)據(jù)和應(yīng)用計(jì)算機(jī)分析、處理數(shù)據(jù)的能力。因此,Excel、SAS、SPSS等常用軟件的學(xué)習(xí)和訓(xùn)練也通常以實(shí)驗(yàn)課的形式被納入到課程體系中。但是,要注意的是,我國(guó)各高校在制定或修訂經(jīng)濟(jì)統(tǒng)計(jì)學(xué)培養(yǎng)方案時(shí),有意或無(wú)意地忽視了當(dāng)前隨互聯(lián)網(wǎng)技術(shù)日新月異帶來(lái)的大數(shù)據(jù)海量涌現(xiàn)。而由于大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)存在顯著的差異,各高校現(xiàn)有的經(jīng)濟(jì)統(tǒng)計(jì)培養(yǎng)模式可能需要做出重大調(diào)整。
2大數(shù)據(jù)帶來(lái)的挑戰(zhàn)
大數(shù)據(jù)之所以在眾多領(lǐng)域里引起關(guān)注,其根本的原因在于大數(shù)據(jù)蘊(yùn)含著巨大的潛在價(jià)值。相對(duì)于傳統(tǒng)的標(biāo)準(zhǔn)化數(shù)據(jù),大數(shù)據(jù)不僅體量龐大、產(chǎn)生速率極快,而且也更為全面(甚至是整體數(shù)據(jù))。因此,大數(shù)據(jù)的分析結(jié)果也更接近真實(shí)。換句話說(shuō),大數(shù)據(jù)分析往往意味著人們能夠從這些全面的數(shù)據(jù)中獲取新的洞察力,從而更有可能創(chuàng)造出新的價(jià)值,進(jìn)而帶來(lái)更大的發(fā)展。大數(shù)據(jù)蘊(yùn)含的巨大潛在價(jià)值,勢(shì)必將打破現(xiàn)有的數(shù)據(jù)邊界,使大數(shù)據(jù)逐漸成為經(jīng)濟(jì)統(tǒng)計(jì)分析的主要對(duì)象。由于大數(shù)據(jù)與傳統(tǒng)的標(biāo)準(zhǔn)數(shù)據(jù)存在顯著的差異,對(duì)未來(lái)的經(jīng)濟(jì)統(tǒng)計(jì)工作而言,大數(shù)據(jù)勢(shì)必將帶來(lái)新的問(wèn)題或挑戰(zhàn)。簡(jiǎn)要地說(shuō),大數(shù)據(jù)帶來(lái)新的問(wèn)題或挑戰(zhàn)主要來(lái)自于兩個(gè)方面,即:
(1)數(shù)據(jù)來(lái)源問(wèn)題。與傳統(tǒng)數(shù)據(jù)主要來(lái)源于抽樣調(diào)查或組織內(nèi)部不同,大數(shù)據(jù)是互聯(lián)網(wǎng)高速發(fā)展的產(chǎn)物。隨著科技環(huán)境的巨變———個(gè)人電腦的全球普及,移動(dòng)智能終端的盛行,物聯(lián)網(wǎng)和社交網(wǎng)絡(luò)的爆炸式發(fā)展,以及數(shù)以千萬(wàn)計(jì)的聯(lián)網(wǎng)傳感器節(jié)點(diǎn)在交通、汽車、工業(yè)、公用事業(yè)和零售部門等的廣泛分布,這些都讓數(shù)據(jù)的生產(chǎn)和收集的途徑更為多元、更為廣泛。不過(guò),需要特別注意的是,由于其蘊(yùn)含的巨大潛在價(jià)值,大數(shù)據(jù)已經(jīng)成為了可以與物質(zhì)和人力資本相提并論的重要生產(chǎn)要素和組織資產(chǎn)。相應(yīng)的,對(duì)各類逐利組織(尤其是企業(yè))來(lái)說(shuō),不僅需要考慮如何收集到大量的有效信息,同時(shí)也希望這些信息為其獨(dú)自所占有,如最近阿里巴巴封殺微信、京東,斷絕與社交網(wǎng)絡(luò)新浪微博的賬號(hào)合作。這種電商行業(yè)“封殺”現(xiàn)象的出現(xiàn),其理由看似是如這些企業(yè)所宣稱的那樣為了保護(hù)公司的信息安全,但背后的根源其實(shí)是擔(dān)心自身的內(nèi)部商業(yè)信息通過(guò)互聯(lián)網(wǎng)泄漏,擔(dān)心用戶流量的命脈被他人掌握。因此,在大數(shù)據(jù)時(shí)代,如何解決數(shù)據(jù)的封閉性問(wèn)題將是經(jīng)濟(jì)統(tǒng)計(jì)工作數(shù)據(jù)收集面臨的一個(gè)重要挑戰(zhàn)。此外,對(duì)經(jīng)濟(jì)統(tǒng)計(jì)人才來(lái)講,由于數(shù)據(jù)不再僅僅是標(biāo)準(zhǔn)結(jié)構(gòu)的,資料收集新技術(shù)的開發(fā)和掌握也成為一種迫切的需要。
(2)數(shù)據(jù)分析問(wèn)題。由于數(shù)據(jù)更多的是半結(jié)構(gòu)化或非結(jié)構(gòu)化的,傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)分析工具和方法可能不再有效。就大數(shù)據(jù)分析而言,經(jīng)濟(jì)統(tǒng)計(jì)工作需要解決的問(wèn)題是如何從體量龐大且雜亂無(wú)章的各類數(shù)據(jù)中挖掘有效信息以創(chuàng)造新的知識(shí)和新的價(jià)值。在以前,數(shù)據(jù)很大程度上是指“數(shù)字”,如業(yè)務(wù)量、營(yíng)業(yè)收入額、利潤(rùn)額、工業(yè)企業(yè)產(chǎn)值、固定資產(chǎn)投資、GDP等,都是一個(gè)個(gè)數(shù)字或者是可以進(jìn)行編碼的簡(jiǎn)單文本。而在大數(shù)據(jù)時(shí)代,人們不再是隱藏在終端和網(wǎng)絡(luò)后面的隱形者,購(gòu)物、社交、游戲、閱讀、出行等信息都變成數(shù)據(jù)被收集到各種各樣的儲(chǔ)存設(shè)備中。而數(shù)據(jù)也不再是單純的“數(shù)字”,還包括文本、圖片、音頻、視頻等多種格式,其涵括的內(nèi)容也更為豐富,如博客、微博、通話錄音、位置信息、交易信息、點(diǎn)評(píng)信息、互動(dòng)信息等。也就是說(shuō),數(shù)據(jù)不再只是結(jié)構(gòu)化的,更多是廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、電子商務(wù)等之中的半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。隨著數(shù)據(jù)越來(lái)越大,越來(lái)越復(fù)雜,增長(zhǎng)越來(lái)越快,要想建立和保持競(jìng)爭(zhēng)優(yōu)勢(shì)需要對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)、有效的分析。而由于數(shù)據(jù)更多的是以半結(jié)構(gòu)化和非結(jié)構(gòu)化形式出現(xiàn),過(guò)去傳統(tǒng)的數(shù)據(jù)分析技術(shù)可能無(wú)法實(shí)現(xiàn)實(shí)時(shí)監(jiān)測(cè)和分析。
3應(yīng)對(duì)措施及建議
從個(gè)人服務(wù)到商業(yè)運(yùn)營(yíng),從醫(yī)療衛(wèi)生到公共教育,從城市交通到公共管理,大數(shù)據(jù)已開始撼動(dòng)世界的方方面面。在帶來(lái)新的發(fā)展機(jī)遇的同時(shí),大數(shù)據(jù)時(shí)代也向包括經(jīng)濟(jì)統(tǒng)計(jì)在內(nèi)的眾多領(lǐng)域提出了眾多挑戰(zhàn),需要做好充足的準(zhǔn)備及應(yīng)對(duì)。具體到與人才培養(yǎng)息息相關(guān)的經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)建設(shè),我們認(rèn)為需要從以下幾個(gè)方面做出必要的變革:
(1)樹立市場(chǎng)意識(shí),避免人才培養(yǎng)與現(xiàn)實(shí)需求脫節(jié)。從目前的實(shí)際情況看,我國(guó)高校經(jīng)濟(jì)統(tǒng)計(jì)人才培養(yǎng)與市場(chǎng)需求之間或多或少存在一定程度的“學(xué)”“用”脫節(jié),還沒(méi)有全面實(shí)現(xiàn)學(xué)以致用。一方面,以企業(yè)為主的各類組織對(duì)經(jīng)濟(jì)統(tǒng)計(jì)人才需求非常急迫,如最近一份針對(duì)近千家企業(yè)和從業(yè)人員的調(diào)查顯示,97.9%的企業(yè)認(rèn)為數(shù)據(jù)分析對(duì)電商運(yùn)營(yíng)很重要,超過(guò)半數(shù)的企業(yè)表示數(shù)據(jù)分析能力欠缺,同時(shí)有近60%的企業(yè)希望專業(yè)數(shù)據(jù)分析人才加入,并愿意為此支付更高薪資;①另一方面,無(wú)論是課程體系還是教學(xué)內(nèi)容以及教學(xué)方式,現(xiàn)有模式基本上是以傳統(tǒng)數(shù)據(jù)為對(duì)象的。換句話說(shuō),在現(xiàn)有培養(yǎng)方式下,學(xué)生掌握的數(shù)理統(tǒng)計(jì)和經(jīng)濟(jì)統(tǒng)計(jì)方法可能無(wú)法滿足大數(shù)據(jù)的分析需要,如傳統(tǒng)的統(tǒng)計(jì)分組、頻數(shù)分布等數(shù)據(jù)整理方法顯然難以完全適用于圖片、音頻、視頻等非結(jié)構(gòu)化數(shù)據(jù)。因此,要真正做到“厚基礎(chǔ)、寬口徑、重應(yīng)用”,則需要根據(jù)經(jīng)濟(jì)發(fā)展的需求設(shè)置教學(xué)計(jì)劃、更新落后的教育內(nèi)容、采納現(xiàn)代化的教學(xué)手段,需要注意與其他學(xué)科之間進(jìn)行充分的交流與融合,跟上當(dāng)代社會(huì)科學(xué)的雜交化、整體化趨勢(shì)發(fā)展的步伐。
(2)經(jīng)濟(jì)、統(tǒng)計(jì)與IT相融合,優(yōu)化課程體系。在大數(shù)據(jù)的洪流中,數(shù)據(jù)分析是否能夠帶來(lái)新的洞察力、創(chuàng)造新的知識(shí)和價(jià)值,取決于從業(yè)人員是否掌握大數(shù)據(jù)收集、管理、分析和開發(fā)的相關(guān)特定工具。從我國(guó)高校經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)課程體系看,專業(yè)課程設(shè)置主要包括經(jīng)濟(jì)類基礎(chǔ)課程與專業(yè)主干課程兩大基本模塊。雖然各高校都強(qiáng)調(diào)遵循“厚基礎(chǔ)、寬口徑、重應(yīng)用”的復(fù)合型經(jīng)濟(jì)統(tǒng)計(jì)人才培養(yǎng)原則,也主張將理論方法的教學(xué)與計(jì)算機(jī)軟件緊密結(jié)合起來(lái)(如“統(tǒng)計(jì)學(xué)導(dǎo)論”選用Excel,“應(yīng)用多元統(tǒng)計(jì)分析”選用SPSS,“計(jì)量經(jīng)濟(jì)學(xué)”選用Eviews等軟件作為計(jì)算工具),但在大數(shù)據(jù)的開發(fā)和應(yīng)用日益成為新潮流、新趨勢(shì)的背景下,仍然很少看到有高校在經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)中開設(shè)獨(dú)立的、專門涉及大數(shù)據(jù)技術(shù)的相關(guān)課程。因此,根據(jù)現(xiàn)實(shí)人才需求的新變化以及大數(shù)據(jù)技術(shù)的不斷進(jìn)步和升級(jí),我們應(yīng)該對(duì)經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)的課程體系進(jìn)行必要的調(diào)整,即根據(jù)大數(shù)據(jù)分析的內(nèi)在需要,在經(jīng)濟(jì)學(xué)和統(tǒng)計(jì)學(xué)相關(guān)課程之外把大數(shù)據(jù)技術(shù)相關(guān)的課程納入到現(xiàn)有體系之中,實(shí)現(xiàn)“經(jīng)濟(jì)、統(tǒng)計(jì)與IT”三方面內(nèi)容的平衡和融合。在大數(shù)據(jù)時(shí)代,雖然經(jīng)濟(jì)統(tǒng)計(jì)所包括的主要工作仍然是數(shù)據(jù)收集和數(shù)據(jù)分析等,但是其內(nèi)容卻發(fā)生了翻天覆地的變化。如收集數(shù)據(jù)不再依賴于隨機(jī)采樣,而是需要利用多個(gè)數(shù)據(jù)庫(kù)來(lái)接收發(fā)自客戶端的數(shù)據(jù),并導(dǎo)入到一個(gè)集中的大型分布式數(shù)據(jù)庫(kù)。相應(yīng)的,數(shù)據(jù)存儲(chǔ)和預(yù)處理以及數(shù)據(jù)挖掘和分析也都是以分布式數(shù)據(jù)庫(kù)為工作對(duì)象的。考慮到本科教育的基本要求與技術(shù)的實(shí)際發(fā)展水平以及通用性等,在Hadoop、NoSQL、HDFS等目前較為常用的大型數(shù)據(jù)分析軟件和工具中,我們建議至少增設(shè)Hadoop方面相關(guān)的課程。
(3)與時(shí)俱進(jìn),加強(qiáng)師資隊(duì)伍培養(yǎng)。能否把本專業(yè)的學(xué)生培養(yǎng)成為復(fù)合型的應(yīng)用人才,取決于是否擁有一支高素質(zhì)的教師隊(duì)伍。隨著大數(shù)據(jù)及其應(yīng)用成為一種新的潮流和趨勢(shì),經(jīng)濟(jì)統(tǒng)計(jì)的專業(yè)教師團(tuán)隊(duì)建設(shè)也需要做出相應(yīng)的調(diào)整和變革。從教師隊(duì)伍的結(jié)構(gòu)看,由于經(jīng)濟(jì)統(tǒng)計(jì)學(xué)專業(yè)發(fā)展的過(guò)程使然,目前我國(guó)各高校該專業(yè)的專業(yè)教師以具有經(jīng)濟(jì)學(xué)或統(tǒng)計(jì)學(xué)學(xué)科教育背景的教師為主,而具有信息技術(shù)教育背景的教師還非常稀少。由于大數(shù)據(jù)及其應(yīng)用需要融合經(jīng)濟(jì)、統(tǒng)計(jì)以及IT等多個(gè)領(lǐng)域的理論、方法和工具,因此對(duì)經(jīng)濟(jì)統(tǒng)計(jì)專業(yè)建設(shè)而言,當(dāng)前最為迫切的是,需要建設(shè)一支教育背景涵蓋上述三個(gè)領(lǐng)域的結(jié)構(gòu)合理的教師隊(duì)伍。而實(shí)現(xiàn)的途徑無(wú)非是兩種:一方面是在全校范圍內(nèi)進(jìn)行挖潛,重新組合和配置教師資源以優(yōu)化經(jīng)濟(jì)統(tǒng)計(jì)專業(yè)教師團(tuán)隊(duì);另一方面則是實(shí)施“請(qǐng)進(jìn)來(lái)”戰(zhàn)略,加大力度引進(jìn)海內(nèi)外優(yōu)秀人才。在內(nèi)部挖潛和外部引進(jìn)的同時(shí),專業(yè)教師團(tuán)隊(duì)建設(shè)還應(yīng)該努力創(chuàng)造一個(gè)良好的人才成長(zhǎng)環(huán)境,鼓勵(lì)教師積極“走出去”,到國(guó)內(nèi)外高水平大學(xué)進(jìn)修和學(xué)習(xí),鼓勵(lì)教師不斷以新的知識(shí)充實(shí)、提高自己,以此來(lái)不斷提高本專業(yè)的教師質(zhì)量和水平.
參考文獻(xiàn)
[1]李寶瑜.統(tǒng)計(jì)學(xué)一級(jí)學(xué)科建設(shè)中的若干問(wèn)題[J].統(tǒng)計(jì)研究,2004(8).
[2]龐皓.經(jīng)濟(jì)統(tǒng)計(jì)學(xué)課程體系改革的方向[J].統(tǒng)計(jì)研究,1991(1).
[3]向書堅(jiān),平衛(wèi)英.30年來(lái)我國(guó)財(cái)經(jīng)類院校統(tǒng)計(jì)學(xué)專業(yè)本科課程設(shè)置的歷史回顧與展望[J].統(tǒng)計(jì)研究,2010(1).
[4]曾五一.關(guān)于經(jīng)濟(jì)管理類統(tǒng)計(jì)學(xué)專業(yè)課程體系設(shè)置的幾點(diǎn)意見[J].統(tǒng)計(jì)教育,1999(8).
[5]曾五一,尚衛(wèi)平.關(guān)于經(jīng)濟(jì)統(tǒng)計(jì)學(xué)若干問(wèn)題的思考[J].統(tǒng)計(jì)研究,1999(11).
[6]曾五一,肖紅葉,龐皓,朱建平.經(jīng)濟(jì)管理類統(tǒng)計(jì)學(xué)專業(yè)教學(xué)體系的改革與創(chuàng)新[J].統(tǒng)計(jì)研究,2010(2).
一、數(shù)據(jù)分析觀念的內(nèi)涵
(一)《標(biāo)準(zhǔn)》中“數(shù)據(jù)分析觀念”的主要內(nèi)涵
1.了解在現(xiàn)實(shí)生活中處理很多問(wèn)題時(shí),應(yīng)當(dāng)先做調(diào)查研究,收集數(shù)據(jù),再通過(guò)分析進(jìn)行判斷,明確數(shù)據(jù)中蘊(yùn)含的信息。這一描述強(qiáng)調(diào)了確立統(tǒng)計(jì)意識(shí)是培養(yǎng)數(shù)據(jù)分析觀念的前提。面對(duì)復(fù)雜的現(xiàn)實(shí)情境,學(xué)生要從數(shù)據(jù)中提取有用的信息,必須具備數(shù)據(jù)意識(shí),意識(shí)到數(shù)據(jù)包含有所需要的信息,同時(shí)也要具備數(shù)據(jù)分析意識(shí),知道只有通過(guò)分析數(shù)據(jù),才能挖掘出數(shù)據(jù)中所蘊(yùn)含的豐富信息。
2.了解對(duì)于同樣的數(shù)據(jù)有多種分析方法,需要根據(jù)問(wèn)題的背景選擇合適的分析方法。數(shù)據(jù)中所蘊(yùn)含的情境性,是數(shù)據(jù)與數(shù)字的最大區(qū)別,這也使得在各種問(wèn)題情境中所收集到的數(shù)據(jù)有可能相似,但采用的分析方法卻大相徑庭。不同的數(shù)據(jù)分析方法不能簡(jiǎn)單地用“對(duì)”與“錯(cuò)”來(lái)評(píng)判,只有“合適”與“不合適”。同樣的數(shù)據(jù),因?yàn)檠芯康膯?wèn)題和目標(biāo)不同,所以選擇的分析方法也不同,決策者要根據(jù)具體的情境和期待的結(jié)果作出正確的選擇。
3.通過(guò)數(shù)據(jù)分析體驗(yàn)隨機(jī)性:一方面對(duì)于同樣的事情每次收集到的數(shù)據(jù)可能不同,另一方面只要有足夠的數(shù)據(jù)就可能從中發(fā)現(xiàn)規(guī)律。[1]這說(shuō)明數(shù)據(jù)具有隨機(jī)性的特點(diǎn),但是通過(guò)大量的實(shí)驗(yàn)可以發(fā)現(xiàn),數(shù)據(jù)又呈現(xiàn)出一定的規(guī)律性。數(shù)據(jù)分析是在大量的甚至無(wú)限次的實(shí)驗(yàn)的基礎(chǔ)上作出相應(yīng)的數(shù)理統(tǒng)計(jì)的過(guò)程,而每一次實(shí)驗(yàn)都存在隨機(jī)性,無(wú)法保證實(shí)驗(yàn)結(jié)果一定準(zhǔn)確無(wú)誤,這是數(shù)據(jù)出現(xiàn)隨機(jī)性的原因。
分析《標(biāo)準(zhǔn)》中關(guān)于“數(shù)據(jù)分析觀念”的闡述可以知道,針對(duì)義務(wù)教育階段統(tǒng)計(jì)教學(xué)如何培養(yǎng)學(xué)生的數(shù)據(jù)分析觀念,《標(biāo)準(zhǔn)》提出了3個(gè)方面的要求:一是過(guò)程性的規(guī)定,即數(shù)據(jù)分析觀念是在學(xué)生調(diào)查、收集和整理數(shù)據(jù)的過(guò)程中發(fā)展起來(lái)的,并在分析的基礎(chǔ)上作出相應(yīng)的決策;二是方法性的規(guī)定,即面對(duì)不同情境的問(wèn)題,如何選擇恰當(dāng)?shù)摹⒑侠淼慕鉀Q方法;三是感悟性的規(guī)定,即讓學(xué)生從中體會(huì)數(shù)據(jù)的隨機(jī)性和規(guī)律性特點(diǎn)。
(二)關(guān)于內(nèi)涵解讀的研究
“統(tǒng)計(jì)是關(guān)于收集和分析帶有隨機(jī)性誤差的數(shù)據(jù)的科學(xué)和藝術(shù)。”[2]y計(jì)的對(duì)象――數(shù)據(jù),是統(tǒng)計(jì)研究的基礎(chǔ)。正如美國(guó)統(tǒng)計(jì)學(xué)家戴維?S?穆爾所說(shuō):“統(tǒng)計(jì)是用來(lái)處理數(shù)據(jù)的。數(shù)據(jù)由數(shù)字組成,但它不僅是單純的數(shù)字。數(shù)據(jù)是有內(nèi)容的數(shù)字。”[3]小學(xué)階段的統(tǒng)計(jì)學(xué)習(xí)正是探討這些具有一定實(shí)際背景的數(shù)字,教學(xué)時(shí)教師需要將其與學(xué)生熟悉的“數(shù)與代數(shù)”中那些單純的數(shù)字進(jìn)行區(qū)分,幫助學(xué)生認(rèn)識(shí)統(tǒng)計(jì)的特殊性。
數(shù)據(jù)分析觀念是數(shù)據(jù)意識(shí)、統(tǒng)計(jì)技能的統(tǒng)一體。在現(xiàn)實(shí)生活中,數(shù)據(jù)意識(shí)體現(xiàn)在,當(dāng)遇到問(wèn)題時(shí)能夠想到進(jìn)行調(diào)查研究,用數(shù)據(jù)說(shuō)話,運(yùn)用統(tǒng)計(jì)的方法解決問(wèn)題。數(shù)據(jù)意識(shí)是統(tǒng)計(jì)活動(dòng)的起點(diǎn),也是統(tǒng)計(jì)教學(xué)的核心內(nèi)容。統(tǒng)計(jì)技能是完成統(tǒng)計(jì)活動(dòng)所必需的各種能力和技術(shù)的總和,它包括數(shù)據(jù)的收集、整理和分析,從數(shù)據(jù)中提取有價(jià)值的信息,進(jìn)而作出決策。因此,數(shù)據(jù)分析觀念也可以劃分為3個(gè)維度:一是認(rèn)識(shí)到需要收集數(shù)據(jù),這包括3個(gè)要素,即有數(shù)據(jù)意識(shí)、發(fā)現(xiàn)和提出運(yùn)用數(shù)據(jù)解決問(wèn)題、根據(jù)問(wèn)題的需要設(shè)計(jì)收集數(shù)據(jù)的計(jì)劃;二是了解數(shù)據(jù)中蘊(yùn)含的信息,也包括3個(gè)要素,即從數(shù)據(jù)中提取信息、通過(guò)分析數(shù)據(jù)進(jìn)行判斷、選擇恰當(dāng)?shù)慕y(tǒng)計(jì)方法;三是體會(huì)數(shù)據(jù)的隨機(jī)性特點(diǎn),認(rèn)識(shí)到所收集的數(shù)據(jù)是隨機(jī)的,但數(shù)據(jù)較多時(shí)會(huì)呈現(xiàn)某種穩(wěn)定性和規(guī)律性。
盡管表述方式不同,但學(xué)者們都把數(shù)據(jù)分析作為統(tǒng)計(jì)內(nèi)容的核心,并一致強(qiáng)調(diào)數(shù)據(jù)的現(xiàn)實(shí)背景來(lái)源,具體表現(xiàn)為:①數(shù)據(jù)分析應(yīng)當(dāng)建立在統(tǒng)計(jì)的基礎(chǔ)之上;②應(yīng)當(dāng)選取合適的方法對(duì)收集到的數(shù)據(jù)進(jìn)行分析和處理;③根據(jù)已經(jīng)整理好的數(shù)據(jù)作出解釋、得出結(jié)論,運(yùn)用數(shù)據(jù)進(jìn)行推斷,在推斷的過(guò)程中還要對(duì)數(shù)據(jù)的來(lái)源、處理方法和分析結(jié)果進(jìn)行合理的質(zhì)疑。
二、數(shù)據(jù)分析觀念的教育價(jià)值
在知識(shí)經(jīng)濟(jì)和信息技術(shù)時(shí)代,加強(qiáng)數(shù)據(jù)分析觀念的培養(yǎng)是新時(shí)代對(duì)人才的要求。可見,數(shù)據(jù)分析觀念是義務(wù)教育階段學(xué)生必備的數(shù)學(xué)素養(yǎng)之一。
(一)結(jié)合數(shù)據(jù)的情境性激發(fā)數(shù)據(jù)意識(shí)
在信息化社會(huì)中,無(wú)論是人口預(yù)測(cè)、投資貸款、風(fēng)險(xiǎn)評(píng)估、市場(chǎng)預(yù)測(cè),還是學(xué)生學(xué)習(xí)統(tǒng)計(jì)與概率的知識(shí),都需要數(shù)據(jù)分析觀念的指導(dǎo),而數(shù)據(jù)意識(shí)更是發(fā)揮著重要的作用。數(shù)據(jù)分析觀念并非簡(jiǎn)單的匯攏數(shù)字、計(jì)算平均數(shù)和眾數(shù)、畫統(tǒng)計(jì)圖,而是人們?cè)诮?jīng)歷調(diào)查行動(dòng)后形成的對(duì)事物加以整理和分析的意識(shí)。所謂數(shù)據(jù)意識(shí),是指遇到現(xiàn)實(shí)情境問(wèn)題時(shí)能夠想到用數(shù)據(jù)來(lái)解決問(wèn)題,將現(xiàn)實(shí)情境中遇到的問(wèn)題轉(zhuǎn)化為數(shù)據(jù)問(wèn)題。
例如,小紅、小明的10次射擊訓(xùn)練成績(jī)(環(huán)數(shù))如下:
如果你是教練,會(huì)選擇誰(shuí)參加比賽呢?遇到這樣的問(wèn)題,學(xué)生首先會(huì)計(jì)算小紅和小明射擊訓(xùn)練成績(jī)(環(huán)數(shù))的平均數(shù),這時(shí)會(huì)發(fā)現(xiàn)兩人射擊訓(xùn)練成績(jī)(環(huán)數(shù))的平均數(shù)相同,于是產(chǎn)生疑問(wèn):那要根據(jù)什么進(jìn)行選擇呢?小學(xué)生雖然還沒(méi)有接觸方差等概念,但利用眾數(shù)和折線圖的陡緩程度能夠初步判斷誰(shuí)的射擊訓(xùn)練成績(jī)(環(huán)數(shù))更穩(wěn)定、更有潛力。如果教師對(duì)學(xué)生進(jìn)行過(guò)相關(guān)的訓(xùn)練,在看到一組數(shù)據(jù)時(shí),學(xué)生就會(huì)有意識(shí)地對(duì)數(shù)據(jù)進(jìn)行分析,從而發(fā)展數(shù)據(jù)意識(shí),那么,今后遇到類似的問(wèn)題時(shí)就能夠自覺地運(yùn)用學(xué)到的知識(shí)和技能對(duì)數(shù)據(jù)進(jìn)行處理和分析了。
(二)在統(tǒng)計(jì)活動(dòng)中體驗(yàn)和發(fā)展隨機(jī)性思維
在生活與工作中,人們必須掌握處理不確定性現(xiàn)象的概率統(tǒng)計(jì)知識(shí),具備一定的數(shù)據(jù)分析意識(shí)與數(shù)據(jù)處理能力,只有這樣,才能在面對(duì)大量的、不確定的數(shù)據(jù)信息時(shí)作出正確的選擇。小學(xué)生在學(xué)習(xí)“統(tǒng)計(jì)與概率”之前就已經(jīng)掌握了數(shù)與代數(shù)、圖形與幾何等內(nèi)容,具備了以邏輯推理為主的確定性思維,在學(xué)習(xí)統(tǒng)計(jì)與概率的內(nèi)容時(shí),教師要讓學(xué)生知道事物的發(fā)展既有偶然性又有規(guī)律性,從而形成數(shù)據(jù)分析觀念和隨機(jī)性觀念。
例如,一個(gè)不透明的袋子中裝著若干個(gè)紅球和藍(lán)球,事先不告訴學(xué)生紅球和藍(lán)球的數(shù)量,而是讓學(xué)生重復(fù)摸取、放回,進(jìn)行多次實(shí)驗(yàn)。在活動(dòng)中我們發(fā)現(xiàn):每次摸取球的顏色可能不一樣,但是隨著摸取球的次數(shù)的增加,就會(huì)發(fā)現(xiàn)一些規(guī)律。學(xué)生在摸球過(guò)程中理解了隨機(jī)的概念,體驗(yàn)到了隨機(jī)知識(shí)在生活中的應(yīng)用,進(jìn)而意識(shí)到學(xué)習(xí)隨機(jī)性的意義。
(三)親歷問(wèn)題解決過(guò)程,訓(xùn)練思維的靈活性
數(shù)學(xué)思維的靈活性是需要重點(diǎn)培養(yǎng)的思維品質(zhì)之一,而這需要學(xué)生在解決數(shù)學(xué)問(wèn)題的過(guò)程中獲得鍛煉和發(fā)展。比如,教師可以設(shè)計(jì)一些有效的統(tǒng)計(jì)活動(dòng),鼓勵(lì)學(xué)生采用不同的統(tǒng)計(jì)方法,從多角度對(duì)數(shù)據(jù)進(jìn)行分析,發(fā)散學(xué)生的思維,并根據(jù)情境的變換及時(shí)調(diào)整解決問(wèn)題的思維方向,引導(dǎo)學(xué)生學(xué)會(huì)解決不同情境的實(shí)際問(wèn)題。
例如,教師可以創(chuàng)設(shè)這樣的情境:假設(shè)學(xué)生是任教五(1)班和五(2)班的數(shù)學(xué)老師,期末總結(jié)時(shí)要對(duì)自己任教的這兩個(gè)班級(jí)的期末成績(jī)進(jìn)行比較。在這個(gè)過(guò)程中,教師應(yīng)當(dāng)引導(dǎo)學(xué)生按照不同的標(biāo)準(zhǔn)來(lái)評(píng)判兩個(gè)班級(jí)的數(shù)學(xué)成績(jī)。這時(shí)我們會(huì)發(fā)現(xiàn):有的學(xué)生依據(jù)兩個(gè)班級(jí)各自的數(shù)學(xué)平均分進(jìn)行比較;有的學(xué)生依據(jù)85分及以上為優(yōu)秀這個(gè)標(biāo)準(zhǔn),先統(tǒng)計(jì)出兩個(gè)班級(jí)獲得85分及以上的學(xué)生各有多少人,然后分別計(jì)算出兩個(gè)班級(jí)的優(yōu)秀率,再進(jìn)行比較分析;有的學(xué)生依據(jù)60分以下為不合格的標(biāo)準(zhǔn),統(tǒng)計(jì)出兩個(gè)班級(jí)不合格的人數(shù),按照不合格人數(shù)的數(shù)量比較兩個(gè)班級(jí)數(shù)學(xué)成績(jī)的優(yōu)劣。其實(shí),這里的答案并不唯一,每一種答案都可以作為教師分析學(xué)生成績(jī)的標(biāo)準(zhǔn)。因此,教師應(yīng)當(dāng)鼓勵(lì)學(xué)生進(jìn)行多維度思考,訓(xùn)練學(xué)生思維的靈活性。
三、稻莘治齬勰畹吶嘌策略
數(shù)據(jù)分析觀念不是憑空想象出來(lái)的,也不是教師說(shuō)統(tǒng)計(jì)有用,學(xué)生就能夠體會(huì)得到的,更不是憑借收集數(shù)據(jù)就可以形成的,而是學(xué)生在經(jīng)歷統(tǒng)計(jì)活動(dòng)解決問(wèn)題的過(guò)程中建立起來(lái)的一種認(rèn)識(shí)。從某種意義上說(shuō),觀念是意識(shí)的高級(jí)階段,是在意識(shí)、能力的基礎(chǔ)上形成的認(rèn)識(shí)。培養(yǎng)學(xué)生的數(shù)據(jù)分析觀念是一個(gè)循序漸進(jìn)的過(guò)程,教師必須根據(jù)學(xué)生的認(rèn)知特點(diǎn)設(shè)計(jì)教學(xué)。
(一)引導(dǎo)學(xué)生樹立統(tǒng)計(jì)思想
數(shù)據(jù)分析觀念是統(tǒng)計(jì)思想的重要組成部分,要讓小學(xué)生樹立統(tǒng)計(jì)思想,教師首先要讓學(xué)生意識(shí)到統(tǒng)計(jì)的必要性,重視統(tǒng)計(jì)的應(yīng)用。課堂上,教師可以向?qū)W生展示生活中與統(tǒng)計(jì)相關(guān)的事例,指導(dǎo)學(xué)生學(xué)會(huì)判斷在什么情況下需要采取統(tǒng)計(jì)的方法解決問(wèn)題,并自覺地朝著統(tǒng)計(jì)這個(gè)方向思考問(wèn)題。其次,學(xué)生具備了統(tǒng)計(jì)意識(shí)后,教師要讓學(xué)生掌握具體的統(tǒng)計(jì)方法和策略,以便更好地進(jìn)行數(shù)據(jù)分析。需要注意的是,面對(duì)不同的問(wèn)題要采取不同的統(tǒng)計(jì)方法。
例如,調(diào)查統(tǒng)計(jì)“我們最愛吃的水果”,教師可以創(chuàng)設(shè)生活情境:生活老師要為同學(xué)們準(zhǔn)備課間水果,準(zhǔn)備哪些水果比較合適呢?首先,生活老師需要了解全班同學(xué)的喜好,為此必須采用統(tǒng)計(jì)的方法,設(shè)計(jì)統(tǒng)計(jì)方案。其次,當(dāng)收集到所有數(shù)據(jù)之后,為了確定哪一種水果最受歡迎,必須采用合適的統(tǒng)計(jì)方法進(jìn)行統(tǒng)計(jì),比如可以采取扇形圖對(duì)水果進(jìn)行分類;至于每一種水果需要的數(shù)量是多少,則應(yīng)當(dāng)再次根據(jù)前期的數(shù)據(jù)調(diào)查進(jìn)行分析。
(二)體驗(yàn)數(shù)據(jù)分析的全過(guò)程
學(xué)生要將數(shù)據(jù)分析觀念真正地納入已有的思維模式中,最有效的方法就是經(jīng)歷數(shù)據(jù)分析的整個(gè)過(guò)程,包括發(fā)現(xiàn)問(wèn)題、提出問(wèn)題、調(diào)查現(xiàn)狀、收集數(shù)據(jù)、整理分析、得出結(jié)論以及反思交流。小學(xué)生抽象思維尚未成熟,接觸的數(shù)據(jù)都應(yīng)源于現(xiàn)實(shí)生活背景,只有豐富的數(shù)學(xué)情境才能夠幫助他們更好地理解概念,并學(xué)會(huì)遷移應(yīng)用。因此,教師應(yīng)當(dāng)充分挖掘貼近學(xué)生生活的情境資源,創(chuàng)設(shè)學(xué)生感興趣的問(wèn)題情境。
以估計(jì)全校學(xué)生上個(gè)月家庭用電情況為例,如果對(duì)全校每個(gè)學(xué)生都進(jìn)行調(diào)查,有點(diǎn)不切實(shí)際,浪費(fèi)時(shí)間和精力。當(dāng)學(xué)生碰到這個(gè)問(wèn)題時(shí),教師可以滲透抽樣統(tǒng)計(jì)的方法,選取每個(gè)年級(jí)段的一個(gè)班級(jí)進(jìn)行調(diào)查,收集數(shù)據(jù)。在這個(gè)活動(dòng)中,如何利用收集到的數(shù)據(jù)對(duì)全校學(xué)生進(jìn)行合理的估計(jì),學(xué)生需要具備較強(qiáng)的數(shù)據(jù)分析能力。教師可以通過(guò)這個(gè)活動(dòng),發(fā)展學(xué)生的數(shù)據(jù)分析能力。學(xué)生掌握了基本的統(tǒng)計(jì)方法,經(jīng)歷了調(diào)查研究、整理數(shù)據(jù)、分析數(shù)據(jù)的過(guò)程,將會(huì)逐步形成數(shù)據(jù)分析的觀念。
(三)培養(yǎng)批判意識(shí),提高辨別能力
在信息社會(huì),人們每天都要接觸大量的數(shù)據(jù)信息,其中絕大多數(shù)是無(wú)用的信息或偽信息。辨別信息的真?zhèn)尾⒆鞒隼碇堑倪x擇,離不開批判意識(shí)和辨別能力。培養(yǎng)學(xué)生的批判性分析能力,教師要引導(dǎo)學(xué)生讀懂?dāng)?shù)據(jù),理解數(shù)據(jù)內(nèi)在的含義,并對(duì)數(shù)據(jù)的來(lái)源和處理方法進(jìn)行考察和分析。小學(xué)生心智發(fā)展尚未成熟,加上認(rèn)知發(fā)展水平還處于具體運(yùn)算階段,對(duì)于外界復(fù)雜的信息缺乏理性的判斷,因此,教師可以呈現(xiàn)案例,如生活中誤用或?yàn)E用統(tǒng)計(jì)數(shù)據(jù)的現(xiàn)象但大多數(shù)人對(duì)此并未警覺或質(zhì)疑,從而培養(yǎng)學(xué)生的批判意識(shí),提高辨別能力。
例如,超市為了促銷牛奶,打出的廣告是第二箱半價(jià)。如果不加思索,消費(fèi)者就會(huì)認(rèn)為很實(shí)惠,馬上買了兩箱牛奶。但仔細(xì)思考發(fā)現(xiàn),兩箱牛奶的平均價(jià)格和促銷前其實(shí)只相差幾毛錢而已,這是因?yàn)椋M(fèi)者只注意到半價(jià),而并沒(méi)有留意到第一箱牛奶的價(jià)錢。又如,超市有兩種不同品牌的商品,甲品牌打八五折,乙品牌買滿150元送50元,我們應(yīng)該怎么選擇呢?面對(duì)這樣的問(wèn)題,我們不能憑感覺亂猜,而要根據(jù)不同的需求量進(jìn)行分析。諸如此類的實(shí)例都是小學(xué)生在日常生活中常常會(huì)遇到的,學(xué)生要作出理性的選擇與判斷,必須具備質(zhì)疑能力和一定的數(shù)據(jù)分析能力。
(四)合理利用信息技術(shù)
小學(xué)生每天大部分時(shí)間都在學(xué)校度過(guò),接觸外界事物的機(jī)會(huì)不多,而數(shù)據(jù)分析觀念的培養(yǎng)又需要呈現(xiàn)大量的真實(shí)的生活情境,讓學(xué)生對(duì)數(shù)據(jù)進(jìn)行整理、分析和判斷,信息技術(shù)正好可以彌補(bǔ)這一缺陷。教師可以利用信息技術(shù)的優(yōu)勢(shì)給學(xué)生呈現(xiàn)更多的生活實(shí)例。另外,當(dāng)碰到需要分析大數(shù)據(jù)或需要多次實(shí)驗(yàn)才能夠解決的統(tǒng)計(jì)問(wèn)題時(shí),教師可以利用信息技術(shù)對(duì)原始數(shù)據(jù)及分析結(jié)果進(jìn)行直觀展示,這樣做有助于學(xué)生理解統(tǒng)計(jì)過(guò)程及其內(nèi)涵。
例如,調(diào)查分析全班學(xué)生對(duì)顏色的喜好情況,教師可以借助信息技術(shù),讓學(xué)生先在電腦中輸入自己最喜愛的一種顏色。待全部學(xué)生輸入完畢,電腦便會(huì)自動(dòng)生成全班學(xué)生對(duì)顏色喜好的原始數(shù)據(jù)。接下來(lái),學(xué)生就要對(duì)這些原始數(shù)據(jù)進(jìn)行分類、整理,再通過(guò)電腦將整理后的數(shù)據(jù)生成不同的統(tǒng)計(jì)圖表,并依據(jù)這些圖表分析學(xué)生對(duì)顏色的喜好情況。在這個(gè)過(guò)程中,教師利用信息技術(shù)不僅節(jié)省了寶貴的教學(xué)時(shí)間,將數(shù)據(jù)的收集、整理和繪制統(tǒng)計(jì)圖表生動(dòng)形象地展示在學(xué)生面前,而且?guī)椭鷮W(xué)生經(jīng)歷了數(shù)據(jù)的收集、整理及圖表繪制的過(guò)程。
參考文獻(xiàn):
[1]中華人民共和國(guó)教育部.義務(wù)教育數(shù)學(xué)課程標(biāo)準(zhǔn)(2011年版)[S].北京:北京師范大學(xué)出版社,2012:6.
[2]陳希孺.機(jī)會(huì)的數(shù)學(xué)[M].北京:清華大學(xué)出版社,2000:58.
[3](美)戴維?S?穆爾,鄭惟厚譯.統(tǒng)計(jì)學(xué)的世界[M].北京:中信出版社,2003:4.