大數(shù)據(jù)隨機樣本劃分模型及相關分析計算技術

黃哲學; 何玉林; 魏丞昊; 張曉亮深圳大學計算機與軟件學院大數(shù)據(jù)技術與應用研究所; 深圳518060; 深圳大學大數(shù)據(jù)系統(tǒng)計算技術國家工程實驗室; 深圳518060

大數(shù)據(jù)
隨機樣本劃分
漸近式集成學習
人工智能

摘要：設計了一種新的適用于大數(shù)據(jù)的管理和分析模型大數(shù)據(jù)隨機樣本劃分(Random samplepartition,RSP)模型,它是將大數(shù)據(jù)文件表達成一系列RSP數(shù)據(jù)塊文件的集合,分布存儲在集群節(jié)點上。RSP的生成操作使每個RSP數(shù)據(jù)塊的分布與大數(shù)據(jù)的分布保持統(tǒng)計意義上的一致,因此,每個RSP數(shù)據(jù)塊是大數(shù)據(jù)的一個隨機樣本數(shù)據(jù),可以用來估計大數(shù)據(jù)的統(tǒng)計特征,或建立大數(shù)據(jù)的分類和回歸模型。基于RSP模型,大數(shù)據(jù)的分析任務可以通過對RSP數(shù)據(jù)塊的分析來完成,不需要對整個大數(shù)據(jù)進行計算,極大地減少了計算量,降低了對計算資源的要求,提高了集群系統(tǒng)的計算能力和擴展能力。本文首先給出RSP模型的定義、理論基礎和生成方法;然后介紹基于RSP數(shù)據(jù)塊的漸近式集成學習Alpha計算框架;之后討論基于RSP模型和Alpha框架的大數(shù)據(jù)分析相關計算技術,包括:數(shù)據(jù)探索與清洗、概率密度函數(shù)估計、有監(jiān)督子空間學習、半監(jiān)督集成學習、聚類集成和異常點檢測;最后討論RSP模型在分而治之大數(shù)據(jù)分析和抽樣方法上的創(chuàng)新,以及RSP模型和Alpha計算框架實現(xiàn)大規(guī)模數(shù)據(jù)分析的優(yōu)勢。

注：因版權方要求，不能公開全文，如需全文，請咨詢雜志社

投稿咨詢文秘咨詢

數(shù)據(jù)采集與處理

預計1-3個月 預計審稿周期
0.68 影響因子
電子快捷分類
雙月刊 出版周期

主管單位：中國科學技術協(xié)會;主辦單位：中國電子學會;儀器儀表學會;信號處理學會;中國一汽儀表學會;中國物理學會;微弱信號檢測學會;南京航空航天大學

雜志詳情

大數(shù)據(jù)隨機樣本劃分模型及相關分析計算技術

數(shù)據(jù)采集與處理

我們提供的服務

在線客服

快遞配送

雜志訂閱

雜志推薦

相關期刊