首頁 > 期刊 > 自然科學與工程技術 > 信息科技 > 電信技術 > 數據采集與處理 > 大數據隨機樣本劃分模型及相關分析計算技術 【正文】
摘要:設計了一種新的適用于大數據的管理和分析模型大數據隨機樣本劃分(Random samplepartition,RSP)模型,它是將大數據文件表達成一系列RSP數據塊文件的集合,分布存儲在集群節點上。RSP的生成操作使每個RSP數據塊的分布與大數據的分布保持統計意義上的一致,因此,每個RSP數據塊是大數據的一個隨機樣本數據,可以用來估計大數據的統計特征,或建立大數據的分類和回歸模型。基于RSP模型,大數據的分析任務可以通過對RSP數據塊的分析來完成,不需要對整個大數據進行計算,極大地減少了計算量,降低了對計算資源的要求,提高了集群系統的計算能力和擴展能力。本文首先給出RSP模型的定義、理論基礎和生成方法;然后介紹基于RSP數據塊的漸近式集成學習Alpha計算框架;之后討論基于RSP模型和Alpha框架的大數據分析相關計算技術,包括:數據探索與清洗、概率密度函數估計、有監督子空間學習、半監督集成學習、聚類集成和異常點檢測;最后討論RSP模型在分而治之大數據分析和抽樣方法上的創新,以及RSP模型和Alpha計算框架實現大規模數據分析的優勢。
注:因版權方要求,不能公開全文,如需全文,請咨詢雜志社