大數據為什麼要選擇Spark

來源:生活大全幫 4.9K

大數據為什麼要選擇Spark

Spark是一個基於內存計算的開源集羣計算系統,目的是更快速的進行數據分析。Spark由加州伯克利大學AMP實驗室Matei為主的小團隊使用Scala開發,其核心部分的代碼只有63個Scala文件,非常輕量級。Spark提供了與 Hadoop相似的開源集羣計算環境,但基於內存和迭代優化的設計,Spark在某些工作負載表現更優秀。SPARK是一種安全的、經正式定義的編程語言,它被設計用來支持一些安全或商業集成為關鍵因素的應用軟件的設計。從高的層面來看,其實每一個Spark的應用,都是一個Driver類,通過運行用户定義的main函數,在集羣上執行各種併發操作和計算Spark提供的最主要的抽象,是一個彈性分佈式數據集,它是一種特殊集合,可以分佈在集羣的節點上,以函數式編程操作集合的方式,進行各種各樣的併發操作。
熱門標籤