rdd的特點

來源:生活大全幫 1.37W

rdd的特點

rdd的特點如下:

1、RDD是Spark提供的核心抽象,全稱為ResillientDistributedDataset,即彈性分佈式數據集。

2、RDD在抽象上來説是一種元素集合,包含了數據。它是被分區的,分為多個分區,每個分區分佈在集羣中的不同節點上,從而讓RDD中的數據可以被並行操作。

3、RDD通常通過Hadoop上的文件,即HDFS文件或者Hive表,來進行創建;有時也可以通過應用程序中的集合來創建。

4、RDD最重要的特性就是,提供了容錯性,可以自動從節點失敗中恢復過來。即如果某個節點上的RDDpartition,因為節點故障,導致數據丟了,那麼RDD會自動通過自己的數據來源重新計算該partition。這一切對使用者是透明的。

5、RDD的數據默認情況下存放在內存中的,但是在內存資源不足時,Spark會自動將RDD數據寫入磁盤。

熱門標籤