spark必知必會的基本概念
發(fā)布時間:2025-08-26 | 來源:互聯(lián)網(wǎng)轉(zhuǎn)載和整理
Spark,是一種通用的大數(shù)據(jù)計算框架,I正如傳統(tǒng)大數(shù)據(jù)技術(shù)Hadoop的MapReduce、Hive引擎,以及Storm流式實時計算引擎等
Spark包含了大數(shù)據(jù)領(lǐng)城常見的各種計算框架:比如Spark Core用于離線計算,Spark SQL用于交互式查詢,Spark Streaming用于實時流式計算,Spark MILlib用于機(jī)器學(xué)習(xí),Spark GraphX用于圖計算。
Spark主要用于大數(shù)據(jù)的計算,而Hadoop以后主要用于大數(shù)據(jù)的存儲(比如HDFS、Hive,HBase等),以及資源調(diào)度(Yarn)。
Spark+Hadoop的組合,是未來大數(shù)據(jù)領(lǐng)域最熱門的組合,也是最有前景的組合