- 002_課程介紹特色與價值
- 003_1Scala編程詳解基礎語法
- 003_2Scala編程詳解基礎語法
- 004_Scala編程詳解條件控制與循環(huán)
- 005_Scala編程詳解函數(shù)入門
- 006_Scala編程詳解函數(shù)入門之默認參數(shù)和帶名參數(shù)
- 007_Scala編程詳解函數(shù)入門之變長參數(shù)
- 008_Scala編程詳解函數(shù)入門之過程lazy值和異常
- 009_1Scala編程詳解數(shù)組操作之Array、ArrayBuffer以及遍歷數(shù)組
- 009_2Scala編程詳解數(shù)組操作之Array、ArrayBuffer以及遍歷數(shù)組
- 010_Scala編程詳解數(shù)組操作之數(shù)組轉換
- 011_Scala編程詳解Map與Tuple
- 012_Scala編程詳解面向對象編程之類
- 013_Scala編程詳解面向對象編程之對象
- 014_Scala編程詳解面向對象編程之繼承
- 015_Scala編程詳解面向對象編程之Trait
- 016_Scala編程詳解函數(shù)式編程
- 017_Scala編程詳解函數(shù)式編程之集合操作
- 018_Scala編程詳解模式匹配
- 019_Scala編程詳解類型參數(shù)
- 020_Scala編程詳解隱式轉換與隱式參數(shù)
- 021_Scala編程詳解Actor入門
- 022_課程環(huán)境搭建CentOS65集群搭建
- 023_課程環(huán)境搭建Hadoop241集群搭建
- 024_課程環(huán)境搭建Hive013搭建
- 025_課程環(huán)境搭建ZooKeeper345集群搭建
- 026_課程環(huán)境搭建kafka_292-081集群搭建
- 027_課程環(huán)境搭建Spark130集群搭建
- 028_Spark核心編程Spark基本工作原理與RDD
- 029_1使用Java開發(fā)本地測試的wordcount程序
- 029_2將java開發(fā)的wordcount程序提交到spark集群上運行
- 029_3使用scala開發(fā)wordcount程序
- 029_4使用spark-shell開發(fā)wordcount程序
- 029_5SparkUI補充說明
- 029_6spark-submit中的--master選項的補充說明(重要,必看!)
- 030_Spark核心編程wordcount程序原理深度剖析
- 031_Spark核心編程Spark架構原理
- 032_Spark核心編程創(chuàng)建RDD(集合本地文件、HDFS文件)
- 033_1transformation和action講解與原理剖析
- 033_2案例統(tǒng)計每行出現(xiàn)的次數(shù)(操作key-value對)
- 033_3常用transformation和action操作概覽
- 034_1map案例實戰(zhàn)將集合中的數(shù)字乘以2
- 034_2filter案例實戰(zhàn)過濾集合中的偶數(shù)
- 034_3flatMap案例實戰(zhàn)將文本行拆分為單詞
- 034_4groupByKey案例實戰(zhàn)將每個班級的成績進行分組
- 034_5reduceByKey案例實戰(zhàn)統(tǒng)計每個班級的總分
- 034_6sortByKey案例實戰(zhàn)按照學生成績進行排序
- 034_7join和cogroup案例實戰(zhàn)打印學生成績
- 035_Spark核心編程action操作開發(fā)實戰(zhàn)
- 036_Spark核心編程RDD持久化詳解
- 037_Spark核心編程共享變量(BroadcastVariable和Accumulator)
- 038_Spark核心編程高級編程之基于排序機制的wordcount程序
- 039_1使用Java實現(xiàn)二次排序
- 039_2使用Scala實現(xiàn)二次排序
- 040_1獲取文本內最大的前3個數(shù)字
- 040_2獲取每個班級排名前3的成績(分組取topn)
- 041_Spark內核源碼深度剖析Spark內核架構深度剖析
- 042_Spark內核源碼深度剖析寬依賴與窄依賴深度剖析
- 043_1Spark內核源碼深度剖析基于Yarn的兩種提交模式深度剖析
- 043_2基于yarn的提交模式的spark-envsh配置補充
- 044_1SparkContext原理剖析
- 044_2SparkContext源碼分析
- 045_Spark內核源碼深度剖析Master主備切換機制原理剖析與源碼分析
- 046_Spark內核源碼深度剖析Master注冊機制原理剖析與源碼分析
- 047_Spark內核源碼深度剖析Master狀態(tài)改變處理機制原理剖析與源碼分析
- 048_Spark內核源碼深度剖析Master資源調度算法原理剖析與源碼分析
- 049_Spark內核源碼深度剖析Worker原理剖析與源碼分析
- 050_Spark內核源碼深度剖析job觸發(fā)流程原理剖析與源碼分析
- 051_1stage劃分算法原理剖析
- 051_2DAGScheduler源碼分析(stage劃分算法、task最佳位置計算算法)
- 052_Spark內核源碼深度剖析TaskScheduler原理剖析與源碼分析
- 053_Spark內核源碼深度剖析Executor原理剖析與源碼分析
- 054_1Task原理剖析
- 054_2Task源碼分析
- 055_1普通Shuffle操作的原理剖析
- 055_2優(yōu)化后的Shuffle操作的原理剖析
- 055_3Shuffle讀寫源碼分析
- 056_BlockManager原理剖析(1)
- 056_BlockManager源碼分析(2)
- 057_CacheManager原理剖析(1)
- 057_CacheManager源碼分析(2)
- 058_Spark內核源碼深度剖析Checkpoint原理剖析
- 059_Spark性能優(yōu)化性能優(yōu)化概覽
- 060_Spark性能優(yōu)化診斷內存的消耗
- 061_Spark性能優(yōu)化高性能序列化類庫
- 062_Spark性能優(yōu)化優(yōu)化數(shù)據(jù)結構
- 063_Spark性能優(yōu)化對多次使用的RDD進行持久化或Checkpoint
- 064_Spark性能優(yōu)化使用序列化的持久化級別
- 065_Spark性能優(yōu)化Java虛擬機垃圾回收調優(yōu)
- 066_Spark性能優(yōu)化提高并行度
- 067_Spark性能優(yōu)化廣播共享數(shù)據(jù)
- 068_Spark性能優(yōu)化數(shù)據(jù)本地化
- 069_Spark性能優(yōu)化reduceByKey和groupByKey
- 070_Spark性能優(yōu)化shuffle性能優(yōu)化
- 071_1Spark130升級151的原因說明
- 071_2Spark14x和15x版本的新特性
- 071_3Spark151源碼編譯
- 071_4Spark151集群搭建
- 072_SparkSQL前世今生
- 073_SparkSQLDataFrame的使用
- 074_1RDD轉換為DataFrame的概覽
- 074_2使用反射方式將RDD轉換為DataFrame
- 075_1使用Java進行轉換
- 075_2使用Scala進行轉換
- 076_通用的load和save操作
- 077_SparkSQLParquet數(shù)據(jù)源之使用編程方式加載數(shù)據(jù)
- 078_SparkSQLParquet數(shù)據(jù)源之自動分區(qū)推斷
- 079_SparkSQLParquet數(shù)據(jù)源之合并元數(shù)據(jù)
- 080_1案例實戰(zhàn)之查詢分數(shù)大于80分的學生信息(Java)
- 080_2案例實戰(zhàn)之查詢分數(shù)大于80分的學生信息(Scala)
- 081_SparkSQLHive數(shù)據(jù)源復雜綜合案例實戰(zhàn)
- 082_SparkSQLJDBC數(shù)據(jù)源復雜綜合案例實戰(zhàn)
- 083_SparkSQL內置函數(shù)以及每日uv銷售額統(tǒng)計案例實戰(zhàn)
- 084_SparkSQL開窗函數(shù)以及top3銷售額統(tǒng)計案例實戰(zhàn)
- 085_SparkSQLUDF自定義函數(shù)實戰(zhàn)
- 086_SparkSQLUDAF自定義聚合函數(shù)實戰(zhàn)
- 087_1SparkSQL工作原理剖析以及性能優(yōu)化
- 087_2補充說明
- 087_3SparkSQL延伸知識之HiveOnSpark
- 087_4核心源碼深度剖析(DataFramelazy特性Optimizer優(yōu)化策略)
- 087_5每日top3熱點搜索詞統(tǒng)計案例實戰(zhàn)
- 088_SparkStreaming大數(shù)據(jù)實時計算介紹
- 089_SparkStreaming基本工作原理
- 090_SparkStreaming與Storm的對比分析
- 091_1SparkStreaming實時wordcount程序開發(fā)(Java)
- 091_2SparkStreaming實時wordcount程序開發(fā)(Scala)
- 092_SparkStreamingStreamingContext詳解
- 093_SparkStreaming輸入DStream和Receiver詳解
- 094_SparkStreaming輸入DStream之基礎數(shù)據(jù)源以及基于HDFS的實時wordcount程序
- 095_輸入DStream之Kafka數(shù)據(jù)源實戰(zhàn)(基于Receiver的方式)
- 096_輸入DStream之Kafka數(shù)據(jù)源實戰(zhàn)(基于Direct的方式)
- 097_DStream的transformation操作概覽
- 098_updateStateByKey以及基于緩存的實時wordcount程序
- 099_transform以及廣告計費日志實時黑名單過濾案例實戰(zhàn)
- 100_window滑動窗口以及熱點搜索詞滑動統(tǒng)計案例實戰(zhàn)
- 101_DStream的output操作以及foreachRDD詳解
- 102_與SparkSQL結合使用之top3熱門商品實時統(tǒng)計案例實戰(zhàn)
- 103_緩存與持久化機制
- 104_Checkpoint機制
- 105_部署升級和監(jiān)控應用程序
- 106_容錯機制以及事務語義詳解
- 107_架構原理深度剖析
- 108_StreamingContext初始化與Receiver啟動原理剖析與源碼分析
- 109_1數(shù)據(jù)接收原理剖析
- 109_2數(shù)據(jù)接收源碼剖析
- 110_數(shù)據(jù)處理原理剖析與源碼分析(block與batch關系透徹解析)
- 111_性能調優(yōu)
- 112_課程總結
- 113_Scala編程進階:Scaladoc的使用
- 114_Scala編程進階:跳出循環(huán)語句的3種方法
- 115_Scala編程進階:多維數(shù)組、Java數(shù)組與Scala數(shù)組的隱式轉換
- 116_Scala編程進階:Tuple拉鏈操作、JavaMap與ScalaMap的隱式轉換
- 117_Scala編程進階:擴大內部類作用域的2種方法、內部類獲取外部類引用
- 118_Scala編程進階:package與import實戰(zhàn)詳解
- 119_Scala編程進階:重寫field的提前定義、Scala繼承層級、對象相等性
- 120_Scala編程進階:文件操作實戰(zhàn)詳解
- 121_Scala編程進階:偏函數(shù)實戰(zhàn)詳解
- 122_Scala編程進階:執(zhí)行外部命令
- 123_Scala編程進階:正則表達式支持
- 124_Scala編程進階:提取器實戰(zhàn)詳解
- 125_Scala編程進階:樣例類的提取器實戰(zhàn)詳解
- 126_Scala編程進階:只有一個參數(shù)的提取器
- 127_Scala編程進階:注解實戰(zhàn)詳解
- 128_Scala編程進階:常用注解介紹
- 129_Scala編程進階:XML基礎操作實戰(zhàn)詳解
- 130_Scala編程進階:XML中嵌入scala代碼
- 131_Scala編程進階:XML修改元素實戰(zhàn)詳解
- 132_Scala編程進階:XML加載和寫入外部文檔
- 133_Scala編程進階:集合元素操作
- 134_Scala編程進階:集合的常用操作方法
- 135_Scala編程進階:map、flatMap、collect、foreach實戰(zhàn)詳解
- 136_Scala編程進階:reduce和fold實戰(zhàn)詳解1
- 136_Scala編程進階:reduce和fold實戰(zhàn)詳解2
- 137_環(huán)境搭建-CentOS64虛擬機安裝
- 138_環(huán)境搭建-Hadoop25偽分布式集群搭建
- 139_環(huán)境搭建-Spark15偽分布式集群搭建
- 140_第一次課程升級大綱介紹以及要點說明
- 141_Spark核心編程進階-Spark集群架構概覽
- 142_Spark核心編程進階-Spark集群架構的幾點特別說明
- 143_Spark核心編程進階-Spark的核心術語講解
- 144_Spark核心編程進階-SparkStandalone集群架構
- 145_Spark核心編程進階-單獨啟動master和worker腳本詳解
- 146_Spark核心編程進階-實驗:單獨啟動master和worker進程
- 147_Spark核心編程進階-worker節(jié)點配置以及spark-evnsh參數(shù)詳解
- 148_Spark核心編程進階-實驗:local模式提交spark作業(yè)
- 149_Spark核心編程進階-實驗:standaloneclient模式提交spark作業(yè)
- 150_Spark核心編程進階-實驗:standalonecluster模式提交spark作業(yè)
- 151_Spark核心編程進階-standalone模式下的多作業(yè)資源調度
- 152_Spark核心編程進階-standalone模式下的作業(yè)監(jiān)控與日志記錄
- 153_Spark核心編程進階-實驗:運行中作業(yè)監(jiān)控以及手工打印日志
- 154_Spark核心編程進階-yarn-client模式原理講解
- 155_Spark核心編程進階-yarn-cluster模式原理講解
- 156_Spark核心編程進階-實驗:yarn-client模式提交spark作業(yè)
- 157_Spark核心編程進階-yarn模式下日志查看詳解
- 157_Spark核心編程進階-yarn模式下日志查看詳解_.flv
- 158_Spark核心編程進階-yarn模式相關參數(shù)詳解
- 159_Spark核心編程進階-spark工程打包以及spark-submit詳解
- 160_Spark核心編程進階-spark-submit示例以及基礎參數(shù)講解
- 161_Spark核心編程進階-實驗:spark-submit最簡單版本提交spark作業(yè)
- 162_Spark核心編程進階-實驗:spark-submit給main類傳遞參數(shù)
- 163_Spark核心編程進階-spark-submit多個示例以及常用參數(shù)詳解
- 164_Spark核心編程進階-SparkConf、spark-submit以及spark-defaultsconf
- 165_Spark核心編程進階-spark-submit配置第三方依賴
- 166_Spark核心編程進階-spark算子的閉包原理詳解
- 167_Spark核心編程進階-實驗:對閉包變量進行累加操作的無效現(xiàn)象
- 168_Spark核心編程進階-實驗:在算子內打印數(shù)據(jù)的無法看到現(xiàn)象
- 169_Spark核心編程進階-mapPartitions以及學生成績查詢案例
- 170_Spark核心編程進階-mapPartitionsWithIndex以開學分班案例
- 171_Spark核心編程進階-sample以及公司年會抽獎案例
- 172_Spark核心編程進階-union以及公司部門合并案例
- 173_Spark核心編程進階-intersection以及公司跨多項目人員查詢案例
- 174_Spark核心編程進階-distinct以及網(wǎng)站uv統(tǒng)計案例
- 175_Spark核心編程進階-aggregateByKey以及單詞計數(shù)案例
- 176_Spark核心編程進階-cartesian以及服裝搭配案例
- 177_Spark核心編程進階-coalesce以及公司部門整合案例
- 178_Spark核心編程進階-repartition以及公司新增部門案例
- 179_Spark核心編程進階-takeSampled以及公司年會抽獎案例
- 180_Spark核心編程進階-shuffle操作原理詳解
- 181_Spark核心編程進階-shuffle操作過程中進行數(shù)據(jù)排序
- 182_Spark核心編程進階-會觸發(fā)shuffle操作的算子
- 183_Spark核心編程進階-shuffle操作對性能消耗的原理詳解
- 184_Spark核心編程進階-shuffle操作所有相關參數(shù)詳解以及性能調優(yōu)
- 185_Spark核心編程進階-綜合案例1:移動端app訪問流量日志分析
- 186_Spark核心編程進階-綜合案例1:日志文件格式分析
- 187_Spark核心編程進階-綜合案例1:讀取日志文件并創(chuàng)建RDD
- 188_Spark核心編程進階-綜合案例1:創(chuàng)建自定義的可序列化類
- 189_Spark核心編程進階-綜合案例1:將RDD映射為key-value格式
- 190_Spark核心編程進階-綜合案例1:基于deviceID進行聚合操作
- 191_Spark核心編程進階-綜合案例1:自定義二次排序key類
- 192_Spark核心編程進階-綜合案例1:將二次排序key映射為RDD的key
- 193_Spark核心編程進階-綜合案例1:執(zhí)行二次排序以及獲取top10數(shù)據(jù)
- 194_Spark核心編程進階-綜合案例1:程序運行測試以及代碼調試
- 195_Spark核心編程進階-部署第二臺CentOS機器
- 196_Spark核心編程進階-部署第二個Hadoop節(jié)點
- 197_Spark核心編程進階-將第二個Hadoop節(jié)點動態(tài)加入集群
- 198_Spark核心編程進階-使用yarn-client和yarn-cluster提交spark作業(yè)
- 199_Spark內核原理進階-union算子內部實現(xiàn)原理剖析
- 200_Spark內核原理進階-groupByKey算子內部實現(xiàn)原理剖析
- 201_Spark內核原理進階-reduceByKey算子內部實現(xiàn)原理剖析
- 202_Spark內核原理進階-distinct算子內部實現(xiàn)原理剖析
- 203_Spark內核原理進階-cogroup算子內部實現(xiàn)原理剖析
- 204_Spark內核原理進階-intersection算子內部實現(xiàn)原理剖析
- 205_Spark內核原理進階-join算子內部實現(xiàn)原理剖析
- 206_Spark內核原理進階-sortByKey算子內部實現(xiàn)原理剖析
- 207_Spark內核原理進階-cartesian算子內部實現(xiàn)原理剖析
- 208_Spark內核原理進階-coalesce算子內部實現(xiàn)原理剖析
- 209_Spark內核原理進階-repartition算子內部實現(xiàn)原理剖析
- 210_SparkSQL實戰(zhàn)開發(fā)進階-Hive013安裝與測試
- 211_SparkSQL實戰(zhàn)開發(fā)進階-ThriftJDBC、ODBCServer
- 212_SparkSQL實戰(zhàn)開發(fā)進階-CLI命令行使用
- 213_SparkSQL實戰(zhàn)開發(fā)進階-綜合案例2:新聞網(wǎng)站關鍵指標離線統(tǒng)計
- 214_SparkSQL實戰(zhàn)開發(fā)進階-綜合案例2:頁面pv統(tǒng)計以及排序
- 215_SparkSQL實戰(zhàn)開發(fā)進階-綜合案例2:頁面uv統(tǒng)計以及排序
- 216_SparkSQL實戰(zhàn)開發(fā)進階-綜合案例2:新用戶注冊比例統(tǒng)計
- 217_Spark SQL實戰(zhàn)開發(fā)進階-綜合案例2:用戶跳出率統(tǒng)計
- 218_SparkSQL實戰(zhàn)開發(fā)進階-綜合案例2:版塊熱度排行榜統(tǒng)計
- 219_SparkSQL實戰(zhàn)開發(fā)進階-綜合案例2:測試與調試
- 220_SparkStreaming實戰(zhàn)開發(fā)進階-flume安裝
- 221_SparkStreaming實戰(zhàn)開發(fā)進階-接收flume實時數(shù)據(jù)流
- 222_SparkStreaming實戰(zhàn)開發(fā)進階-接收flume實時數(shù)據(jù)流
- 223_SparkStreaming實戰(zhàn)開發(fā)進階-高階技術之自定義Receiver
- 223_SparkStreaming實戰(zhàn)開發(fā)進階-高階技術之自定義Receiver(結束)
- 224_SparkStreaming實戰(zhàn)開發(fā)進階-kafka安裝
- 225_SparkStreaming實戰(zhàn)開發(fā)進階-綜合案例3
- 226_SparkStreaming實戰(zhàn)開發(fā)進階-綜合案例3
- 227_SparkStreaming實戰(zhàn)開發(fā)進階-綜合案例3
- 228_SparkStreaming實戰(zhàn)開發(fā)進階-綜合案例3:注冊用戶數(shù)實時統(tǒng)計
- 229_SparkStreaming實戰(zhàn)開發(fā)進階-綜合案例3
- 230_SparkStreaming實戰(zhàn)開發(fā)進階-綜合案例3
- 231_Spark運維管理進階-基于ZooKeeper實現(xiàn)HA高可用性以及自動主備切換
- 232_Spark運維管理進階-實驗:基于ZooKeeper實現(xiàn)HA高可用性以及自動主備切換
- 233_Spark運維管理進階-基于文件系統(tǒng)實現(xiàn)HA高可用性以及手動主備切換
- 234_Spark運維管理進階-實驗:基于文件系統(tǒng)實現(xiàn)HA高可用性以及手動主備切換
- 235_Spark運維管理進階-作業(yè)監(jiān)控-SparkWebUI以及監(jiān)控實驗
- 236_Spark運維管理進階-作業(yè)監(jiān)控
- 237_Spark運維管理進階-作業(yè)監(jiān)控
- 238_Spark運維管理進階-作業(yè)監(jiān)控
- 239_Spark運維管理進階-作業(yè)監(jiān)控
- 240_Spark運維管理進階-作業(yè)資源調度
- 241_Spark運維管理進階-作業(yè)資源調度
- 242_Spark運維管理進階-作業(yè)資源調度
- 243_Spark運維管理進階-作業(yè)資源調度
- 244_Spark運維管理進階-作業(yè)資源調度
- 245_Spark運維管理進階-作業(yè)資源調度
- 246_新特性介紹_rec
- 247_新特性介紹-易用性:標準化SQL支持以及更合理的API_rec
- 248_新特性介紹-高性能:讓Spark作為編譯器來運行_rec
- 249_新特性介紹-智能化:Structured Streaming介紹_rec
- 250_新特性介紹-Spark 1.x的Volcano Iterator Model技術缺陷分析 _rec
- 251_新特性介紹-whole-stage code generation技術和vectorization技術_rec
- 252_Spark 2.x與1.x對比以及分析、學習建議以及使用建議_rec
- 253_課程環(huán)境搭建:虛擬機、CentOS、Hadoop、Spark等_rec
- 254_開發(fā)環(huán)境搭建:Eclipse+Maven+Scala+Spark_rec
- 255_SparkSession、Dataframe、Dataset開發(fā)入門(1)_rec
- 255_SparkSession、Dataframe、Dataset開發(fā)入門(2)_rec
- 256_Dataset開發(fā)詳解-初步體驗untypd操作案例:計算部門平均年齡與薪資 _rec
- 257_Dataset開發(fā)詳解-action操作:collect、count、foreach、reduce等_rec
- 258_Dataset開發(fā)詳解-基礎操作:持久化、臨時視圖、ds與df互轉換、寫數(shù)據(jù)等_rec
- 259_Dataset開發(fā)詳解-typed操作:coalesce、repartition 不加密
- 260_Dataset開發(fā)詳解-typed操作:distinct、dropDuplicates_rec
- 261_Dataset開發(fā)詳解-typed操作:except、filter、intersect_rec
- 262_Dataset開發(fā)詳解-typed操作:map、flatMap、mapPartitions_rec
- 263_Dataset開發(fā)詳解-typed操作:joinWith _rec
- 264_Dataset開發(fā)詳解-typed操作:sort_rec
- 265_Dataset開發(fā)詳解-typed操作:randomSplit、sample_rec
- 266_Dataset開發(fā)詳解-untyped操作:select、where、groupBy、agg、col、join _rec
- 267_Dataset開發(fā)詳解-聚合函數(shù):avg、sum、max、min、count、countDistinct _rec
- 268_Dataset開發(fā)詳解-聚合函數(shù):collect_list、collect_set_rec
- 269_Dataset開發(fā)詳解-其他常用函數(shù)_rec
- 270_Structured Streaming:深入淺出的介紹_rec
- 271_Structured Streaming:wordcount入門案例_rec
- 272_Structured Streaming:編程模型_rec
- 273_Structured Streaming:創(chuàng)建流式的dataset和dataframe_rec
- 274_Structured Streaming:對流式的dataset和dataframe執(zhí)行計算操作_rec
- 275_Structured Streaming:output mode、sink以及foreach sink詳解_rec
- 276_Structured Streaming:管理streaming query_rec
- 277_Structured Streaming:基于checkpoint的容錯機制_rec
- 278_Spark面試、簡歷中的項目編寫以及實際生產環(huán)境的集群和資源配置等_rec
不需任何基礎,帶您無痛入門Spark,內容包括Spark集群的構建、Spark架構設計、RDD、Shark/SparkSQL、機器學習、圖計算、實時流處理、Spark on Yarn、JobServer、Spark測試、Spark優(yōu)化等。Spark是第一個脫胎于該轉變的快速、通用分布式計算范式,并且很快流行起來。Spark使用函數(shù)式編程范式擴展了MapReduce模型以支持更多計算類型,可以涵蓋廣泛的工作流,這些工作流之前被實現(xiàn)為Hadoop之上的特殊系統(tǒng)。Spark使用內存緩存來提升性能,因此進行交互式分析也足夠快速(就如同使用Python解釋器,與集群進行交互一樣)。緩存同時提升了迭代算法的性能,這使得Spark非常適合數(shù)據(jù)理論任務,特別是機器學習。
