課程目錄

           王家林:Spark亞太研究院院長和首席專家,中國目前唯一移動互聯(lián)網(wǎng)和云計算大數(shù)據(jù)集大成者。Android架構師、高級工程師、咨詢顧問、培訓專家;通曉Android、HTML5、Hadoop,迷戀英語播音和健美;致力于Android、HTML5、Hadoop的軟、硬、云整合的一站式解決方案。

Apache Spark是一個新興的大數(shù)據(jù)處理的引擎,主要特點是提供了一個集群的分布式內(nèi)存抽象,以支持需要工作集的應用。
 
這個抽象就是RDD(Resilient Distributed Dataset),RDD就是一個不可變的帶分區(qū)的記錄集合,RDD也是Spark中的編程模型。Spark提供了RDD上的兩類操作,轉換和動作。轉換是用來定義一個新的RDD,包括map, flatMap, filter, union, sample, join, groupByKey, cogroup, ReduceByKey, cros, sortByKey, mapValues等,動作是返回一個結果,包括collect, reduce, count, save, lookupKey。
Apache Spark是一個圍繞速度、易用性和復雜分析構建的大數(shù)據(jù)處理框架。最初在2009年由加州大學伯克利分校的AMPLab開發(fā),并于2010年成為Apache的開源項目之一。
與Hadoop和Storm等其他大數(shù)據(jù)和MapReduce技術相比,Spark有如下優(yōu)勢。
首先,Spark為我們提供了一個全面、統(tǒng)一的框架用于管理各種有著不同性質(zhì)(文本數(shù)據(jù)、圖表數(shù)據(jù)等)的數(shù)據(jù)集和數(shù)據(jù)源(批量數(shù)據(jù)或?qū)崟r的流數(shù)據(jù))的大數(shù)據(jù)處理的需求。
Spark可以將Hadoop集群中的應用在內(nèi)存中的運行速度提升100倍,甚至能夠?qū)迷诖疟P上的運行速度提升10倍。
Spark讓開發(fā)者可以快速的用Java、Scala或Python編寫程序。它本身自帶了一個超過80個高階操作符集合。而且還可以用它在shell中以交互式地查詢數(shù)據(jù)。
除了Map和Reduce操作之外,它還支持SQL查詢,流數(shù)據(jù),機器學習和圖表數(shù)據(jù)處理。開發(fā)者可以在一個數(shù)據(jù)管道用例中單獨使用某一能力或者將這些能力結合在一起使用。
在這個Apache Spark文章系列的第一部分中,我們將了解到什么是Spark,它與典型的MapReduce解決方案的比較以及它如何為大數(shù)據(jù)處理提供了一套完整的工具。
 

郵箱
huangbenjincv@163.com

乐山市| 逊克县| 隆德县| 宣武区| 芦溪县| 子长县| 城口县| 波密县| 阿克苏市| 盘山县| 抚远县| 福鼎市| 仙游县| 五大连池市| 古蔺县| 嘉峪关市| 扶余县| 吉林省| 绥棱县| 拜泉县| 淮北市| 晋中市| 永安市| 吴堡县| 竹山县| 苏州市| 和静县| 天台县| 龙海市| 荥经县| 海伦市| 钦州市| 兴安盟| 淳化县| 扶沟县| 和林格尔县| 湘西| 仁寿县| 密云县| 南汇区| 新邵县|