- 0.1 課程及其配套在線資源介紹
- 1.1 大數(shù)據(jù)時代
- 1.2大數(shù)據(jù)概念和影響
- 1.3 大數(shù)據(jù)的應(yīng)用
- 1.4大數(shù)據(jù)的關(guān)鍵技術(shù)
- 1.5.1云計算
- 1.5.2 物聯(lián)網(wǎng)
- 2.1.1 Hadoop簡介
- 2.1.2 Hadoop不同版本
- 2.2 Hadoop項目結(jié)構(gòu)
- 2.3.1Hadoop安裝之前的預(yù)備知識
- 2.3.2 Hadoop的安裝和使用詳解
- 2.4 Hadoop集群的部署和使用
- 3.1 分布式文件系統(tǒng)HDFS簡介
- 3.2 HDFS相關(guān)概念
- 3.3 HDFS體系結(jié)構(gòu)
- 3.4 HDFS存儲原理
- 3.5.1 HDFS讀數(shù)據(jù)過程
- 3.5.2 HDFS寫數(shù)據(jù)過程
- 3.6 HDFS編程實踐
- 4.1 HBase簡介
- 4.2 HBase數(shù)據(jù)模型
- 4.3 HBase的實現(xiàn)原理
- 4.4 HBase運行機制
- 4.5 HBase應(yīng)用方案
- 4.6 HBase安裝配置和常用Shell命令
- 4.7 HBase常用Java API及應(yīng)用實例
- 5.1 NoSQL概述
- 5.2 NoSQL與關(guān)系數(shù)據(jù)庫的比較
- 5.3.1鍵值數(shù)據(jù)庫和列族數(shù)據(jù)庫
- 5.3.2文檔數(shù)據(jù)庫圖數(shù)據(jù)庫以及不同數(shù)據(jù)庫比較分析
- 5.4.1 CAP理論
- 5.4.2 BASE和最終一致性
- 5.5 從NoSQL到NewSQL數(shù)據(jù)庫
- 5.6 文檔數(shù)據(jù)庫MongoDB
- 6.1 云數(shù)據(jù)庫概述
- 6.2 云數(shù)據(jù)庫產(chǎn)品
- 6.3.1 UMP系統(tǒng)概述
- 6.3.2 UMP系統(tǒng)架構(gòu)
- 6.3.3 UMP系統(tǒng)功能
- 6.4.1 Amazon和云計算的淵源
- 6.4.2 Amazon AWS
- 6.4.3 Amazon AWS平臺上的云數(shù)據(jù)庫
- 6.5 微軟云數(shù)據(jù)庫SQL Azure
- 6.6 云數(shù)據(jù)庫實踐
- 7.1 MapReduce概述 - 7.1.1 分布式并行編程
- 7.1 MapReduce概述 - 7.1.2 MapReduce模型簡介
- 7.2 MapReduce的體系結(jié)構(gòu) - 7.2 MapReduce的體系結(jié)構(gòu)
- 7.3 MapReduce工作流程 - 7.3 MapReduce工作流程
- 7.4 Shuffle過程原理 - 7.4 Shuffle過程原理
- 7.5 MapReduce應(yīng)用程序執(zhí)行過程 - 7.5 MapReduce應(yīng)用程序執(zhí)行過程
- 7.6 實例分析WordCount - 7.6 實例分析WordCount
- 7.7 MapReduce的具體應(yīng)用 - 7.7 MapReduce的具體應(yīng)用
- 7.8 MapReduce編程實踐 - 7.8 MapReduce編程實踐
- 8.1 數(shù)據(jù)倉庫概念 - 8.1 數(shù)據(jù)倉庫概念
- 8.2 Hive簡介 - 8.2 Hive簡介
- 8.3 SQL轉(zhuǎn)換成MapReduce作業(yè)的原理 - 8.3 SQL轉(zhuǎn)換成MapReduce作業(yè)的原理
- 8.4 Impala - 8.4.1 Impala簡介
- 8.4 Impala - 8.4.2 Impala系統(tǒng)架構(gòu)
- 8.4 Impala - 8.4.3 Impala查詢執(zhí)行過程
- 8.4 Impala - 8.4.4 Impala與Hive的比較
- 8.5 Hive編程實踐 - 8.5.1 Hive安裝與基本操作
- 8.5 Hive編程實踐 - 8.5.2 Hive應(yīng)用實例WordCount
- 9.1 Hadoop的優(yōu)化與發(fā)展 - 9.1 Hadoop的優(yōu)化與發(fā)展
- 9.2 HDFS2.0的新特性 - 9.2.1 HDFS HA
- 9.2 HDFS2.0的新特性 - 9.2.2 HDFS Federation
- 9.3 新一代資源管理調(diào)度框架YARN - 9.3.1MapReduce1.0的缺陷
- 9.3 新一代資源管理調(diào)度框架YARN - 9.3.2 YARN設(shè)計思路
- 9.3 新一代資源管理調(diào)度框架YARN - 9.3.3 YARN體系結(jié)構(gòu)
- 9.3 新一代資源管理調(diào)度框架YARN - 9.3.4 YARN工作流程
- 9.3 新一代資源管理調(diào)度框架YARN - 9.3.5 YARN框架與MapReduce1.0框架的對比分析
- 9.3 新一代資源管理調(diào)度框架YARN - 9.3.6 YARN的發(fā)展目標
- 9.4 Hadoop生態(tài)系統(tǒng)中具有代表性的功能組件 - 9.4.1 Pig
- 9.4 Hadoop生態(tài)系統(tǒng)中具有代表性的功能組件 - 9.4.2 Tez
- 9.4 Hadoop生態(tài)系統(tǒng)中具有代表性的功能組件 - 9.4.3 Spark和Kafka
- 10.1 Spark概述 - 10.1.1 Spark簡介
- 10.1 Spark概述 - 10.1.2 Spark與Hadoop的對比
- 10.2 Spark生態(tài)系統(tǒng) - 10.2 Spark生態(tài)系統(tǒng)
- 10.3 Spark運行架構(gòu) - 10.3.1 基本概念和架構(gòu)設(shè)計
- 10.3 Spark運行架構(gòu) - 10.3.2 Spark運行基本流程
- 10.3 Spark運行架構(gòu) - 10.3.3 RDD概念
- 10.3 Spark運行架構(gòu) - 10.3.4 RDD特性
- 10.3 Spark運行架構(gòu) - 10.3.5 RDD的依賴關(guān)系和運行過程
- 10.4 Spark SQL - 10.4 Spark SQL
- 10.5 Spark的部署和應(yīng)用方式 - 10.5 Spark的部署和應(yīng)用方式
- 10.6 Spark編程實踐 - 10.6.1 Spark安裝和啟動Spark Shell
- 10.6 Spark編程實踐 - 10.6.2 Spark RDD基本操作
- 10.6 Spark編程實踐 - 10.6.3 Spark應(yīng)用程序
- 11.1 流計算概述 - 11.1.1 數(shù)據(jù)的處理模型
- 11.1 流計算概述 - 11.1.2 流計算概念與典型框架
- 11.3 流計算的應(yīng)用 - 11.3 流計算的應(yīng)用
- 11.4 開源流計算框架Storm - 11.4.1 Storm簡介
- 11.4 開源流計算框架Storm - 11.4.2 Storm設(shè)計思想
- 11.4 開源流計算框架Storm - 11.4.3 Storm框架設(shè)計
- 11.5 Spark StreamingSamza以及三種流計算框架的比較 - 11.5 Spark StreamingSamza以及三種流計算框架的比較
- 11.6 Storm編程實踐 - 11.6.1 編寫Storm程序
- 11.6 Storm編程實踐 - 11.6.2 安裝Storm的基本過程和實例
- 12.1 圖計算簡介 - 12.1 圖計算簡介
- 12.2 Pregel簡介 - 12.2 Pregel簡介
- 12.3 Pregel圖計算模型 - 12.3.1 有向圖和頂點
- 12.3 Pregel圖計算模型 - 12.3.2 Pregel的計算過程
- 12.3 Pregel圖計算模型 - 12.3.3 Pregel實例
- 12.4 Pregel的C++ API - 12.4.1 定義Vertex基類
- 12.4 Pregel的C++ API - 12.4.2 消息傳遞機制和Combiner
- 12.4 Pregel的C++ API - 12.4.3 Aggregator拓撲改變和輸入輸出
- 12.5 Pregel的體系結(jié)構(gòu) - 12.5.1 Pregel的執(zhí)行過程和容錯性
- 12.5 Pregel的體系結(jié)構(gòu) - 12.5.2 WorkerMaster和Aggregator
- 12.6 Pregel的應(yīng)用實例單源最短路徑 - 12.6 Pregel的應(yīng)用實例單源最短路徑
- 12.7 Hama的安裝和使用 - 12.7 Hama的安裝和使用
- 13.1 大數(shù)據(jù)應(yīng)用概覽 - 13.1大數(shù)據(jù)應(yīng)用概覽
- 13.2 推薦系統(tǒng) - 13.2.1 推薦系統(tǒng)概述
- 13.2 推薦系統(tǒng) - 13.2.2 基于用戶的協(xié)同過濾UserCF
- 13.2 推薦系統(tǒng) - 13.2.3 基于物品的協(xié)同過濾ItemCF
- 13.2 推薦系統(tǒng) - 13.2.4 UserCF算法和ItemCF算法的對比
- 13.3 大數(shù)據(jù)在智能醫(yī)療和智能物流領(lǐng)域運用 - 13.3 大數(shù)據(jù)在智能醫(yī)療和智能物流領(lǐng)域運用
大數(shù)據(jù)技術(shù)的發(fā)展,已被列為國家重大發(fā)展戰(zhàn)略。而在過去的幾年里,無論是聚焦大數(shù)據(jù)發(fā)展的《促進大數(shù)據(jù)發(fā)展行動綱要》還是《“十三五”規(guī)劃》中都深刻體現(xiàn)了政府對大數(shù)據(jù)產(chǎn)業(yè)和應(yīng)用發(fā)展的重視。目前國內(nèi)大數(shù)據(jù)發(fā)展還處于加速期、轉(zhuǎn)型期,數(shù)據(jù)與傳統(tǒng)產(chǎn)業(yè)的融合還處于起步階段,各行業(yè)對大數(shù)據(jù)分析和挖掘的應(yīng)用還不理想。但隨著市場競爭的加劇,各行業(yè)對大數(shù)據(jù)技術(shù)研究的熱情越來越高,在未來幾年,各領(lǐng)域的數(shù)據(jù)分析都將大規(guī)模應(yīng)用。《大數(shù)據(jù)技術(shù)及應(yīng)用》是計算機相關(guān)專業(yè)大學(xué)本科生及研究生選修的一門專業(yè)課程,通過本課程學(xué)習(xí),使學(xué)生能較系統(tǒng)地掌握大數(shù)據(jù)的基本知識、原理和方法,初步具備大數(shù)據(jù)的應(yīng)用、開發(fā)的能力,為從事大數(shù)據(jù)分析、建模、可視化奠定基礎(chǔ)。目的是讓學(xué)生了解并掌握四個領(lǐng)域即大數(shù)據(jù)系統(tǒng)的起源及系統(tǒng)特征;大數(shù)據(jù)系統(tǒng)的架構(gòu)設(shè)計及功能目標設(shè)計;大數(shù)據(jù)系統(tǒng)程序開發(fā);企業(yè)大數(shù)據(jù)案例分析的內(nèi)容,同時利用真機實驗環(huán)節(jié)以及大數(shù)據(jù)實訓(xùn)一體機來提升學(xué)生對大數(shù)據(jù)開發(fā)的實踐能力;本課程重點讓學(xué)生掌握三個方面的內(nèi)容:(1)基礎(chǔ)篇:主要包括HDFS使用操作、MapReduce開發(fā);、HBase數(shù)據(jù)庫的開發(fā);(2)核心篇:YARN架構(gòu)、Spark集群計算、Spark機器學(xué)習(xí)、Hive數(shù)據(jù)倉庫開發(fā);(3)應(yīng)用篇:醫(yī)藥大數(shù)據(jù)案例分析。
