- 1.1大數(shù)據(jù)的定義與特點(diǎn)
- 1.2大數(shù)據(jù)算法-大數(shù)據(jù)算法的定義
- 1.3大數(shù)據(jù)算法-求解大數(shù)據(jù)上計(jì)算問題的過程
- 1.4大數(shù)據(jù)算法-大數(shù)據(jù)算法的特點(diǎn)與難點(diǎn)
- 1.5大數(shù)據(jù)算法設(shè)計(jì)與分析
- 2.1亞線性算法的定義
- 2.2水庫抽樣—空間亞線性算法
- 2.3平面圖直徑—時間亞線性計(jì)算算法
- 2.4-全0數(shù)組判定—時間亞線性判定算法
- 3.1數(shù)據(jù)流中頻繁元素-基礎(chǔ)知識
- 3.2數(shù)據(jù)流中頻繁元素-算法與分析
- 3.3生成樹權(quán)重(一)
- 3.4生成樹權(quán)重(二)
- 3.5數(shù)組有序性判定
- 4.1外存存儲結(jié)構(gòu)與外存算法
- 4.2外存排序算法(一)
- 4.3外存排序算法(二)[可選學(xué)]
- 4.4外存查找樹
- 5.1 B樹(一)
- 5.2 B樹(二)
- 5.3 KD樹
- 6.1表排序及其應(yīng)用
- 6.2時間前向處理方法
- 6.3縮圖法
- 7.1MapReduce概述
- 7.2字?jǐn)?shù)統(tǒng)計(jì)
- 7.3平均數(shù)計(jì)算
- 7.4單詞貢獻(xiàn)矩陣的計(jì)算
- 8.1-連接算法
- 8.2--圖算法(一)
- 8.3--圖算法(二)
- 9.1基于迭代處理平臺的并行算法
- 9.2基于圖處理平臺的并行算法
- 10.1眾包的定義
- 10.2眾包的實(shí)例
- 10.3眾包的要素
- 10.4眾包算法例析
大數(shù)據(jù)不論在研究還是工程領(lǐng)域都是熱點(diǎn)之一,算法是大數(shù)據(jù)管理與計(jì)算的核心主題,因此將大數(shù)據(jù)算法作為信息與計(jì)算科學(xué)專業(yè)的一門選修課程。通過本課程的學(xué)習(xí),使學(xué)生能掌握一些大數(shù)據(jù)算法設(shè)計(jì)的基本思想,較好的理解和傳統(tǒng)算法課程不一樣的算法設(shè)計(jì)與分析思路,通過實(shí)踐練習(xí)初步掌握大數(shù)據(jù)算法設(shè)計(jì)與分析的技術(shù),并能夠?qū)⑵渲械乃枷霊?yīng)用于實(shí)際的研究和開發(fā)。從而提高學(xué)生的創(chuàng)新實(shí)踐能力,加強(qiáng)學(xué)生開展科研工作能力。為今后進(jìn)行更深入的研究奠定良好的理論基礎(chǔ)。
通過本課程的學(xué)習(xí),學(xué)生將達(dá)到以下要求:
1.掌握大數(shù)據(jù)算法設(shè)計(jì)的基本思想,較好的理解大數(shù)據(jù)算法設(shè)計(jì)與分析的基本思路;
2.初步掌握大數(shù)據(jù)算法設(shè)計(jì)與分析的基本方法和技術(shù);
3.初步具備將大數(shù)據(jù)算法應(yīng)用于實(shí)際開發(fā)的能力,并能夠分析算法效率。
(二)知識、能力及技能方面的基本要求
1.基本知識:掌握大數(shù)據(jù)算法設(shè)計(jì)和分析的基本思想,掌握概率算法、I/0有效算法、并行算法等大數(shù)據(jù)算法的基本思想。
2.基本理論和方法:掌握大數(shù)據(jù)算法設(shè)計(jì)的一般原理和步驟。要求學(xué)生能夠掌握亞線性算法、外存算法、并行算法等算法的設(shè)計(jì)方法和分析技術(shù)。
3.基本技能:具備運(yùn)用亞線性算法、外存算法、并行算法等算法綜合解決實(shí)際問題的能力,初步具備將大數(shù)據(jù)算法應(yīng)用于實(shí)際開發(fā)的技能。
大數(shù)據(jù)給數(shù)據(jù)分析和處理帶來了前所未有的機(jī)遇和挑戰(zhàn)。本課程介紹大數(shù)據(jù)分析中一些算法 :數(shù)據(jù)的稀疏和低秩表達(dá),稀疏和低秩矩陣優(yōu)化,社交網(wǎng)絡(luò)計(jì)算中的圖與網(wǎng)絡(luò)流問題,機(jī)器 學(xué)習(xí)和數(shù)據(jù)挖掘的最優(yōu)化算法,隨機(jī)優(yōu)化算法,并行計(jì)算等等 Big data has brought unprecedented opportunities and challenges to data analysis and processing. This course introduces some basic concepts of algorithms for big data analysis: sparse and low-rank data representation, sparse and low-rank matrix optimization, graph and network flow problems in social network computation, optimization algorithms for machine learning and data mining, stochastic optimization algorithms, parallel computing, etc. 課程對象: 高年級本科生和研究生。 參考書: (1) Thomas H. Cormen, Charles E. Leiserson, Ronald L. Rivest, Clifford Stein, Introduction to Algorithms, The MIT Press, http://mitpress.mit.edu/books/introduction-algorithms (2) Jure Leskovec, Anand Rajaraman, Jeff Ullman, Mining of Massive Datasets, Cambridge University Press, http://www.mmds.org/ (3) Stephen Boyd and Lieven Vandenberghe, Convex optimization, Cambridge University Press, 2004, http://stanford.edu/~boyd/cvxbook/ (4) Jorge Nocedal and Stephen Wright, Numerical Optimization, Springer, 2006, http://www.ece.northwestern.edu/~nocedal/book/ (5) 袁亞湘,孫文瑜,最優(yōu)化理論與方法,科學(xué)出版社,2003 內(nèi)容提要和學(xué)時分配: 1. 課程簡介, 3學(xué)時 課程簡介,大數(shù)據(jù)分析中的最優(yōu)化理論與算法介紹 2. 線性規(guī)劃,半定規(guī)劃, 6學(xué)時 線性規(guī)劃,單純形方法,半定規(guī)劃,對偶理論 4.稀疏優(yōu)化與低秩矩陣恢復(fù), 9學(xué)時 壓縮感知和稀疏優(yōu)化基本理論和算法 低秩矩陣恢復(fù)的基本理論和算法 PCA,robust PCA (matrix separation), sparse PCA 5. 社交網(wǎng)絡(luò)計(jì)算中的圖和網(wǎng)絡(luò)流問題,9學(xué)時 the network simplex problem the shorted path problem the maximum flow problem the minimum spanning tree problem 6. 機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘,9學(xué)時 聚類分析: clustering 高維數(shù)據(jù)降維: eigenvalue, SVD 鏈接分析: page rank 推薦系統(tǒng): matrix completion, 大規(guī)模機(jī)器學(xué)習(xí): support vector machine 7.現(xiàn)代醫(yī)學(xué)成像與高維圖像分析,3學(xué)時 相位恢復(fù)以及低溫電子顯微鏡和三維重構(gòu)中的若干反問題 8.大數(shù)據(jù)分析的隨機(jī)優(yōu)化算法,3學(xué)時 9.大數(shù)據(jù)分析的并行計(jì)算、分布式計(jì)算、分散式計(jì)算,6學(xué)時 OpenMP, MPI, 稀疏優(yōu)化的并行計(jì)算,分散式計(jì)算
