課程目錄

上海交大強(qiáng)化學(xué)習(xí)從入門到精通課程簡(jiǎn)介

上海交大張偉楠老師的 “強(qiáng)化學(xué)習(xí)從入門到精通” 課程,是一套專為渴望深入掌握強(qiáng)化學(xué)習(xí)理論與實(shí)踐的學(xué)習(xí)者精心打造的課程體系。無(wú)論是對(duì)人工智能領(lǐng)域充滿好奇的初學(xué)者,還是尋求在該領(lǐng)域進(jìn)一步提升專業(yè)技能的研究者、從業(yè)者,本課程都能提供系統(tǒng)且深入的學(xué)習(xí)路徑,助力你全面掌握強(qiáng)化學(xué)習(xí)這一人工智能核心技術(shù)。
課程開篇設(shè)置了多節(jié)強(qiáng)化學(xué)習(xí)簡(jiǎn)介課程,通過(guò)循序漸進(jìn)的講解,幫助學(xué)習(xí)者迅速搭建起對(duì)強(qiáng)化學(xué)習(xí)的基礎(chǔ)認(rèn)知。從基本概念、體系結(jié)構(gòu),到其與其他機(jī)器學(xué)習(xí)方法的差異,再到發(fā)展歷程與典型應(yīng)用,這部分內(nèi)容將強(qiáng)化學(xué)習(xí)的輪廓清晰勾勒出來(lái),為后續(xù)深入學(xué)習(xí)奠定堅(jiān)實(shí)基礎(chǔ)。在對(duì)強(qiáng)化學(xué)習(xí)有初步認(rèn)識(shí)后,課程隨即進(jìn)入探索與利用的專題講解,這是強(qiáng)化學(xué)習(xí)算法設(shè)計(jì)中的關(guān)鍵環(huán)節(jié),關(guān)乎智能體在復(fù)雜環(huán)境中如何平衡探索新策略與利用已有經(jīng)驗(yàn),以實(shí)現(xiàn)長(zhǎng)期累積獎(jiǎng)勵(lì)最大化。
馬爾可夫決策過(guò)程作為強(qiáng)化學(xué)習(xí)的核心數(shù)學(xué)框架,課程分多節(jié)對(duì)其進(jìn)行深入剖析。從馬爾可夫性的概念引入,到馬爾可夫過(guò)程、馬爾可夫獎(jiǎng)勵(lì)過(guò)程,再到馬爾可夫決策過(guò)程的完整構(gòu)建,以及策略與價(jià)值的探討、最優(yōu)化原理的闡釋,讓學(xué)習(xí)者深刻理解強(qiáng)化學(xué)習(xí)問題建模的數(shù)學(xué)基礎(chǔ)。動(dòng)態(tài)規(guī)劃作為解決馬爾可夫決策過(guò)程的經(jīng)典方法,課程詳細(xì)介紹了其原理與算法實(shí)現(xiàn),包括價(jià)值迭代、策略迭代、迭代策略評(píng)估和廣義策略迭代等,使學(xué)習(xí)者掌握基于模型的強(qiáng)化學(xué)習(xí)方法,學(xué)會(huì)如何在已知環(huán)境模型的情況下規(guī)劃最優(yōu)策略。
值函數(shù)估計(jì)是強(qiáng)化學(xué)習(xí)中的重要內(nèi)容,課程通過(guò)多節(jié)內(nèi)容講解不同的值函數(shù)估計(jì)方法,幫助學(xué)習(xí)者理解如何在不確定環(huán)境中準(zhǔn)確估計(jì)狀態(tài)或動(dòng)作的值函數(shù),為后續(xù)控制方法的學(xué)習(xí)提供支撐。無(wú)模型控制方法是強(qiáng)化學(xué)習(xí)的重要分支,課程深入介紹了蒙特卡洛控制、Sarsa 算法、Q 學(xué)習(xí)等經(jīng)典算法,以及 Double Q 學(xué)習(xí)等改進(jìn)方法,讓學(xué)習(xí)者掌握在不依賴環(huán)境模型的情況下,通過(guò)與環(huán)境交互學(xué)習(xí)最優(yōu)策略的技術(shù)。規(guī)劃與學(xué)習(xí)部分則探討了如何結(jié)合規(guī)劃和在線學(xué)習(xí)的優(yōu)勢(shì),使智能體能夠在復(fù)雜動(dòng)態(tài)環(huán)境中更高效地學(xué)習(xí)和決策。
隨著深度學(xué)習(xí)技術(shù)的興起,深度強(qiáng)化學(xué)習(xí)成為當(dāng)前研究熱點(diǎn)。課程在這方面著墨頗多,詳細(xì)講解了深度強(qiáng)化學(xué)習(xí)的價(jià)值方法和策略方法。從深度 Q 網(wǎng)絡(luò)(DQN)及其變種,到基于策略梯度的方法,如 REINFORCE 算法、Actor - Critic 框架等,讓學(xué)習(xí)者了解如何將深度學(xué)習(xí)強(qiáng)大的特征表示能力與強(qiáng)化學(xué)習(xí)的決策優(yōu)化機(jī)制相結(jié)合,處理高維狀態(tài)空間和復(fù)雜動(dòng)作空間的問題。基于模型的深度強(qiáng)化學(xué)習(xí)課程則進(jìn)一步探索如何利用學(xué)習(xí)到的環(huán)境模型輔助強(qiáng)化學(xué)習(xí)過(guò)程,提高學(xué)習(xí)效率和樣本利用率。
模仿學(xué)習(xí)作為一種重要的強(qiáng)化學(xué)習(xí)拓展方向,課程介紹了其基本原理和常見算法,包括學(xué)徒學(xué)習(xí)、最大熵逆強(qiáng)化學(xué)習(xí)、生成對(duì)抗模仿學(xué)習(xí)等,讓學(xué)習(xí)者了解如何從專家示范中學(xué)習(xí),降低強(qiáng)化學(xué)習(xí)的樣本復(fù)雜度。離線強(qiáng)化學(xué)習(xí)則聚焦于如何利用已有的歷史數(shù)據(jù)進(jìn)行強(qiáng)化學(xué)習(xí),而無(wú)需與環(huán)境實(shí)時(shí)交互,這在實(shí)際應(yīng)用中具有重要意義,例如自動(dòng)駕駛領(lǐng)域的策略優(yōu)化。
多智能體強(qiáng)化學(xué)習(xí)是強(qiáng)化學(xué)習(xí)在多主體系統(tǒng)中的應(yīng)用,課程從基礎(chǔ)概念入手,深入講解了多智能體環(huán)境下的策略學(xué)習(xí)、合作與競(jìng)爭(zhēng)機(jī)制,以及基于價(jià)值和策略的博弈強(qiáng)化學(xué)習(xí)方法,幫助學(xué)習(xí)者掌握解決多智能體協(xié)同與對(duì)抗問題的技術(shù)。AI Agent 與決策大模型部分緊跟當(dāng)前人工智能發(fā)展前沿,探討了強(qiáng)化學(xué)習(xí)在構(gòu)建智能決策系統(tǒng)和決策大模型中的應(yīng)用,讓學(xué)習(xí)者了解強(qiáng)化學(xué)習(xí)在推動(dòng)人工智能邁向通用智能過(guò)程中的關(guān)鍵作用。基于擴(kuò)散模型的強(qiáng)化學(xué)習(xí)作為新興研究方向,課程對(duì)其進(jìn)行了介紹,拓寬學(xué)習(xí)者的技術(shù)視野。
整套課程采用理論與實(shí)踐相結(jié)合的教學(xué)方式,每節(jié)課程都通過(guò)清晰的講解、豐富的案例和直觀的演示,幫助學(xué)習(xí)者深入理解強(qiáng)化學(xué)習(xí)的核心概念和算法原理。通過(guò)系統(tǒng)學(xué)習(xí)本課程,學(xué)習(xí)者將從強(qiáng)化學(xué)習(xí)的門外漢逐步成長(zhǎng)為能夠獨(dú)立設(shè)計(jì)和實(shí)現(xiàn)強(qiáng)化學(xué)習(xí)算法,解決實(shí)際工程問題的專業(yè)人才,在人工智能領(lǐng)域占據(jù)更有利的發(fā)展位置,為未來(lái)的學(xué)術(shù)研究或職業(yè)發(fā)展奠定堅(jiān)實(shí)基礎(chǔ)。


郵箱
huangbenjincv@163.com

兴城市| 宁阳县| 隆昌县| 库伦旗| 玉门市| 罗定市| 新竹市| 富锦市| 九台市| 富蕴县| 济宁市| 阿克陶县| 台东市| 太保市| 剑河县| 崇左市| 隆回县| 兖州市| 遂昌县| 鞍山市| 延寿县| 高雄市| 商河县| 清徐县| 合水县| 江山市| 马边| 花垣县| 黑龙江省| 哈巴河县| 上饶市| 隆尧县| 年辖:市辖区| 全州县| 和硕县| 凤凰县| 敦煌市| 霍林郭勒市| 鄂州市| 清河县| 云和县|