簡介:隨著人工智能的快速發(fā)展,自然語言處理應(yīng)用愈加廣泛。本課首先對其發(fā)展歷程、現(xiàn)狀、技術(shù)體系、開發(fā)環(huán)境等概述。然后從數(shù)據(jù)準(zhǔn)備、可視化、KNN算法模型、實際應(yīng)用、sklearn算法改進等方面進行實戰(zhàn),旨在幫助大家輕松入門。
自然語言處理是計算機科學(xué)與技術(shù)專業(yè)的一門專業(yè)選修課。它的主要任務(wù)是使學(xué)生了解自然語言處理的主要研究內(nèi)容及關(guān)鍵技術(shù),并介紹自然語言處理方面的研究成果,為學(xué)生從事自然語言處理研究和開發(fā)做準(zhǔn)備。此外,通過指導(dǎo)學(xué)生閱讀計算語言學(xué)專業(yè)會議的論文,進行摘要和評價,并進行介紹、提問和討論,使他們對所學(xué)課程的有關(guān)概念與目前的流行方法和技術(shù)的關(guān)系有更深入地了解。在此基礎(chǔ)上,要求學(xué)生完成一篇有關(guān)自然語言處理主題的課程項目,使他們能用所學(xué)的知識發(fā)揮自身的能力查找有關(guān)資料和概括某一研究領(lǐng)域的國內(nèi)外最新理論和技術(shù)并最終加以實踐。
主要教學(xué)內(nèi)容
主要包含三個重要部分:自然語言處理綜述、語言模型(N-gram語言模型)、序列標(biāo)注問題(Sequence labelling problem)、句法分析、語義分析、情感分析、詞向量等。其中:自然語言處理綜述主要介紹人工智能發(fā)展歷史綜述,不同領(lǐng)域自然語言處理應(yīng)用問題及方法等,自然語言處理基本技術(shù)方法概述,其中包括部分機器學(xué)習(xí)知識,自然語言處理層次架構(gòu),具體任務(wù)介紹,歧義問題,經(jīng)驗主義方法等;語言模型主要包括自然語言處理相關(guān)語言模型基礎(chǔ)理論以及相關(guān)平滑處理技術(shù)等(如N-Gram;鏈?zhǔn)揭?guī)則Chain Rule等);序列標(biāo)注問題(Sequence labelling problem)主要知識點包括序列標(biāo)注學(xué)習(xí)極其相關(guān)應(yīng)用等(如離散/連續(xù)馬爾科夫模型、中文分詞、詞性標(biāo)注、命名實體識別等);句法分析主要包括自然語言中語法分析等基礎(chǔ)理論知識等(如上下文無關(guān)文法、自上而下句法分析、概率上下文無關(guān)文法、最大似然訓(xùn)練、依存語法樹等);語義分析主要主要知識點包括自然語言中語義分析等基礎(chǔ)理論知識等(如語義角色、語義角色標(biāo)注、基于句法樹方法等);情感分析(Sentiment Analysis)主要包括情感分析技術(shù)理論與方法等(如感情傾向性分析等);詞向量主要包括基于神經(jīng)網(wǎng)絡(luò)的自然語言處理技術(shù)與基礎(chǔ)理論知識等(如Word2vec詞向量、基于循環(huán)神經(jīng)網(wǎng)絡(luò)語言模型等)。力求跟蹤自然語言處理的發(fā)展脈絡(luò)、技術(shù)理論、產(chǎn)業(yè)成果并以翔實的形態(tài)進行展現(xiàn)教學(xué)。