數(shù)據(jù)科學(xué)并沒有一個(gè)獨(dú)立的學(xué)科體系,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫,分布式計(jì)算,云計(jì)算,信息可視化等技術(shù)或方法來對(duì)付數(shù)據(jù)。但從狹義上來看,我認(rèn)為數(shù)據(jù)科學(xué)就是解決三個(gè)問題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是我們做數(shù)據(jù)工作的三個(gè)大步驟:
1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);
2、我們想看看數(shù)據(jù)“長什么樣”,有什么特點(diǎn)和規(guī)律;
3、按照自己的需要,比如要對(duì)數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價(jià)值的且不易發(fā)現(xiàn)的信息,都要對(duì)數(shù)據(jù)建模,得到output。
這三個(gè)步驟未必嚴(yán)謹(jǐn),每個(gè)大步驟下面可能依問題的不同也會(huì)有不同的小步驟,但按我這幾年的經(jīng)驗(yàn)來看,按照這個(gè)大思路走,數(shù)據(jù)一般不會(huì)做跑偏。
   相對(duì)保守,發(fā)展趨勢越來越精確。當(dāng)然,這本身不是壞事,只有越精確, 才能發(fā)現(xiàn)真理,但是一旦過度則是有害的。建立在數(shù)學(xué)背景下的統(tǒng)計(jì),追求精確儼然是一種趨勢。在采用一個(gè)方法之前,首先考慮的是證明它的正確性。而不是像計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)注重自學(xué)習(xí)的過程,注重經(jīng)驗(yàn)學(xué)習(xí)的過程。

        盡管統(tǒng)計(jì)學(xué)的一些分支側(cè)重于描述,也會(huì)存在一個(gè)核心的問題就是通過觀察樣本情況去推測總體。必然,這也是DM要做的事情。DM的特性:要處理一個(gè)大數(shù)據(jù)集。這就意味著,要考慮到可行性的問題,我們常常得到的只是一個(gè)樣本,去描述這個(gè)樣本來自的那個(gè)大數(shù)據(jù)集。這就是我們常說的:樣本估計(jì)整體。不同點(diǎn)在于,數(shù)據(jù)挖掘往往可以得到數(shù)據(jù)總體。例如:一個(gè)公司所有職工的數(shù)據(jù),數(shù)據(jù)庫中的所有客戶的資料,去年的所有業(yè)績,銷售記錄等。在這種情形下,推斷就沒有價(jià)值了。這就意味著,建立的統(tǒng)計(jì)模型是通過一系列概率描述(如:一些參數(shù)接近于0,則會(huì)在模型中刪除。其意思就是這個(gè)數(shù)據(jù)段發(fā)生的概率低,在統(tǒng)計(jì)學(xué)習(xí)分類的時(shí)候,在前期數(shù)據(jù)處理的過程中,這段數(shù)據(jù)就已經(jīng)被清除了),但當(dāng)總體數(shù)據(jù)可獲得話,在數(shù)據(jù)挖掘過程中這就變的毫無意義。

郵箱
huangbenjincv@163.com

东明县| 鄂托克前旗| 东乌| 霍邱县| 佳木斯市| 滨海县| 科尔| 南昌县| 玉环县| 翁源县| 临潭县| 黄大仙区| 鄂托克前旗| 澳门| 卢湾区| 安多县| 远安县| 平罗县| 得荣县| 丽江市| 响水县| 青田县| 长泰县| 咸宁市| 自贡市| 扶沟县| 江都市| 临邑县| 怀集县| 哈尔滨市| 水城县| 通山县| 承德市| 双城市| 玉环县| 安远县| 巍山| 军事| 玉田县| 察隅县| 平昌县|