數(shù)據(jù)科學(xué)并沒(méi)有一個(gè)獨(dú)立的學(xué)科體系,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫(kù),分布式計(jì)算,云計(jì)算,信息可視化等技術(shù)或方法來(lái)對(duì)付數(shù)據(jù)。但從狹義上來(lái)看,我認(rèn)為數(shù)據(jù)科學(xué)就是解決三個(gè)問(wèn)題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是我們做數(shù)據(jù)工作的三個(gè)大步驟:
1、原始數(shù)據(jù)要經(jīng)過(guò)一連串收集、提取、清洗、整理等等的預(yù)處理過(guò)程,才能形成高質(zhì)量的數(shù)據(jù);
2、我們想看看數(shù)據(jù)“長(zhǎng)什么樣”,有什么特點(diǎn)和規(guī)律;
3、按照自己的需要,比如要對(duì)數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測(cè),或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價(jià)值的且不易發(fā)現(xiàn)的信息,都要對(duì)數(shù)據(jù)建模,得到output。
這三個(gè)步驟未必嚴(yán)謹(jǐn),每個(gè)大步驟下面可能依問(wèn)題的不同也會(huì)有不同的小步驟,但按我這幾年的經(jīng)驗(yàn)來(lái)看,按照這個(gè)大思路走,數(shù)據(jù)一般不會(huì)做跑偏。
相對(duì)保守,發(fā)展趨勢(shì)越來(lái)越精確。當(dāng)然,這本身不是壞事,只有越精確, 才能發(fā)現(xiàn)真理,但是一旦過(guò)度則是有害的。建立在數(shù)學(xué)背景下的統(tǒng)計(jì),追求精確儼然是一種趨勢(shì)。在采用一個(gè)方法之前,首先考慮的是證明它的正確性。而不是像計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)注重自學(xué)習(xí)的過(guò)程,注重經(jīng)驗(yàn)學(xué)習(xí)的過(guò)程。
盡管統(tǒng)計(jì)學(xué)的一些分支側(cè)重于描述,也會(huì)存在一個(gè)核心的問(wèn)題就是通過(guò)觀察樣本情況去推測(cè)總體。必然,這也是DM要做的事情。DM的特性:要處理一個(gè)大數(shù)據(jù)集。這就意味著,要考慮到可行性的問(wèn)題,我們常常得到的只是一個(gè)樣本,去描述這個(gè)樣本來(lái)自的那個(gè)大數(shù)據(jù)集。這就是我們常說(shuō)的:樣本估計(jì)整體。不同點(diǎn)在于,數(shù)據(jù)挖掘往往可以得到數(shù)據(jù)總體。例如:一個(gè)公司所有職工的數(shù)據(jù),數(shù)據(jù)庫(kù)中的所有客戶的資料,去年的所有業(yè)績(jī),銷售記錄等。在這種情形下,推斷就沒(méi)有價(jià)值了。這就意味著,建立的統(tǒng)計(jì)模型是通過(guò)一系列概率描述(如:一些參數(shù)接近于0,則會(huì)在模型中刪除。其意思就是這個(gè)數(shù)據(jù)段發(fā)生的概率低,在統(tǒng)計(jì)學(xué)習(xí)分類的時(shí)候,在前期數(shù)據(jù)處理的過(guò)程中,這段數(shù)據(jù)就已經(jīng)被清除了),但當(dāng)總體數(shù)據(jù)可獲得話,在數(shù)據(jù)挖掘過(guò)程中這就變的毫無(wú)意義。