數(shù)據(jù)科學(xué)并沒有一個獨立的學(xué)科體系,統(tǒng)計學(xué),機器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫,分布式計算,云計算,信息可視化等技術(shù)或方法來對付數(shù)據(jù)。但從狹義上來看,我認為數(shù)據(jù)科學(xué)就是解決三個問題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是我們做數(shù)據(jù)工作的三個大步驟:
1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);
2、我們想看看數(shù)據(jù)“長什么樣”,有什么特點和規(guī)律;
3、按照自己的需要,比如要對數(shù)據(jù)貼標簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息,都要對數(shù)據(jù)建模,得到output。
這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經(jīng)驗來看,按照這個大思路走,數(shù)據(jù)一般不會做跑偏。
相對保守,發(fā)展趨勢越來越精確。當然,這本身不是壞事,只有越精確, 才能發(fā)現(xiàn)真理,但是一旦過度則是有害的。建立在數(shù)學(xué)背景下的統(tǒng)計,追求精確儼然是一種趨勢。在采用一個方法之前,首先考慮的是證明它的正確性。而不是像計算機科學(xué)和機器學(xué)習(xí)注重自學(xué)習(xí)的過程,注重經(jīng)驗學(xué)習(xí)的過程。
盡管統(tǒng)計學(xué)的一些分支側(cè)重于描述,也會存在一個核心的問題就是通過觀察樣本情況去推測總體。必然,這也是DM要做的事情。DM的特性:要處理一個大數(shù)據(jù)集。這就意味著,要考慮到可行性的問題,我們常常得到的只是一個樣本,去描述這個樣本來自的那個大數(shù)據(jù)集。這就是我們常說的:樣本估計整體。不同點在于,數(shù)據(jù)挖掘往往可以得到數(shù)據(jù)總體。例如:一個公司所有職工的數(shù)據(jù),數(shù)據(jù)庫中的所有客戶的資料,去年的所有業(yè)績,銷售記錄等。在這種情形下,推斷就沒有價值了。這就意味著,建立的統(tǒng)計模型是通過一系列概率描述(如:一些參數(shù)接近于0,則會在模型中刪除。其意思就是這個數(shù)據(jù)段發(fā)生的概率低,在統(tǒng)計學(xué)習(xí)分類的時候,在前期數(shù)據(jù)處理的過程中,這段數(shù)據(jù)就已經(jīng)被清除了),但當總體數(shù)據(jù)可獲得話,在數(shù)據(jù)挖掘過程中這就變的毫無意義。