數(shù)據(jù)科學(xué)并沒有一個獨(dú)立的學(xué)科體系,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫,分布式計(jì)算,云計(jì)算,信息可視化等技術(shù)或方法來對付數(shù)據(jù)。但從狹義上來看,我認(rèn)為數(shù)據(jù)科學(xué)就是解決三個問題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是我們做數(shù)據(jù)工作的三個大步驟:
1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);
2、我們想看看數(shù)據(jù)“長什么樣”,有什么特點(diǎn)和規(guī)律;
3、按照自己的需要,比如要對數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價值的且不易發(fā)現(xiàn)的信息,都要對數(shù)據(jù)建模,得到output。
這三個步驟未必嚴(yán)謹(jǐn),每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經(jīng)驗(yàn)來看,按照這個大思路走,數(shù)據(jù)一般不會做跑偏。
   相對保守,發(fā)展趨勢越來越精確。當(dāng)然,這本身不是壞事,只有越精確, 才能發(fā)現(xiàn)真理,但是一旦過度則是有害的。建立在數(shù)學(xué)背景下的統(tǒng)計(jì),追求精確儼然是一種趨勢。在采用一個方法之前,首先考慮的是證明它的正確性。而不是像計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)注重自學(xué)習(xí)的過程,注重經(jīng)驗(yàn)學(xué)習(xí)的過程。

        盡管統(tǒng)計(jì)學(xué)的一些分支側(cè)重于描述,也會存在一個核心的問題就是通過觀察樣本情況去推測總體。必然,這也是DM要做的事情。DM的特性:要處理一個大數(shù)據(jù)集。這就意味著,要考慮到可行性的問題,我們常常得到的只是一個樣本,去描述這個樣本來自的那個大數(shù)據(jù)集。這就是我們常說的:樣本估計(jì)整體。不同點(diǎn)在于,數(shù)據(jù)挖掘往往可以得到數(shù)據(jù)總體。例如:一個公司所有職工的數(shù)據(jù),數(shù)據(jù)庫中的所有客戶的資料,去年的所有業(yè)績,銷售記錄等。在這種情形下,推斷就沒有價值了。這就意味著,建立的統(tǒng)計(jì)模型是通過一系列概率描述(如:一些參數(shù)接近于0,則會在模型中刪除。其意思就是這個數(shù)據(jù)段發(fā)生的概率低,在統(tǒng)計(jì)學(xué)習(xí)分類的時候,在前期數(shù)據(jù)處理的過程中,這段數(shù)據(jù)就已經(jīng)被清除了),但當(dāng)總體數(shù)據(jù)可獲得話,在數(shù)據(jù)挖掘過程中這就變的毫無意義。

郵箱
huangbenjincv@163.com

达拉特旗| 宣化县| 泸水县| 榆树市| 金门县| 通辽市| 周至县| 古交市| 衡阳县| 武乡县| 吴旗县| 庆云县| 韩城市| 高平市| 晋中市| 镇平县| 西峡县| 乐安县| 满洲里市| 彭山县| 泸西县| 广南县| 鲁甸县| 南通市| 沁阳市| 玛沁县| 丁青县| 宁夏| 金堂县| 定南县| 闻喜县| 道孚县| 湖口县| 巴中市| 东台市| 和田市| 阳山县| 勃利县| 巴楚县| 即墨市| 蕲春县|