數(shù)據(jù)科學(xué)并沒有一個(gè)獨(dú)立的學(xué)科體系,統(tǒng)計(jì)學(xué),機(jī)器學(xué)習(xí),數(shù)據(jù)挖掘,數(shù)據(jù)庫,分布式計(jì)算,云計(jì)算,信息可視化等技術(shù)或方法來對付數(shù)據(jù)。但從狹義上來看,我認(rèn)為數(shù)據(jù)科學(xué)就是解決三個(gè)問題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是我們做數(shù)據(jù)工作的三個(gè)大步驟:
1、原始數(shù)據(jù)要經(jīng)過一連串收集、提取、清洗、整理等等的預(yù)處理過程,才能形成高質(zhì)量的數(shù)據(jù);
2、我們想看看數(shù)據(jù)“長什么樣”,有什么特點(diǎn)和規(guī)律;
3、按照自己的需要,比如要對數(shù)據(jù)貼標(biāo)簽分類,或者預(yù)測,或者想要從大量復(fù)雜的數(shù)據(jù)中提取有價(jià)值的且不易發(fā)現(xiàn)的信息,都要對數(shù)據(jù)建模,得到output。
這三個(gè)步驟未必嚴(yán)謹(jǐn),每個(gè)大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經(jīng)驗(yàn)來看,按照這個(gè)大思路走,數(shù)據(jù)一般不會做跑偏。
   相對保守,發(fā)展趨勢越來越精確。當(dāng)然,這本身不是壞事,只有越精確, 才能發(fā)現(xiàn)真理,但是一旦過度則是有害的。建立在數(shù)學(xué)背景下的統(tǒng)計(jì),追求精確儼然是一種趨勢。在采用一個(gè)方法之前,首先考慮的是證明它的正確性。而不是像計(jì)算機(jī)科學(xué)和機(jī)器學(xué)習(xí)注重自學(xué)習(xí)的過程,注重經(jīng)驗(yàn)學(xué)習(xí)的過程。

        盡管統(tǒng)計(jì)學(xué)的一些分支側(cè)重于描述,也會存在一個(gè)核心的問題就是通過觀察樣本情況去推測總體。必然,這也是DM要做的事情。DM的特性:要處理一個(gè)大數(shù)據(jù)集。這就意味著,要考慮到可行性的問題,我們常常得到的只是一個(gè)樣本,去描述這個(gè)樣本來自的那個(gè)大數(shù)據(jù)集。這就是我們常說的:樣本估計(jì)整體。不同點(diǎn)在于,數(shù)據(jù)挖掘往往可以得到數(shù)據(jù)總體。例如:一個(gè)公司所有職工的數(shù)據(jù),數(shù)據(jù)庫中的所有客戶的資料,去年的所有業(yè)績,銷售記錄等。在這種情形下,推斷就沒有價(jià)值了。這就意味著,建立的統(tǒng)計(jì)模型是通過一系列概率描述(如:一些參數(shù)接近于0,則會在模型中刪除。其意思就是這個(gè)數(shù)據(jù)段發(fā)生的概率低,在統(tǒng)計(jì)學(xué)習(xí)分類的時(shí)候,在前期數(shù)據(jù)處理的過程中,這段數(shù)據(jù)就已經(jīng)被清除了),但當(dāng)總體數(shù)據(jù)可獲得話,在數(shù)據(jù)挖掘過程中這就變的毫無意義。

郵箱
huangbenjincv@163.com

阿拉善左旗| 阆中市| 大荔县| 荥阳市| 呼和浩特市| 五华县| 衡东县| 蓬莱市| 亳州市| 花莲市| 青神县| 新化县| 孝感市| 隆子县| 菏泽市| 秭归县| 峨眉山市| 和静县| 米林县| 剑阁县| 达尔| 开原市| 四川省| 明溪县| 长岭县| 公主岭市| 南溪县| 海晏县| 宁城县| 清流县| 田阳县| 京山县| 古丈县| 延庆县| 观塘区| 绥阳县| 高陵县| 浠水县| 吴旗县| 保德县| 阿坝|