數據科學并沒有一個獨立的學科體系,統(tǒng)計學,機器學習,數據挖掘,數據庫,分布式計算,云計算,信息可視化等技術或方法來對付數據。但從狹義上來看,我認為數據科學就是解決三個問題:
1. data pre-processing;
2. data interpretation;
3.data modeling and analysis.
這也就是我們做數據工作的三個大步驟:
1、原始數據要經過一連串收集、提取、清洗、整理等等的預處理過程,才能形成高質量的數據;
2、我們想看看數據“長什么樣”,有什么特點和規(guī)律;
3、按照自己的需要,比如要對數據貼標簽分類,或者預測,或者想要從大量復雜的數據中提取有價值的且不易發(fā)現(xiàn)的信息,都要對數據建模,得到output。
這三個步驟未必嚴謹,每個大步驟下面可能依問題的不同也會有不同的小步驟,但按我這幾年的經驗來看,按照這個大思路走,數據一般不會做跑偏。
   相對保守,發(fā)展趨勢越來越精確。當然,這本身不是壞事,只有越精確, 才能發(fā)現(xiàn)真理,但是一旦過度則是有害的。建立在數學背景下的統(tǒng)計,追求精確儼然是一種趨勢。在采用一個方法之前,首先考慮的是證明它的正確性。而不是像計算機科學和機器學習注重自學習的過程,注重經驗學習的過程。

        盡管統(tǒng)計學的一些分支側重于描述,也會存在一個核心的問題就是通過觀察樣本情況去推測總體。必然,這也是DM要做的事情。DM的特性:要處理一個大數據集。這就意味著,要考慮到可行性的問題,我們常常得到的只是一個樣本,去描述這個樣本來自的那個大數據集。這就是我們常說的:樣本估計整體。不同點在于,數據挖掘往往可以得到數據總體。例如:一個公司所有職工的數據,數據庫中的所有客戶的資料,去年的所有業(yè)績,銷售記錄等。在這種情形下,推斷就沒有價值了。這就意味著,建立的統(tǒng)計模型是通過一系列概率描述(如:一些參數接近于0,則會在模型中刪除。其意思就是這個數據段發(fā)生的概率低,在統(tǒng)計學習分類的時候,在前期數據處理的過程中,這段數據就已經被清除了),但當總體數據可獲得話,在數據挖掘過程中這就變的毫無意義。

郵箱
huangbenjincv@163.com

财经| 香河县| 灌云县| 贺兰县| 富民县| 平潭县| 南部县| 雷山县| 呼图壁县| 永康市| 姚安县| 昔阳县| 北宁市| 南昌市| 奉新县| 枣庄市| 九江县| 青阳县| 淮北市| 齐齐哈尔市| 贵德县| 拜城县| 红河县| 安仁县| 酒泉市| 阿合奇县| 星座| 青龙| 漯河市| 青阳县| 同仁县| 曲阜市| 临朐县| 嘉义县| 灵川县| 峡江县| 商南县| 乐昌市| 普陀区| 遵义市| 宜春市|