TOP
0
0
即日起~6/30,暑期閱讀書展,好書7折起
SPSS Modeler資料採擷方法及應用(第2版)(簡體書)
滿額折

SPSS Modeler資料採擷方法及應用(第2版)(簡體書)

商品資訊

人民幣定價:39 元
定價
:NT$ 234 元
優惠價
87204
缺貨無法訂購
相關商品
商品簡介
作者簡介
名人/編輯推薦
目次
書摘/試閱

商品簡介

數據挖掘是當前數據分析領域中最活躍、最前沿的地帶。本書以數據挖掘的實踐過程為主線,通過生動的應用案例,從數據挖掘實施角度,系統介紹了經典的數據挖掘方法和利用SPSS Modeler實現數據挖掘的全部過程,講解方法從易到難,說明問題從淺至深。本書力求以最通俗的方式闡述數據挖掘方法的核心思想與基本原理,同時配合SPSS Modeler軟件操作的說明,希望讀者能夠直觀了解方法本質,盡快掌握SPSS Modeler軟件使用,并應用到數據挖掘實踐中。書中所有數據和案例與華信教育資源網上數據資料內容一致。

作者簡介

薛薇,中國人民大學應用統計科學研究中心副主任

名人/編輯推薦

薛薇,中國人民大學應用統計科學研究中心副主任

目次

第1章 數據挖掘和Clementine概述 1
1.1 數據挖掘的產生背景 1
1.1.1 海量數據的分析需求催生數據挖掘 1
1.1.2 應用對理論的挑戰催生數據挖掘 3
1.2 什么是數據挖掘 6
1.2.1 數據挖掘的概念 6
1.2.2 數據挖掘能做什么 8
1.2.3 數據挖掘得到的知識形式 9
1.2.4 數據挖掘的算法分類 11
1.3 Clementine軟件概述 14
1.3.1 Clementine的窗口 14
1.3.2 數據流的基本管理和執行 17
1.3.3 數據流的其他管理 19
1.3.4 從一個示例看Clementine的使用 21
第2章 Clementine數據的讀入 30
2.1 變量的類型 30
2.1.1 從數據挖掘角度看變量類型 30
2.1.2 從數據存儲角度看變量類型 31
2.2 讀入數據 31
2.2.1 讀自由格式的文本文件 32
2.2.2 讀Excel電子表格數據 36
2.2.3 讀SPSS格式文件 37
2.2.4 讀數據庫文件 38
2.3 生成實驗方案數據 40
2.4 合并數據 42
2.4.1 數據的縱向合并 42
2.4.2 數據的橫向合并 44

第3章 Clementine變量的管理 47
3.1 變量說明 47
3.1.1 取值范圍和缺失值的說明 48
3.1.2 變量取值有效性檢查和修正 49
3.1.3 變量角色的說明 50
3.2 變量值的重新計算 51
3.2.1 CLEM表達式 52
3.2.2 變量值重新計算示例 55
3.3 變量類別值的調整 57
3.4 生成新變量 58
3.5 變量值的離散化處理 62
3.5.1 常用的分箱方法 62
3.5.2 變量值的離散化處理示例 66
3.6 生成樣本集分割變量 69
3.6.1 樣本集分割的意義和常見方法 69
3.6.2 生成樣本集分割變量的示例 71
第4章 Clementine樣本的管理 73
4.1 樣本的排序 73
4.2 樣本的條件篩選 74
4.3 樣本的隨機抽樣 75
4.4 樣本的濃縮處理 76
4.5 樣本的分類匯總 77
4.6 樣本的平衡處理 78
4.7 樣本的其他管理 79
4.7.1 數據轉置 79
4.7.2 數據的重新組織 81
第5章 Clementine數據的基本分析 83
5.1 數據質量的探索 84
5.1.1 數據的基本描述與質量探索 84
5.1.2 離群點和極端值的修正 87
5.1.3 缺失值的替補 88
5.1.4 數據質量管理的其他功能 89
5.2 基本描述分析 90
5.2.1 計算基本描述統計量 91
5.2.2 繪制散點圖 93
5.3 變量分布的探索 94
5.4 兩分類變量相關性的研究 97
5.4.1 兩分類變量相關性的圖形分析 97
5.4.2 兩分類變量相關性的數值分析 100
5.5 兩總體的均值比較 105
5.5.1 兩總體均值比較的圖形分析 105
5.5.2 獨立樣本的均值檢驗 107
5.5.3 配對樣本的均值檢驗 111
5.6 變量重要性的分析 113
5.6.1 變量重要性分析的一般方法 113
5.6.2 變量重要性分析的應用示例 116
第6章 分類預測:Clementine的決策樹 119
6.1 決策樹算法概述 119
6.1.1 什么是決策樹 119
6.1.2 決策樹的幾何理解 121
6.1.3 決策樹的核心問題 121
6.2 Clementine的C5.0算法及應用 124
6.2.1 信息熵和信息增益 124
6.2.2 C5.0的決策樹生長算法 126
6.2.3 C5.0的剪枝算法 130
6.2.4 C5.0的推理規則集 132
6.2.5 C5.0的基本應用示例 136
6.2.6 C5.0的損失矩陣和Boosting技術 140
6.2.7 C5.0的模型評價 145
6.2.8 C5.0的其他話題:推理規則、交叉驗證和未剪枝的決策樹 147
6.3 Clementine的分類回歸樹及應用 148
6.3.1 分類回歸樹的生長過程 149
6.3.2 分類回歸樹的剪枝過程 151
6.3.3 損失矩陣對分類樹的影響 154
6.3.4 分類回歸樹的基本應用示例 155
6.3.5 分類回歸樹的交互建模 159
6.3.6 分類回歸樹的模型評價 160
6.4 Clementine的CHAID算法及應用 168
6.4.1 CHAID分組變量的預處理和選擇策略 168
6.4.2 Exhaustive CHAID算法 170
6.4.3 CHAID的剪枝 171
6.4.4 CHAID的應用示例 171
6.5 Clementine的QUEST算法及應用 173
6.5.1 QUEST算法確定最佳分組變量和分割點的方法 174
6.5.2 QUEST算法的應用示例 176
6.6 決策樹算法評估的圖形比較 177
6.6.1 不同模型的誤差對比 177
6.6.2 不同模型收益的對比 178
第7章 分類預測:Clementine的人工神經網絡 181
7.1 人工神經網絡算法概述 181
7.1.1 人工神經網絡的概念和種類 181
7.1.2 人工神經網絡中的節點和意義 183
7.1.3 人工神經網絡建立的一般步驟 185
7.2 Clementine的B-P反向傳播網絡 187
7.2.1 感知機模型 188
7.2.2 B-P反向傳播網絡的特點 190
7.2.3 B-P反向傳播算法 193
7.2.4 B-P反向傳播網絡的其他問題 196
7.3 Clementine的B-P反向傳播網絡的應用 199
7.3.1 基本操作說明 200
7.3.2 計算結果說明 202
7.3.3 提高模型預測精度 204
7.4 Clementine的徑向基函數網絡及應用 204
7.4.1 徑向基函數網絡中的隱節點和輸出節點 204
7.4.2 徑向基函數網絡的學習過程 205
7.4.3 徑向基函數網絡的應用示例 207
第8章 分類預測:Clementine的統計方法 209
8.1 Clementine的Logistic回歸分析及應用 209
8.1.1 二項Logistic回歸方程 210
8.1.2 二項Logistic回歸方程系數的含義 212
8.1.3 二項Logistic回歸方程的檢驗 214
8.1.4 二項Logistic回歸分析的應用示例 218
8.1.5 多項Logistic回歸分析的應用示例 224
8.2 Clementine的判別分析及應用 226
8.2.1 距離判別法 226
8.2.2 Fisher判別法 228
8.2.3 貝葉斯判別法 231
8.2.4 判別分析的應用示例 233
第9章 探索內部結構:Clementine的關聯分析 242
9.1 簡單關聯規則及其有效性 242
9.1.1 簡單關聯規則的基本概念 243
9.1.2 簡單關聯規則的有效性和實用性 245
9.2 Clementine的Apriori算法及應用 249
9.2.1 產生頻繁項集 249
9.2.2 依據頻繁項集產生簡單關聯規則 251
9.2.3 Apriori算法的應用示例 251
9.3 Clementine的GRI算法及應用 256
9.3.1 GRI算法基本思路 256
9.3.2 GRI算法的具體策略 257
9.3.3 GRI算法的應用示例 259
9.4 Clementine的序列關聯及應用 260
9.4.1 序列關聯中的基本概念 261
9.4.2 Sequence算法 262
9.4.3 序列關聯的時間約束 266
9.4.4 序列關聯分析的應用示例 266
第10章 探索內部結構:Clementine的聚類分析 270
10.1 聚類分析的一般問題 270
10.1.1 聚類分析的提出 270
10.1.2 聚類分析的算法 271
10.2 Clementine的K-Means聚類及應用 271
10.2.1 K-Means對“親疏程度”的測度 271
10.2.2 K-Means聚類過程 272
10.2.3 K-Means聚類的應用示例 275
10.3 Clementine的兩步聚類及應用 279
10.3.1 兩步聚類對“親疏程度”的測度 279
10.3.2 兩步聚類過程 281
10.3.3 聚類數目的確定 282
10.3.4 兩步聚類的應用示例 284
10.4 Clementine的Kohonen網絡聚類及應用 286
10.4.1 Kohonen網絡的聚類機理 286
10.4.2 Kohonen網絡的聚類過程 288
10.4.3 Kohonen網絡聚類的示例 290
10.5 基于聚類分析的離群點探索及應用 295
10.5.1 多維空間基于聚類的診斷方法 296
10.5.2 多維空間基于聚類的診斷方法應用示例 299
參考文獻 302

書摘/試閱

前 言
數據挖掘是當前數據分析領域中最活躍最前沿的地帶。
任何事物都有定性和定量兩個方面,定量則產生數據。從數據分析入手是我們認識事物本質的基本手段。任何事物都是互相關聯著的,從數據分析入手是我們把握事物之間聯系的基本方法。任何事物都在永恒地變化發展著,從數據分析入手是我們探索事物發展規律的基本思路。所以我們進行數據分析,既是一種世界觀,也是一種方法論。我們在研究著豐富多彩的客觀世界的同時,也體現著分析者主觀的智慧和自身的價值。
隨著中國社會經濟的蓬勃發展,在錯綜復雜的宏觀、中觀和微觀的共同作用下,戰略決策和戰術選擇都顯得敏感而關鍵,越來越多的人們加入到數據分析的行列中來。這是一個非常富有挑戰性的工作,不但有意思而且有意義。
IBM公司于2009年1月公布了其“智慧地球”戰略。該戰略的主要思想是,將傳感設備或智能儀表嵌入到建筑、電力、交通、管道等各種物體中,進行數據自動采集,之后基于互聯網形成物物相聯的物聯網,然后通過超級計算機和云計算將數據整合,進行智能化分析和建模,從而實現社會與物理世界的融合。這是一個未來理想化的信息世界圖景。
在這個智慧系統中,其核心是數據處理。為此,IBM公司于2009年7月斥資12億美元收購了著名的SPSS 統計分析軟件公司,將其應用廣泛的SPSS統計分析軟件和Clementine數據挖掘軟件納入麾下。同時對軟件產品進行了整合,將Clementine更新命名為PASW(Predictive Analytics SoftWare)Modeler,并快速推向市場。
目前,SPSS Clementine軟件已經連續若干年蟬聯數據挖掘應用的王者,而業界對于PASW Modeler的認知則剛剛開始。所以本書繼續沿用為廣大讀者所熟悉的Clementine這個名字。
Clementine軟件不但將計算機科學中許多機器學習的優秀算法帶入到數據分析中來,同時也綜合了一些行之有效的數據挖掘方法,成為內容最為全面、功能最為強大的數據挖掘產品。
Clementine軟件充分利用計算機系統的運算處理能力和圖形展現能力,將方法、應用與工具有機地融合為一體,是解決數據挖掘問題的最理想工具。
Clementine軟件繼續保持了SPSS產品的一貫風格:界面友好且容易使用。復雜的數學算法和冗余的輸出結果被軟件隱藏在程序系統內部。Clementine軟件始終把自己的應用對象鎖定在實際部門的業務分析人員,而不是一個數據分析專家。這種“傻瓜型”軟件經常遭到一些精英學者的指摘,但是這恰恰成為Clementine成功開拓自己應用疆域的最有效利器。
本書作者常年從事計算機數據分析的教學與科研工作,并長期跟蹤研究SPSS公司數據分析產品,具有計算機應用與統計分析的雙重學歷背景。我們深知,對于數據挖掘這樣一款綜合方法性的軟件工具來說,一個基層的讀者應該從哪些方面入手,就能很快地掌握和使用Clementine開始數據挖掘工作,并從中受益。
本書默認讀者具有以下特征:具有基礎的計算機操作能力;不甚了解數據挖掘的原理和方法;有自己應用領域積累的數據,渴望使用數據挖掘方法解決實際問題。
所以,針對上述讀者群,本書的特點是:
1.以數據挖掘過程為線索介紹Clementine軟件
目前,具備基本的計算機操作能力已經不是讀者的障礙,數據挖掘的過程與方法才是讀者關心的主題和應用的難點。各領域眾多的讀者所面臨的問題是:自己擁有的一批數據不知道如何使用Clementine進行組織,不知道如何利用Clementine對它們進行基本加工和整理;其次,不知道選擇Clementine中的哪些方法對數據進行分析,不知道如何解釋分析結果。
因此,本書以數據挖掘的實踐過程為主線,從Clementine數據管理入手,說明問題從淺至深,講解方法從易到難。這樣,能使讀者在較短時間內掌握Clementine的基本功能和一般方法,并可快速地運用于實際工作中。
2.數據挖掘方法、軟件操作、案例分析的有機結合
目前,由于數據挖掘方法的中文資料相對不足,Clementine相關書籍都比較側重對其英文手冊的翻譯介紹,側重于計算機操作過程的描述。而對數據挖掘方法則較多地羅列數學公式,對于輸出結果也缺少恰當的解釋。
本書作者配合實際案例,側重數據挖掘方法核心思想和基本原理的闡述,使得讀者可以直觀理解方法,并正確掌握方法的應用范圍,不至于濫用或者誤用。同時介紹軟件操作,使得讀者能盡快熟悉Clementine軟件,從而在理解方法與掌握操作的基礎上對輸出結果進行合理的解釋。
3.數據挖掘方法講解通俗,軟件操作過程說明翔實
針對初學者的特點,本書力求以最通俗的方式對數據挖掘方法的核心思想與基本原理進行講解,同時避免大量羅列數學公式、數學推導與數學證明,目的是使讀者能夠直觀地了解方法的本質,并正確運用;介紹方法的同時也緊緊圍繞Clementine的輸出結果展開,以使讀者理解分析結論的重要性,會合理地引用分析結果。另外,本書對Clementine的操作過程也給出了較為翔實的說明,但并非是對菜單功能清單的描述,而是將其穿插于分析案例的實現過程中。
本書適合于從事數據分析各應用領域的讀者,尤其適合于商業管理、財政經濟、金融保險、社會研究、人文教育等行業的相關人員。同時,也能夠作為高等院校計算機類、財經類、管理類專業本科生和研究生的數據挖掘教材。
本書共分十章,由薛薇、陳歡歌執筆完成,全書最后由薛薇審核定稿。本書所附光盤配備全書的案例數據和數據流文件。
由于水平所限,書中難免出現錯誤,敬請讀者批評指正。


編著者

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 204
缺貨無法訂購

暢銷榜

客服中心

收藏

會員專區