TOP
0
0
倒數三天!簡體曬書節單本79折,5本7折
走進搜索引擎(第2版)(簡體書)
滿額折

走進搜索引擎(第2版)(簡體書)

商品資訊

人民幣定價:49 元
定價
:NT$ 294 元
優惠價
87256
領券後再享89折起
海外經銷商無庫存,到貨日平均30天至45天
可得紅利積點:7 點
相關商品
商品簡介
目次

商品簡介

《走進搜索引擎(第2版)》由搜索引擎開發研究領域三位年輕的博士生精心編寫,作者們希望將自己對搜索引擎的理解和實際應用相結合,讓未接觸過搜索引擎原理和方法的讀者也能輕松讀懂該書的大部分內容。
《走進搜索引擎(第2版)》在第1版的基礎上,刪除了搜索引擎歷史等章節,并對錯誤和不足進行了修訂和補充,同時增加了潘雪峰編寫的第6章“搜索引擎日志分析”,花貴春編寫的第7章“排序學習(LearningtoRank)”和梁斌編寫的第8章“搜索引擎的性能調優”三個主要章節,變更的內容約占第1版的一半。

目次

第1章 引言 1
1.1 搜索引擎概述 2
1.1.1 目錄式搜索引擎 2
1.1.2 全文搜索引擎 3
1.1.3 元搜索引擎(Meta-Search Engine) 3
1.2 搜索引擎的主要需求 3
1.2.1 快 4
1.2.2 全 4
1.2.3 準 4
1.2.4 穩 5
1.2.5 省 5
1.3 搜索引擎的4大系統 6
1.3.1 搜索引擎的體系結構 6

第2章 搜索引擎的下載系統 8
2.1 爬蟲的發展歷史 9
2.1.1 世界上第1個爬蟲 9
2.1.2 爬蟲的發展歷程 9
2.2 萬維網及其網頁分析 9
2.2.1 蝴蝶結型的萬維網 10
2.2.2 萬維網的直徑 12
2.2.3 萬維網的規模及變化特征 12
2.2.4 網頁的特征 13
2.3 有關爬蟲的基本概念 13
2.3.1 爬蟲 13
2.3.2 種子站點 14
2.3.3 URL 14
2.3.4 Backlinks 14
2.4 網頁抓取原理 14
2.4.1 telnet和wget 14
2.4.2 從種子站點開始逐層抓取 15
2.4.3 不重復抓取?略 19
2.4.4 網頁抓取優先策略 25
2.4.5 網頁重訪策略 26
2.4.6 Robots協議 30
2.4.7 其他應該注意的禮貌性問題 31
2.4.8 重要性網頁優先抓取策略 32
2.4.9 抓取提速策略(合作抓取策略) 34
2.5 網頁庫 38
2.6 下載系統回顧及未來發展 41
參考文獻 42

第3章 搜索引擎的分析系統 44
3.1 知識準備 45
3.1.1 HTML語言 45
3.1.2 錨文本(anchor text) 45
3.1.3 半結構化數據(semi-structured data) 45
3.2 信息抽取及網頁信息結構化 45
3.2.1 網頁結構化的目標 46
3.2.2 建立HTML標簽樹 48
3.2.3 通過投票方法得到正文 52
3.2.4 網頁結構化過程回顧 55
3.3 網頁查重 56
3.3.1 網頁查重技術發展歷史 56
3.3.2 網頁查重實現方法 58
3.4 中文分詞 61
3.4.1 什么是中文分詞 61
3.4.2 通過字典實現分詞 61
3.4.3 基于統計的分詞方法 65
3.5 PageRank 67
3.5.1 PageRank的來由 68
3.5.2 PageRank的基本想法 68
3.5.3 PageRank的計算公式 69
3.5.4 PageRank的計算方法 73
3.6 分析系統結構圖 76
參考文獻 77

第4章 搜索引擎的索引系統 79
4.1 知識準備 80
4.1.1 信息 80
4.1.2 索引 80
4.1.3 倒排索引、倒排表、臨時倒排文件、最終倒排文件 80
4.1.4 其他概念 81
4.2 全文檢索 81
4.3 文檔編號 82
4.3.1 編號的本質 82
4.3.2 文檔編號的方法 83
4.3.3 游程編碼 84
4.4 倒排索引 87
4.4.1 經典的倒排索引 87
4.4.2 正排索引(前向索?) 88
4.4.3 倒排索引 90
4.5 數據規模的估計 92
4.5.1 齊普夫法則 92
4.5.2 布爾檢索模型下的索引規模估計 94
4.6 涉及存儲規模的一些計算 97
4.6.1 正排表與倒排表的合并 97
4.6.2 多個臨時倒排文件的歸并 100
4.6.3 倒排索引分布式存儲 103
4.6.4 倒排文件緩存 106
4.6.5 倒排索引詞典統計信息的計算 106
4.7 倒排索引文件的創建過程 107
4.7.1 創建倒排表 107
4.7.2 計算統計信息 109
參考文獻 110

第5章 搜索引擎的查詢系統 112
5.1 知識準備 113
5.1.1 什么是信息熵 113
5.1.2 檢索和查詢的區別 115
5.1.3 檢索詞和查詢詞的區別 115
5.1.4 自動文本摘要(Automatic Text Summarization) 116
5.2 網頁信息檢索 116
5.2.1 早期的檢索模型 116
5.2.2 向量空間模型(Vector Space Models) 118
5.2.3 關鍵詞權重的量化方法TF/IDF 122
5.2.4 搜索引擎采用的檢索模型 125
5.2.5 多文檔列表求交計算 127
5.2.6 檢索結果排序 132
5.2.7 堆排序 132
5.3 中文自動摘要 137
5.3.1 自動摘要的發展歷史 137
5.3.2 自動摘要的含義和實現 137
5.4 生成搜索結果頁 142
5.4.1 生成搜索結果頁 142
5.5 搜索結果頁的緩存 144
5.6 推測用戶查詢意圖 145
5.6.1 查詢分類 146
5.6.2 推測信息類、事物類的查詢意圖 147
5.7 查詢系統的當前熱點和發展方向 147
5.7.1 查詢系統的當前熱點 148
5.7.2 查詢系統的發展方向 148
參考文獻 149

第6章 搜索引擎日志分析 150
6.1 簡介 151
6.1.1 人機交互的記錄—?日志 151
6.1.2 分析搜索引擎日志的意義 153
6.1.3 本章的主要內容 154
6.2 知識準備 155
6.2.1 二分圖模型(Bipartite Model) 155
6.2.2 圖模型(graphical model) 156
6.2.3 LDA(Latent Dirichlet Allocation)模型 158
6.2.4 隨機游走 (Random Walk) 159
6.2.5 小結 160
6.3 查詢日志分析 161
6.3.1 查詢日志的內容 161
6.3.2 查詢詞頻統計 162
6.3.3 查詢串提示(Suggestion) 163
6.3.4 命名實體(Named Entity)類別識別 165
6.3.5 小結 167
6.4 點擊日志分析 167
6.4.1 點擊日志的內容 168
6.4.2 查詢串提示(Suggestion)再分析 169
6.4.3 查詢和結果類別屬性傳遞 170
6.4.4 搜索結果相似性度量 171
6.4.5 查詢結果排序 172
6.4.6 點擊數據的稀?性 174
6.4.7 小結 176
6.5 隱私問題 177
6.5.1 日志的兩面性 177
6.5.2 日志的安全使用 179
6.5.3 小結 179
6.6 本章總結 180
參考文獻 180

第7章 排序學習(Learning to Rank) 183
7.1 排序概述 184
7.2 傳統的排序模型 186
7.2.1 查詢相關的排序模型 186
7.2.2 查詢無關的排序模型 188
7.3 排序學習簡介以及研究現狀 190
7.3.1 排序學習簡介 190
7.3.2 排序學習問題的研究現狀 191
7.4 排序學習模型的應用實例 192
7.5 排序學習方法的框架 194
7.5.1 參數設置 194
7.5.2 排序學習方法的框架 195
7.6 評測數據集 196
7.6.1 LETOR數據集 196
7.6.2 Microsoft Learning to Rank數據集 197
7.6.3 Yahoo Webscope數據集 198
7.7 排序學習模型簡介 198
7.7.1 實例 199
7.7.2 Pointwise方法 199
7.7.3 Pairwise方法 204
7.7.4 Listwise方法 207
7.7.5 3種排序方法的對比 210
7.8 排序學習模型性能比較 211
7.8.1 評測方法 211
7.8.2 排序模型性能的比較 215
7.9 排序學習的研究方向 217
7.9.1 標準標注的自動構建 217
7.9.2 排序特征 217
7.9.3 半監督學習/主動學習 218
7.9.4 查詢相關的排序模型 218
7.9.5 利用用戶行為特征 218
7.10 總結 219
參考文獻 219

第8章 搜索引擎的性能調優 223
8.1 系統調優概述 224
8.2 瓶頸識別 225
8.3 涉及CPU的優化方法 226
8.3.1 上下文切換問題(context switching) 227
8.3.2 中斷和輪詢 228
8.3.3 CPU的Affinity問題 229
8.3.4 流水線問題 229
8.4 涉及內存的優化方法 235
8.4.1 概述 235
8.4.2 對換區 236
8.4.3 cache line 240
8.4.4 false sharing問題 245
8.4.5 內存的鎖問題 247
8.4.6 內存庫的使用 257
8.5 涉及磁盤的優化方法 262
8.5.1 磁盤IO的調度 262
8.5.2 其他常見磁盤參數調優 264
8.5.3 磁盤讀寫方式 265
8.5.4 文件緩存問題 267
8.5.5 5分鐘法則 269
8.6 涉及網絡的優化方法 271
8.6.1 搜索首頁,結果頁提速方法 271
8.6.2 Web server的架構選擇 274
參考文獻 284

您曾經瀏覽過的商品

購物須知

大陸出版品因裝訂品質及貨運條件與台灣出版品落差甚大,除封面破損、內頁脫落等較嚴重的狀態,其餘商品將正常出貨。

特別提醒:部分書籍附贈之內容(如音頻mp3或影片dvd等)已無實體光碟提供,需以QR CODE 連結至當地網站註冊“並通過驗證程序”,方可下載使用。

無現貨庫存之簡體書,將向海外調貨:
海外有庫存之書籍,等候約45個工作天;
海外無庫存之書籍,平均作業時間約60個工作天,然不保證確定可調到貨,尚請見諒。

為了保護您的權益,「三民網路書店」提供會員七日商品鑑賞期(收到商品為起始日)。

若要辦理退貨,請在商品鑑賞期內寄回,且商品必須是全新狀態與完整包裝(商品、附件、發票、隨貨贈品等)否則恕不接受退貨。

優惠價:87 256
海外經銷商無庫存,到貨日平均30天至45天

暢銷榜

客服中心

收藏

會員專區