信息检索

信息检索

出版信息

David A.Grossman、Ophir Frieder / 张华平 / 人民邮电出版社 / 201008 / 49.00元

内容简介

随着Google、百度等搜索引擎公司的崛起,信息检索已经成为令人振奋的热门研究领域。

本书从发展的角度描述了ad hoc信息检索,讨论了用来实现大规模数据检索的最新算法。详细介绍了推理网络和系统的效率,并且对每种方法都给出了详细可行的实例。此外,本书整合了非结构化和结构化数据的处理技术,是其他教材所不具备的。第2版新增加了IR语言模型和跨语言检索。还讨论了许多当前的热点话题,如XML、P2P信息检索、文本查重、文档并行聚类、不同检索策略的融合、信息中间表示等。

本书兼顾了学科广度和主题深度,把握了最新的发展趋势,成为信息检索领域的一本名著,更为许多著名高校(如美国普林斯顿大学、罗格斯大学)采用为教材。

作者简介

David A.Grossman 佐治亚梅森大学博士,现在伊利诺伊理工大学计算机系任教。曾在美国政府部门高级技术服务中心和研究发展办公室担任项目经理。主要研究领域包括信息检索、结构化和非结构化数据集成以及数据挖掘。

Ophir Frieder 乔治敦大学教授、计算机科学系主任。曾任伊利诺伊理工大学计算机系首席教授、学院数据检索实验室主任。ACM会员,IEEE和美国艺术与科学研究院高级会员。他在数据检索系统、通信系统、高性能系统结构等方面均有深入的研究。

目录

第1章 引言 1
第2章 检索模型与算法 7
2.1 向量空间模型 8
2.1.1 相似度计算举例 11
2.1.2 相似度 13
2.2 概率检索模型 14
2.2.1 简单的词项权重 15
2.2.2 非二值独立模型 24
2.2.3 泊松模型 25
2.2.4 文档片段 29
2.2.5 概率模型的关键问题 30
2.3 语言模型 32
2.3.1 平滑 33
2.3.2 语言模型举例 34
2.4 推理网络 40
2.4.1 相关背景 41
2.4.2 链接矩阵 42
2.4.3 相关性排序 44
2.4.4 推理网络实例 45
2.5 扩展布尔检索 47
2.5.1 引入查询权重 48
2.5.2 扩展为任意数量的查询词 48
2.5.3 自动插入布尔逻辑 49
2.6 LSI 49
2.6.1 LSI举例 50
2.6.2 选择较优的k值 52
2.6.3 与其他检索模型比较 52
2.6.4 可能的扩展 52
2.6.5 运行时性能 52
2.7 神经网络 52
2.7.1 向量空间 53
2.7.2 相关反馈 53
2.7.3 学习与调整 54
2.7.4 概率检索 54
2.7.5 基于片段的概率检索 55
2.7.6 联合权重 55
2.7.7 文档聚类 56
2.8 遗传算法 56
2.8.1 文档表示形式 58
2.8.2 查询权重的自动赋值 58
2.8.3 自动生成带权重的布尔查询 59
2.9 模糊集检索 59
2.9.1 布尔检索 60
2.9.2 使用概念层次 62
2.9.3 采用区间和提升效率 62
2.10 本章小结 63
2.11 练习题 64
第3章 检索实用策略 65
3.1 相关反馈 66
3.1.1 基于向量空间模型的相关反馈 67
3.1.2 基于概率模型的相关反馈 68
3.2 聚类 73
3.2.1 结果集聚类 74
3.2.2 层次聚类 74
3.2.3 不采用预定义矩阵的聚类方法 75
3.2.4 在层次聚类结果中进行查询 77
3.2.5 效率方面 77
3.3 基于段落的检索 78
3.3.1 基于标记的段落划分方法 78
3.3.2 动态段落划分方法 79
3.3.3 合并基于段落的相似度 79
3.4 n元语法 80
3.4.1 D’Amore与Mah方法 80
3.4.2 Damashek算法 81
3.4.3 Pearce与Nicholas方法 81
3.4.4 Teufel 81
3.4.5 Cavnar和Vayda 82
3.5 回归分析 82
3.6 同义词表 84
3.6.1 自动构建同义词表 84
3.6.2 使用人工构建的同义词表 90
3.7 语义网络 91
3.7.1 距离计算方法 92
3.7.2 基于“概念”扩展查询词 95
3.7.3 基于约束激活扩散的排序 95
3.8 语言解析 96
3.8.1 单个词 96
3.8.2 简单短语 97
3.8.3 复杂短语 97
3.9 本章小结 100
3.10 练习 100
第4章 CLIR 102
4.1 简介 102
4.1.1 资源 102
4.1.2 评测 103
4.2 跨越语言障碍 103
4.2.1 查询翻译 104
4.2.2 文档翻译 105
4.2.3 短语翻译 105
4.2.4 译文的选择 105
4.2.5 翻译删减技术 107
4.3 跨语言检索模型与算法 107
4.3.1 CLIR中的语言模型 107
4.3.2 双语语料库方法 112
4.3.3 可比语料库方法 113
4.4 跨语言检索实用策略 117
4.4.1 跨语言检索的相关反馈 117
4.4.2 词干还原 118
4.4.3 n元语法模型 120
4.4.4 音译名 120
4.4.5 命名实体识别 121
4.4.6 检索融合 122
4.5 本章小结 122
4.6 练习题 123
第5章 检索效率优化 124
5.1 倒排索引 124
5.1.1 构建倒排索引 126
5.1.2 压缩倒排索引 127
5.1.3 变长索引压缩 129
5.1.4 基于倒排表大小的变长压缩 130
5.1.5 索引剪枝 132
5.1.6 在构建索引前对文档重新排序 132
5.2 查询处理 133
5.2.1 倒排索引的修订 133
5.2.2 部分结果集检索 134
5.2.3 简化向量空间 135
5.3 签名文件 136
5.4 重复文档检测 138
5.4.1 精确重复检测 139
5.4.2 近似重复检测 139
5.5 本章小结 141
5.6 练习题 142
第6章 结构化数据与文本的融合 143
6.1 关系模型回顾 145
6.2 相关工作进展 150
6.2.1 独立系统的融合 150
6.2.2 自定义运算符 151
6.2.3 NFN方法 152
6.2.4 使用标准SQL进行文献搜索 153
6.3 信息检索作为关系应用 153
6.3.1 预处理 155
6.3.2 实施案例 156
6.3.3 布尔检索 158
6.3.4 邻近搜索 161
6.3.5 使用标准SQL计算相关度 162
6.3.6 相关反馈在关系模型中的实现 164
6.3.7 关系信息检索系统 164
6.4 使用关系模式进行半结构化搜索 165
6.4.1 背景 165
6.4.2 使用静态关系模式支持XML-QL 165
6.4.3 存储XML元数据 166
6.4.4 跟踪XML文档 167
6.4.5 INDEX关系 167
6.5 多维数据模型 168
6.6 协同器 168
6.6.1 因特网协同器 168
6.6.2 内联网协同器 169
6.7 本章小结 171
6.8 练习题 171
第7章 并行信息检索 172
7.1 并行文本扫描搜索 172
7.1.1 文本硬件扫描 173
7.1.2 并行签名文件 174
7.2 并行索引 176
7.2.1 在连接机上实现并行索引 176
7.2.2 连接机的倒排索引 178
7.2.3 在DAP上实现并行索引 179
7.2.4 并行索引划分 179
7.2.5 在CM-5机上实现并行倒排索引算法 180
7.2.6 在倒排表上执行布尔操作 180
7.2.7 作为RDBMS应用的并行检索 180
7.2.8 并行索引小结 181
7.3 聚类与分类 181
7.4 大型的并行信息检索系统 182
7.4.1 PADRE 182
7.4.2 并行信息检索框架 182
7.4.3 PLIERS 182
7.5 本章小结 183
7.6 练习题 184
第8章 分布式信息检索 185
8.1 分布式检索的理论模型 186
8.1.1 集中式信息检索系统模型 186
8.1.2 分布式信息检索系统模型 187
8.2 Web搜索 189
8.2.1 Web搜索引擎评测 189
8.2.2 高准确率检索 189
8.2.3 查询日志分析 190
8.2.4 PageRank算法 190
8.2.5 Web搜索引擎的效果提升 191
8.3 结果融合 191
8.4 P2P信息系统 192
8.5 其他的体系结构 194
8.5.1 共享磁盘体系结构 195
8.5.2 分布式磁盘体系结构 195
8.6 本章小结 195
8.7 练习题 195
第9章 总结与下一步研究方向 197
参考文献 203
索引 229

本文地址:https://www.codercto.com/books/d/1115.html

JS 压缩/解压工具

JS 压缩/解压工具

在线压缩/解压 JS 代码

CSS 压缩/解压工具

CSS 压缩/解压工具

在线压缩/解压 CSS 代码

Markdown 在线编辑器

Markdown 在线编辑器

Markdown 在线编辑器