新书报道
当前位置: 首页 >> 教育心理学 >> 正文
自己动手写搜索引擎
发布日期:2010-04-27  浏览
【内容简介】
   本书是猎兔企业搜索开发团队的软件产品研发和项目实践的经验汇总。本书全方位展现出一个商用级别的Lucene搜索解决方案,主要包括爬虫、自然语言处理和搜索实现部分。
    爬虫部分介绍了网页遍历方法和从网页提取主要内容的方法。
    自然语言处理部分包括了中文分词从理论到实现以及在搜索引擎中的实用等细节。
    其他自然语言处理的经典问题与实现包括:文档排重、文本分类、自动聚类、语法解析树、拼写检查、拼音转换等理论与实现方法。
    在实现搜索方面,本书用简单的例子介绍了完整的搜索实现过程,覆盖了从索引库的设计和索引库与数据库的同步到搜索用户界面设计与实现。搜索用户界面包括实现布尔逻辑查询、按区间范围查询、搜索结果按日期排序等。本书还进一步介绍了搜索排序的优化方法。
    最后以基于Lucene的搜索服务器Solr为例,展示了Lucene的最新应用方法。
【目录】
第1章 遍历搜索引擎技术
1.1 30分钟实现的搜索引擎
1.2 Google神话
1.3 体验搜索引擎
1.4 搜索语法
1.5 你也可以做搜索引擎
1.6 搜索引擎基本技术
1.7 商业搜索引擎技术介绍
1.8 本章小结
第2章 获得海量数据
2.1 自己的网络蜘蛛
2.2 抓取数据库中的内容
2.3 抓取本地硬盘上的文件
2.4 本章小结
第3章 提取文档中的文本内容
3.1 从HTML文件中提取文本
3.2 从非HTML文件中提取文本
3.3 流媒体内容提取
3.4 抓取限制应对方法
3.5 本章小结
第4章 中文分词
4.1 Lucene中的中文分词
4.2 Lietu中文分词的使用
4.3 中文分词的原理
4.4 查找词典算法
4.5 最大概率分词方法
4.6 新词发现
4.7 词性标注
4.8 本章小结
第5章 自然语言处理
5.1 语法解析树
5.2 文档排重
5.3 中文关键词提取
5.4 相关搜索
5.5 拼写检查
5.6 自动摘要
5.7 自动分类
5.8 自动聚类
5.9 拼音转换
5.10 语义搜索
5.11 跨语言搜索
5.12 本章小结
第6章 创建索引库
6.1 设计索引库结构
6.2 创建和维护索引库
6.3 读写并发控制
6.4 优化使用Lucene
6.5 查询大容量索引
6.6 本章小结
第7章 用户界面设计与实现
7.1 Lucene搜索接口(search代码)
7.2 搜索页面设计
7.3 实现搜索接口
7.4 实现关键词高亮显示
7.5 实现分类统计视图
7.6 实现相似文档搜索
7.7 实现AJAX自动完成
7.8 jQuery实现的自动完成
7.9 集成其他功能
7.10 搜索日志分析
7.11 本章小结
第8章 其他高级主题
8.1 使用Solr实现分布式搜索
8.2 图像的OCR识别
8.3 竞价排名
8.4 Web图分析
8.5 使用并行程序分析数据
8.6 RSS搜索
8.7 本章小结
参考资料

关闭


版权所有:西安交通大学图书馆      设计与制作:西安交通大学数据与信息中心  
地址:陕西省西安市碑林区咸宁西路28号     邮编710049

推荐使用IE9以上浏览器、谷歌、搜狗、360浏览器;推荐分辨率1360*768以上