【读书笔记】这就是搜索引擎

柳永法的个人

2019-11-03

作者：LogM

本文是《这就是搜索引擎》的读书笔记

1. 概述

1.2 搜索引擎技术发展史

第一代：文本检索。关键词与网页内容的相关程度。
第二代：链接分析。PageRank。
第三代：用户中心。理解用户需求。

2. 爬虫

2.1 通用爬虫框架

2.3 爬虫质量的评价标准

抓取网页覆盖率、抓取网页时新性、抓取网页重要性
为了同时满足上述3个标准，google用了多套不同的爬虫，一些关注时新性，一些关注覆盖率。

2.4 抓取策略

宽度优先遍历：暴力但有效
非完全PageRank：因为PageRank需要拿到所有的页面计算才是准确的，爬虫抓取的时候没有看到所有页面，所以叫"非完全"
OPIC：改进PageRank，实时计算
大站优先

2.5 更新策略

历史参考策略：历史上变动比较快的，抓取频繁一点，一般用泊松过程建模
用户体验策略：保存网页的多个历史版本，查看不同历史版本对用户点击的影响。所以用户点击不到的页面，即使更新快，也不用抓取。
聚类抽样策略：更新快的页面有一些类似的特征

2.6 暗网抓取

抓取常规网页链接不到的信息

2.7 分布式爬虫

一致性哈希确定每个爬虫负责哪些url的抓取

3. 索引

3.1 倒排索引的结构

单词字典 + 倒排列表

3.4 建立索引

两遍文档遍历法：完全在内存中构建
排序法：内存满时，对中间文件排序后存到磁盘，最后再合并所有的中间文件。整个过程，整个字典都在内存里，字典有可能过大。
归并法：每个中间文件都是一套倒排索引（含各自的字典），最后再把所有的倒排索引合并。

3.6 动态索引与索引更新

完全重建策略：临时索引与老索引的文档全部取出重新建索引，重建的代价高，但主流搜索引擎都采用该方式
再合并策略：临时索引与老索引进行索引合并（不是文档取出重新建索引，而是合并）
原地更新策略：再合并策略的升级，临时索引追加到老索引

3.7 查询

一次一文档：每个文档对query中所有词计算相似度
一次一单词：对query中每个词计算文档相似度，每个文档累加每个query词的相似度
跳跃指针：因为倒排索引一般是压缩保存的，跳跃指针帮助快速定位需要的文档

3.8 多字段索引

有时候需要区分不同的字段来索引，比如"标题"、"正文"、"摘要"等字段。

多索引方式：为每个字段都建立一份倒排索引
倒排列表方式：在每个倒排列表的后面追加一个字段，表示该关键词是在哪个字段出现
扩展列表方式：用扩展列表标明每个字段的开始和结尾位置，结合倒排列表中关键词的位置，可以知道关键词在哪个字段。实际使用常用这个方法

3.9 短语查询

位置信息索引：利用倒排列表中关键词的位置信息判断是否组成短语
双词索引："首词"的倒排索引中有指向"下词"的指针，"下词"又有指针指向倒排列表
短语索引：会导致字典急剧膨胀，一般只用于热门短语

3.10 分布式索引

索引体积大，一台服务器存不下

按文档划分：按文档对索引文件进行切分。扩展性、容错性、对查询方式的支持都较好
按单词划分：按单词字典对索引文件进行切分

4. 索引压缩

5. 检索与排序

把与用户搜索词最相关的结果排在前面

布尔模型
向量空间模型：TF-IDF + cosine距离
概率检索模型：BM25
语言模型：从文档生成用户搜索的概率多大
机器学习排序
评价标准：准召、P@10、MAP

6. 链接分析

6.2 重要的概念模型

随机游走模型：模拟用户的浏览行为，PageRank
子集传播模型：从一个特殊子集出发，将权重传递到其他网页，HINTS

7. 云计算与云存储

8. 网页反作弊

8.1 内容作弊

关键词堆砌、热门关键词、标题作弊、meta信息作弊……
内容农场：雇人写垃圾文章，比机器作弊更难被判定

8.2 链接作弊

链接农场、购买链接、购买域名……

8.3 页面隐藏作弊

IP Cloaking、User Agent Cloacking、页面重定向、页面隐藏……

8.4 web2.0 作弊

博客作弊、点评作弊、Tag作弊、个人Profile作弊……

8.5 反作弊的通用思路

子集传播模型：信任传播模型（如TrustRank）、不信任传播模型（如BadRank）
异常发现模型（如SpamRank）

9. 查询意图分析

10. 网页去重

11. 搜索引擎的发展趋势

搜索引擎技术索引 ul

柳永法的个人

0 关注 0 粉丝 0 动态

相关推荐

信必优承接全球最大搜索引擎公司多语言本地化测试项目外包

该公司是一家位于美国的跨国科技企业，业务包括互联网搜索、云计算、广告技术等，同时开发并提供大量基于互联网的产品与服务，旗下的软件每一个都是精品。信必优因其丰富的互联网行业的成功实践经验及深厚的全球化、本地化知识的沉淀，有幸成为该客户的全球服务的软件提供商，

lyqdanang 2020-11-02

phper敲开java的大门-Elasticsearch搜索引擎

了解Elasticsearch，并简单的运用到springboot项目中。笔者早期参与的php项目并没有涉及到搜索方面，就算有也是比较简单的使用一下 like 语句来实现搜索功能。Elasticsearch这个名词倒是早有耳闻，不过当时一来业务场景用不到，

章鱼之家 2019-12-24

html5-meta标签和搜索引擎

<meta http-equiv="X-UA-Compatible" content="ie=edge" /> //浏览器兼容。<meta name="description"

yanweiqi 2019-12-12

搜索引擎上都是您的网站信息，需要用到哪些网站优化技术才能实现

有了大量的长尾关键词，想进行排名，就一定要有内容的支持，要有一套系统类似于百度蜘蛛会同时抓取本行业N多网站的文章，并且进行拼凑伪原创，会把相同的文章，不同的段落拼凑在一起，语句是通顺的，也会进行高级词汇替换、段落分割等技术，达到高级伪原创的效果。

xruidlw 2019-10-23

搜索引擎上都是您的网站信息，需要用到哪些SEO优化技术才能实现

有了大量的长尾关键词，想进行排名，就一定要有内容的支持，要有一套系统类似于百度蜘蛛会同时抓取本行业N多网站的文章，并且进行拼凑伪原创，会把相同的文章，不同的段落拼凑在一起，语句是通顺的，也会进行高级词汇替换、段落分割等技术，达到高级伪原创的效果。

aspaspx 2019-10-23

搜索引擎中的爬虫和倒排索引技术

我书读得少，你不要骗我。这可能是最适合我们的一句话了。昨晚跟以前的部长祥仔爷聊天，得知他现在在做搜索引擎的优化，在那家公司工作，他便跟我说起他的专业知识。今天在看自动机的书顺带查了一下。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓

冬冬阳光 2017-12-25

搜索引擎蜘蛛爬虫原理

网络爬虫是一个自动提取网页的程序，它为搜索引擎从Internet网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚

greatking 2010-07-22

搜索引擎术语[转]

布尔模型，在信息检索领域，不同的场合有不同的含义。当我们讨论用户提交查询的时候，指的是为形成最终查询结果集合，由一个查询的各个成分对查询结果子集之间所要求的一种运算关系；而在讨论文档比较的向量空间模型中，布尔模型指的是构成一个文档向量的各个分量只取1和0两

ach 2010-07-15

搜索引擎-----浅说查重

现在网络上重复的信息很多，用户敲入一个关键字进行搜索时，总会出来很多重复或者很相似的网页，这是搜索引擎不愿意看到的，也是用户不愿意看到的。那么，我们就需要对搜索出来的网页进行查重，然后去掉重复的网页，返回给用户的结果集里重复信息尽量少点！

清风落叶 2010-06-22

lucene+nutch学习笔记四：搜索引擎信息索引

在实际的生活中,Nutch只能从网络上收集网页，而对网页本身的分析却不能很好的处理。搜索引擎普遍采用全文检索技术，平常的word的字处理工具的查询采用的是顺序扫描文件，这种做法效率比较低，遇到大型的文件则根本就不使用。所以出现了索引这个技术。索引技术的核心

aikaibo 2009-06-01

搜索引擎SEO伪技术你掌握到第几层了?

对于SEO行业鱼龙混杂，在网站SEO还是个半成品的时候就有人找我做业务，于是就硬着头皮接了下去，想着努力冲关，于是SEO网站也就放松了，也是断断续续的更新，网站排名迟迟不好。后渐渐明白SEO行业的越来越多的东西，慢慢明白业务的那些事，更明白些许沉淀的东西，

sdsasdsdswew 2016-10-15

优化网站与提升排名的关系分析

　　还有对网站内容的增加，也一定要有规律，而且每次增加内容的时候一定要正常，不是今天更新几篇，明天就不更新，这都是会影响关键词的排名。　　现在目前的SEO技术层出不穷的时候，我们都应该注意网站建设的各各方方面面，seo的很对细节问题决定着我们网站的成败。

zhuzhu侠 2010-05-25

搜索引擎重复网页发现技术分析

中科院软件所作者：张俊林一. 介绍统计结果表明，近似镜像网页数占总网页数的比例高达全部页面的29%,而完全相同的页面大约占全部页面的22%。

liaochengseo 2009-11-26

五大原因告诉你绝对需要一个网站监测服务

如果你还是不太清楚为什么一个网站监视器您的网站的成功是如此重要，这五个原因可以帮助你更好的理解的重要性。让性能问题继续是类似于客户推出了门。保护公司的声誉：当在互联网上做生意，信誉就是一切。放缓在您的网站的性能就足以让客户离开，不想回来。网站监测服务，可以

caokuncom 2013-07-31

俄罗斯最大搜索引擎Yandex开源了一款梯度提升机器学习库CatBoost

现在，人工智能正在为越来越多的计算功能提供支持，今天，俄罗斯搜索巨头Yandex宣布，将向开源社区提交一款梯度提升机器学习库CatBoost。它能够在数据稀疏的情况下“教”机器学习。特别是在没有像视频、文本、图像这类感官型数据的时候，CatBoost也能根

ferriswym 2017-07-21

微服务架构Docker和Elasticsearch在搭建全文本搜索引擎的应用

给应用添加快速、灵活的全文本搜索对谁都不是一件容易的事情。许多主流数据库，如PostgreSQL和MongoDB，受限于查询和索引结构，只提供基础文本搜索能力。Elasticsearch正是这样一个能够提供灵活性和快速全文本搜索能力的开源数据库。本文采用D

seoyanjiu 2018-03-24

LogicalDOC 6.7.3发布文档管理系统

LogicalDOC 6.7.3 改进了上传文件时的用户体验，解决了标签中不能使用 '-' 字符的问题。LogicalDOC是一个采用Java开发的基于网页的文档管理系统，易于使用和学习。它利用最佳的Java技术，实现了强大而灵活的解决方案。为用户提供了强

seoyanjiu 2012-05-18

配置高性能ElasticSearch搜索引擎集群的9个小贴士

Loggly服务底层的很多核心功能都使用了ElasticSearch作为搜索引擎。就像Jon Gifford在他近期关于“ElasticSearch vs Solr”的文章中所述，日志管理在搜索技术方面产生一些粗暴的需求，坚持下来以后，它必须能够：。当

liangwenrong 2017-01-05

SUSE Linux 桌面搜索及安全技术

zhlflylinux 2009-05-13

Yii2框架整合Xunsearch搜索引擎的方法

本文实例讲述了Yii2框架整合Xunsearch搜索引擎的方法。分享给大家供大家参考，具体如下：。公司一直用的YII2框架，然后要做一个中文搜索引擎，所有想的Xunsearch这个项目，之前有文章提到了，怎么安装Xunsearch服务端。xunsearch

PHP100 2019-03-28

柳永法的个人

W3CSchool教程: HTML 教程; CSS 教程; Bootstrap 教程; Javascript 教程; jQuery 教程

后端教程: C 教程; Java 教程; PHP 教程; Python 教程; Go 教程

移动开发: Android 教程; Swift 教程; Kotlin 教程; jQuery Mobile 教程; ionic 教程

关于我们: 新闻动态; 联系方式; 招聘英才; 安科实验室; 帮助与反馈

安科网(Ancii)，中国第一极客网

Copyright © 2013 - 2019 Ancii.com

京ICP备18063983号京公网安备11010802014868号