【干货】谷歌搜索引擎如何工作

一棵草4个月前更新

220

1. 谷歌搜索引擎工作的三个基本步骤

1.1 抓取

　　抓取是 Googlebot 访问新页面和更新页面并将它们添加到 Google 索引的过程。
　　谷歌使用谷歌蜘蛛机器人程序来抓取网络上的数十亿个网页。决定哪些网站应该被抓取、抓取频率以及要从每个网站抓取的网页数量，都是谷歌搜索引擎算法流程的一部分。
　　Googlebot首先会根据一个网页网址列表开始它的抓取过程，这个列表是在之前的抓取过程中生成的，并随着网站所有者提供的网站地图数据的增加而不断扩展。当 Googlebot 访问某个网页时，它会查找该网页上的链接，并将这些链接添加到它要抓取的网页列表中。它记录新创建的网站、对现有网站所做的更改和断开的链接，并相应地更新 Google 索引。

　　Google 如何得知哪些网页不需要抓取？
　　系统不会抓取 robots.txt 中屏蔽的网页，但如果有其他网页链接到这些网页，系统仍可能会将其编入索引。站长可以在搭建网站的时候设置 robots.txt 屏蔽搜索引擎爬取，也可以基于安全策略单独屏蔽某些页面，避免被蜘蛛程序抓取。
　　Google 无法抓取匿名用户无法访问的网页。
　　Google 不会频繁地抓取先前已被抓取且被视为与其他网页重复的网页。

1.2 索引

　　索引是对 Googlebot 爬取的信息和页面的汇编。但谷歌不会一股脑地把所有信息编入索引。编入索引的过程就是一个信息筛选处理的过程。Googlebot 会按照算法程序处理它抓取的每个网页，了解每个网页的内容，包括处理文字内容、关键内容标记和属性。因此，索引是三个步骤中最重要的一步，它关系到网页最终的排名。

　　谷歌会确定一个网页是否是另一个网页的重复网页或规范网页。如果该网页被视为重复网页，谷歌便不会再频繁地抓取它。所以在制作网页内容时不加处理地摘抄别人的内容，或者发布系列商品页面时，简单地把产品信息复制粘贴，都是不利于SEO的。

1.3 排名

　　当用户输入关键词进行查询时，谷歌会在索引中搜索匹配的网页，并返回与用户的搜索内容最相关的结果。这个结果展现的一系列页面叫做SERP。

　　谷歌呈现搜索结果时，最重要的考察因素，一个是相关性，另一个是用户体验。相关性由数百个算法因素决定的，这些算法一直在改进。谷歌会定期发布算法的更新情况，不过具体算法规则是保密的。而用户体验主要是体现在网页的快速加载和移动设备适应性。

搜索结果页演示

　　以搜索 food packing machine（食品包装机）为例，SERP搜索结果页从上到下分别是：视频搜索结果（来自Youtube），常见问题FAQ富媒体搜索结果，自然搜索结果，图片搜索结果，自然搜索结果，以及谷歌广告位。一般自然搜索结果在中段，广告位一般占据头部或尾部位置，有视频、FAQ或图片搜索结果的显示位置一般会优先于广告位，这是为了用户体验考虑。

　　这里的自然搜索结果指的是一般的标题加描述的文本自然搜索结果。其实视频、FAQ和图片同样也是自然搜索结果。同样是可以通过SEO提高本站点在这些结果的排名。这需要SEO做更多的工作。相关的技巧会在下文中提到。

2. 谷歌算法

　　谷歌算法始于PagePank，这是谷歌的最根本创新，也是谷歌成为最成功的搜索引擎的开始。

　　“PageRank 本质上是一种以网页之间的超链接个数和质量作为主要因素粗略地分析网页的重要性的算法。其基本假设是：更重要的页面往往更多地被其他页面引用（或称其他页面中会更多地加入通向该页面的超链接）。其将从A页面到B页面的链接解释为“A页面给B页面投票”，并根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票对象的等级来决定被投票页面的等级。简单地说，一个高等级的页面可以提升其他低等级的页面。”

　　PageRank相比之前的计算关键词的算法，具有极大的优势，但是过度依靠外链分析也有很大的弊端。就是造成了垃圾外链和垃圾信息的泛滥。为了应对这种状况，谷歌不停地更新算法，现如今 PageRank 早已不是唯一排名机制。现在的算法更加复杂，更加智能，有时间我会另文详细讲述一下谷歌算法的更新历史。

自从谷歌开始不间断地更新算法，全球的搜索引擎优化人员和相关的数字营销界人士，都只能通过谷歌公告和流出的只言片语，去试验和猜测哪些算法因素在对排名起着作用，起到什么样的作用。专业人士也只能是盲人摸象，不得其全貌。而搜索引擎的算法如此重要，以至于我们想要提升外贸网站的排名，还是不得不好好研究下谷歌搜索引擎算法的运作方式。

　　互联网上的信息浩如烟海，谷歌搜索引擎想要对它们进行抓取、整理、呈现，就不得不精心设计算法来进行筛选排列。这些用来筛选排名的算法因素不是一个算法，而是一整套从谷歌成立之日起就不断更新的算法体系。而且谷歌会采用人工评测和机器学习的方式来提出和试验算法，保证始终为搜索者提供最实用、最相关的信息。

　　谷歌算法会考虑很多因素。

　　首先，对查询的关键词，谷歌会通过其创建的语言模型来进行分析，包括解析拼写错误、同义词分析、理解查询的类别、新鲜度分析等；

　　其次，谷歌会用分析得到的关键词语义模型来查询匹配信息的网页，算法会根据关键词出现的频率和位置来分析网页，同时机器学习还会更深度地汇总和评估网页的相关性，以及寻找相关线索来进一步衡量网页在多大程度上满足用户的搜索需求；

　　再次，是最重要的排名。和查询词相匹配的结果可能有数千个甚至几百万个，谷歌会通过包含数百个因素的排名算法对这些网页按照实用性进行排名。并且始终以最满足需求为排名顺序。有些网站会非正常手段把自己在一定时间内排到前面去，现在谷歌算法已经可以识别和剔除这些网络垃圾了；

　　此外，谷歌算法会把网页在不同设备上的可用性考虑进去，同时网页加载速度也是一个核心考量因素。同时根据用户所处的位置，谷歌会提供本地化、个性化的相关实用结果来满足用户的搜索需求。

3. 排名因素

　　先明确一点：排名研究是不可靠的。

　　谷歌在公布的搜索引擎相关文档中说，谷歌会分析数百种不同的因素来进行排名。SEO行业专家和专业媒体也提出过各自关于排名因素真相的观点。其实每个因素到底在算法中占多大的权重，或者具体的算法原理是什么，除非有数学家的脑子且深度参与谷歌算法研究，不然就别想搞懂了。而且，谷歌使用了机器学习和人工智能来优化搜索排名，SEOer再想以排名因素来简单地量化SEO工作，也变得极不现实。

　但是想要做好外贸网站SEO，还是需要大致了解下几个核心的排名因素，这会让我们在竞争中少犯错误。这个我会在后续的文章中分析排名因素的细节。这里先简单介绍一下前辈的成果。

　　国际公认的SEO专家及 Backlinko 的创始人 Brian Dean 把他总结的200个排名因素分为九个大类：

域名因素
页面级因素
站点级因素
外链因素
用户交互因素
特殊的谷歌算法规则
品牌信号
站内垃圾因素
站外垃圾因素

　　知名的数字营销杂志 Search Engine Journal则认为网上流传的排名因素有真有假，真正重要的排名因素是以下8个：

高质量的内容
移动优先
页面体验
页面加载速度
页面优化
内部链接
外链
本地因素

4. 谷歌对作弊的惩罚

　　谷歌针对企图操纵搜索索引的行为，会采取手动操作降低排名或直接移除搜索结果，会涉及网站的一部分，也可能涉及整个网站。

　　这些操作行为包括但不限于垃圾内容、自动生成的内容、非自然链接、欺骗性重定向、隐藏内容、堆砌关键词等等。

　　产生质量问题被K之后，网站需要经过修复所有问题网页，并提交重新审核报告，才能重新被纳入搜索结果。这是非常且耗费精力的事情，所以一定从一开始建站就遵守谷歌的站长指南。具体问题会另文详述。

SEO 独立站自建站

评分

欢迎为Ta评分