搜索引擎蜘蛛日志文件是一种非常强大但未被站长充分利用的文件,分析它可以获取有关每个搜索引擎如何爬取网站内容的相关信息点,及查看搜索引擎蜘蛛在一段时间内的行为。
凭空去猜想搜索引擎蜘蛛毫无意义,日志数据可以帮助站长准确分析正在发生的事情。这就是为什么SEO人员分析搜索引擎蜘蛛日志文件至关重要的原因,即使原始访问日志可能很难从客户端(或主机,服务器和开发团队)那里获取也是如此。
什么是搜索引擎蜘蛛
蜘蛛是搜索引擎用于爬取各大网站数据信息的工具,搜索引擎不可能脱离网站内容凭空对每个网站的页面进行排名。搜索引擎依赖蜘蛛对全网的网站进行全面爬取,包括站点地图、站点资源、站点结构、站点页面数据等等,然后再依赖计算机对数据全面多维度分析后,再给予站点权重。
什么是搜索引擎蜘蛛日志
服务器本身并没有针对蜘蛛的独立访问日志。但服务器会全面记录所有对网站进行访问的数据,包括正常的客户端访问数据、搜索引擎蜘蛛的访问数据及其他爬网工具的数据。
也就是说,搜索引擎蜘蛛日志属于服务器站点访问日志的一部分。下面是一条百度搜索引擎蜘蛛的访问日志示例:
220.181.108.160 - - [28/JAN/2021:19:16:21 +0800] "GET / HTTP/1.1" 200 5374 "-" "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)"
分析搜索引擎蜘蛛访问日志的重要性
分析搜索引擎蜘蛛日志文件可以帮助您深入了解以下事项:
- 确切验证可以或不能爬取的内容。
- 查看搜索引擎蜘蛛在其爬网期间遇到的响应。
- 识别蜘蛛爬网问题,这些问题可能具有更广泛的基于站点的含义(例如层次结构或内部链接结构)。
- 查看搜索引擎优先考虑的页面,帮助你了解哪些页面可能被搜索引擎评估为更重要。
- 发现搜索引擎蜘蛛爬取预算可能被浪费的地方。
除了其他数据(例如爬取或外部链接)以外,还可以发现有关搜索引擎蜘蛛行为的更多信息。
蜘蛛爬网预算的定义
在我们学习本教程之前,了解搜索蜘蛛爬网预算非常有必要,该预算本质上是搜索引擎可以并且想要为网站执行爬网任务的URL数量。
基于网站对请求的响应速度的“抓取速度限制”,以及“抓取需求”,URL的受欢迎程度,更改频率以及搜索引擎对索引中“陈旧性”的容忍度,所有这些都会影响任意搜索引擎蜘蛛的爬取速度、效率及数量。
Google解释说:“许多低附加值URL可能会对网站的爬取和索引产生负面影响”。他们的研究发现,低附加值URL按重要性顺序分为以下几类。
- 多面导航和URL参数。
- 重复内容。
- 软错误页面。
- 页面被黑。
- 垃圾主机服务器(超售虚拟主机。
- 低质量和垃圾邮件内容。
注:多面导航,即Faceted navigation,指同一页面存在多个URL地址,但又未定义统一的权威链接。
因此,避免蜘蛛浪费时间和精力对有用URL进行爬取就显得非常关键词,让搜索引擎蜘蛛对重复内容页面进行爬取只会导致重要页面爬取延迟。
在本教程中,我们将使用Spider Analyser-用于统计分析蜘蛛的工具插件,来说明如何通过各种方式分析日志文件,从而帮助站长获得更多搜索蜘蛛信息数据。
1.蜘蛛抓取概况
插件的蜘蛛概况可帮助您总体上了解网站的蜘蛛爬网预算。该页面显示今天、昨天和最近30天总共已爬网了多少个唯一URL,以及平均每天爬网的唯一URL的数量。
除此之外,蜘蛛概况还可以让站长快速了解Top10蜘蛛、Top10蜘蛛爬取URL及Top10热门文章等数据。如果要分析总体趋势,这将非常有用。
2.识别被爬取的网址
通过执行模拟抓取,站长工具,数据分析,XML网站地图,或直接从数据库导出等等,有很多方法可以从网站收集和分析URL 。但是这些方法都不能准确告诉您搜索引擎蜘蛛已爬取了哪些URL。
Spider Analyser站长工具插件的基础是能够准确验证搜索蜘蛛已爬取了哪些URL。
您可以通过安装启用蜘蛛分析插件,进入WordPress后台的“蜘蛛分析-蜘蛛日志”,然后选择需要统计的“蜘蛛名称”及“统计时间周期”,即可查看该段时间,网站哪些链接被特定的搜索引擎蜘蛛所爬取。如下图所示:
3.确定低附加值网址
能够查看被爬取的URL及其频率,可以帮助您发现潜在的爬网预算浪费地方,例如带参数,分面导航,多余空格或重复的URL。您可以使用搜索功能搜索问号(?),帮助你识别浪费爬网预算的地方,例如URL参数。
通过“蜘蛛分析-访问路径”,输入“?”进行搜索,如果需要分析特定搜索引擎蜘蛛,则可以在所有蜘蛛下拉菜单选择指定蜘蛛:
在这种情况下,我们可以关闭WordPress分页显示评论。您还可以进一步从列表URL地址发现规律搜索URL片段搜索特定URL链接。这可以帮助您能够快速浏览爬网的URL,并发现任何模式,例如重复,或错误的特别长的相对链接。
还有许多其他方法可以识别潜在的浪费蜘蛛爬网预算的地方,我们将在本教程中继续探讨这些方法。
注:带?的链接不一定是为必要的,站长应该根据实际情况判断。但当存在多个URL的相同页面时,务必在页面说明权威链接。
4.URL被爬取的频率(最多或最少)
搜索引擎蜘蛛爬取页面的频率取决于多种因素,例如内容更改的频率以及索引器的重要性-搜索引擎认为页面的重要性。尽管并不是最重要的URL就会被爬取得越多那么简单,但将其作为指标可以帮助站长识别网站可能存在的潜在问题很有帮助。
你可以通过插件的多个页面位置去分析URL被爬取的频率:
(1)访问路径列表
进入蜘蛛分析的“访问路径”页面,选择蜘蛛名称、页面类型及时间周期,即可查看特定蜘蛛在时间段内容爬取URL的频率,如下图:
(2)热门文章
如果你只需要了解文章类型的URL的蜘蛛爬取频率,则只需要进入蜘蛛分析的“热门文章”列表,即可查看所有文章指定时间周期不同搜索引擎蜘蛛的爬取频率:
这可以帮助您发现与网站结构,层次结构,内部链接等有关的更深层次的问题。在执行蜘蛛日志分析的每一个步骤中,您都可以问自己,搜索引擎是否在浪费他们的时间来爬网URL,又或者蜘蛛是否对什么类型的内容或者URL更感兴趣。
5.子目录抓取频率
以不同的方式考虑爬网频率也很有用。如果您具有直观的URL结构,则按子目录聚合的爬网细节会非常强大。这也是通过插件的访问路径列表来分析。
您可以发现网站的哪些部分被最多爬行。比如首页、分类页、独立页、标签页、Sitemap,还是其他部分?如下图所示:
6.不同搜索引擎蜘蛛抓取频率
您可以分析不同搜索引擎蜘蛛对你的网站的爬取频率,这可以帮助您深入了解每个搜索引擎对你的网站评定的权重,以便于你针对该搜索引擎作有针对性的SEO优化。
在分析的时间段内,被爬网的唯一URL的数量,将帮助您捋清每个搜索引擎蜘蛛对你的网站的爬取积极性。
7.发现抓取错误
插件可让您快速分析搜索引擎针对其爬网的每个URL所接收到的最后响应代码。在“蜘蛛日志”页面下,您可以使用过滤器查看任何404错误,又或者301或302状态码爬取。
这个数据非常有帮助,站长应该及时处理404错误的URL,以免搜索引擎蜘蛛因为频繁的404报错,而降低对你的网站的爬取频次甚至放弃爬取,进而影响对你的网站评级。
然后,301或者302重定向链接,如果是不必要的重定向,应该尽快将产生重定向的链接修改为重定向的目标链接。
8.按子目录查看错误
在访问路径页面,通过直观的URL结构进行查看,发现网站的哪些部分遇到了最多的技术错误。
这可以帮助诊断影响站点特定区域的问题,如果出现一类URL的404错误,千万不要忽视,要第一时间进行处理。
9.检查重定向
您可以查看搜索引擎蜘蛛请求响应代码为301或者302重定向的每个URL。进入蜘蛛日志,选择状态码为301或者302,可以查看这些内容。
记住,301或者302响应状态码不一定是非正常的,当切勿在页面内部防止会出现重定向状态的URL链接。对于不必要的301或者302重定向,应及时修复为重定向目标URL链接。
10.识别拦截伪蜘蛛
插件所统计记录的并非全部是真实的蜘蛛,要识别伪蜘蛛,你只需要访问蜘蛛列表,切换至伪蜘蛛标签页,即可查看所有伪蜘蛛。
对于伪蜘蛛,建议站长将其添加至拦截列表避免浪费资源。除此之外,对于其他你可能不需要的蜘蛛,如工具类型的蜘蛛等,也可以考虑添加到拦截列表,因为很多时候这些蜘蛛的爬取,对网站毫无意义。
关于伪蜘蛛:又称假蜘蛛,虚假蜘蛛,可能未某些别有用心的人伪装成真实的蜘蛛,对你的网站进行采集,又或者其他非法行为。面具者,伪君子也!
11.分析未收录文章
站长可以访问插件的热门文章列表,选择指定的蜘蛛及未收录状态、时间周期,来查询未收录的文章清单,以帮助您进一步分析文章未被收录的原因。
这些未能够被收录的文章的主要原因可能在:
- (1)文章内容过少;
- (2)与其他页面链接过少。
对于未收录的文章,我们的建议是,进一步丰富文章内容进行内容重建,并且应该合理地在网站其他被收录的文章或者爬取较为频繁的页面布局这些未收录的URL,以便于搜索引擎蜘蛛抓取、收录。
不要止步于上
还有许多其他数据源可与蜘蛛分析插件一起进行结合分析,例如网站数据统计,站长工具,XML Sitemaps等。本教程旨在通过几个要点说明如何使用蜘蛛分析站长工具插件来深入发现搜索引擎蜘蛛对网站的爬取行为,以帮助站长进一步做WordPress SEO优化。
原文地址:https://www.wbolt.com/how-to-analyze-spider-log.html