如果没有导航,去一个不熟悉的地方开车那是一件非常困难的事情,同样道理,如果没有Sitemap,搜索引擎蜘蛛来到你的网站也会迷路。
不过创建和提交 XML 网站地图并不复杂。让我们一起来看看,关于Sitemap,我们需要了解哪些事情!
什么是网站地图?
网站地图是一个 XML 文件,用于罗列网站上的重要内容。任何你希望能够出现在搜索引擎的页面或文件都应该出现在网站地图中。
你需要了解:网站地图不能罗列超过 50,000 个 URL,且体积必须在 50mb 以下(百度搜索资源平台要求单个XML文件不能大于10MB,并且不支持索引型Sitemap)。如果你的网站地图超出其中任一指标,你就需要多创建几个了。
XML 网站地图的形式是怎样的?
XML 网站地图是为搜索引擎——而不是用户——创建的。说白了,就是一堆搜索引擎可读的代码,而不是用户可读的内容。
<?xml version="1.0" encoding="UTF-8"?> <urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9"> <url> <loc>https://ww.wbolt.com/</loc> <lastmod>2019-08-21T16:12:20+03:00</lastmod> </url> <url> <loc>https://www.wbolt.com/themes/</loc> <lastmod>2019-07-31T07:56:12+03:00</lastmod> </url> </urlset>
我们逐步展开对这个XML文件进行说明。
XML 声明
这则片段会告诉搜索引擎他们在抓取的是一个 XML 文件。同时这也声明了 XML 的版本和所用的字符编码。对于网站地图来说,版本应该为 1.0,编码必须为 UTF‑8。
URL 组
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
这个容器包含了网站地图中所有的 URL。同时它还会告诉网络爬虫应该使用何种协议标准。大多数网站地图会指定使用 0.90 的协议标准,包括 Google、百度、Yahoo! 和微软在内的各类搜索引擎都支持该标准。
URL
<url> <loc>https://www.wbolt.com/</loc> <lastmod>2019-08-21T16:12:20+03:00</lastmod> </url>
这是每个 URL 的父标签。你必须在一个嵌套的标签 中指定 URL 的位置。这些 URL 必须是绝对的——而非相对的——权威链接。
尽管该标签是这里唯一的强制标签,你还可以使用一些可选的属性:
: 用于声明文件最后一次修改的时间。其格式必须符合 W3C Datetime 格式。例如你在 2019 年 9 月 25 日更新了某篇帖文,该属性应为 2019–09-25。你还可以在其中指定时间,但这不是强制的。
: 用于指明该 URL 较网站其他 URL 的优先级。数值在 0.0 到 1.0 之间。数值越高表明越重要。
: 用于指明该页面可能更新的频率。它的作用是告诉搜索引擎应该多久回头抓取一次这个 URL。它的值可以是总是、每小时、每天和每周。
这些可选的标签对 SEO 来说并没有那么重要。
说到 标签,Google 的 Gary Ilyes 曾经表示他们会无视这个标签,因为“站长在保证这个标签数据的准确性方面做得太差了。” 大多数的网站地图生成器都会将所有页面的日期设置成当前日期,而不是该页面上次被编辑的日期。原因显而易见。
至于 标签,Google 曾表示,因为这些标签会带来“大量噪音(干扰性)”,所以他们会选择无视。
而标签,John Mueller 指出“优先级和改动频率已经退出网站地图的舞台了。”
为什么需要网站地图?
搜索引擎通过爬行网站来探索新的内容。当搜索引擎的爬虫爬行某个页面时,他们会同时关注页面的内外链。当他们发现某个 URL 不在索引中时,就会试图解析其中的内容,并在适当的位置索引他们。
但是搜索引擎无法通过这种方式找到所有的内容。如果某个页面没有来自其他页面的链接,那么搜索引擎就没有办法找到这些页面。
这个时候网站地图就可以发挥作用了。
网站地图可以告诉 Google、百度以及其他搜索引擎应该去网站的哪些位置寻找最重要的页面,这样爬虫就可以抓取并索引它们。这很重要因为引擎只有事先索引了你的页面,才可以对它进行排名。
如何创建网站地图
部分内容管理系统可以帮你生成网站地图。当你向网站添加或移除页面的时候,这些网站地图会自动更新。如果你的内容管理系统本身不自带这个功能,那么通常情况下会有相关的插件可以做到。
在 WordPress 中创建网站地图
即使 WordPress 驱动了全球 34.5% 的网站,然而它却不会为你自动生成网站地图。你可以借助 Yoast SEO 或者 Smart SEO Tool 这样的插件来生成网站地图。
要安装 Smart SEO Tool,首先登录 WordPres 后台。
依次进入插件>安装插件:
搜索 Smart SEO Tool。
点击现在安装然后启用:
前往插件设置页面 > Sitemap生成,确保“Sitemap生成”开关处于打开状态。如果你要将Sitemap更新推送至谷歌或者Bing,可以同时启用这两个搜索引擎的通知开关,如下图所示:
你还可以对Sitemap地图的内容进行设置,比如首页、文章、分类目录、标签等等,你只需要设置优先级、更改频率及开关即可(谷歌可能对这些参数不太感冒,如前面所述)。
设置这些之后,你可以点击右下角的“保存设置”按钮即可生成Sitemap。如下图所示:
注:为什么要生成一堆子sitemap清单,因为百度不支持索引型Sitemap,必须逐个提交子Sitemap,具体参考“非索引型Sitemap地址提交”一文。
现在你应该可以通过 yourdomain.com/sitemap.xml 查看网站地图(或者网站地图的索引)了。
重要提示. 只有当你不想要某些页面出现在搜索结果中时,才从网站地图中移除他们。同时Sitemap地图的URL地址不应该与Robots.txt的规则有冲突。
在 Wix 中创建网站地图
Wix 会自动为网站创建网站地图。你可以通过访问 yourwixsite.com/sitemap.xml 找到它。
不幸的是,对于网站地图包含哪些页面,不包含哪些页面,你并没有太多控制。如果你想要排除某个页面,就前往该页面的的“SEO (Google)”设置板块并关闭“在搜索结果中展示该页面”(“Show this page in search results”)选项。
注意这样会给该页面加入一个 noindex 元标签,它就不会显示在搜索结果中了。
小提示. 如果你在 Wix 将某个 URL权威化,它并不会从网站地图中消失。尽管这对大多数用户来说无关紧要,但是记住在网站地图中包含权威页面并不是最好的办法,这样做会向 Google 发送混淆的信号。
在 Squarespace 中创建网站地图
Squarespace 也会自动创建网站地图。你可以在 yoursquarespacesite.com/sitemap.xml 中找到它。
在 Squarespace 中你没有办法手动编辑网站地图,但是你可以在“SEO”标签中将那些无需索引的页面排除。
这样他们也会从你的网站地图中消失。
在 Shopify 中创建网站地图
Shopify 会自动生成网站地图,地址为 youtstore.com/sitemap.xml。
然而,想要在 Shopify 中要将一些页面排除在索引之外没那么简单。你必须直接编辑 .liquid 文件。
不使用内容管理系统创建网站地图
如果你网站的页面不足 300 个,可以安装免费版的 Screaming Frog。
安装完成后,前往 模式(Mode)> 爬虫(Spider)。
将你首页的 URL 粘贴进标有“向抓虫提供 URL”(“Enter URL to spider”)的文本框内。
点击“开始”(“Start”)。
小提示. 确保你使用了网站首页的权威(主要)版本。如如果使用了其他版本,Screaming Frog 将只会的抓取一个 URL。
抓取任务结束后,查看屏幕的右下角。会看到下图所示的信息:
如果数量小于等于 499,就可以去到网站地图(Sitemaps)> XML 网站地图(XML sitemap)。
因为 Google 基本会忽略,
, 和
,我们建议将这些片断排除出网站地图文件。
点击“下一步”并将网站地图保存到本地。完成。
若数量显示为“500 of 500”,就没有必要将网站地图导入了。为什么?因为这意味着 Screaming Frog 在抓取到网站的所有页面之前已经达到了数量上限。亦即此时导出的网站地图中可能会遗失数百个页面——这样就没有意义了。
有一种解决办法是寻找免费的网站地图生成器。这样的工具有很多。
可惜的是,他们中的大部分都很不可靠。
我们测试了许多流行的网站地图生成工具,发现其中的大部分包含了非权威的 URL,无需索引的页面以及重定向。这是非常糟糕的 SEO 实践。
生成工具 | 包含非权威的URLs? | 包含无需索引的URLs? | 包含重定向(301 redirects)? |
---|---|---|---|
xml-sitemaps.com | Yes ❌ | No ✅ | No ✅ |
web-site-map.com | Yes ❌ | No ✅ | No ✅ |
xmlsitemapgenerator.org | Yes ❌ | No ✅ | No ✅ |
smallseotools.com/xml-sitemap-generator | Yes ❌ | Yes ❌ | Yes ❌ |
freesitemapgenerator.com | Yes ❌ | Yes ❌ | Yes ❌ |
duplichecker.com/xml-sitemap-generator.php | Yes ❌ | Yes ❌ | Yes ❌ |
xsitemap.com | Yes ❌ | Yes ❌ | Yes ❌ |
原文地址:https://www.wbolt.com/how-to-create-xml-sitemap.html