内容采集,或者我们喜欢称之为“内容窃取”,自互联网诞生以来一直是一个问题。对于任何定期发布或使用搜索引擎优化 (SEO ) 的人来说,这实际上可能会让人非常恼火。
什么是内容采集?
内容采集基本上是指有人获取您的内容并在他们自己的网站上使用它(手动或使用插件或机器人自动),而不给您署名或信用。这通常是希望以某种方式获得流量、SEO或新用户。这实际上违反了美国和其他一些国家的版权法。谷歌也不宽恕这一点,并建议您应该创建自己的独特内容。
以下是 谷歌提到的几个采集内容的例子:
- 从其他网站复制和重新发布内容而不添加任何原始内容或价值的网站
- 从其他网站复制内容、稍作修改(例如,通过替换同义词或使用自动化技术)并重新发布的网站
- 从其他站点复制内容提要但不为用户提供某种类型的独特组织或利益的站点
- 专门从其他网站嵌入内容(例如视频、图像或其他媒体)的网站,但对用户没有实质性的附加价值
不要将这与内容联合( content syndication )混淆,后者通常是在您重新发布自己的内容以扩大覆盖范围时。联合内容也可以由第三方完成,但这与内容抓取之间存在细微差别。如果有人在联合内容,则应始终使用特殊标签,例如 rel=canonical
或noindex
。
现在有很多第三方WordPress插件可以让你自动抓取第三方RSS源。虽然开发人员的意图是好的,但不幸的是,这些意图有时会被滥用并用于内容采集。WordPress如此受欢迎的原因之一是易于使用,但有时也会适得其反。
内容采集农场的实例
当同一个所有者在数十个网站上抓取内容时,我们称它们为“农场”。这些通常很容易发现,因为WordPress网站所有者通常在所有网站上使用相同的主题,甚至域名之间的差异也很小。
我们在今天的帖子中使用了一个活生生的例子!我们毫不羞耻地指出这些类型的网站,因为它们没有提供任何价值,只会否定内容发布者所做的辛勤工作。这是内容抓取农场的示例。我们存档了每个链接,以防网站将来出现故障。您可以单击它们中的每一个,并查看它们都使用相同的主题和相同的抓取内容。通常,刮板会从许多不同的来源获取内容,我们的博客就是其中之一。
- thetechworld.xyz(存档链接)
- mytechnewstoday.org(存档链接)
- mytechcrunch.com(存档链接)
- technewssites.xyz(存档链接)
- technewssites.info(存档链接)
- www.thetechworld.info(存档链接)
- www.mytechnewstoday.xyz(存档链接)
- www.futuretechnologynews.info(存档链接)
- futuretechnologynews.xyz(存档链接)
您可以在下面看到,他们只是逐字逐句地采集博客文章。
采集示例
如何找到他们?
找到它们的最简单方法之一是使用Copyscape(不支持中文)或Ahrefs之类的工具 (如果它们也在复制您的内部链接)。Copyscape甚至允许您提交站点地图文件,并让它在扫描网络并查找内容时自动通知您。
文案
您还可以使用“allintitle”标签手动搜索Google。只需输入标签以及您的文章标题即可。
使用allintitle标签搜索Google
allintitle关键字提示Google仅在文章标题中搜索这些词。第二种也是更有效的方法是在您的帖子中搜索一些文本,搜索词用双引号括起来。加上双引号告诉谷歌搜索完全相同的文本。您的标题搜索可能会出现误报,因为有人可能会使用相同的标题,但第二种方法更有效,因为有人不太可能拥有完全相同的句子或段落。
内容采集会影响搜索引擎优化吗?
您可能遇到的下一个问题是,这对SEO有何影响?因为在上面的示例中,内容采集农场没有使用rel=canonical
标签、给予信用或noindex
标签。这意味着当Google bot抓取它时,它会认为这是他们的原始内容。你可能认为这不公平。你是对的,它不是。我们发布了内容,然后他们只是抓取它。然而,在你开始恐慌之前,了解幕后真正发生的事情很重要。
首先,即使Google爬虫可能会将其视为他们的内容,但Google算法很可能不会。谷歌并不愚蠢,并且有许多规则和检查来确保原始内容所有者仍然获得信誉。我们怎么知道呢?好吧,让我们从SEO的角度来看看这些帖子中的每一个。
示例中这个网站早在2017年11月就采集了别人的博客文章,所以如果要排名的话,它有足够的时间来排名。因此,启动Ahrefs工具并检查他们的文章当前排名的关键字。我们可以看到它没有为任何关键字排名。因此,就自然流量而言,他们根本没有从这篇文章中受益。
内容采集SEO
如果我们在Ahrefs中提取我们的原始博客文章,我们可以看到我们对96个关键字进行了排名。
原创内容搜索引擎优化
当Google看到您可能认为是重复的内容时,它会使用许多不同的信号和数据点来确定最初是谁编写了内容以及应该对哪些内容进行排名。这里有几个例子:
- 发布日期(尽管在这种情况下,内容是在同一天抓取的)
- 域权限和页面排名。是的,Google内部可能仍在使用页面排名
- 社会信号
- 交通
- 反向链接
同样,这些都是安全的假设,因为没有人真正知道Google使用什么。但这里的重点是,您可能不需要因为有人抓取您的内容而失眠。但是,您仍然可能想对此做点什么。别人用你自己的内容来超越你也不是不可能的。我们将在下面进一步讨论。
我们如何处理内容采集
创建有用的、独特的和值得分享的内容并不容易,它会占用你很多宝贵的时间(而且通常会花费很多钱),所以你绝对应该保护它。但这里有一些额外的原因,您可能不想忽略刮板。
- 如果一个拥有大量流量的网站正在抓取您的内容并使用它来补充其他内容,那么他们很可能从中受益。这绝对是不对的,因为您是内容的原始所有者。
- 像这样的事情会严重扭曲您的报告工具中的数据,让您的生活更加艰难。例如,这些将显示在Ahrefs或Majestic等工具的反向链接报告中。你越大,它就越混乱。
- 您是否希望完全信任 Google 以确定他们的内容还是您的内容是原始内容?尽管他们对此非常聪明,但我们肯定不会。此外,即使他们的帖子没有任何关键字的搜索引擎排名,它实际上已被Google索引(如下所示)。
采集的内容已编入索引
联系网站所有者并提交DMCA投诉
为确保我们在信用到期时获得信用,我们通常首先联系网站所有者并请求删除。我们建议创建一些您可以重复使用的电子邮件模板,以加快此过程,而不是浪费您的时间。如果我们在几次尝试后没有收到他们的消息,我们会更进一步并提出DMCA投诉。
DMCA投诉可能有点棘手,因为您需要查找网站的IP、查找主机等。但不用担心,我们已经记录了如何轻松提交DMCA投诉的所有步骤,以及追踪所有者。您也可以直接向Google提出合法删除请求。
就上面的实时案例研究示例而言,似乎是时候采取下一步行动了,因为我们无法联系到网站所有者。
更新拒绝文件
为确保这些不会以任何方式影响我们的网站(无论DMCA投诉发生了什么),我们还将这些整个域添加到我们的拒绝文件中。这告诉谷歌我们不想与他们有任何关系,并且我们不会试图以任何方式操纵SERP。
如果您为更高质量的网站执行此操作,您也可以只提交URL以进行拒绝,而不是提交整个域。尽管通常我们看不到高质量的网站抓取内容。
第 1 步
在Ahrefs中,我们选择有问题的域,然后单击“Disavow Domains”。这确保了该内容抓取网站中的所有内容都不会影响我们。
Ahrefs拒绝域
在处理这些类型的问题时,Ahrefs的伟大之处在于其“隐藏拒绝链接”选项。然后,它会自动隐藏域和URL,以后不会出现在您的主报告中。这对于组织和保持理智非常有帮助,特别是如果您专门使用Ahrefs来管理反向链接。
隐藏拒绝的链接
第 2 步
正如您在下面看到的,我们将来自内容抓取农场的所有域添加到Ahrefs中的拒绝链接部分。下一步是单击“导出”并获取我们需要在Google Search Console中提交的拒绝文件 (TXT) 。
导出拒绝文件
第 3 步
然后转到Google的Disavow Tool。选择您的Google Search Console个人资料,然后点击“Disavow LINKS”。
拒绝链接
第 4 步
选择您从Ahrefs导出的拒绝文件并提交。这将覆盖您之前的拒绝文件。如果您以前没有使用过Ahrefs并且已经存在拒绝文件,建议您下载当前文件,将其与新文件合并,然后上传。从那时起,如果您只使用Ahrefs,您可以简单地上传和覆盖。
拒绝文件
屏蔽爬虫的IP
您还可以更进一步,阻止爬虫的IP。一旦您确定了异常流量(有时很难做到),您可以使用.htaccess文件或Nginx规则在您的服务器上阻止它。或者,如果您使用的是Sucuri或Cloudflare等第三方WAF,它们也有拦截IP的选项。
小结
内容采集农场可能并不总是影响您的SEO,但它们绝对不会为用户增加任何价值。我们强烈建议您花一些时间将它们取下来。我们有一整张Trello卡片专门用于处理“删除”请求。这有助于使网络成为每个人都更好的地方,并确保您的独特内容只会在您的网站上看到和排名。
此外,我们建议站长们,一味地原封不动地采集内容,很难让网站有很好的排名。如果您希望做一个内容聚合站点,我们建议:
(1)坚持做一定比例的原创内容,我们无法给出一个准确的占比,但对于新站而言,原创内容理应占更大的比例;
(2)即使是内容采集,应该考虑对内容进行一定的深加工,用工具也好,手动重新编辑也好;
(3)使用搜索推送插件,将内容及时推送至搜索引擎。
原文地址:https://www.wbolt.com/content-scraping.html