您是否正在寻找一种方法来防止垃圾评论发送者和诈骗者使用内容抓取工具采集您的WordPress博客内容?
作为网站所有者,看到有人在未经许可的情况下采集您的内容,从中获利,在Google等搜索引擎上的排名超过您,这是非常令人沮丧的。
在本教程中,我们将介绍什么是博客内容采集、如何减少和防止内容采集,甚至如何利用内容抓取来为自己谋利。
什么是博客内容抓取?
博客内容采集抓取是指从众多来源获取内容并在另一个站点上重新发布的内容。通常这是通过您博客的RSS Feed自动完成的。
内容抓取现在非常容易,任何人都可以启动WordPress网站,放置免费或商业主题,并安装一些插件,这些插件将从选定的博客中采集内容。
为什么内容抓取工具会采集我的内容?
我们的一些用户问我们为什么要采集我的内容?简单的答案是因为你很棒。事实是,这些内容抓取者别有用心。以下是有人会采集您的内容的几个原因:
- 联盟佣金– 有一些肮脏的联盟营销人员只是想利用该系统赚取额外的钱。他们将使用您的内容和其他人的内容通过搜索引擎为他们的网站带来流量。这些网站通常针对特定的利基市场,因此他们有正在推广的相关产品。
- 潜在客户生成——我们经常看到律师和房地产经纪人这样做。他们希望在自己的小社区中看起来像行业领导者。他们没有足够的带宽来制作高质量的内容,所以他们出去从其他来源抓取内容。有时,他们甚至没有意识到这一点,因为他们每月支付30美元来添加内容并帮助他们获得更好的SEO。我们过去遇到过不少这样的情况。
- 广告收入——有些人只想创建一个知识“中心”。为特定领域的用户提供一站式服务。我们经常注意到我们的网站内容正在被抓取。刮板者总是回答说,我这样做是为了社区的利益。除了该网站贴满广告。
这些只是有人会采集您的内容的几个原因。
如何捕捉内容爬虫?
捕获内容抓取工具是一项乏味的任务,可能会占用大量时间。您可以通过几种方法来捕获内容抓取工具。
用你的文章标题在谷歌搜索
是的,这听起来很痛苦。这种方法可能不值得,特别是如果你正在写一个非常流行的话题。
引用
如果您在文章中添加内部链接,如果网站采集您的内容,您会注意到引用。这种方式几乎是告诉您他们正在刮您的内容。
如果您使用Akismet,那么很多这些引用将显示在垃圾评论文件夹中。同样,这仅在您的文章中有内部链接时才有效。
Ahrefs
如果您可以使用Ahrefs之类的 SEO 工具,则可以监控您的反向链接并留意被盗内容。
如何处理内容抓取工具
人们在处理内容采集工具时采用的方法很少:无所作为方法、删除方法或利用它们的方法。
让我们来看看每一个。
什么都不做的方法
这是迄今为止您可以采取的最简单的方法。通常最受欢迎的博主会推荐这个,因为它需要很多时间来对抗爬虫。
现在很明显,如果是像Smashing Magazine、CSS-Tricks、Problogger等知名博客,那么他们就不必担心了。他们是谷歌眼中的权威网站。
然而,我们知道一些好的网站被标记为采集工具,因为谷歌认为他们的采集工具是原始内容。因此,在我们看来,这种方法并不总是最好的。
采取措施
这与“什么都不做”的方法完全相反。在这种方法中,您只需联系抓取工具并要求他们删除内容。
如果他们拒绝这样做或根本不回复您的请求,那么您可以向他们的主机提交DMCA(数字千年版权法案)。
根据我们的经验,大多数抓取网站都没有可用的联系表格。如果他们这样做,然后利用它。如果他们没有联系表,那么您需要进行Whois查询。
您可以在管理联系人上看到联系信息。通常行政和技术联系人是相同的。
它还将显示域注册商。大多数知名的网络托管公司和域名注册商都有DMCA表格或电子邮件。您可以看到这个特定的人使用HostGator,因为他们的域名服务器。HostGator有一个DMCA投诉表格。
如果名称服务器类似于ns1.theirdomain.com,那么您必须通过反向IP查找和搜索IP进行更深入的挖掘。
您还可以使用DMCA.com的第三方服务进行删除。
Jeff Starr在他的文章中建议你应该屏蔽坏人的IP。访问您的日志以获取其IP地址,然后在您的根.htaccess文件中使用以下内容阻止它:
Deny from 123.456.789
您还可以通过执行以下操作将它们重定向到虚拟Feed:
RewriteCond %{REMOTE_ADDR} 123\.456\.789\. RewriteRule .* http://dummyfeed.com/feed [R,L]
正如Jeff建议的那样,您可以在这里获得真正的创意。将它们发送到包含Lorem Ipsum的非常大的文本提要。你可以给他们发送一些恶心的坏事图片。您还可以将它们直接发送回他们自己的服务器,从而导致无限循环,从而使他们的网站崩溃。
我们采取的最后一种方法是利用它们。
如何利用内容抓取工具
这是我们处理内容抓取工具的方法,结果非常好。它有助于我们的SEO以及帮助我们赚取额外收入。
大多数抓取工具使用您的RSS Feed来采集您的内容。所以这些是你可以做的一些事情:
- 内部链接– 您需要大量链接您的博客文章。当您的文章中有内部链接时,它可以帮助您增加浏览量并降低您自己网站的跳出率。其次,它可以从采集您内容的人那里获得反向链接。最后,它允许您采集他们的观众。如果您是一位才华横溢的博主,那么您就会了解内部链接的艺术。您必须将链接放在有趣的关键字上。让用户很容易点击它。如果你这样做,那么刮板的观众也会点击它。就像那样,你从他们的网站上带走了一个访问者,然后把他们带回了他们本来应该去的地方。
- 使用附属链接自动链接关键字– 很少有像ThirstyAffiliates这样的插件会自动用附属链接替换指定的关键字,
- 使用RSS页脚发挥创意– 您可以使用多合一SEO插件将自定义项目添加到您的RSS页脚。您可以在此处添加任何您想要的内容。我们知道有些人喜欢向他们的 RSS 阅读器宣传他们自己的产品。所以他们会添加横幅。你猜怎么着,现在这些横幅也将出现在这些刮刀的网站上。在我们的案例中,我们总是在RSS Feed中的文章底部添加一点免责声明。通过这样做,我们从“他们”的网站获得原始文章的反向链接,让谷歌和其他搜索引擎知道我们是权威的。它还让他们的用户知道该网站正在采集我们的内容。
查看我们的指南,了解如何在WordPress中控制您的RSS Feed页脚以获取更多提示和想法。
如何减少和防止WordPress博客抓取
考虑到如果您采用我们的大量内部链接方法、添加附属链接、RSS横幅等,您将有可能将内容抓取减少到很好的程度。如果您采纳Jeff Starr的重定向内容抓取工具的建议,那也将阻止这些抓取工具。除了我们上面分享的内容之外,您还可以使用其他一些技巧。
完整与摘要RSS Feed
博客社区一直在争论是否有完整的RSS Feed或摘要RSS Feed。我们不会详细讨论该辩论,但是拥有仅摘要RSS Feed的优点之一是您可以防止内容抓取。
您可以通过转到WordPress管理后台并转到设置 » 阅读来更改设置。然后更改设置对于feed中的每篇文章,包含全文或者摘要。
引用垃圾评论
Trackbacks和Pingbacks肯定有很大的用处,但是,它们现在经常被滥用。
主题通常会在评论下方或评论中显示引用和pingback。这使垃圾邮件发送者有动力抓取您的网站并发送引用。如果您错误地批准了它,那么他们会得到一个反向链接并从您的网站上提及。当然,您可以在所有文章中禁用引用。
采集内容是否有效
有可能。如果您看到来自爬虫站点的大量流量,那么它可以。
然而,在大多数情况下,事实并非如此。您应该始终尝试删除您的内容。但是您会意识到随着您的博客变大,几乎不可能跟踪所有内容抓取工具。国外网站博主会发出DMCA投诉,但是一般情况下,大部分博主知道还有很多其他网站在采集他们的内容,只是他们无暇顾及。
我们希望本教程能帮助您防止WordPress内容被采集抓取。您可能还想了解如何实现WordPress图片被盗链,及通过蜘蛛统计分析插件拦截不需要的爬虫。
原文地址:https://www.wbolt.com/preventing-wordpress-content-scraping.html