Semalt的教程,介绍如何从Wikipedia中删除最著名的网站

动态网站使用robots.txt文件来管理和控制任何抓取活动。这些网站受网络抓取条款和政策的保护,以防止博客作者和营销人员抓取其网站。对于初学者来说,网络抓取是从网站和网页收集数据并保存然后以可读格式保存的过程。

从动态网站检索有用的数据可能是一项繁琐的任务。为了简化数据提取过程,网站管理员使用机器人来尽快获取必要的信息。动态站点包含“ allow”和“ disallow”指令,这些指令告诉机器人允许在何处进行刮取,而在何处不允许进行刮取。

从Wikipedia搜寻最著名的网站

本教程涵盖了一个案例研究,该案例研究由Brendan Bailey在Internet上的抓取网站上进行。 Brendan首先从Wikipedia收集了最有力的网站列表。 Brendan的主要目的是根据robot.txt规则识别可进行Web数据提取的网站。如果您要抓取网站,请考虑访问该网站的服务条款,以避免侵犯版权。

刮除动态网站的规则

使用Web数据提取工具,只需单击即可刮取网站 。关于布伦丹·贝利(Brendan Bailey)如何对维基百科站点进行分类的详细分析及其使用的标准如下所述:

混合的

根据布伦丹(Brendan)的案例研究,大多数流行的网站都可以归类为“混合”。在饼图中,混合规则的网站占69%。 Google的robots.txt是混合robots.txt的绝佳示例。

完成允许

另一方面,完成允许标记为8%。在这种情况下,“完全允许”表示网站robots.txt文件为自动化程序提供了访问权限,以刮取整个网站。 SoundCloud是最好的例子。完全允许站点的其他示例包括:

  • fc2.comv
  • popads.net
  • uol.com.br
  • livejasmin.com
  • 360.cn

没有设置

设置为“未设置”的网站占图表总数的11%。未设置表示以下两件事:网站缺少robots.txt文件,或者网站缺少“用户代理”规则。 robots.txt文件为“未设置”的网站示例包括:

  • Live.com
  • 京东
  • Cnzz.com

完全禁止

完整的Disallow网站禁止自动化程序抓取其网站。链接入是完全禁止站点的一个很好的例子。完全禁止网站的其他示例包括:

  • Naver.com
  • Facebook.com
  • Soso.com
  • 淘宝网
  • T.co

Web抓取是提取数据的最佳解决方案。但是,抓取一些动态网站可能会给您带来很大麻烦。本教程将帮助您了解有关robots.txt文件的更多信息,并防止将来可能出现的问题。