Barkrowler 是什么蜘蛛爬虫

但是据网友称收到了一些报告,在某些情况下,他不遵循robots协议,如果这个蜘蛛爬虫影响你的服务器,完全可以禁掉

Barkrowler 是 eXenSa(eXenSa 是什么网站?可以看这篇文章)的 BUbiNG 爬虫的实验性版本(它基本上是 BUbiNG,我们的拉动请求已经应用,而且正确的配置可以在 EC2 上进行分配)

Exensa 是一家法国的大数据处理公司,专门从事大规模的文本数据分析。据说致力于机器算法学习,社交网络,法律文档,电子商务的数据分析处理。 他们在网上抓取广告,所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。

它是尊重 robots.txt 协议,并且每个 HOST 和每个 IP 都有设置。

但是据网友称收到了一些报告,在某些情况下,他不遵循 robots 协议,如果这个蜘蛛爬虫影响你的服务器,完全可以禁掉

他们是谁?

Exensa 是一家非常小的法国公司,专门从事大规模的文本数据分析。我们致力于社交网络,法律文档,电子商务。

他们在网上抓取广告,所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。

他们将如何处理我们检索的数据?

目前,我们的目标是提供一个“替代站点”搜索引擎,它比其他选择更好,特别是对于长尾(当前的替代方案允许您找到前 10/20 个类似的站点)。

目前还没有在线测试版(这就是我们需要执行抓取的原因)。但我们希望很快。

他的一般默认形式是

Barkrowler/0.9 (+http://www.exensa.com/crawl)

人已赞赏
运维日志

使用 Fail2Ban 保护 Nginx、WordPress 简单又高效

2019-7-1 21:07:09

运维日志

Fail2Ban 使用技巧和心得汇总

2019-7-2 16:54:16

2 条回复 A文章作者 M管理员
  1. 哦,终于知道这虫子是何方神圣了!

    • 这年月虫子太多了!烦不胜烦呀都!

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
有新消息 消息中心
搜索