0°

Barkrowler 是什么蜘蛛爬虫

但是据网友称收到了一些报告,在某些情况下,他不遵循robots协议,如果这个蜘蛛爬虫影响你的服务器,完全可以禁掉

Barkrowler 是 eXenSa(eXenSa 是什么网站?可以看这篇文章)的 BUbiNG 爬虫的实验性版本(它基本上是 BUbiNG,我们的拉动请求已经应用,而且正确的配置可以在 EC2 上进行分配)

Exensa 是一家法国的大数据处理公司,专门从事大规模的文本数据分析。据说致力于机器算法学习,社交网络,法律文档,电子商务的数据分析处理。 他们在网上抓取广告,所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。

它是尊重 robots.txt 协议,并且每个 HOST 和每个 IP 都有设置。

但是据网友称收到了一些报告,在某些情况下,他不遵循 robots 协议,如果这个蜘蛛爬虫影响你的服务器,完全可以禁掉

他们是谁?

Exensa 是一家非常小的法国公司,专门从事大规模的文本数据分析。我们致力于社交网络,法律文档,电子商务。

他们在网上抓取广告,所以没有特定的目标 – 除了可能用于实验目的的某些语言。我们希望确定网站和网页的语义/主题方向。

他们将如何处理我们检索的数据?

目前,我们的目标是提供一个“替代站点”搜索引擎,它比其他选择更好,特别是对于长尾(当前的替代方案允许您找到前 10/20 个类似的站点)。

目前还没有在线测试版(这就是我们需要执行抓取的原因)。但我们希望很快。

他的一般默认形式是

Barkrowler/0.9 (+http://www.exensa.com/crawl)

「点点赞赏,手留余香」

    还没有人赞赏,快来当第一个赞赏的人吧!
2 条回复 A 作者 M 管理员
  1. 哦,终于知道这虫子是何方神圣了!

    • 这年月虫子太多了!烦不胜烦呀都!

欢迎您,新朋友,感谢参与互动!欢迎您 {{author}},您在本站有{{commentsCount}}条评论