您的位置: 首页 > 新闻资讯 > 正文

代理IP提升爬虫质量的方法(上)

发布时间:2019-10-26 16:13:00 来源:

搜索引擎那么多的信息量是怎么获取到的呢?很重要的一点就是靠爬虫技术来进行抓取,搜索引擎平台会有自己的蜘蛛到各大网站平台上进行数据采集,这样我们在平台进行搜索的时候,才可以看到那么多的相关数据来源。代理IP让爬虫入门变得简单,那么爬虫应该注意什么呢?


代理IP提升爬虫质量的方法(上)


1、抓取的质量


设计spider的目标不是把互联网上的所有网页都抓回来,而是抓重要的而且是最新的网页的即可。


怎样抓取高质量的网页?哪些网页是质量比较高的?这里就要求设计人员对互联网以及用户的习惯和常理都有一定的理解。


从互联网整体上看,网站中各个网页之间的链接关系是一个很重要的资源,因此在抓取网页时要记录网页之间的链接关系,以便进行链接分析,从而通过链接关系来评价网页的质量。


2、抓取的礼貌问题


礼貌的抓取具体表现在:网站不让抓取的网页就不要抓取,控制好访问网站的频率,spider的抓取行为不能影响正常用户的访问。因此spider在抓取时要:


(1)限制单位时间内对一个网站抓取网页的数量。


(2)限制同时对同一个网站抓取的线程/进程的数量。


(3)控制对同一个网站抓取的时间间隔。


(4)遵循robots、meta tag 、sitemap.htm协议 ,对不允许访问的目录不访问。


(5)在抓取网页的时发送的请求中,通过user-agent、form字段,标识spider的身份、联系email、spdier注意事项页面url。


3、抓取的效率


抓取的效率和计算机硬件的性能、硬件的多少、网络的带宽有关系,但为了提高抓取效率不能一味地增加硬件,而是要利用有限的硬件资源在一定的时间内抓取最多的的网页。


常见的提高抓取效率的策略有:


(1)采用多线程并发抓取


(2)采用单线程、非阻塞i/o抓取


(3)分布式抓取,把抓取工作分布到多台服务器完成,对于google这样的搜索引擎还包括地理上的分布式,把抓取服务器机群分布到全球各个国家的主干网上抓取。


以上技巧可以帮助我们提高爬虫的质量,由于篇幅的关系,还有部分原因将在下一篇文章进行分享。


相关文章内容简介

1 代理IP提升爬虫质量的方法(上)

  搜索引擎那么多的信息量是怎么获取到的呢?很重要的一点就是靠爬虫技术来进行抓取,搜索引擎平台会有自己的蜘蛛到各大网站平台上进行数据采集,这样我们在平台进行搜索的时候,才可以看到那么多的相关数据来源。代理IP让爬虫入门变得简单,那么爬虫应该注意什么呢?  1、抓取的质量  设计spider的目标不是把互联网上的所有网页都抓回来,而... [阅读全文]

最新标签