搜索引擎那么多的信息量是怎么获取到的呢?很重要的一点就是靠爬虫技术来进行抓取,搜索引擎平台会有自己的蜘蛛到各大网站平台上进行数据采集,这样我们在平台进行搜索的时候,才可以看到那么多的相关数据来源。代理IP让爬虫入门变得简单,那么爬虫应该注意什么呢?
1、抓取的质量
设计spider的目标不是把互联网上的所有网页都抓回来,而是抓重要的而且是最新的网页的即可。
怎样抓取高质量的网页?哪些网页是质量比较高的?这里就要求设计人员对互联网以及用户的习惯和常理都有一定的理解。
从互联网整体上看,网站中各个网页之间的链接关系是一个很重要的资源,因此在抓取网页时要记录网页之间的链接关系,以便进行链接分析,从而通过链接关系来评价网页的质量。
2、抓取的礼貌问题
礼貌的抓取具体表现在:网站不让抓取的网页就不要抓取,控制好访问网站的频率,spider的抓取行为不能影响正常用户的访问。因此spider在抓取时要:
(1)限制单位时间内对一个网站抓取网页的数量。
(2)限制同时对同一个网站抓取的线程/进程的数量。
(3)控制对同一个网站抓取的时间间隔。
(4)遵循robots、meta tag 、sitemap.htm协议 ,对不允许访问的目录不访问。
(5)在抓取网页的时发送的请求中,通过user-agent、form字段,标识spider的身份、联系email、spdier注意事项页面url。
3、抓取的效率
抓取的效率和计算机硬件的性能、硬件的多少、网络的带宽有关系,但为了提高抓取效率不能一味地增加硬件,而是要利用有限的硬件资源在一定的时间内抓取最多的的网页。
常见的提高抓取效率的策略有:
(1)采用多线程并发抓取
(2)采用单线程、非阻塞i/o抓取
(3)分布式抓取,把抓取工作分布到多台服务器完成,对于google这样的搜索引擎还包括地理上的分布式,把抓取服务器机群分布到全球各个国家的主干网上抓取。
以上技巧可以帮助我们提高爬虫的质量,由于篇幅的关系,还有部分原因将在下一篇文章进行分享。
相关文章内容简介
1 代理IP提升爬虫质量的方法(上)
搜索引擎那么多的信息量是怎么获取到的呢?很重要的一点就是靠爬虫技术来进行抓取,搜索引擎平台会有自己的蜘蛛到各大网站平台上进行数据采集,这样我们在平台进行搜索的时候,才可以看到那么多的相关数据来源。代理IP让爬虫入门变得简单,那么爬虫应该注意什么呢? 1、抓取的质量 设计spider的目标不是把互联网上的所有网页都抓回来,而... [阅读全文]
最新标签
推荐阅读
31
2019-10
Urllib库怎么使用?
用pyhton来进行爬虫是很多爬虫工作者的选择,大数据在各行各业都发挥着作用,企业也对数据分析给予更多的关注,黑洞代理今天给大家介绍Urllib库的使用。
31
2019-10
网络爬虫为什么会出现乱码?
代理IP让爬虫变得更加方便,降低了准入门槛,让很多人也开始学习如何编写爬虫程序。在爬虫的时候,会出现很多情况,黑洞代理跟大家分享当你的爬虫出现乱码如何解决。
31
2019-10
爬虫要怎么设计运行?
互联网时代,网络爬虫是常规操作了,比较常见的就有像搜索引擎蜘蛛,它通过每天抓取不同网站的信息,当用户进行搜索的时候,才能够进行返回有效信息。黑洞代理下面为大家介绍爬虫要怎
07
2019-11
正向代理、反向代理的对比
代理服务器可以分为正向代理、反向代理,使用的时候,大家可能感受不出来具体有什么不同。但是这两种其实存在不少差异,使用场景也不一样。
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户