网络爬虫由多个部分构成,这篇文章从爬虫的结构说起,带大家首来认识网络爬虫有哪几种爬虫策略。
通用网络爬虫的结构大致可以分为页面爬行模块 、页面分析模块、链接过滤模块、页面数据库、URL 队列、初始 URL 集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。
常用的爬行策略有:广度优先策略、深度优先策略 。
广度优先策略:此策略按照网页内容目录层次深浅来爬行页面,处于较浅目录层次的页面首先被爬行。 当同一层次中的页面爬行完毕后,爬虫再深入下一层继续爬行。 这种策略能够有效控制页面的爬行深度,避免遇到一个无穷深层分支时无法结束爬行的问题,实现方便,无需存储大量中间节点,不足之处在于需较长时间才能爬行到目录层次较深的页面 。
深度优先策略:其基本方法是按照深度由低到高的顺序,依次访问下一级网页链接,直到不能再深入为止。 爬虫在完成一个爬行分支后返回到上一链接节点进一步搜索其它链接。 当所有链接遍历完后,爬行任务结束。 这种策略比较适合垂直搜索或站内搜索, 但爬行页面内容层次较深的站点时会造成资源的巨大浪费。
如果大家需要开展爬虫,而没有找到合适用代理IP,那么黑洞代理可以为大家提供优质的服务。
相关文章内容简介
1 常用爬虫策略有哪些?
网络爬虫由多个部分构成,这篇文章从爬虫的结构说起,带大家首来认识网络爬虫有哪几种爬虫策略。 通用网络爬虫的结构大致可以分为页面爬行模块∵、页面分析模块、链接过滤模块、页面数据库、URL∵队列、初始∵URL∵ 集合几个部分。为提高工作效率,通用网络爬虫会采取一定的爬行策略。 常用的爬行策略有:广度优先策略、深度优先策略... [阅读全文]
最新标签
推荐阅读
22
2019-11
代理网络服务器会纪录你的真正IP吗?ip代理软件使用
代理网络服务器会纪录你的真正IP吗?ip代理软件使用
01
2020-01
代理ip如何做网络营销?
为什么说代理IP与网络营销是相辅相成的呢?因为通过ip代理的应用,我们可以在网络营销推广中获得更多的便利。
22
2019-11
完全免费代理IP,热烈欢迎大伙儿免费使用IP的操作方法简易!
完全免费代理IP,热烈欢迎大伙儿免费使用IP的操作方法简易!
06
2018-08
爬虫使用代理IP 可以选择什么代理方式?
爬虫工作需要多次反复对网站数据进行抓取,这一操作很容易触犯到网站的反爬虫机制,因为IP访问的次数超出限制,所以我们如果想要解决这一问题,那么就要用到代理IP。
热门文章
公众号
关注公众号,免费领试用