您的位置：首页 > 新闻资讯 > 正文

跟着黑洞代理走进爬虫技术

发布时间：2019-11-12 15:15:41 来源：

大数据+时代，企业需要动用到网络爬虫的时候要比以前要多，通过爬虫去抓取我们需要的数据信息，才能够为企业未来发展提供帮助。尤其是在代理IP的风靡之下，爬虫的技术门槛没以前那么复杂了。

跟着黑洞代理走进爬虫技术

网络爬虫有多少个可用的框架?黑洞代理下面一一来为大家进行介绍：

网络爬虫，基本可以分3类：

1、分布式爬虫：Nutch

爬虫使用分布式，主要是解决两个问题：

1)海量URL管理

2)网速

现在比较流行的分布式爬虫，是Apache的Nutch。但是对于大多数用户来说，Nutch是这几类爬虫里，最不好的选择，理由如下：

1)Nutch是为搜索引擎设计的爬虫，大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里，有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说，用Nutch做数据抽取，会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发，来使得它适用于精抽取的业务，基本上就要破坏Nutch的框架，把Nutch改的面目全非，有修改Nutch的能力，真的不如自己重新写一个分布式爬虫框架了。

2)Nutch依赖hadoop运行，hadoop本身会消耗很多的时间。如果集群机器数量较少，爬取速度反而不如单机爬虫快。

3)Nutch虽然有一套插件机制，而且作为亮点宣传。可以看到一些开源的Nutch插件，提供精抽取的功能。但是开发过Nutch插件的人都知道，Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件，使得程序的编写和调试都变得异常困难，更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点，而这五六个挂载点都是为了搜索引擎服务的，并没有为精抽取提供挂载点。大多数Nutch的精抽取插件，都是挂载在“页面解析”(parser)这个挂载点的，这个挂载点其实是为了解析链接(为后续爬取提供URL)，以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。

2、JAVA单机爬虫：Crawler4j、WebMagic、WebCollector

这里把JAVA爬虫单独分为一类，是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议，我只是随便扯淡。

其实开源网络爬虫(框架)的开发非常简单，难问题和复杂的问题都被以前的人解决了(比如DOM树解析和定位、字符集检测、海量URL去重)，可以说是毫无技术含量。包括Nutch，其实Nutch的技术难点是开发hadoop，本身代码非常简单。网络爬虫从某种意义来说，类似遍历本机的文件，查找文件中的信息。没有任何难度可言。之所以选择开源爬虫框架，就是为了省事。比如爬虫的URL管理、线程池之类的模块，谁都能做，但是要做稳定也是需要一段时间的调试和修改的。

3、非JAVA单机爬虫：scrapy

在非JAVA语言编写的爬虫中，有很多优秀的爬虫。这里单独提取出来作为一类，并不是针对爬虫本身的质量进行讨论，而是针对larbin、scrapy这类爬虫，对开发成本的影响。

先说python爬虫，python可以用30行代码，完成JAVA 50行代码干的任务。python写代码的确快，但是在调试代码的阶段，python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发，要保证程序的正确性和稳定性，就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂，使用scrapy这种爬虫也是蛮不错的，可以轻松完成爬取任务。

对于C++爬虫来说，学习成本会比较大。而且不能只计算一个人的学习成本，如果软件需要团队开发或者交接，那就是很多人的学习成本了。软件的调试也不是那么容易。

还有一些ruby、php的爬虫，这里不多评价。的确有一些非常小型的数据采集任务，用ruby或者php很方便。但是选择这些语言的开源爬虫，一方面要调研一下相关的生态圈，还有就是，这些开源爬虫可能会出一些你搜不到的BUG(用的人少、资料也少)。

今天黑洞代理介绍的几种爬虫框架，是现在最常使用的，大家可以将这几种爬虫框架进行测试，看看哪一种更合适。

黑洞IP

跟着黑洞代理走进爬虫技术