您的位置: 首页 > 新闻资讯 > 正文

代理IP提升爬虫质量的方法(下)

发布时间:2019-10-26 16:14:27 来源:

提高爬虫的效率能够让我们在短时间内获取更多的资讯,这对于我们工作的开展是非常有利的,在之前的文章,黑洞代理已经分享了3点技巧,接下来继续是提升爬虫效率的分享。


代理IP提升爬虫质量的方法(下)

4、内容提取


spider要抓取的文件各种各样,比如有html、xml网页,有doc、ppt、xls、pdf等带格式的文档,有图片、音频、视频等多媒体数据,对这些不同类型文件spider都要提取出文件里的纯文本内容。


对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。


对于html、xml网页来说,除了标题和正文以外,会有许多版权信息、广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。


5、抓取数据的更新


抓取数据的更新问题是一个很重要的问题,它决定了用户能不能马上搜索到最新的新闻,最新的内容,但是由于互联网上海量的网页使得一次抓取的周期都很长 ,如果通过每次重新抓取一次来更新,势必更新周期很长。


spider已经抓取的网页可能被修改、删除,spider要定期检测这些网页的更新情况,同时更新原始网页库、提取的数据库以及索引库。


6、避免重复抓取


之所以会造成重复抓取,是因为:


(1)互联网上大量网


页被其他网页引用,这就使得同一个网页的url出现在多个不同的网页中,这就要求spider必须有url消重功能。


(2)网页被其他网页转载,这就使得同一篇文章出现在不同url的页面中,这就要求spider具有内容消重功能,目前这块比较难以实现,当前很多搜索引擎公司都没有较好的解决这个问题。


(3)网页的url有多种表示形式,这是由于dns与ip对应关系造成的。


希望这份教程能够让大家的爬虫工作开展得更加顺利。


相关文章内容简介

1 代理IP提升爬虫质量的方法(下)

  提高爬虫的效率能够让我们在短时间内获取更多的资讯,这对于我们工作的开展是非常有利的,在之前的文章,黑洞代理已经分享了3点技巧,接下来继续是提升爬虫效率的分享。  4、内容提取  spider要抓取的文件各种各样,比如有html、xml网页,有doc、ppt、xls、pdf等带格式的文档,有图片、音频、视频等多媒体数据,对这些不同类型文件spider都要提取... [阅读全文]