提高爬虫的效率能够让我们在短时间内获取更多的资讯,这对于我们工作的开展是非常有利的,在之前的文章,黑洞代理已经分享了3点技巧,接下来继续是提升爬虫效率的分享。
4、内容提取
spider要抓取的文件各种各样,比如有html、xml网页,有doc、ppt、xls、pdf等带格式的文档,有图片、音频、视频等多媒体数据,对这些不同类型文件spider都要提取出文件里的纯文本内容。
对于doc、pdf等文档,这种由专业厂商提供的软件生成的文档,厂商都会提供相应的文本提取接口。
对于html、xml网页来说,除了标题和正文以外,会有许多版权信息、广告链接以及公共的频道链接,这些链接和文本正文一点关系也没有,在提取网页内容的时候,也需要过滤这些无用的链接。
5、抓取数据的更新
抓取数据的更新问题是一个很重要的问题,它决定了用户能不能马上搜索到最新的新闻,最新的内容,但是由于互联网上海量的网页使得一次抓取的周期都很长 ,如果通过每次重新抓取一次来更新,势必更新周期很长。
spider已经抓取的网页可能被修改、删除,spider要定期检测这些网页的更新情况,同时更新原始网页库、提取的数据库以及索引库。
6、避免重复抓取
之所以会造成重复抓取,是因为:
(1)互联网上大量网
页被其他网页引用,这就使得同一个网页的url出现在多个不同的网页中,这就要求spider必须有url消重功能。
(2)网页被其他网页转载,这就使得同一篇文章出现在不同url的页面中,这就要求spider具有内容消重功能,目前这块比较难以实现,当前很多搜索引擎公司都没有较好的解决这个问题。
(3)网页的url有多种表示形式,这是由于dns与ip对应关系造成的。
希望这份教程能够让大家的爬虫工作开展得更加顺利。
相关文章内容简介
1 代理IP提升爬虫质量的方法(下)
提高爬虫的效率能够让我们在短时间内获取更多的资讯,这对于我们工作的开展是非常有利的,在之前的文章,黑洞代理已经分享了3点技巧,接下来继续是提升爬虫效率的分享。 4、内容提取 spider要抓取的文件各种各样,比如有html、xml网页,有doc、ppt、xls、pdf等带格式的文档,有图片、音频、视频等多媒体数据,对这些不同类型文件spider都要提取... [阅读全文]
最新标签
推荐阅读
28
2020-03
http代理服务器的安全使用
看到现在网络上面铺天盖地的代理ip宣传,大家只要经过搜索引擎搜索,就可以找到很多不同的代理ip服务商。
13
2019-11
爬虫实现自定义线程池
Python爬虫自定义线程池要怎么实现?黑洞代理今天为大家带来具体的操作步骤分享:
06
2020-04
http代理隐匿真实ip
不知道大家平时上网的时候,有没有用过代理服务器。可能平时大家上网的时候没有怎么对自己的ip留意,其实ip就是相当于我们在网络中的象征,它会记录着我们的每一个网络操作。
25
2019-10
清除DNS缓存的方法?
怎么清除DNS缓存?上网的时候如果遇到显示DNS错误,这个问题可以怎么解决。其实这时只要清除一下DNS缓存即可。黑洞代理下面教给大家一个可以帮助DNS缓存清理的方式。
热门文章
公众号
关注公众号,免费领试用