在搜索引擎上找代理IP,可以发现有很多免费代理IP提供商,那么我们是不是可以通过把这些免费代理给抓取下来使用呢?我们来看看如何操作:
获取代理IP
代理IP的获取可以先利用网上开放的代理IP平台。
下面以国内某代理IP网站为例进行分析。该代理网站的代理类型一共分为四类:国内高匿代理、国内普通代理、国内HTTPS代理、国内HTTP代理。
下面以国内HTTPS代理为例来爬取网站上的代理IP信息,核心实现python代码如下:
#coding:utf-8
from requests import *
import re
headers = { "accept":"text/html,application/xhtml+xml,application/xml;",
"accept-encoding":"gzip",
"accept-language":"zh-cn,zh;q=0.8",
"referer":"Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)",
"connection":"keep-alive",
"user-agent":"mozilla/5.0(windows NT 6.1;wow64) applewebkit/537.36 (khtml,like gecko)chrome/42.0.2311.90 safari/537.36"
}
for i in range(1,835):
url = 'http://www.xicidaili.com'
url = url + '/wn/'
url = url + str(i)
html = get(url,timeout=3,headers=headers)
html.encoding = html.apparent_encoding
proxyip = r'(<td>.*</td>)'
iplist = re.findall(proxyip,html.text)
i = 1
for ip in iplist:
ip = (ip.split('<td>')[1]).split('</td>')[0]
f = open('./ip.txt','a')
print(ip,file=f)
if i%5==0:
print('\n',file=f)
i = i + 1
获取到的代理IP格式经处理后如下所示:
可以看出爬取出来的代理IP的格式为:IP、端口、代表类型、存活天数、发现日期及时间。下面将这些信息存入到数据库中,以方便检索与查找。这里面个人选择mysql数据库,将相关的数据导入到mysql中,共29700条https代理,如下所示:
到这一步,我们的抓取就已经完成了,可以看到免费的代理IP已经保存下来,我们需要使用的时候提取出来即可。
相关文章内容简介
1 免费代理IP的抓取
在搜索引擎上找代理IP,可以发现有很多免费代理IP提供商,那么我们是不是可以通过把这些免费代理给抓取下来使用呢?我们来看看如何操作: 获取代理IP 代理IP的获取可以先利用网上开放的代理IP平台。 下面以国内某代理IP网站为例进行分析。该代理网站的代理类型一共分为四类:国内高匿代理、国内普通代理、国内HTTPS代理、国内HTTP代理。... [阅读全文]
最新标签
推荐阅读
12
2019-11
跟着黑洞代理走进爬虫技术
大数据+时代,企业需要动用到网络爬虫的时候要比以前要多,通过爬虫去抓取我们需要的数据信息,才能够为企业未来发展提供帮助。尤其是在代理IP的风靡之下,爬虫的技术门槛没以前那么复
06
2018-08
代理IP如何隐藏IP地址?
为什么我们上网的时候需要隐藏自己的真实IP?现在网络盗用信息以及网络诈骗频频发生,使用网站的时候,我们需要保护好个人信息以及隐私,这样我们才能够有安全的网络环境。
06
2018-08
黑洞代理的优势介绍
黑洞代理,独特的动态拨号软件,支持安卓各个系统和模拟器,一键启用加速,安装即可使用,操作简单易用,稳定、安全、可靠的IP代理软件。全国千万IP,二十多个省份一百多个城市的动态
06
2018-08
代理IP有哪些用途?
网络发展得非常迅速,互联网时代,电脑端跟手机端都会有一个IP地址,这个IP就是我们在使用设备进行网络操作的时候的一个身份认证。这是网络通过IP来识别不同的客户端的途径。
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户