在搜索引擎上找代理IP,可以发现有很多免费代理IP提供商,那么我们是不是可以通过把这些免费代理给抓取下来使用呢?我们来看看如何操作:
获取代理IP
代理IP的获取可以先利用网上开放的代理IP平台。
下面以国内某代理IP网站为例进行分析。该代理网站的代理类型一共分为四类:国内高匿代理、国内普通代理、国内HTTPS代理、国内HTTP代理。
下面以国内HTTPS代理为例来爬取网站上的代理IP信息,核心实现python代码如下:
#coding:utf-8
from requests import *
import re
headers = { "accept":"text/html,application/xhtml+xml,application/xml;",
"accept-encoding":"gzip",
"accept-language":"zh-cn,zh;q=0.8",
"referer":"Mozilla/5.0(compatible;Baiduspider/2.0;+http://www.baidu.com/search/spider.html)",
"connection":"keep-alive",
"user-agent":"mozilla/5.0(windows NT 6.1;wow64) applewebkit/537.36 (khtml,like gecko)chrome/42.0.2311.90 safari/537.36"
}
for i in range(1,835):
url = 'http://www.xicidaili.com'
url = url + '/wn/'
url = url + str(i)
html = get(url,timeout=3,headers=headers)
html.encoding = html.apparent_encoding
proxyip = r'(<td>.*</td>)'
iplist = re.findall(proxyip,html.text)
i = 1
for ip in iplist:
ip = (ip.split('<td>')[1]).split('</td>')[0]
f = open('./ip.txt','a')
print(ip,file=f)
if i%5==0:
print('\n',file=f)
i = i + 1
获取到的代理IP格式经处理后如下所示:
可以看出爬取出来的代理IP的格式为:IP、端口、代表类型、存活天数、发现日期及时间。下面将这些信息存入到数据库中,以方便检索与查找。这里面个人选择mysql数据库,将相关的数据导入到mysql中,共29700条https代理,如下所示:
到这一步,我们的抓取就已经完成了,可以看到免费的代理IP已经保存下来,我们需要使用的时候提取出来即可。
相关文章内容简介
1 免费代理IP的抓取
在搜索引擎上找代理IP,可以发现有很多免费代理IP提供商,那么我们是不是可以通过把这些免费代理给抓取下来使用呢?我们来看看如何操作: 获取代理IP 代理IP的获取可以先利用网上开放的代理IP平台。 下面以国内某代理IP网站为例进行分析。该代理网站的代理类型一共分为四类:国内高匿代理、国内普通代理、国内HTTPS代理、国内HTTP代理。... [阅读全文]
最新标签
推荐阅读
22
2019-11
完全免费代理IP,热烈欢迎大伙儿免费使用IP的操作方法简易!
完全免费代理IP,热烈欢迎大伙儿免费使用IP的操作方法简易!
22
2019-11
分享ip代理软件⁇手机软件改变ip应用的方式,。
黑洞ip代理换ip软件
06
2018-08
黑洞代理的优势介绍
黑洞代理,独特的动态拨号软件,支持安卓各个系统和模拟器,一键启用加速,安装即可使用,操作简单易用,稳定、安全、可靠的IP代理软件。全国千万IP,二十多个省份一百多个城市的动态
06
2018-08
爬虫使用代理IP 可以选择什么代理方式?
爬虫工作需要多次反复对网站数据进行抓取,这一操作很容易触犯到网站的反爬虫机制,因为IP访问的次数超出限制,所以我们如果想要解决这一问题,那么就要用到代理IP。
热门文章
公众号
关注公众号,免费领试用