在对网上的免费代理IP进行抓取之后,我们需要对这些IP进行验证。因为免费IP虽然数量可观,但是这当中有着很多不能用的劣质IP,所以我们要做一步验证来进行筛选。
验证可用的代理
验证代理是否可用的方法比较多,在批量验证时可以使用python来实现,这里面验证代理是否可用的方法为直接使用代理访问baidu.com,若返回状态为200,则说明代理可用。反之,则说明不可用。
对已经采集的HTTPS代理进行验证:
提取出HTTPS代理的IP、端口,保存到本地的测试文件中。测试文件格式如下:
验证代理是否可用的python代码如下:
#coding:utf-8
from requests import *
import re
for proxy in open("https.txt"):
proxy = proxy.replace('\n','')
proxies={"https":proxy}
headers = {
"Host": "www.baidu.com",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0",
"Accept": "*/*",
"Accept-Language": "en-US,en;q=0.5",
"Accept-Encoding": "gzip, deflate",
"Referer": "https://www.baidu.com/"
}
url = 'https://www.baidu.com'
try:
html = get(url,timeout=10,headers=headers,proxies=proxies)
if html.status_code == 200:
proxy = proxy.split('https://')[1]
f = open('./proxyip.txt','a')
print(proxy,file=f)
except Exception as e:
print(e)
pass
提取出验证成功的代理IP地址和端口号,如下所示:
选择验证成功的进行测试,成功正常使用。
如果IP不可用的话,那么我们抓取的数量再多也是白费力气,所以如果你的项目需要动用比较高质量的IP,那么建议你还是选择优质的代理服务商比较合适。
相关文章内容简介
1 验证代理IP的可用性
在对网上的免费代理IP进行抓取之后,我们需要对这些IP进行验证。因为免费IP虽然数量可观,但是这当中有着很多不能用的劣质IP,所以我们要做一步验证来进行筛选。 验证可用的代理 验证代理是否可用的方法比较多,在批量验证时可以使用python来实现,这里面验证代理是否可用的方法为直接使用代理访问baidu.com,若返回状态为200,则说明代理可... [阅读全文]
最新标签
推荐阅读
22
2019-11
教你完全免费高匿代理IP池,完工自身的代理池
12
2019-11
跟着黑洞代理走进爬虫技术
大数据+时代,企业需要动用到网络爬虫的时候要比以前要多,通过爬虫去抓取我们需要的数据信息,才能够为企业未来发展提供帮助。尤其是在代理IP的风靡之下,爬虫的技术门槛没以前那么复
06
2018-08
代理IP有哪些用途?
网络发展得非常迅速,互联网时代,电脑端跟手机端都会有一个IP地址,这个IP就是我们在使用设备进行网络操作的时候的一个身份认证。这是网络通过IP来识别不同的客户端的途径。
22
2019-11
代理网络服务器会纪录你的真正IP吗?ip代理软件使用
代理网络服务器会纪录你的真正IP吗?ip代理软件使用
热门文章
在线咨询
客户经理
公众号
关注公众号,免费领试用
大客户