
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
133188739611. 设置背景
在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害,对IP访问频率有很高程度的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发:
第一方面, 抓取频率要提高,破解出现的验证信息,一般都是验证码或者是用户登陆 。
第二方面,使用多线程 + 代理IP, 这种方式,需要电脑有足够的内存和充足稳定的代理IP 。
2. 为chrome设置代理IP
注意事项:
第一,选择稳定的固定的代理IP。不要选择动态代理IP。我们常用的爬虫IP代理通常都是具有高度保密性质的高匿名动态IP,是通过拨号动态产生的,时效性非常的短,一般都是在3分钟左右。对于scrapy这种并发度很高,又不需要登录的爬虫来说,非常合适,但是在浏览器渲染类爬虫中并不适用。
第二,选择速度较快的代理IP。因为selenium爬虫采用的是浏览器渲染技术,这种浏览器渲染技术速度就本身就很慢。如果选择的代理IP速度较慢,爬取的时间就会进一步增加。
第三,要有足够大的电脑内存。因为chrome占内存较大,在并发度很高的情况下,容易造成浏览器崩溃,也就是程序崩溃。
第四,在程序结束时,调用 browser.quit( ) 清除浏览器缓存。
3. 需要用户名密码验证的代理
相关文章内容简介
1 selenium+python设置爬虫代理IP的方法
selenium+python设置爬虫代理IP的方法 ∵ ∵ ∵ 1.∵设置背景 在使用selenium浏览器渲染技术,当我们爬取某个网站的信息的时候,在一般情况下速度都不是特别的快。而且需要利用selenium浏览器渲染技术爬取的网站,反爬虫的应对技术都比较厉害,对IP访问频率有很高程度的限制。所以,如果想提升selenium抓取数据的速度,可以从两个方面出发: 第一方... [阅读全文]
最新标签
推荐阅读
20
2018-12
动态ip软件基本知识和动态ip代理使用方法扫盲区
动态ip代理电脑软件是介于电脑浏览器和web集群服务器的一台网络服务器,如果你利用动态ip代理电脑软件上外网访问时,电脑浏览器并不是立即到web网络服务器去取回来网页页面,只是向动态ip
16
2019-01
SSH如何限制IP地址远程登录服务器?
尽管SSH在传递过程中较为安全,但有的人也可以利用SSH系统漏洞来获得远程主机的root权限,所以使用SSH的操作过程中有必要对SSH应用程序的系统漏洞进行扫描,并进行修复
11
2019-06
哪里可以购买比较好的ip代理
不知道大家发现没有,在浏览某些网站或者论坛是可以清清楚楚的看到自己的IP地址,显然你已经被”记录在案”了。不仅如此,有些比较懂电脑的朋友也可以通过QQ等聊天通讯软件看到你的IP地
16
2019-01
动态ip是什么?动态IP有什么作用?
什么是动态IP?要想弄明白这个问题,首先要了解一下IP地址是什么意思。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理
热门文章