您的位置：首页 > 新闻资讯 > 正文

如何利用动态IP代理迎合爬虫系统？

发布时间：2019-09-05 17:03:39 来源：互联网

　　如何利用动态IP代理迎合爬虫系统。为了避免恶意攻击，企业在做网站系统，在写爬虫时，某些网站会有一些防爬措施，比如限制单个ip的访问频率。而突破ip限制的方式，大概有如下几种:

如何利用动态IP代理迎合爬虫系统

　　和被爬的网站合作，将自己的ip加入白名单;

　　买多台具有公网ip的服务器，每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip;

　　买一些便宜的ip资源，用这些ip做代理(可以是配置很低的且每台机器具有多个公网ip的服务器，只负责网络代理，不跑业务)。

　　方式1，既然选择爬人家的数据，初期阶段应该没有合作的意向或没有合作的通道。

　　方式2，多台服务器成本高，同一爬虫部署多处，维护成本也高(配置、部署、升级、爬虫间相互协调等)。

　　方式3，成本低，脚本无需部署多处。

　　本文将针对方式3，从原理到实现，一步一步地说明。

　　http代理原理

　　当访问某个站点时，网站服务器可以获取到访问者的ip. 服务器可以根据来自该ip的请求情况，做一些限流操作。而代理，是在访问者和站点之间，加一个中间人。访问者向中间人发请求，中间人将该请求转发给站点，最后中间人把站点的响应返回给访问者。在这个过程中站点只能看到代理(中间人)的ip。

　　无代理的情况: 访问者 <==> 站点 (站点看到的是访问者的ip)

　　有代理的情况: 访问者 <==> 代理 <==> 站点 (站点看到的是代理的ip)

　　有动态代理的情况: 访问者 <==> [ 代理1，代理2，代理3，... ] <==> 站点 ( 站点看到的是多个代理的随机ip )

　　使用 curl 做实验

　　访问 http://httpbin.org/ip 可以得到自己的ip:

　　curl http://httpbin.org/ip{ "origin": "58.243.254.31"}

　　可以看到我的外网ip是58.243.254.31 。curl 支持--proxy参数来指定代理:

　　curl --proxy http://localhost:1087 http://httpbin.org/ip{ "origin": "217.197.160.199"}

　　使用代理后，我的ip(对于被访问的站点来说)，变成了217.197.160.199。通过以上实验，想必你对代理也有了一定的感知。

　　用nodejs写一个简单的爬虫

　　这个爬虫很简单，就是请求http://httpbin.org/ip，将返回值打印到控制台。

　　# 创建一个名为node-crawler的文件夹mkdir node-crawler# 进入这个文件夹cd node-crawler# 创建一个默认的package.jsonnpm init -y# 安装request依赖npm i -S request# 新建一个名为index.js的文件touch index.js

　　index.js的内容如下:

　　const request = require("request");request({url:"http://httpbin.org/ip"},(err,res,body)=>{ // 暂时忽略错误信息，直接打印body console.log(body);});

　　在控制台执行node index.js, 会得到如下输出:

　　{ "origin": "58.243.254.31, 58.243.254.31"}

　　和curl类似，我们可以给request方法配置代理参数:

　　const request = require("request");request({ url:"http://httpbin.org/ip",proxy:"http://localhost:1087"},(err,res,body)=>{// 暂时忽略错误信息，直接打印body console.log(body);});

　　再次执行node index.js, 将得到如下输出:

　　{ "origin": "217.197.160.199, 217.197.160.199"}

　　至此，单个http代理已经完成了。接下来我们讨论如何动态地在多个http代理间来回切换，以此来弱化被爬的站点对访问者ip的限制。

　　第一种方案

　　从外部将ip代理参数传给爬虫脚本，爬虫运行完成后自动退出，再取另一个ip代理参数，重新跑爬虫脚本，以此形式周而复始。

　　可以写一个这样的shell脚本:

　　#!/usr/bin/env bash# 假设有2个http代理可用proxies=( 'http://a.b.c.d:8443' 'http://h.i.j.k:1087');# 周而复始地while(true); do # 每次拿出一个代理 for p in "${proxies[@]}"; do echo 使用代理 $p # 用该代理跑爬虫 PROXY=$p node index.js # 休眠一定时间 sleep 5 donedone

　　其中 PROXY=$p 是定义一个环境变量PROXY, 其值是2个http代理中的任意一个。我们修改一下index.js, 让其使用PROXY环境参数作为其代理:

　　const request = require("request");const proxy = process.env.PROXY;request({ url:"http://httpbin.org/ip", proxy },(err,res,body)=>{ // 暂时忽略错误信息，直接打印body console.log(body);});

　　该方案使用bash脚本配合js爬虫脚本一起使用，对于不懂bash的人来说，维护起来有一定的心理负担。接下来，我们使用纯js语言实现。

　　第二种方案

　　将方案一中的bash转换为js，index.js内容调整为以下内容:

　　const request = require("request");const proxies = ["http://a.b.c.d:8443","http://h.i.j.k:1087"];main();// index 是循环执行的次数function main( index=0 ){ request({ url:"http://httpbin.org/ip", // 来回的取proxy proxy: proxies[index % proxies.length] }, (err, res, body) => { // 暂时忽略错误信息，直接打印body console.log(body); // 5秒后取下一个proxy，重新跑爬虫 setTimeout( main, 5000, index+1 ); });}

　　综上，我们实现了从不使用代理到使用单个代理，再到使用多个代理的过程，使得我们的爬虫能尽可能少地受到服务器限流的影响。我们也看以当一个需求的解决方案有多种时，如何从经济成本、开发成本、维护成本上做取舍。

相关文章内容简介

动态IP和PPPoE哪个稳定？上网选择哪种模式好？

怎么低成本获取大量IP？建立IP池

动VS静：动态ip和静态ip的区别是什么？

socks5代理设置：Socks5动态ip怎么使用？

相关文章内容简介

1 如何利用动态IP代理迎合爬虫系统？

　　如何利用动态IP代理迎合爬虫系统。为了避免恶意攻击，企业在做网站系统，在写爬虫时，某些网站会有一些防爬措施，比如限制单个ip的访问频率。而突破ip限制的方式，大概有如下几种:　　和被爬的网站合作，将自己的ip加入白名单;　　买多台具有公网ip的服务器，每台都布一个爬虫脚本,相当于每个爬虫都有自己的独立ip;　　买一些便宜的ip资源，用�... [阅读全文]

热门标签

动态ip IP地址 ip修改器动态ip代理 ip加速器改ip软件换ip 换ip软件

最新标签

黑洞头条

推荐阅读

11

2019-06

营销发帖用不用代理IP的区别在于哪里？

网络营销使用代理IP，这不出奇，很多网络工作者其实都有在使用，知识很多人并不知道而已。

21

2018-11

动态IP和PPPoE哪个稳定？上网选择哪种模式好？

大部分的家庭或者办公区域都会安装网络，常见的上网模式有PPPoE、静态IP、动态IP这三种，今天黑洞代理为大家重点介绍动态IP和PPPoE的上网模式，动态IP和PPPoE哪个稳定？上网选择哪种模式好？

27

2019-02

光纤的固定ip可以换成动态ip吗

现在大家都需要连接网络，一般公司家里都是有网络的，有光纤的也有普通宽带的，这光纤宽带因为速度更快而备受大家的喜欢，所以光纤宽带也有许多人装的，若是我们想使用动态IP，这光纤

01

2019-07

采用代理ip工具访问网站慢？

当大家在用换ip软件时，经常碰上这类问题，就是比如大家在浏览国外域名时，通常是很慢，并且有时候不一定能连上。为什么会出现这样的问题，是由于在浏览某个网站时，假若是国内的网站

热门文章

1、动态IP和PPPoE哪个稳定？上网选择哪种模式好？

2、怎么低成本获取大量IP？建立IP池

3、动VS静：动态ip和静态ip的区别是什么？

4、socks5代理设置：Socks5动态ip怎么使用？

5、什么是动态IP地址？动态ip软件有什么用?

6、使用动态ip有什么好处？

7、什么是动态IP地址？黑洞代理来告诉你！

8、无法获取动态IP，怎么解决上不了网问题

随机推荐

1.选择代理IP的三要素

2.免费代理ip和收费代理的区别

3.维护好动态IP服务器的四点建议

4.使用动态ip软件前，这三个概念你要弄懂

5.什么是动态IP地址？动态ip软件有什么用?

在线咨询

qq：800819103

在线客服，实时响应

qq群

在线客服，实时响应

客服电话

13318873961

大客户经理

大客户经理

13318873961

大客户经理微信

微信公众号

微信公众号

友情链接：

黑洞代理的业务范围包含代理ip、ip地址代理、ip修改器、ip代理软件、HTTP代理、API提取等等，黑洞代理软件不受任何网络限制，为广大用户解决网络ip被封禁等问题，指定进程代理上网的ip代理软件。

Powered by wanchen tech. © | 粤ICP备18047396号-6 广州万宸软件科技有限公司代理ip软件版权版权所有