您的位置: 首页 > 新闻资讯 > 正文

如何爬取代理ip?

发布时间:2019-06-05 15:46:31 来源:互联网

  如何爬取代理ip?在我们使用网络写脚本到指定网站抓取数据的时候,总是避免不了会被网站屏蔽IP,所以这个时候就需要一些代理IP,打开网页随便就能找到很多提供免费代理IP的网站做IP抓取,这里介绍抓取的是国内匿名代理IP。


如何爬取代理ip?


  第一步:HTML页面获取


  通过观察我们可以发现,我们需要的信息的页面url有这样的一个规律:www.xxxxxx.com/nn/+页码。可是如果直接通过get方法访问的话会发现出现500错误,原因是在这个规律下的url虽然是get方法获得数据,但都有cookie认证。那么问题来了——怎么获得需要的cookie呢?我们第一次通过浏览器访问该网站的主页是能打开的,其网站的各个子模块都可以打开。一定在某个时间段内我们的浏览器获得了该网站设置的cookie。清楚浏览器cookie,重新打开该网站首页,通过开发者工具可以发现我们打开首页的时候没有上传cookie,而是网站会下发cookie。接着打开我们上面找到的规律url页面,比对一下,发现我们上传的cookie就是在首页下发的cookie。这样就有办法了——编写脚本的时候,先访问一下首页获得cookie,再将获得的cookie添加到后续的请求中。


  第二步:分析html结构,使用BS4进行信息提取。


  以上简单介绍了如何爬取代理IP,具体的代码还需要自己搜索一下。


相关文章内容简介

1 如何爬取代理ip?

  如何爬取代理ip?在我们使用网络写脚本到指定网站抓取数据的时候,总是避免不了会被网站屏蔽IP,所以这个时候就需要一些代理IP,打开网页随便就能找到很多提供免费代理IP的网站做IP抓取,这里介绍抓取的是国内匿名代理IP。  第一步:HTML页面获取  通过观察我们可以发现,我们需要的信息的页面url有这样的一个规律:www.xxxxxx.com/nn/+页码。可是... [阅读全文]

最新标签

在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信公众号

微信公众号

回到顶部