您的位置：首页 > 新闻资讯 > 正文

用代理IP可以不被发现爬虫吗？

发布时间：2019-04-30 10:05:31 来源：互联网

　　用代理IP可以不被发现爬虫吗？网络爬虫在爬取目标网站的时候，总是不知不觉就被发现了，然后关进了小黑屋不见天日。那么，到底是什么行为触发了目标网站的反爬机制呢，只有找出了原因才能解决问题，才能避免下次掉进同一个坑里。让我们来看看有哪些行为会被反爬策略发现吧。

　　1、单一的访问频次过高，反人：普通人10秒访问一个网页, 爬虫一秒获取10个网页。

　　2、单一的ip出现非常规的流量，某个IP流量反差巨大。

　　3、大量的重复简单的网页浏览行为，有规律的访问相同网页。

　　4、只下载html文档, 不下载js。

　　5、在页面设置陷阱, 用户看不懂, 爬虫是可以的, 比如 hidden。

　　6、在页面写一段js代码, 浏览器直接执行, 程序不会执行。

　　7、判断请求头: 什么都变了，user-agent 万古不变。

　　这些行为比较明显，很容易被被反爬策略识别出来，要想不被识别，就要尽可能的模仿真实用户行为，可以看看以下一些策略，如果避免触发反爬策略。

　　1、多主机的策略, 解决单一ip的问题, 分布式爬取。

　　2、调整访问频次, 设置随机休眠时间，爬一会休息一下。

　　3、通过不断切换代理ip, 或者直接使用ip代理的形式。

　　4、频繁的修改user-agent头。

　　5、Header中的Cache-Control修改为no-cache。

　　6、当返回状态码是403（服务器资源禁止访问），改变Header和IP。

　　ublic static void main(String[] args) throws Exception {

　　HttpGet httpGet = new HttpGet("https://news.163.com/");

　　//我是专门用来模拟浏览器，让我的请求看起来和真实的浏览器一样

　　httpGet.setHeader("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8");

　　httpGet.setHeader("Accept-Encoding", "gzip, deflate, sdch, br");

　　httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");

　　httpGet.setHeader("Cache-Control", "no-cache");

　　httpGet.setHeader("Cookie", "_ntes_nnid=4b1a6bbc71e14269912bdc23980b3fb1,1531559784738; _ntes_nuid=4b1a6bbc71e14269912bdc23980b3fb1;");

　　httpGet.setHeader("Host", "news.163.com");

　　httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36");

　　httpGet.setHeader("referer","http://***.***.com/");

　　CloseableHttpClient httpClient = HttpClients.createDefault();

　　CloseableHttpResponse res = httpClient.execute(httpGet);

　　HttpEntity entity = res.getEntity();

　　String html = EntityUtils.toString(entity,"utf-8");

　　System.out.println(html);

　　}

黑洞代理