
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961虽说爬虫可以爬取网页,获得大量的数据,但也不是所有爬虫都能实现这些功能,爬虫也有分类,不同的爬虫能够实现的功能是不一样的,那么爬虫有哪些分类?这些不同的爬虫都能爬取什么呢?下面跟黑洞代理一起去了解一下爬虫有哪些分类。
一.根据授权情况
1.恶意爬虫
通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量获取的数据,并有可能给对方服务器性能造成极大损耗。此处通常存在爬虫和反爬虫的激烈交锋。
2.合法爬虫
以符合Robots协议规范的行为爬取网页,或爬取网络公开接口,或购买接口授权进行爬取,均为合法爬虫,该类爬虫通常不用考虑反爬虫等对抗性工作。
二.根据爬虫功能
1.接口爬虫
通过精准构造特定API接口的请求数据,而获得大量数据信息。
3.网页爬虫
以搜索引擎爬虫为主,根据网页上的超链接进行遍历爬取。
爬虫的分类
三.根据被爬网站的数量
1.增量式网络爬虫
增量式更新指的是在更新的时候只更新改变的地方,而未改变的地方则不更新,只爬取内容发生变化的网页或者新产生的网页,一定程度上能保证所爬取的网页,尽可能是新网页。
2.通用爬虫
爬取目标资源在全互联网中,爬取目标数据巨大。对爬取性能要求非常高。应用于大型搜索引擎中,有非常高的应用价值。
爬行策略:主要有深度优先爬行策略和广度优先爬行策略。
基本构成:初始URL集合,URL队列,页面爬行模块,页面分析模块,页面数据库,链接过滤模块等构成。
3.深层网络爬虫
表层网页:不需要提交表单,使用静态的链接就能够到达的静态网页。
深层网页:隐藏在表单后面,不能通过静态链接直接获得,是需要提交一定的关键词之后才能够获取得到的网页。
深层网络爬虫最重要的部分即为表单填写部分。
基本构成:URL列表,LVS列表(LVS指的是标签/数值集合,即填充表单的数据源)爬行控制器,解析器,LVS控制器,表单分析器,表单处理器,响应分析器等。
深层网络爬虫表单填写有两种类型:
基于领域知识的表单填写(建立一个填写表单的关键词库,在需要的时候,根据语义分析选择对应的关键词进行填写)。
基于网页结构分析的表单填写(一般是领域只是有限的情况下使用,这种方式会根据网页结构进行分析,并自动的进行表单填写)。
4.聚焦网络爬虫
将爬取目标定位在与主题相关的页面中,主要应用在对特定信息的爬取中,主要为某一类特定的人群提供服务。
爬行策略:基于内容评价的爬行策略、基于链接评价的爬行策略、基于增强学习的爬行策略、基于语境图的爬行策略,关于聚焦网络爬虫具体的爬行策略。
基本构成:初始URL,URL队列,页面爬行模块,页面分析模块,页面数据库,连接过滤模块,内容评价模块,链接评价模块等构成。
关于爬虫有哪些分类的问题,上文介绍了爬虫的三种分类,分别是根据授权、功能、被爬网站的数量来分类,不同的爬虫爬取的内容不一样,可以根据实际爬取需求,比如仅仅是爬取网页某一部分的内容。
相关文章内容简介
1 爬虫有哪些分类?常见的几种网络爬虫
虽说爬虫可以爬取网页,获得大量的数据,但也不是所有爬虫都能实现这些功能,爬虫也有分类,不同的爬虫能够实现的功能是不一样的,那么爬虫有哪些分类?这些不同的爬虫都能爬取什么呢?下面跟黑洞代理一起去了解一下爬虫有哪些分类。一.根据授权情况1.恶意爬虫通过分析并自行构造参数对非公开接口进行数据爬取或提交,获取对方本不愿意被大量... [阅读全文]
最新标签
推荐阅读
24
2019-06
网络问答推广,无法缺少代理IP的支持
问答类网站(知乎、百度问答)具有极强的互动性,可快速传播信息。作为重要的网络推广方式之一不得不提,问答类网站推广属于口碑推广的手段之一。利用问答类网站,结合SEO的技巧,抛出用
03
2019-01
动态ip域名解析的流程是怎么样的?
解析域名是把域名指向服务器空间IP,让我们通过申请注册的网站域名可以便捷地访问到网站这种服务。域名解析也叫域名跳转、端口设置、网站域名配置及其反向IP注册登记等等。说得简单点
17
2019-04
Python编写IP受限解决方法
在做网络爬虫过程中,很多网站为有效遏制数据爬取和非法攻击等行为,为了保证普通用户访问速度和查询效果,网站系统增加了网络安全设备,强化了安全防护机制,预先设置了安全访问规则
19
2019-01
为什么要对IP进行动态管理?用动态IP地址有什么好处?
大部分人都是知道关于IP的,一个设备没有IP地址是无法上网的,不管是手机还是电脑、平板或是其他的设备要想连接网络,那必须有要个IP地址。全球几十亿的人上网,哪里来这么多的IP地址?
热门文章