qq:800819103
在线客服,实时响应qq群
在线客服,实时响应客服电话
13318873961网上每天都有大量的新闻内容出现,如何快速获取这些内容呢?今天黑洞代理IP就为大家分享一下,爬取是如何爬取网易的社会新闻内容的。首先我们可以先打开目标页面,右键检查,查找我们需要的内容。这里我们主要抓取新闻标题、链接和新闻内容。
代码如下:
import re
from urllib import request
from bs4 import BeautifulSoup
def download(title, url):
req = request.urlopen(url)
res = req.read()
soup = BeautifulSoup(res,'lxml')
#print(soup.prettify())
tag = soup.find('div',class_='post_text')
#print(tag.get_text())
title = title.replace(':','')
title = title.replace('"','')
title = title.replace('|','')
title = title.replace('/','')
title = title.replace('\\','')
title = title.replace('*','')
title = title.replace('<',' title="title.replace('">','')
title = title.replace('?','')
#print(title)
file_name = r'E:\code\python\spider_news\sociaty\\' +title + '.txt'
file = open(file_name,'w',encoding = 'utf-8')
file.write(tag.get_text())
if __name__ == '__main__':
urls = ['http://temp.163.com/special/00804KVA/cm_shehui.js?callback=data_callback',
'http://temp.163.com/special/00804KVA/cm_shehui_02.js?callback=data_callback',
'http://temp.163.com/special/00804KVA/cm_shehui_03.js?callback=data_callback']
for url in urls:
#url = 'http://temp.163.com/special/00804KVA/cm_shehui_02.js?callback=data_callback'
req = request.urlopen(url)
res = req.read().decode('gbk')
#print(res)
pat1 = r'"title":"(.*?)",'
pat2 = r'"tlink":"(.*?)",'
m1 = re.findall(pat1,res)
news_title = []
for i in m1:
news_title.append(i)
m2 = re.findall(pat2,res)
news_url = []
for j in m2:
news_url.append(j)
for i in range(0,len(news_url)):
#print(news_title[i],news_body[i])
download(news_title[i],news_url[i])
print('正在爬取第' + str(i) + '个新闻',news_title[i])
通过上述代码,我们就可以获取到网易社会新闻的相关内容了。黑洞代理IP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。
相关文章内容简介
1 动态IP如何帮助爬虫爬取网易社会新闻内容
网上每天都有大量的新闻内容出现,如何快速获取这些内容呢?今天黑洞代理IP就为大家分享一下,爬取是如何爬取网易的社会新闻内容的。首先我们可以先打开目标页面,右键检查,查找我们需要的内容。这里我们主要抓取新闻标题、链接和新闻内容。 代码如下: import∵re from∵urllib∵import∵request from∵bs4∵import∵BeautifulSoup def∵download... [阅读全文]
最新标签
推荐阅读
09
2018-10
换IP工具哪个比较好用?IP代理的功能是什么?
换IP工具哪个比较好用?你是否担心遇到这样的问题:店铺刷单太多造成被封的危险、网站发帖太多而导致IP地址被封的可能性、投票数不够而排名不好、网速不够而抢不到自己想要的物品。
04
2019-06
http代理IP是什么?
在我们浏览网站的时候经常会看到这样以“www”开头的网站,种网站使用的协议是http协议,它是网络上最普遍最常见的网络通信方式,因而与之对应的就是http代理也是网络上最常见的代理方式
21
2018-12
做免费推广没有效果?营销推广怎么从量变到质变!
可能大家都想,营销推广挺好做的,难度低,每天都在渠道发一些信息就行了,没有什么技术含量,也没有什么效果。要效果只能是花钱做广告,见效也快,做免费的推广没有效果的。
08
2019-07
代理IP可以用来抢购吗?
我们在网络上经常能够看到这样的一个词,代理IP,可能对于普通人来说,代理IP并不是很熟悉,也不是很了解是做什么用的,有网友提问代理IP可以用来抢购吗?当然可以啦。
热门文章