伟德体育 > 国际足球-足球指数 > 世界杯快到了,看我用Python爬虫实现(伪)球迷速成!
世界杯快到了,看我用Python爬虫实现(伪)球迷速成!

给大家享受四个飞跃精通有关音信的艺术:刷论坛!大家来一只做个新浪论坛的爬虫吧!

抓包拿到网易论坛相关帖子内容,逐个展现!

先来旁观下网页,展开论坛首页,接纳国际足球

图片 1

 

然后往下拉,找到世界杯有关内容

图片 2

 

此间便是我们的指标了,全体有关的音讯都会在此突显,用F12开发“开辟者工具”然后往下浏览看看数据包

图片 3

 

小心箭头指向的那贰个地方!

这正是刚刚浏览的资讯所在的json包,来拜谒实际数量是如何

图片 4

 

ok,标题、地址、发表时间包罗来自都已冒出了!我们得以平素抓取json数据然后抽取相关内容!

再踏入实际音信页面看看

图片 5

 

具备的文本内容,都在<div class="artical-main-content">那几个标签下的<p></p>标签内,大家得以用xpath直接取div下的富有文件内容!

那边就不意气风发 一表明了,直接上代码,并录个小的GIF图片给我们看看效果

 1 #Q群542110741
 2 # -*- coding:utf-8 -*-
 3 import requests
 4 from lxml import etree
 5 
 6 header = {
 7     'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:60.0) Gecko/20100101 Firefox/60.0',
 8     'Host':'soccer.hupu.com',
 9     'Referer':'https://soccer.hupu.com/'}
10 i = 0
11 while 1:
12     #构建循环页面翻页
13     url = 'https://soccer.hupu.com/home/latest-news?league=世界杯&page='
14     i += 1
15     #获取json数据,一页20个
16     html = requests.get(url+str(i),headers=header).json()['result']
17     for info in html:
18         time_r = info['time']#发布时间
19         title = info['title']#标题
20         url_r = info['url']#新闻链接
21         origin = info['origin']#来源
22         print(title)
23         print('发布时间:',time_r,' '*5,'来自:',origin)
24         head = header
25         head['Host'] = 'voice.hupu.com'#更改header中Host参数
26         html_r = requests.get(url_r,headers=head)#获取新闻详情
27         html_r.encoding = 'utf-8'#编码格式指定
28         #获取div下的所有文本
29         datas = etree.HTML(html_r.text).xpath('//div[@class="artical-content-read"]')[0].xpath('string(.)').strip()
30         print('n'+'内容:'+'n'*2,datas,'n')
31         #可由用户手动退出循环
32         if input('任意键继续,“q”退出') in ['q', 'Q']:
33             exit()

图片 6

 

今昔我们得以欢乐的刷刷论坛,储存最新音信,秒杀全体挡在大家前(装)进(B)道路上的渣渣吧~!

图片 7

 

接待大家关心,私信笔者一块儿上学,一齐看球!

再有4天就国际足球联合会世界杯了,作为三个名牌(伪)观球的观众,必须求实时关怀国际足联世杯有关消息,明白种种球队动态,那样本领在一批观球的观众中如(大)鱼(吹)得(特)水(吹),迎接大家敬慕的眼神!

图片 8

 

上一篇:【伟德体育】尸检报告:5家创业公司,最快1岁就夭折 下一篇:没有了
返回列表