知行编程网知行编程网  2023-01-12 15:00 知行编程网 隐藏边栏  1 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于教你用python获取百度热榜链接的相关知识,希望可以帮到处于编程学习途中的小伙伴

教你用python获取百度热榜链接

目标网址:

(推荐教程:

https://www.baidu.com/

要获取的内容:

教你用python获取百度热榜链接

链接分析:

从下图可以看出,只需要获取关键字,然后进行构建即可。

教你用python获取百度热榜链接

完整代码:

import requests
import pprint
import re
import urllib.parse

url = 'https://www.baidu.com/'

headers = {
    'Host': 'www.baidu.com',
    'Referer': 'https://www.baidu.com/',
    'User-Agent': 你的User-Agent,
    'Cookie': 你的Cookie
}

response = requests.get(url, headers=headers).content.decode('utf-8')
# 获取关键字
pat = '"pure_title": "(.*?)"'
keyword = re.findall(pat, response, re.S)
print(len(keyword))

for hot_word in keyword:
    # 汉字不符合url标准,所以这里需要进行url编码
    i = urllib.parse.quote(hot_word, encoding='utf-8', errors='replace')
    # url构建
    link = f'https://www.baidu.com/s?cl=3&tn=baidutop10&fr=top1000&wd={i}&rsv_idx=2&rsv_dl=fyb_n_homepage&hisfilter=1'
    print(link)

你会发现结果很长:

教你用python获取百度热榜链接

但其实关键字后面的几个参数可以去掉,这样url就不会那么长了。

教你用python获取百度热榜链接

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享