知行编程网知行编程网  2022-07-02 08:00 知行编程网 隐藏边栏 |   抢沙发  354 
文章评分 0 次,平均分 0.0
今天有个朋友说,他想做个关于股票的可视化网页,但是缺乏股票的数据,想让志斌帮他做个爬虫来每天获取数据。所以我将它写成一个实战案例,供大家一起参考学习!


1.页面分析


此次我们获取数据的网站是东方财富网!

首先我们按F12打开开发者模式,对name里面的网页进行观察,发现数据是以jQuery加载进网页的,每次加载20个数据,如图:

爬虫实战 | 爬取东方财富网股票数据

我们已经发现单页数据存储的方式了,现在我们来看一下各页URL之间的联系,如图:

爬虫实战 | 爬取东方财富网股票数据

从图中我们可以清楚的发现,每翻一页,pn的参数增加1,所以我们构建URL时,只需让params中的pn参数循环,即可批量对网页发起访问请求,代码如下:


2.获取数据

上面我们已经将网页的URL之间的联系和数据存储分析好了,下面我们就可以开始对数据进行获取了。

在上面对网页进行分析时,我们感觉这个网页存储数据是json格式的,其实不是,它前面多了一些脏数据,如图:

爬虫实战 | 爬取东方财富网股票数据

我们如果想用json来将数据进行解析的话,就必须将这些脏数据去掉。

当然我们也可以用另一种方法来解决这个问题,就是将数据转化成字符串的形式,然后用正则表达式将目标数据提取出来。代码如下:


3.数据存储

在之前的文章中,我们关于数据存储的各种方式已经介绍的很清楚了,这里我们就不在过多介绍了,此次才用Excel文件来对数据进行存储,代码如下:


让我们来看看最终效果:


总结


1. 本文详细的介绍了如何从东方财富网上批量获取股票数据,请读者仔细阅读,并加以操作。

2. 东方财富网没有反爬,但是本着友好的原则,用户在爬取时最好使用间隔爬取。

3. 本文仅供参考学习,不做商用。

4. 需要远吗,回复【小助手】,找他获取,即可获取源代码。


本篇文章来源于: 菜鸟学Python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享