知行编程网知行编程网  2022-04-05 07:00 知行编程网 隐藏边栏 |   抢沙发  4 
文章评分 0 次,平均分 0.0

近300本Python书籍到底哪家强,用Python告诉你

我们的菜鸟学Python经常会送出一些福利,比如Python书籍。时间长了以后,觉得这么多五花八门的python书籍,究竟那几本书籍才是最好的呢,今天小编就带领大家用Python来探查一番,究竟哪些书籍是比较火的。



01

整体的思路


首先小编先带领大家从京东上爬取各类python的书籍,然后通过分析来评出最好的书籍,针对于最好的书籍,小编再对其进行着重的分析。


近300本Python书籍到底哪家强,用Python告诉你


02


爬取300本书籍


首先是获取python书籍的相关信息,由于信息的获取需要从商品的详细页面获取,因此小编采用selenium库来模拟页面翻页过程,以此来到达新的页面进行爬取,如下图所示。

近300本Python书籍到底哪家强,用Python告诉你

(动态图,多看5秒钟)


利用selenium可以自动的控制浏览器,并抓取我们需要的信息,部分程序如下图所示。

近300本Python书籍到底哪家强,用Python告诉你

上述程序中,selenium控制浏览器滑到“下一页”的地方,然后模拟翻页动作,将每个页面中的全部60个商品加载显示出来,然后再利用pyquery来解析页面源码,获取我们需要的信息。



03

数据的分析处理


这里小编爬取了近300部python书籍的信息,这些信息包含了书的名称、价格、总评论数、好评数量、中评数量、差评数量和好评率。如下图所示。

近300本Python书籍到底哪家强,用Python告诉你


近300本Python书籍到底哪家强,用Python告诉你


有了书籍的信息后,接下来就是对书籍进行评分,看一下究竟哪些python书籍是最火的。


1).先是数据的预处理,由于爬取到的信息绝大多数是字符串类型,所以需要先将其转化为数字,然后才能进行接下来的处理,数据预处理的部分程序如下所示。

近300本Python书籍到底哪家强,用Python告诉你

上述程序中,首先是将数据中的无关字符去除,然后进行单位的转化,最后是将字符串转化为数字。


2).数据进行归一化的处理,以避免不同数量级的特征带来干扰,例如好评数量都是几万的,但是好评率却仅仅是不到1的小数,这显然会对评判造成影响。数据归一化后,我们按照下图的公式得到了最终的评分,如下图所示。

近300本Python书籍到底哪家强,用Python告诉你

评分是这样的,小编采用总的评论数量占60%的比重,而好评率占20%的比重,差评的数量占10%的比重,而价格占了10%的比重,这样组合起来成为了100%


由上图我们也可以看出,《笨办法学python3》成为了最好的python图书,而这本书我们也曾经送出过。当然上述的计算公式只是按照小编的个人喜好来的,如果大家觉得公式不是很合理,大家可以自己编辑公式进行打分,全凭个人喜好。


04

书籍的评论分析


接下来小编对于《笨办法学python3》和《python编程 从入门到实践》这两本书的评论进行了爬取,爬取的部分程序如下图所示。

近300本Python书籍到底哪家强,用Python告诉你

上述程序中不同的请求url只是页面数值的变化,只需要不停的循环页面,然后对返回的json数据解析,便可以得到需要的数据。


下图是对于这两本书的评论数量的分析,如下图所示。

近300本Python书籍到底哪家强,用Python告诉你近300本Python书籍到底哪家强,用Python告诉你

由图可以看出,两本书的好评数量高达99.48%,这与我们爬取到的好评率相一致。最后是对于爬取到的评论进行词云的展示,如下图所示。

近300本Python书籍到底哪家强,用Python告诉你

《“笨办法”学python》词云


《python编程,从入门到实践》




通过上图可以看出,大家对于这些书的普遍印象都是很不错的,大家都比较认可这两本书。不知道你心目中的Python神书是那一本,欢迎留言吱一声!


另外,本篇的从思路,代码编写,测试,成稿花了很多心血,也是小编熬夜2天才完成的,所以目前源码优先对【小密圈】的同学开放学习!


近期热门:

用Python写个弹球游戏2.0

我用Python写了个火影忍者版的连连看

零基础学Python都想问的6个问题,老司机给你两千字解答

小密圈学习群:

小密圈人气很高的两个实战项目

小密圈的趣味实战-微信主题

3个月还没入门Python,看这100名小密圈的同学3周学Python的杰作


本篇文章来源于: 菜鸟学Python

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写

发表评论

表情 格式 链接 私密 签到
扫一扫二维码分享