02
图片来源网络
当下,最火的综艺,最具有话题性的综艺莫过于《青春有你2》了,里面不仅仅有爱打篮球的坤坤,而且还有109位漂亮的小姐姐,她们不仅为我们带来精彩纷呈的表演,还为我们带来了很多话题梗,表情包,像是“淡黄的长裙,蓬松的头发”,大家或多或少都会听过这句话。
当然了,这些话题和表情包的广泛传播,代表着我们对选手和节目以及各位导师的喜爱,正是因为喜欢,所以大家才会去讨论。今天,小编就通过Python来为大家介绍一下这109位美丽的小姐姐吧。
01
数据获取
首先我们通过爱奇艺的官方公布的助力网站,来获取小姐姐们的一些数据。包括姓名、年龄、身高等信息,以及他们的照片信息。这里我们通过爱奇艺的官方助力网站,来获取小姐姐们的照片信息。
我们通过爬取网页动态加载的json数据,获取到每一位小姐姐的信息,包括照片,姓名和排名信息,程序如下图所示:
上述程序中,我们首先抓取并解析json数据,然后逐个提取选手的姓名以及图片的链接地址并保存到本地。
接下来我们就去获取选手的身高,年龄等信息,这些数据,小编通过维基百科搜索《青春有你2》进行获取的。由于网页属于静态网页,所以爬取相对简单,程序如下图所示:
上述程序中,我们获取网页源代码并进行解析,然后获取每位选手的信息,由于网页给出的是繁体字,所以我们将其转换为简体字,这里抓取的数据和我们第一部分抓取的数据,其相同的部分是选手的姓名。所以我们可以利用这一点,将两部分进行合并,进行保存。
数据分析
获取数据之后,我们接下来来看一下选手们的信息分布。
1).对于选手的年龄分布
我们剔除了4位没有显示年龄的选手。可以看出,选手最多的年龄分布在20-23之间,而26-29之间的年龄人数相对较少,看来想要出道真的需要趁早啊。
2).对于身高的分布
我们可以看出,选手身高在167~169之间,这样的身高真的是非常完美了。选手最矮的身高也是158厘米,看来对于身高,太矮的也是不行的。
3).对于选手的籍贯分布
这里我们只是关注了国内的情况,对于其他国家,例如日本和马来西亚,并不在我们的统计范围内。可以看出,来自山东的人数是最多的,而在南方省份中,四川是人数相对较多的。这对于想要找美丽小姐姐的朋友,或许会有一些启发吧。
对于选手的经济公司,可以看到,丝芭传媒和个人训练生推出的新人遥遥领先其他公司,丝芭传媒中,被大家熟知的SNH48组合,可谓是非常火爆的,鞠婧祎小姐姐就曾是SNH48的成员哦。
4).颜值分析
最后,我们来看一下选手的颜值分析吧,这里,我们通过百度AI的人脸颜值分析,来为选手的颜值进行打分。首先我们来看一下爬取的部分选手照片:
小编不仅感叹“我好了”!闲话少说,我们来看一下程序 :
-
上述程序中,FaceScore函数首先构造我们要上传的params数据,包括通过BASE64编码的图片信息,图片的类型和想要获取的人脸信息。
-
然后通过requests的post函数上传参数信息,获取返回的json数据,返回的json数据里就包含着我们需要的颜值得分和年龄估计信息。
这里小编只为大家展示颜值得分前五的信息,因为这里只是一个对于照片上的颜值评价,并不能作为绝对的说明,在小编眼里,所有的选手都是美若天仙的。
以上就是小编为大家带来的《青春有你2》介绍,大家也可以去关注一波选手的表现,为自己喜欢的选手助力,为她加油打气!欢迎大家留言区说说你喜欢的小姐姐是谁~~
● 我珍藏的一些好的Python代码,技巧|上篇
● 爬取300本Python书籍,用Python告诉你哪家强?
点击阅读原文,原创400篇干货文章
本篇文章来源于: 菜鸟学Python
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何从python中的数组中删除指定元素10/03
- ♥ 如何在手机上学习python11/21
- ♥ 我用Python,帮朋友写了一个“制作工资条”的自动化程序!05/16
- ♥ 超实用干货|Python+SQL无敌组合,菜鸟必读!03/31
- ♥ 如何增加python字体09/12
- ♥ python开发怎么把嵌套的for循环写成一行?11/25
内容反馈