知行编程网知行编程网  2022-12-08 23:30 知行编程网 隐藏边栏  14 
文章评分 0 次,平均分 0.0
导语: 本文主要介绍了关于八个数据清洗的Python代码(复制即可使用)的相关知识,希望可以帮到处于编程学习途中的小伙伴

数据清洗的八个Python代码(复制使用)

数据清洗是进行数据分析和利用数据训练模型的必由之路,也是数据科学家/程序员最耗费精力的地方。

这些数据清洗的代码有两个好处:一是用函数写的,不用改参数就可以直接使用。第二个很简单,加上最长的评论只有11行。

在介绍每段代码的时候,都会给出目的,代码中也会给出注释。

你可以将本文加入书签并将其用作工具箱。



涵盖8大场景的数据清洗代码

这些数据清洗代码,一共涵盖8个场景,分别是:

删除多列、更改数据类型、将分类变量转换为数值变量、检查缺失数据、删除列中的字符串、删除列中的空格、用字符串连接两列(带条件)、转换时间戳(从字符串到日期时间格式)


删除多列

在进行数据分析时,并非所有的列都有用,用df.drop可以方便地删除你指定的列。
数据清洗的八个Python代码(复制使用)


转换数据类型

当数据集变大时,需要转换数据类型以节省内存。

数据清洗的八个Python代码(复制使用)


将分类变量转换为数值变量

某些机器学习模型要求变量采用数字格式。这需要先将分类变量转换为数值变量。同时,你还可以保留分类变量以进行数据可视化。

数据清洗的八个Python代码(复制使用)


检查缺失数据

如果要检查每列缺失数据的数量,使用下面的代码是最快的方法。它可以让你更好地了解哪些列有更多的缺失数据,从而确定如何进行下一步的数据清洗和分析。

数据清洗的八个Python代码(复制使用)


删除列中的字符串

有时,字符串列中会出现新的字符或其他奇怪的符号,使用df['col_1'].replace即可轻松处理。

数据清洗的八个Python代码(复制使用)


删除列中的空格

当数据混乱时,任何事情都可能发生。字符串的开头经常有一些空格。在删除列中字符串开头的空格时,下面的代码非常有效。

数据清洗的八个Python代码(复制使用)


用字符串连接两列(带条件)

当你想要有条件地将两列与字符串连接在一起时,此代码很有用。例如,你可以在第一列的末尾设置某些字母,并使用它们连接到第二列。

如果需要,也可以在连接完成后删除末尾的字母。

数据清洗的八个Python代码(复制使用)


转换时间戳(从字符串到日期时间格式)

在处理时间序列数据时,我们很可能会遇到字符串格式的时间戳列。

这意味着将字符串格式转换为日期时间格式(或我们根据需要指定的任何其他格式)以便对数据进行有意义的分析。

数据清洗的八个Python代码(复制使用)

python学习网,大量的免费
,欢迎在线学习!

本文转自:https://www.jianshu.com/p/b78affa1962a

本文为原创文章,版权归所有,欢迎分享本文,转载请保留出处!

知行编程网
知行编程网 关注:1    粉丝:1
这个人很懒,什么都没写
扫一扫二维码分享