导语:
本文主要介绍了关于python数据预处理的三种情况的相关知识,包括python 数据清洗,以及python范围缩放这些编程知识,希望对大家有参考作用。
1、缺失数据的处理
导入数据丢失是经常发生的,最简单的处理方法就是删除丢失的数据行。在pandas中使用.dropna()删除有缺失值的行或列,也可以针对特定的列进行缺失值删除处理。
dfNew = dfData.dropna(axis = 0)) # 删除含有缺失值的行
有时候缺失值也会被填充或者替换,这里就不介绍了。
2、重复数据的处理
对于重复数据,通常会删除重复的行。 pandas中使用.duplicated()查询重复数据的内容,使用.drop_duplicated()删除重复数据,对指定数据列进行去重。
dfNew = dfData.drop_duplicates(inplace=True) # 删除重复的数据行
3、异常值处理
数据中可能包含异常值,即一个样本中的值与样本集中其他样本的观测值存在显着偏差,也称为异常值。可以通过箱形图、正态分布图或通过回归和聚类建模来识别异常值。
箱线图技术使用数据的分位数来识别异常值。箱线图分析也超出了本文的内容,无法详细介绍。只能笼统地说,通过观察箱线图,可以查看整体的异常情况,找出异常值。
dfData.boxplot() # 绘制箱形图
推荐操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何解码python中的乱码01/08
- ♥ python如何提取文件名10/19
- ♥ python索引函数是什么意思08/21
- ♥ python计数返回什么12/25
- ♥ python比较字符串是否相等08/22
- ♥ python字符串大小写转换的方法是什么12/26
内容反馈