导语:
本文主要介绍了关于python数据变换如何实现的相关知识,希望可以帮到处于编程学习途中的小伙伴
1、数据规范化,即归一化的方法
常见方法:最小-规范化、z-score规范化、小数定标规范化
import pandas as pd
df=pd.DataFrame(A.data[:,3:6])
df.columns=A.feature_names[3:6]
#最小-规范化,支持矢量运算
(df-df.min())/(df.max()-df.min())
#使用sklearn中的preprocessing模块
from sklearn import preprocessing
preprocessing.minmax_scale(df)
#z-score规范化:结果=(数值-均值)/标准差,处理后数据的均值为0,标准差为1
(df-df.mean())/df.std()
#使用sklearn中的preprocessing模块
from sklearn import preprocessing
preprocessing.scale(df)
#小数定标规范化:常见落在[-1,1]区间,通过移动小数点的位数实现,移动位数取决于属性绝对值的值的位数
#ceil向上取整
import numpy as np
df/10**np.ceil(np.log10(df.abs().max()))
2、连续属性离散化
常见方法:分箱法(等宽法、等频法)、聚类
import pandas as pd
#等宽法,5个箱子,标签为0-4
pd.cut(df.AGE,5,label=range(5))
#等频法
pd.qcut(df.AGE,5,label=range(5))
本文教程操作环境:windows7系统、Python 3.9.1,DELL G3电脑。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何在python中保留两位小数08/25
- ♥ 如何删除python11/15
- ♥ python中函数传递参数的两种方式10/01
- ♥ Python readline 和 readlines 函数:逐行读取文件10/27
- ♥ 如何在python中进行信号处理?11/06
- ♥ python循环引用是什么意思?12/01
内容反馈