码迷,mamicode.com
首页 > 其他好文 > 详细

定性特征转化为定量特征之factorize

时间:2019-03-19 16:45:13      阅读:223      评论:0      收藏:0      [点我收藏+]

标签:元组   hot   class   包含   多个   series   总结   frame   dataframe   

前面介绍了独热编码和哑编码,还有一种可以将定性特征转化为定量特征的方法,即factorize(),下面将介绍一下该方法

概要:在泰坦尼克灾难预测中,dummy不好处理Cabin(船舱号)这种标称属性,因为它出现的变量比较多。所以Pandas有一个方法叫做factorize(),它可以创建一些数字,来表示类别变量,对每一个类别映射一个ID,这种映射最后只生成一个特征,不像dummy那样生成多个特征。

factorize函数可以将Series中的标称型数据映射称为一组数字,相同的标称型映射为相同的数字。factorize函数的返回值是一个tuple(元组),元组中包含两个元素。第一个元素是一个array,其中的元素是标称型元素映射为的数字;第二个元素是Index类型,其中的元素是所有标称型元素,没有重复。
看代码:

 

df = pd.DataFrame({"id":[1,2,3,4,5,6,3,2],"raw_grade":[a,b,b,a,a,e,c,a]})
print(df)
x = pd.factorize(df.raw_grade)
print(x)

 

   id raw_grade
0   1         a
1   2         b
2   3         b
3   4         a
4   5         a
5   6         e
6   3         c
7   2         a
(array([0, 1, 1, 0, 0, 2, 3, 0], dtype=int64), Index([a, b, e, c], dtype=object))
print(x[0])
print(x[1])
[0 1 1 0 0 2 3 0]
Index([a, b, e, c], dtype=object)

 

看一下x的类型

print(type(x))
<class tuple>

 

总结:对于one-hot encoding、dummy enconding还是factorize都可以将定性特征转化为定量特征,三种方法各有各自最适用的场合,要根据实际情况作出最合理的选择,以便在数据处理的过程中得到最理想的结果。

 

定性特征转化为定量特征之factorize

标签:元组   hot   class   包含   多个   series   总结   frame   dataframe   

原文地址:https://www.cnblogs.com/djesse1/p/10559449.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!