标签:选择 hold 嵌入式 res database 整数 fit imp var
定义: 特征选择就是单纯地从提取到的所有特征中选择部分特征作为训练集特征,特征在选择前和选择后可以改变值,也可以不改变值,但是选择后的特征维数肯定比选择前小。因为我们只选择了其中的一部分特征。
VarianceThreshold 模块
from sklearn.feature_selection import VarianceThreshold
def var():
"""
特征选择-删除低方差的特征
:return: None
"""
var = VarianceThreshold(threshold=0.0) #取值根据实际情况
data = var.fit_transform([[0,2,0,3],[0,1,4,3],[0,1,1,3]])
print(data)
return None
if __name__ == '__main__':
var()
from sklearn.decomposition import PCA
def pca():
"""
主成分分析进行特征降维
:return: None
"""
pca = PCA(n_components=0.9)
data = pca.fit_transform([[2,8,4,5],[6,3,0,8],[5,4,9,1]])
print(data)
return None
if __name__ == '__main__':
pca()
合并信息到一张表中
import pandas as pd
from sklearn.decomposition import PCA
# 读取4张表的数据
prior = pd.read_csv('./order_products__prior.csv')
products = pd.read_csv('./products.csv')
orders = pd.read_csv('./orders.csv')
aisles = pd.read_csv('./aisles.csv')
# 合并4张表到一张表(用户-物品)
_mg = pd.merge(prior,products, on=['product_id','product_id'])
_mg = pd.merge(_mg, orders, on=['order_id','order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id','aisle_id'])
# 交叉表(特殊的分组工具)
cross = pd.crosstab(mt['user_id'],mt['aisle'])
# 进行主成分分析
pca = PCA(n_components=0.9)
data = pca.fit_transform(cross)
标签:选择 hold 嵌入式 res database 整数 fit imp var
原文地址:https://www.cnblogs.com/hp-lake/p/11831224.html