标签:返回 大数据 算法 model mode core 离散 sele 种子
注: 离散型式区间内不可分,连续型是区间内可分。
- K-近邻算法
- 贝叶斯分类
- 决策树与随机森林
- 逻辑回归
- 神经网络
- 线性回归
- 岭回归
- 隐马尔可夫模型 (不做要求)
- k-means
加载获取流行数据集,小规模数据集,数据包含在datasets里
datasets.load_*()
获取大规模数据集,需要从网络上下载
datasets.fetch_*(data_home=None)
datasets.clear_data_home(data_home=None) 清楚目录下的数据
from sklearn.datasets import load_iris, fetch_20newsgroups
from sklearn.model_selection import train_test_split
li = load_iris()
# print(li.data) # 特征
# print(li.target) # 标签
# print(li.DESCR)
# print(li.feature_names)
# print(li.target_names)
# 注意返回值的顺序
# 训练集 train :x_train,y_train, 测试集 test: x_test, y_test
x_train, x_test, y_train, y_test = train_test_split(li.data, li.target, train_size=0.75)
print(x_train)
print('*' * 50)
print(x_test)
print(y_train)
print(y_test)
news = fetch_20newsgroups(subset='all')
print(news.data)
print(news.target)
>>> from sklearn.preprocessing import StandardScaler
>>> s = StandardScaler()
>>> s.fit_transform([[1,2,3],[4,5,6]])
>>> array([[-1., -1., -1.],
[ 1., 1., 1.]])
>>> sa = StandardScaler()
>>> sa.fit([[2,3,4],[9,9,9]])
>>> StandardScaler(copy=True, with_mean=True, with_std=True)
>>> sa.transform([[1,2,3],[4,5,6]]) # 使用fit()中计算好的平均值,方差来计算
>>> array([[-1.28571429, -1.33333333, -1.4 ],
[-0.42857143, -0.33333333, -0.2 ]])
注: 正常使用是,优先使用fit_transform(), 单独使用时,transform() 会使用fit() 中计算好的值来计算输入到transform中的值.
标签:返回 大数据 算法 model mode core 离散 sele 种子
原文地址:https://www.cnblogs.com/hp-lake/p/11838342.html