python 超参数自动搜索模块GridSearchCV（收藏）

时间：2018-07-23 11:18:30 阅读：535 评论：0 收藏：0 [点我收藏+]

标签：lin ike flow 迭代器 pat 解决问题简洁 bottom 整理

1. 引言

当我们跑机器学习程序时，尤其是调节网络参数时，通常待调节的参数有很多，参数之间的组合更是繁复。依照注意力>时间>金钱的原则，人力手动调节注意力成本太高，非常不值得。For循环或类似于for循环的方法受限于太过分明的层次，不够简洁与灵活，注意力成本高，易出错。本文介绍sklearn模块的GridSearchCV模块，能够在指定的范围内自动搜索具有不同超参数的不同模型组合，有效解放注意力。

2. GridSearchCV模块简介

这个模块是sklearn模块的子模块，导入方法非常简单

from sklearn.model_selection import GridSearchCV

函数原型：

class sklearn.model_selection.GridSearchCV(estimator, param_grid, scoring=None, fit_params=None, n_jobs=1, iid=True, refit=True, cv=None, verbose=0, pre_dispatch=‘2*n_jobs‘, error_score=‘raise‘, return_train_score=True)
其中cv可以是整数或者交叉验证生成器或一个可迭代器，cv参数对应的4种输入列举如下：
None：默认参数，函数会使用默认的3折交叉验证
整数k：k折交叉验证。对于分类任务，使用StratifiedKFold（类别平衡，每类的训练集占比一样多，具体可以查看官方文档）。对于其他任务，使用KFold
交叉验证生成器：得自己写生成器
可以生成训练集与测试集的迭代器
3. 分析结果自动保存
逗号分隔值（Comma-Separated Values，CSV，有时也称为字符分隔值，因为分隔字符也可以不是逗号），其文件以纯文本形式存储表格数据（数字和文本）。纯文本意味着该文件是一个，不含必须像二进制数字那样被解读的数据。CSV文件由任意数目的记录组成，记录间以某种换行符分隔；每条记录由字段组成，字段间的分隔符是其它字符或字符串，最常见的是逗号或制表符。通常，所有记录都有完全相同的字段序列。
CSV文件有个突出的优点，可以用excel等软件打开，比起记事本和matlab、python等编程语言界面，便于查看、制作报告、后期整理等。
GridSearchCV模块中，不同超参数的组合方式及其计算结果以字典的形式保存在 clf.cv_results_中，python的pandas模块提供了高效整理数据的方法，只需要3行代码即可解决问题。
GridSearchCV模块中，不同超参数的组合方式及其计算结果以字典的形式保存在 clf.cv_results_中，python的pandas模块提供了高效整理数据的方法，只需要3行代码即可解决问题。
cv_result = pd.DataFrame.from_dict(clf.cv_results_) 
with open(‘cv_result.csv‘,‘w‘) as f: 　　
	cv_result.to_csv(f)
4. 完整例程
代码清晰易懂，无须解释。https://github.com/JiJingYu/tensorflow-exercise/tree/master/svm_grid_search
import pandas as pd
from sklearn import svm, datasets
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report 
iris = datasets.load_iris()
parameters = {‘kernel‘:(‘linear‘, ‘rbf‘), ‘C‘:[1, 2, 4], ‘gamma‘:[0.125, 0.25, 0.5 ,1, 2, 4]}
svr = svm.SVC()
clf = GridSearchCV(svr, parameters, n_jobs=-1)
clf.fit(iris.data, iris.target)
cv_result = pd.DataFrame.from_dict(clf.cv_results_)
with open(‘cv_result.csv‘,‘w‘) as f:
     cv_result.to_csv(f)
     
print(‘The parameters of the best model are: ‘)
print(clf.best_params_)
y_pred = clf.predict(iris.data)
print(classification_report(y_true=iris.target, y_pred=y_pred))

python 超参数自动搜索模块GridSearchCV（收藏）

标签：lin ike flow 迭代器 pat 解决问题简洁 bottom 整理

原文地址：https://www.cnblogs.com/nxf-rabbit75/p/9353061.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

python 超参数 自动搜索模块GridSearchCV（收藏）

1. 引言

2. GridSearchCV模块简介

3. 分析结果自动保存

4. 完整例程

python 超参数自动搜索模块GridSearchCV（收藏）