标签:ima 状态 偏差 比较 假设 输出变量 利用 回归 好的
挖掘建模
算法名称
|
算法描述
|
---|---|
回归分析 | 回归分析是确定预测属性(数值型)与其他变量之间相互依赖的定量关系最常用的统计学方法,包括线性回归,非线性回归,Logistic回归,岭回归,主成分回归,偏最小二乘回归等模型 |
决策树 | 决策树采用自顶向下的传递方式,在内部节点机型属性值的比较,并根据不同的属性值,从该节点向下分支,最终得到的叶节点是学习划分的类 |
人工神经网络 | 人工神经网络是一种模仿大脑神经网络结构和功能而建立的信息处理系统,表示神经网络的输入输出变量之间关系模型 |
贝叶斯网络 | 贝叶斯网络又称信度网络,是bayes方法的扩展,是目前不确定是指表达和推理领域最有效的理论模型之一 |
支持向量机 | 支持向量机是一种通过某种非线性映射,把低维的非线性可转化为高维的线性可分,在高维空间进行线性分析的算法 |
回归分析:
回归模型名称
|
使用条件
|
算法模型
|
---|---|---|
线性回归 | 因变量与自变量是线性关系 | 对一个或多个自变量和因变量之间的线性关系进行建模,可用最小二乘法求解模型系数 |
非线性回归 | 因变量与自变量之间都是线性关系 | 对一个或多个自变量和因变量之间的非线性关系进行建模.如果非线性关系可以通过简单的函数变换转化成线性关系,用线性回归的思想求解;如果不能转化,用非线性最小二乘方法求解 |
Logistic回归 | 因变量一般有1和0(是否)两种取值 | 是广义线性回归模型的特例,利用Logistic函数将因变量的取值范围控制在0和1之间,表示取值为1的概率 |
岭回归 | 参与建模的自变量之间具有多重共线性 | 是一种改进最小二乘估计的方法 |
主成分回归 | 参与建模的自变量之间具有多重共线性 | 主成分回归是根据主成分分析思想提出来的,是对最小二乘法的一种改进,它是参数估计的一种有偏估计.可以消除自变量之间的多重共线 |
# -*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding("utf-8") """ 逻辑回归,自动建模 """ import pandas as pd data = pd.read_csv("./bankloan.csv") x = data.iloc[:,:8].as_matrix() print("x",x) y = data.iloc[:5].as_matrix() print("y",y) from sklearn.linear_model import LogisticRegression as LR # 为什么???? from sklearn.linear_model import RandomizedLogisticRegression as RLR rlr = RLR() # 建立随机逻辑回归模型, 筛选变量 rlr.fit(x, y) # 训练模型(这是把x,y这两个参数进行训练) rlr._get_support_mask() # 获取筛选特征结果,也可以通过.scores_方法获取各个特征的分数 print(u‘通过随机逻辑回归模型筛选特征结束‘) print(u‘有效特征为:%s‘ % ",".join(data.columns[rlr._get_support_mask()])) x = data[data.columns[rlr._get_support_mask()]].as_matrix() # 筛选好特征 lr = LR() # 建立逻辑回归模型 lr.fit(x, y) # 用筛选好后的特征数据来训练模型 print(u‘逻辑回归模型训练结束.‘) print(u‘模型的平均正确率为:%s‘ % lr.score(x, y)) # 给出模型的平均正确率
标签:ima 状态 偏差 比较 假设 输出变量 利用 回归 好的
原文地址:https://www.cnblogs.com/ljc-0923/p/11755268.html