文本分类实现步骤: 1. 定义阶段:定义数据以及分类体系,具体分为哪些类别,需要哪些数据 2. 数据预处理:对文档做分词、去停用词等准备工作 3. 数据提取特征:对文档矩阵进行降维、提取训练集中最有用的特征 4. 模型训练阶段:选择具体的分类模型以及算法,训练出文本分类器 5. 评测阶段:在测试集上 ...
分类:
其他好文 时间:
2020-05-15 00:17:01
阅读次数:
75
信用评分卡模型分数校准 风控业务背景 在评分卡建模中,我们通常会把LR输出的概率分(probability)转换为整数分(score),称之为评分卡分数校准(calibration)。事实上,这个阶段称为尺度变换(scaling)或许更为合适。只是有些书中并不严格区分校准和尺度变换,统称为风险校准。 ...
分类:
其他好文 时间:
2020-05-03 18:59:22
阅读次数:
95
https://zhuanlan.zhihu.com/p/40024110 https://baike.baidu.com/item/%E8%B4%9D%E5%8F%B6%E6%96%AF%E6%B3%95%E5%88%99/8541594#5_2 online math website https ...
分类:
其他好文 时间:
2020-04-14 18:52:27
阅读次数:
66
逻辑回归 逻辑回归,虽然有回归二字,但其实是个分类算法,主要用于二分类. 逻辑回归是吧线性回归得到的值,进行一个转换,来解决分类问题 sigmoid函数 输入范围-∞到+∞, 输出的值在[0,1] 公式是这样的 e为常数,如果z趋近于+∞,e的负z次就越接近于0,g(z)=1.如果z趋近于-∞,e的 ...
分类:
其他好文 时间:
2020-04-05 00:51:38
阅读次数:
83
分析目的 分析空气中主要污染物浓度与空气指数之间的关系 分析数据 天气污染物浓度的数据集,该数据集源自天气后报网站上爬取的数据,为北京2013年10月28日到2016年1月31日的空气污染物浓度的数据。包括空气质量等级、AQI指数和当天排名。 import pandas as pd import n ...
分类:
编程语言 时间:
2020-04-02 22:16:15
阅读次数:
177
随机森林算法: 随机森林利用随机的方式将许多决策树组合成一个森林,每个决策树在分类的时候决定测试样本的最终类别 在Bagging策略的基础上进行修改后的一种算法 从样本集中用Bootstrap采样选出n个样本; 从所有属性中随机选择K个属性,选择出最佳分割属性作为节点创建决策树; 重复以上两步m次, ...
分类:
其他好文 时间:
2020-03-15 22:03:55
阅读次数:
106
一.线性回归实现总结 手动实现线性回归,损失函数,梯度下降优化函数 线性回归是神经网络的基石,每一个神经元都可以看作是一个线性回归 https://www.cnblogs.com/xieviki650/p/ML_Linear-regression.html 推荐李宏毅老师的机器学习视频,结合视频和作 ...
分类:
其他好文 时间:
2020-03-08 19:46:48
阅读次数:
79
本文构建宏观基本面因子并使用机器学习方法对中债10年期国债、中债10年期国开债、中债10年期AAA级地方政府债、中债10年期AAA级城投债以及中债10年期AAA级企业债的价格进行定价并建立预测模型。 固定收益证券定价的驱动因素有五个层面,俗称“五碗面”,即基本面、政策面、供求面、资金面、情绪面。五个 ...
分类:
其他好文 时间:
2020-02-24 15:02:54
阅读次数:
92
任意角度的场景文本检测 论文思路总结特点:重新添加分支的创新更突出场景文本检测 基于分割的检测方法 spcnet(mask_rcnn+tcm+rescore) psenet(渐进扩展) mask text spottor(新加分割分支) craft incepText 基于回归的检测方法: r2cn ...
分类:
其他好文 时间:
2020-02-20 11:39:56
阅读次数:
144
线性回归形如y=w*x+b的形式,变量为连续型(离散为分类)。一般求解这样的式子可采用最小二乘法原理,即方差最小化, loss=min(y_pred-y_true)^2。若为一元回归,就可以求w与b的偏导,并令其为0,可求得w与b值;若为多元线性回归, 将用到梯度下降法求解,这里的梯度值w的偏导数, ...
分类:
其他好文 时间:
2020-02-16 14:37:25
阅读次数:
59