NLP——新闻文本分类:TASK3 深度学习Fasttext Fasttext是一种深度学习词向量的表示方法,它是一种三层神经网络,包含输入层,隐含层和输出层。 模型架构:fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特 ...
分类:
其他好文 时间:
2020-07-28 00:21:27
阅读次数:
93
总结 样本类别分布不均衡处理(处理过拟合和欠拟合问题) 过抽样(上采样):通过增加分类中少数类样本的数量来实现样本均衡 from imblearn.over_sampling import SMOTE 欠抽样(下采样):通过减少分类中多数类样本的数量来实现样本均衡 (可能造成样本数据大量丢失) fr ...
分类:
其他好文 时间:
2020-07-28 00:04:11
阅读次数:
85
一.什么是机器学习? 什么是机器学习?Herbert Sinmon给“学习”做出了这样的定义:“如果一个系统能够通过执行某个过程而改进性能,这就是学习。”更通俗的理解是:机器学习能够自动地从数据中学习“程序”,而这个程序不是人来编写的。 平面上有两类点,黄色代表类别a,蓝色代表类别b。这时我们希望能 ...
分类:
其他好文 时间:
2020-07-26 15:43:33
阅读次数:
56
什么是模块? 常见的场景:一个模块就是一个包含了python定义和声明的文件,文件名就是模块名字加上.py的后缀。 但其实import加载的模块分为四个通用类别: 1 使用python编写的代码(.py文件) 2 已被编译为共享库或DLL的C或C++扩展 3 包好一组模块的包 4 使用C编写并链接到 ...
分类:
编程语言 时间:
2020-07-26 15:39:00
阅读次数:
71
MAP的计算方法 在计算MAP之前,要对TP/TN/FP/FN,precision/recall的计算有一定的了解。 一句话概括AP:recall在【0-1】范围内的平均precision值 一句话概括MAP:所有类别的平均AP 得出PR曲线 一般来说,p-r曲线是p越大,r越小;p越小,r越大,跟 ...
分类:
其他好文 时间:
2020-07-26 00:05:32
阅读次数:
241
//创建一个空表 DataTable dt = new DataTable(); dt.Columns.Add("日期", typeof(DateTime)); dt.Columns.Add("类别", typeof(String)); dt.Columns.Add("科室", typeof(Str ...
分类:
其他好文 时间:
2020-07-24 22:02:37
阅读次数:
71
SQL SQL(structured query language)是一种领域特定语言(DSL,domain-specific language),用于管理关系型数据库(relational database management system,RDBMS)。 SQL主要有4种类别 DDL Data ...
分类:
数据库 时间:
2020-07-24 15:24:48
阅读次数:
81
一。贝叶斯基本理论 二。看一个简单的例题,只有一个特征(长度)。 对于贝叶斯方法来说,首先要知道类别的先验概率,和类概率。 对于上述例题来说,p(x=10|w1)和p(x=10|w2)是已知的,但是拿到别的例子来说,这个是需要我们自己计算的。通过多个样本,计算类概率密度,其实就是训练的过程。 例题只 ...
分类:
其他好文 时间:
2020-07-22 23:29:51
阅读次数:
78
一、生成模型 假设有两个类别$C_{1}、C_{2}$,$P(C_{1}|x)=\frac{P(x|C_{1})P(C_{1})}{P(x|C_{1})P(C_{1})+P(x|C_{2})P(C_{2})}$其中$P(C_{1})、P(C_{2})$为先验分布,$P(x|C_{1})、P(x|C_ ...
分类:
其他好文 时间:
2020-07-22 20:50:01
阅读次数:
76
在机器学习中,我们通过一些已标记的数据(已知的数据,带有标签,确定了其种类和一些属性数值的数据记录)记录成图表等,比如在进行分类问题的训练过程中, 如果特性只有两个,那么可以列平面图表来表示对应的labeled data, 即类似 的图像(来自百度图片), 其中的曲线既是决策边界,如果我们用一个表格 ...
分类:
其他好文 时间:
2020-07-22 15:38:58
阅读次数:
68