建立文本数据数学描写叙述的过程分为三个步骤:文本预处理、建立向量空间模型和优化文本向量。文本预处理主要採用分词、停用词过滤等技术将原始的文本字符串转化为词条串或者特点的符号串。文本预处理之后,每个文本的词条串被进一步转换为一个文本向量,向量的每一维相应一个词条,其值反映的是这个词条与这个文本之间的类 ...
分类:
其他好文 时间:
2017-07-15 15:57:24
阅读次数:
182
一、介绍 word2vec是Google于2013年推出的开源的获取词向量word2vec的工具包。它包括了一组用于word embedding的模型,这些模型通常都是用浅层(两层)神经网络训练词向量。 Word2vec的模型以大规模语料库作为输入,然后生成一个向量空间(通常为几百维)。词典中的每个 ...
分类:
其他好文 时间:
2017-07-15 11:23:25
阅读次数:
2472
统计学习方法概论: (一),统计学习 1,统计学习的特点 2,统计学习的对象 3,统计学习的目的 4,统计学习的方法 (二),监督学习重要概念 1,输入空间,特征向量空间,输出空间 (三),统计学习三要素 1,模型 决策函数模型: 条件概率模型: 2,策略 2.1 损失函数: 2.2 经验风险最小化 ...
分类:
其他好文 时间:
2017-06-30 23:53:33
阅读次数:
216
凸函数凸函数是一个定义在某个向量空间的凸子集C(区间)上的实值函数f,而且对于凹子集C中任意两个向量。其图象呈凸状。仿射函数:affinefunction仿射函数即由1阶多项式构成的函数,一般形式为f(x)=Ax+b,这里,A是一个m×k矩阵,x是一个k向量,b是一个m向量,实际上反映了一种..
分类:
其他好文 时间:
2017-06-29 22:22:01
阅读次数:
155
可以从百度文库下载原文:https://wenku.baidu.com/view/1faa10867cd184254a353540.html 仿射变换的定义 仿射变换(Affine Transformation或 Affine Map),是指在几何中,一个向量空间进行一次线性变换并接上一个平移,变换 ...
分类:
其他好文 时间:
2017-06-13 21:45:34
阅读次数:
584
理论參考文献:但此文没有代码实现。这里自己实现一下,让理解更为深刻 问题:如果在IR中我们建立的文档-词项矩阵中,有两个词项为“learn”和“study”,在传统的向量空间模型中,觉得两者独立。然而从语义的角度来讲。两者是相似的。并且两者出现频率也类似,是不是能够合成为一个特征呢? 《模型选择和规 ...
分类:
编程语言 时间:
2017-06-03 21:42:24
阅读次数:
518
Mmseg中文分词算法解析 @author linjiexing 开发中文搜索和中文词库语义自己主动识别的时候,我採用都是基于mmseg中文分词算法开发的Jcseg开源project。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文 ...
分类:
编程语言 时间:
2017-05-16 11:00:05
阅读次数:
180
多项式 什么是多项式 满足如下条件的表达式才是多项式: 1 包含变量或者变量与常量 2 涉及的运算只有加运行,减运算,乘法运算与指数运算(指数必须>=0,不可以是负数),不包含除法运算 线性多项式 多项式中的每一项总次数要么是1,要么是0 齐次多项式 多项式中每一项的总次数都相等 既是线性的,又是齐 ...
分类:
其他好文 时间:
2017-05-13 14:21:50
阅读次数:
164
Jackcard相似度和余弦相似度(向量空间模型)的java实现
分类:
编程语言 时间:
2017-04-12 11:52:43
阅读次数:
364
Linear Algebra 线性代数基础 (以下概念 大学期间线性代数课没有讲清楚,在这里梳理一下 向量空间、线性空间vector space:n维向量的全体所构成的集合叫做n维向量空间。 基,基底 basis: 向量空间V中任一向量都能由向量组a1,a2….an线性表示,那么该向量组为V的一个基 ...
分类:
其他好文 时间:
2017-04-10 21:23:31
阅读次数:
193