Part4文本分类
Part3文本聚类里讲到过,分类跟聚类的简单差异。所以要做分类我们需要先整理出一个训练集,也就是已经有明确分类的文本;测试集,可以就用训练集来替代;预测集,就是未分类的文本,是分类方法最后的应用实现。
1. 数据准备
训练集准备是一个很繁琐的功能,暂时没发现什么省力的办法,根据文本内容去手动整理。这里还是使用的某品牌的官微数据,根据微博内容,我将它微博...
分类:
编程语言 时间:
2015-03-18 18:08:26
阅读次数:
468
------- android培训、java培训、期待与您交流! ----------category(分类)1.作用:在不改变原来类内容的基础上,增加一些方法,但是不能增加成员变量;2.分类的使用注意:分类只能增加方法,不能增加成员变量分类方法实现中可以访问原来类中声明的成员变量(必须是手动的声明...
分类:
其他好文 时间:
2015-03-13 21:56:33
阅读次数:
211
KNN即K-Nearest Neighbor,是数据挖掘中一种最简单的分类方法,即要判断某一个样本属于已知样本种类中的哪一类时,通过计算找出所有样本中与测试样本最近或者最相似的K个样本,统计这K个样本中哪一种类最多则把测试样本归位该类。如何衡量两个样本的相似度?可以用向量的p-范数来定义。
假设有两个样本X=(x1, x2, ..., xn),Y=(y1, y2, ..., yn),则他们之间的相似度可以用以下向量p-范数定义:...
分类:
其他好文 时间:
2015-03-08 17:22:38
阅读次数:
208
票种类很多,可谓五花八门、形形色色。这些股票名称不同,形成和权益各异。股票的分类方法因此也是多种多样的。 按股东权利分类,股票可分为普通股、优先股和后配股。 1.普通股 普通股是随着企业利润变动而变动的一种股份,是股份公司资本构成中最普通、最基本的股份,是股份企业资金的基础部分。 普通股的基本特点是...
分类:
其他好文 时间:
2015-02-26 13:10:59
阅读次数:
138
信息什么是信息?这还真没想过,想想也真不好说。反向思考一下,什么不是信息?仔细想了一下,这个也真没找着(哪位同学找到的告知俺一声)。所以总结了一下:大千世界,点点滴滴,均是信息。因此,信息自古就有,而且不少。现代社会之所以叫信息社会,并不是说信息有多爆炸,关键是信息渠道爆炸,其罪根祸首就是互联网的出...
分类:
其他好文 时间:
2015-02-23 13:07:24
阅读次数:
128
宅在家无聊之余决定看着《概率论和数理统计》&《统计学习方法》总结一下朴素贝叶斯和贝叶斯估计。
正好这一块我最近温习了一下,我从一开始条件概率开始写,把我所理解的贝叶斯分类算法完整呈现一下吧。
学的概率论最开始是在高中,当时是条件概率,给出条件概率的定义:事件A在另外一个事件B已经发生条件下的发生概率。条件概率表示为P(A|B),读作“在B条件下A的概率”。
其次...
分类:
其他好文 时间:
2015-02-12 09:25:16
阅读次数:
229
捞鱼问题:20个桶,每个桶中有10条鱼,用网从每个桶中抓鱼,每次可以抓住的条数随机,每个桶只能抓一次,问一共抓到180条的排列有多少种。
分析:看看这个问题的对偶问题,抓取了180条鱼之后,20个桶中剩下了20条鱼,不同的抓取的方法就对应着这些鱼在20个桶中不同的分布,于是问题转化为将20条鱼分到20个桶中有多少中不同的分类方法(这个问题当然也等价于180条鱼分到20个桶中有多少种不同的方法...
分类:
编程语言 时间:
2015-02-01 17:52:09
阅读次数:
223
功能不是自己做的,在调用这个功能的时候,技术经理给自己上了一课,他说当你在$array = array(),其实就是在传当前数组的一个地址,而这个递归分类方法传递的参数是使用数组的引用传递的,所以在进行递归就是对这...
分类:
Web程序 时间:
2015-01-09 15:43:06
阅读次数:
158
第一眼看到逻辑回归(Logistic Regression)这个词时,脑海中没有任何概念,读了几页后,发现这非常类似于神经网络中单个神经元的分类方法。书中逻辑回归的思想是用一个超平面将数据集分为两部分,这两部分分别位于超平面的两边,且属于两个不同类别(和SVM的想法有些相似),如下图:因此,一般的逻...
分类:
其他好文 时间:
2015-01-05 21:47:02
阅读次数:
553
回归是统计学中最有力的工具之一。回归算法用于连续型分布预测,针对的是数值型的样本,使用回归,可以在给定输入的时候预测出一个数值,这是对分类方法的提升,因为这样可以预测连续型数据而不仅仅是离散的类别标签。回归的目的就是建立一个回归方程用来预测目标值,回归的求解就是求这个回归方程的回归系数。预测的方法当然十分简单,回归系数乘以输入值再全部相加就得到了预测值。说到回归,常常指的也就是线性回归,因此本文阐述的就是多元线性回归方程的求解和应用,通过Python实现。...
分类:
编程语言 时间:
2014-12-23 14:02:03
阅读次数:
822