标签:matlab
matlab 2013引入了新的统计数据类型table,主要功能是模仿R或S语言的.我一直被R语言中的数据类型dataframe所震撼,屡屡叹息大名鼎鼎的matlab居然没有.现在好了,有了table类型,一切迎刃而解.看来R作为统计语言霸主的地位似乎也可以动动了.
下面的示例是我布置给学生的作业,主要的目的是统计一篇文章中出现最多的10个字.
关键是学会table类型,理解统计因子和水平的概念.
测试环境matlab2014a
% 读取文件内容 filename=‘mydoc.txt‘; %文件名 fstr=fileread(filename); %读取文件内容 %fstr(isspace(fstr)) = [] ;%去除所有空格 fstr=regexprep(fstr,‘\W‘,‘‘);%去除所有标点符号 fstrLength=length(fstr); %统计文件字数 % fstrcell=cell(length(fstr),1); %生成元胞数组 for n = 1:length(fstr) fstrcell{n,1}= fstr(n); end WordCat = categorical(fstrcell); %建立分类统计变量 summary(WordCat); ustr = unique(fstrcell);%获取分类因子的列表 cstr=countcats(WordCat);%计算各个分类因子的数目 [cstrsort,SortIndex] =sort(cstr);%从小到大排序 displaynum=10;%只显示最长出现的10个分类因子 for m =1:(length(cstr)-displaynum) %删去出现频次较低的因子 WordCat = removecats(WordCat,ustr{SortIndex(m)}); end % 绘制图形 figure(1) hist(WordCat); ylabel(‘出现次数‘)图形如下:
版权声明:本文为博主原创文章,未经博主允许不得转载。
标签:matlab
原文地址:http://blog.csdn.net/rumswell/article/details/49401913