码迷,mamicode.com
首页 >  
搜索关键字:中文信息处理    ( 21个结果
中文信息处理&机器学习-Kmeans实践
BagOfWords: 1. 见上一篇jieba分词。 2. 见上篇,读取分词后文件 3. 统计词频并表示成向量: sklearn工具包方法: ...
分类:其他好文   时间:2016-06-23 12:38:16    阅读次数:160
商品搜索引擎---分词(插件介绍与入门实例)
最近刚好在学习搜索引擎分词,有了解一些分词插件,在这里给各位猿友分享一下。本文主要介绍四个分词插件(ICTCLAS、IKAnalyzer、Ansj、Jcseg)和一种自己写算法实现的方式,以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Com...
分类:其他好文   时间:2016-04-19 06:32:52    阅读次数:496
微博情感分析(一)
话说微博面世已经很久了,但对于微博信息的挖掘却才刚刚起步,这其中的原因当然有信息挖掘的技术还不成熟,但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段。中文语言本身信息量就很大,歧义性词汇多,再加上微博语言语义不整、微博媒介本体中夹杂着大量的标签,导致微博技术发展缓慢。在现在的网络上,用.....
分类:其他好文   时间:2015-07-18 22:28:47    阅读次数:335
哈工大自然语言处理工具pyltp的本地安装方法
在研究中发现,哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS,而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注(SRL)功能。以前我都是直接以get方式通过LTP-Cloud去使用的,但是由于受限于网速,当语料较大时 执行速度较慢。于是近期考虑在自己的机子上安装,由于个人比较喜欢用ython编程,所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题,...
分类:编程语言   时间:2015-04-27 20:12:51    阅读次数:303
汉语自动分词
调用“海量智能分词”提供的动态链接库,实现汉语自动分词,并且搭建图形界面用于操作和显示。 首先下载“海量智能分词”软件,解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。 图形界面使用MFC搭建,新建基于对话框的MFC应用程序,同时要将HLSSplit.li...
分类:其他好文   时间:2014-12-30 11:51:17    阅读次数:152
机内码到Base64的编码转换
Base64是一种将二进制转为可打印字符的编码方法,主要用于邮件传输。Base64就是将64个字符(A-Z,a-z,0-9,+,/)作为基本字符集, 把所有符号转换为这个字符集中的字符。为了将机内码转换为Base64编码,首先建立一个Base64码表(如下图),每次从输入流中取6bit, 将此6bit作为下标查找Base64码表,输入对应字符。这样,没3字节机内码被转换为4字节的Base64编...
分类:其他好文   时间:2014-11-03 22:33:36    阅读次数:331
基于高维聚类技术的中文关键词提取算法
[摘要]关键词提取是中文信息处理技术的热点和难点,基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题,提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示,基于高维聚类技...
分类:其他好文   时间:2014-09-24 18:00:37    阅读次数:141
中文分词技术(中文分词原理)
一、为什么要进行中文分词?词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(...
分类:其他好文   时间:2014-07-23 12:20:06    阅读次数:263
汉字显示
一、汉字区位码与机内码1、区位码 为了使每一个汉字有一个全国统一的代码,1980年,我国颁布了第一个汉字编码的国家标准:GB2312-80《信息交换用汉字编码字符集》基本集,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。 所有的国标汉字与符号组成一个94×94的.....
分类:其他好文   时间:2014-07-16 18:13:13    阅读次数:520
中文分词实践(基于R语言)
背景:分析用户在世界杯期间讨论最多的话题。 思路:把用户关于世界杯的帖子拉下来,然后做中文分词+词频统计,最后将统计结果简单做个标签云,效果如下 后续:中文分词是中文信息处理的基础,分词之后,其实还有特别多有趣的文本挖掘工作可以做,也是个知识发现的过程,以后有机会再学习下。...
分类:其他好文   时间:2014-07-13 18:53:55    阅读次数:367
21条   上一页 1 2 3 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!