搜索关键字：中文信息处理，搜索到21个结果！码迷,mamicode.com！

BagOfWords： 1. 见上一篇jieba分词。 2. 见上篇，读取分词后文件 3. 统计词频并表示成向量： sklearn工具包方法： ...

分类：其他好文时间：2016-06-23 12:38:16 阅读次数：160

最近刚好在学习搜索引擎分词，有了解一些分词插件，在这里给各位猿友分享一下。本文主要介绍四个分词插件（ICTCLAS、IKAnalyzer、Ansj、Jcseg）和一种自己写算法实现的方式，以及一些词库的推荐。一、ICTCLAS1.1、介绍中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Com...

分类：其他好文时间：2016-04-19 06:32:52 阅读次数：496

微博情感分析（一）

话说微博面世已经很久了，但对于微博信息的挖掘却才刚刚起步，这其中的原因当然有信息挖掘的技术还不成熟，但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段。中文语言本身信息量就很大，歧义性词汇多，再加上微博语言语义不整、微博媒介本体中夹杂着大量的标签，导致微博技术发展缓慢。在现在的网络上，用.....

分类：其他好文时间：2015-07-18 22:28:47 阅读次数：335

哈工大自然语言处理工具pyltp的本地安装方法

在研究中发现，哈工大的LTP在分词、实体识别等方面的效果甚至要优于中科院ICTCLAS，而且LTP还具备了目前在中文信息处理领域较为罕见的语义角色标注（SRL）功能。以前我都是直接以get方式通过LTP-Cloud去使用的，但是由于受限于网速，当语料较大时执行速度较慢。于是近期考虑在自己的机子上安装，由于个人比较喜欢用ython编程，所以就安装了官方发布的pyltp。在安装过程中遇到了不少问题，...

分类：编程语言时间：2015-04-27 20:12:51 阅读次数：303

汉语自动分词

调用“海量智能分词”提供的动态链接库，实现汉语自动分词，并且搭建图形界面用于操作和显示。首先下载“海量智能分词”软件，解压后拷出include文件夹下的HLSegFunc.h、HLPubDef.h和dll&lib文件夹下的HLSSplit.dll、HLSplitWord.dat、HLSSplit.lib。图形界面使用MFC搭建，新建基于对话框的MFC应用程序，同时要将HLSSplit.li...

分类：其他好文时间：2014-12-30 11:51:17 阅读次数：152

机内码到Base64的编码转换

Base64是一种将二进制转为可打印字符的编码方法，主要用于邮件传输。Base64就是将64个字符（A-Z,a-z,0-9,+,/）作为基本字符集，把所有符号转换为这个字符集中的字符。为了将机内码转换为Base64编码，首先建立一个Base64码表（如下图），每次从输入流中取6bit，将此6bit作为下标查找Base64码表，输入对应字符。这样，没3字节机内码被转换为4字节的Base64编...

分类：其他好文时间：2014-11-03 22:33:36 阅读次数：331

基于高维聚类技术的中文关键词提取算法

[摘要]关键词提取是中文信息处理技术的热点和难点，基于统计信息的方法是其中一个重要分支。本文针对基于统计信息关键词提取方法准确率低的问题，提出基于高维聚类技术的中文关键词提取算法。算法通过依据小词典的快速分词、二次分词、高维聚类及关键词甄选四个步骤实现关键词的提取。理论分析和实验显示，基于高维聚类技...

分类：其他好文时间：2014-09-24 18:00:37 阅读次数：141

中文分词技术(中文分词原理)

一、为什么要进行中文分词？词是最小的能够独立活动的有意义的语言成分，英文单词之间是以空格作为自然分界符的，而汉语是以字为基本的书写单位，词语之间没有明显的区分标记，因此，中文词语分析是中文信息处理的基础与关键。Lucene中对中文的处理是基于自动切分的单字切分，或者二元切分。除此之外，还有最大切分（...

分类：其他好文时间：2014-07-23 12:20:06 阅读次数：263

汉字显示

一、汉字区位码与机内码1、区位码为了使每一个汉字有一个全国统一的代码，1980年，我国颁布了第一个汉字编码的国家标准：GB2312-80《信息交换用汉字编码字符集》基本集，这个字符集是我国中文信息处理技术的发展基础，也是目前国内所有汉字系统的统一标准。所有的国标汉字与符号组成一个94×94的.....

分类：其他好文时间：2014-07-16 18:13:13 阅读次数：520

中文分词实践（基于R语言）

背景：分析用户在世界杯期间讨论最多的话题。思路：把用户关于世界杯的帖子拉下来，然后做中文分词+词频统计，最后将统计结果简单做个标签云，效果如下后续：中文分词是中文信息处理的基础，分词之后，其实还有特别多有趣的文本挖掘工作可以做，也是个知识发现的过程，以后有机会再学习下。...

分类：其他好文时间：2014-07-13 18:53:55 阅读次数：367

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)