随着网络信息时代的发展,数据转换技术也在不断的飞速发展。人们可以通过计算机与互联网联接,从世界各地实时的接收和发送大量、最新的信息,但在信息交换的过程中存在着一个突出的问题,就是多种多样的数据格式,给信息的有效使用带来了障碍。所以在信息时代,如何以最便捷、最可靠、最有效的方式获取所需的信息是一个很大的困扰。如何让用户在必要的时刻快速简单的得到必要的数据--HYFsoft(北京红樱枫软件有限公司)的数据格式转换技术日益受到社会的瞩目。...
分类:
其他好文 时间:
2014-05-22 10:20:13
阅读次数:
270
需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IK
Analyzer):[java] view plaincopypackage com.haha.test; ...
分类:
编程语言 时间:
2014-05-22 05:58:40
阅读次数:
392
主要内容: 1、文本表示与特征提取; 2、隐语义分析LSA和Latent Dirichlet
Allocation(LDA) 3、检索模型:Boolean模型、向量模型、概率模型 1、文本表示与特征提取 文本中抽取出的特征词进行量化来表示文本信息;
利用分词工具:极易中文分词:je-analysis...
分类:
其他好文 时间:
2014-05-21 18:03:26
阅读次数:
486
需要在项目中引入:IKAnalyzer.cfg.xmlIKAnalyzer2012.jarlucene-core-3.6.0.jarstopword.dic什么都不用改示例代码如下(使用IKAnalyzer):[java]viewplaincopypackagecom.haha.test;importjava.io.IOException;importjava.io.StringReader;importorg.apache.lucene.analysis.Ana..
分类:
编程语言 时间:
2014-05-20 20:28:42
阅读次数:
390
运用前面几篇文章中的分词算法,可以把中文中的词语分出来,但是不同算法可能得到的分词结果不一样,到底如何确定那种分词效果最好呢。我们在这篇文章中探讨一种判断分词效果好坏的方法。
在分词的时候,有些单字是不成词的。可以搜索所有分词的可能性,然后对每一种分词结果进行统计,规则如下:每分出一个词就给分词统计结果加一,如果遇到不成词的单字就再给该分词结果加一。得到的结果分别计算出来。选出一个得分最低的就是所要分词的字符串的结果。
下面就用代码实现一下上面的思想。分别用正向最大匹配和逆向...
分类:
其他好文 时间:
2014-05-14 21:04:01
阅读次数:
256
一、简介
SDL(Simple DirectMedia Layer)是一套开放源代码的跨平台多媒体开发库,使用C语言写成。SDL提供了数种控制图像、声音、输出入的函数,让开发者只要用相同或是相似的代码就可以开发出跨多个平台(Linux、Windows、Mac OS X等)的应用软件。目前SDL多用于开发游戏、模拟器、媒体播放器等多媒体应用领域。
二、配置
sudo apt-get insta...
分类:
其他好文 时间:
2014-05-14 20:21:52
阅读次数:
351
上一篇文章中介绍了一种中文分词的选取算法,本篇文章将介绍另外一种中文分词选取算法,依概率选取算法。
中文分词分词完成之后,还是上篇文章中的原则,分词结果不唯一,然后我们算法的目的是从几种分词好的算法之后选取一个作为分词的最终结果。算法会统计每个词在所有文档中的概率,该算法的中心思想是计算一个字符串中所有分词的概率之积,选取概率最大的作为分词的最终结果。
算法步骤:第一步,通过上几篇文章的的算法对字符串进行分词;第二步,扫描每一次分词结果;第三步,计算每一次分词结果的所有词的概...
分类:
其他好文 时间:
2014-05-14 20:05:32
阅读次数:
285
a b
ab a ba
MDL(minimum description length,最小描述长度) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度(...
分类:
其他好文 时间:
2014-05-09 15:03:18
阅读次数:
415
集合的Jaccard相似度定义:对于两个集合A和B,A和B的Jaccard相似度记为SIM(A,B)=|A∩B|/|A∪B|。
计算文档内容的相似度可以用来检测文档抄袭作弊或者镜像页面等。
为了计算文档内容之间的相似度,首先也将文档进行分词处理,然后计算Jaccard相似度。
shingling用来处理文档内容的分词,需要考虑shingle的大小。
例如,字符串“abcd" , 2个shi...
分类:
其他好文 时间:
2014-05-09 00:41:45
阅读次数:
290
官方网站:https://code.google.com/p/friso/
最新动态:friso-1.6.0发布了(2014.05.08 最新版本)
开源,简单易用,很适合分词技术的研究。
一。friso中文分词器
Friso是使用c语言开发的一款高性能中文分词器,使用流行的mmseg算法实现。完全基于模块化设计和实现,可以很方便的植入到其他程序中,例如:MySQL,PHP等。同时支...
分类:
Web程序 时间:
2014-05-08 08:17:13
阅读次数:
892