码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
利用HtmlAgilityPack库进行HTML数据抓取
主要介绍基于XPATH的文本分析方式的实现,代码如下:using System;using System.Collections.Generic;using System.Linq;using System.Text;using System.Threading.Tasks;using HtmlAg...
分类:Web程序   时间:2015-06-09 21:33:45    阅读次数:158
Solr中的概念:分析器(analyzer)、字符过滤器(character filter)、分词器(Tokenizer)、词元过滤器(Token Filter)、 词干化(Stemming)
文本中包含许多文本处理步骤,比如:分词,大写转小写,词干化,同义词转化和许多的文本处理。 文本分析既用于索引时对一文本域的处理,也用于查询时查询字符串的文本处理。文本处理对搜索引擎的搜索结果有着重要的影响,特别是对如召回率的影响。 文本分析是将一个文本域的值转化为一个词序列。词是Lucene实际索....
分类:其他好文   时间:2015-06-02 13:03:24    阅读次数:3739
Redhat下R安装Rwordseg包
常用来做中文文本分析的一个包是Rwordseg,虽然很久没见更新了,但是在做中文分词时,它还是一个很好地选择。Rwordseg包的安装很容易出错,不管是在windows还是在Linux的系统下。之前在windows系统下装过一次,各种纠结最后搞定,最近转战Redhat又重新遭遇各种新问题。还是把过程记录下来,留作以后查看。     Rwordseg依赖包rJava,但是安装rJava包也是一个比...
分类:其他好文   时间:2015-06-01 22:40:43    阅读次数:210
文本内容分析和智能反馈(2)- 数据预处理和按纬度统计
书接上文,考虑4个核心功能的实现,先考虑:数据预处理和按纬度统计。1、数据预处理1.1、基本原则首先,考虑数据的格式。业务数据是保存在关系型数据库中的。数据分析的部分,我们将使用Weka,虽然Weka习惯ARFF格式,为了实现数据分析和提取的自动化,我们将通过Weka的JDBC接口为其提供数据。这样,可以使用ETL工具或者通过程序代码执行SQL实现数据提取和格式转换。 在开发阶段,我们基本上可以将...
分类:其他好文   时间:2015-05-29 08:40:35    阅读次数:183
七大自然语言处理领域的世界一流公司
在自然语言处理(NLP)技术上处于领先地位的公司Teragram 被商业智能和分析软件供应商SAS收购(08年3月17日),宣称使用自然语言处理搜索技术的Powerset被微软收购(08年7月1日),在文本分析方面领先的Inxight被...
分类:编程语言   时间:2015-05-25 16:54:11    阅读次数:5722
使用Lucene.NET实现站内搜索
使用Lucene.NET实现站内搜索 导入Lucene.NET 开发包 Lucene 是apache软件基金会一个开放源代码的全文检索引擎工具包,是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统...
分类:Web程序   时间:2015-04-28 18:10:08    阅读次数:171
awk命令
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:其他好文   时间:2015-04-24 18:30:23    阅读次数:159
linux 命令之awk
awk 是一个强大的文本分析工具,把文件逐行的读入,以空格为默认分割符将每行切片,切开的部分再进行各种分析处理。 awk命令形式: awk [-F | -f | -v] `BEGIN{} // {command1;command2;....;commandN} END{}` file [-F | -f | -v]   : 大参数,-F指定分隔符,-f调用脚本,-v定义变量 ` `  :...
分类:系统相关   时间:2015-04-19 18:03:39    阅读次数:266
【转载】awk简介
【转载自】http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格...
分类:其他好文   时间:2015-04-01 19:36:52    阅读次数:173
awk学习
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk,g...
分类:其他好文   时间:2015-03-30 17:51:53    阅读次数:94
342条   上一页 1 ... 28 29 30 31 32 ... 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!