码迷,mamicode.com
首页 >  
搜索关键字:文本分析    ( 342个结果
【转】linux awk命令
简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。它允许创建简短的程序,这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及...
分类:系统相关   时间:2015-01-04 21:08:18    阅读次数:179
【Python】Python在文本分析中将中文和非中文进行分割
1.问题描述 进行文本分析的时候需要将中文和非中文进行分开处理,下面通过Python将文本中的中文部分提取出来进行需要的处理。 2.问题解决 开发环境:Linux 程序代码如下:split.py #!/usr/bin/python #-*- coding:utf-8 -*- import sys reload(sys) sys.setdefaultencoding("ut...
分类:编程语言   时间:2014-12-31 18:35:56    阅读次数:365
【转载】Linux awk命令简介
此篇文章转自http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html简介awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空...
分类:系统相关   时间:2014-12-21 18:00:52    阅读次数:292
自然语言处理工具之一: NiuParser: 中文句法语义分析系统
东北大学出品 ,纯C++编写,学术免费,开源 。系统特色1. 全部代码采用C++语言编写2. 达到了业内最好的分析性能3. 支持七大语言分析技术4. 可以被应用于研制基于深度计算的文本分析和文本挖掘等应用系统地址:http://www.niuparser.com/
分类:编程语言   时间:2014-12-19 00:32:13    阅读次数:375
开源搜索技术—Lucene、Solr
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的...
分类:Web程序   时间:2014-12-18 10:17:08    阅读次数:171
Feature extraction - sklearn文本特征提取
文本特征提取 词袋(Bag of Words)表征 文本分析是机器学习算法的主要应用领域。但是,文本分析的原始数据无法直接丢给算法,这些原始数据是一组符号,因为大多数算法期望的输入是固定长度的数值特征向量而不是不同长度的文本文件。为了解决这个问题,scikit-learn提供了一些实用工具可以用最常见的方式从文本内容中抽取数值特征,比如说: 标记(tokenizing)文本以及为每一...
分类:其他好文   时间:2014-12-16 11:46:54    阅读次数:203
Lucene.net入门学习(结合盘古分词)
Lucene简介Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的 查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员...
分类:Web程序   时间:2014-12-12 12:57:56    阅读次数:310
awk指令的使用
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大awk工作流程是这样的:读入有'\n'换行符分割的一条记录,然后将记录按指定的域分隔符划分域,填充域,$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键" 或 ...
分类:其他好文   时间:2014-12-11 11:46:33    阅读次数:154
awk 简单认识
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。调用AWK1.命令行方式awk[-Ffield-separator]‘commands‘input-file..
分类:其他好文   时间:2014-12-03 02:00:59    阅读次数:156
Linux文本处理工具
1.awk     awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。awk相当于一门编程语言,有自己的很多语法,不过语法很简单,和C语言类似,语法要素有比如逻辑比较,if,内置变量,字符串处理函数,数组,循环语句这样的。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk执行时,...
分类:系统相关   时间:2014-12-01 17:35:12    阅读次数:212
342条   上一页 1 ... 30 31 32 33 34 35 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!