文本挖掘介绍 文本挖掘:“自动化或半自动化处理文本的过程”,包含了文档聚类、文档分类、自然语言处理、文本变化分析及网络挖掘等领域内容。对于文本处理过程首先需要有分析的语料(text corpus),然后根据这些语料建立半结构化的文本库(text database)。最后生成包含语频的结构化的词条—— ...
分类:
其他好文 时间:
2016-05-11 01:26:11
阅读次数:
397
软件框架 最近做了一个软件,这个软件不是网站,但是与HTML,AJAX等技术密切相关,也不是只有单纯的数据库增删改查,还涉及到线程协调,比较复杂的文本处理…… 这样的软件,用OA,ERP的框架显然是不合适的,因为这种软件用不上权限管理,工作流这些技术。但是软件又要操作数据库。 介于这些的特殊性,想来 ...
分类:
其他好文 时间:
2016-05-06 00:36:29
阅读次数:
223
sed是一个很好的文件处理工具,本身是一个管道命令,主要是以行为单位进行处理,可以将数据行进行替换、删除、新增、选取等特定工作,下面先了解一下sed的用法sed命令行格式为:sed[-nefri]‘command’输入文本常用选项:-n∶使用安静(silent)模式。在一般sed的用法中,所有来..
分类:
其他好文 时间:
2016-05-05 13:05:48
阅读次数:
216
问题:ab文件都相隔一行按顺序插入直至把b内容完成由于实例字符复杂性例子只是举了简单字符例如有a有几千行elgjgdejlghdeghghlgholearaearoghaerkgeariulgresalgkaerklgearkgaerjghaegfwagehkgfrealuribgregfhgaergfaejrfgtakjgfakgfyak有b也大概有几千行145678678678678678207..
分类:
其他好文 时间:
2016-05-05 13:04:49
阅读次数:
134
来自【梦想家 Haima’s blog】awk简介awk是Linux中的一个命令,用来做文本处理与分析,功能简单强悍,同时它也是一门编程语言。
awk处理文本文件时,以行为单位,可以高效的对日志文件进行处理。awk的man文档简介摘要:NAME gawk - pattern scanning and processing language //awk其实是gawk,文本匹配查询和
处理语言,...
分类:
系统相关 时间:
2016-05-03 18:41:38
阅读次数:
297
合并两个有共同列的文件cat111.122.233.3cat211.1.122.2.233.3.3join1211.11.1.122.22.2.233.33.3.3awk‘{a[$1]=a[$1]""$2}END{for(iina)printi,a[i]}‘1211.11.1.122.22.2.233.33.3.3
分类:
其他好文 时间:
2016-05-03 16:23:21
阅读次数:
140
讷于言而敏于行 ——《论语·里仁》 sed命令是一个用在对输入流进行处理的文本处理工具。掌握它能够更好地帮助管理Linux和处理日志文件。 用法: sed [option] ‘command’ 输入流 常用option: -n:安静模式,一般如果没有加-n选项,输入流中所有的行将会被列出,加入-n后... ...
分类:
系统相关 时间:
2016-04-29 21:52:04
阅读次数:
233
笔者寄语:情感分析中对文本处理的数据的小技巧要求比较高,笔者在学习时候会为一些小技巧感到头疼不已。...
分类:
编程语言 时间:
2016-04-29 16:41:54
阅读次数:
815
问题:最近接触文本处理遇见了问题{"X":40.172819,"Y":116.383621,"Z":.0117,"T":"2016-04-2616:00:00"},{"X":39.760256,"Y":116.305211,"Z":.2923,"T":"2016-04-2616:00:00"},{"X":39.959291,"Y":116.32090099999999,"Z":.3288,"T":"2016-04-2616:00:00"},{"X":40.01998099999..
分类:
其他好文 时间:
2016-04-28 12:30:18
阅读次数:
389
AWK是一个优良的文本处理工具,Linux及Unix环境中现有的功能最强大的数据处理引擎之一。这种编程及数据操作语言(其名称得自于它的创始人阿尔佛雷德·艾侯、彼得·温伯格和布莱恩·柯林汉姓氏的首个字母)的最大功能取决于一个人所拥有的知识。awk经过改进生成的新的版本nawk,g..
分类:
系统相关 时间:
2016-04-27 19:01:27
阅读次数:
355