本文主要是讲了一些自然语言处理的浅层内容。知识点比较零碎,可见业务场景之繁杂。我们希望从机器学习算法的角度去观察这些业务场景,以便有个清晰的认识。文本处理的一些基础内容,如正则表达式、分词断句等是自然语言预处理过程中的常用手段。编辑距离是衡量两个字符串相似性的尺度。...
分类:
编程语言 时间:
2016-01-21 14:00:43
阅读次数:
309
注:本次作业适用于就业班和套餐班。I.作业(练习)内容:一、实战案例(练习)内容1、描述centos6系统开机启动流程;2、描述/etc/rc.d/sysinit脚本功能;3、总结文本处理工具sed及awk的用法;(必须附带示例)4、写一个脚本,生成10个随机数,并按从小到大进行排序(要求至少使..
分类:
系统相关 时间:
2016-01-20 06:30:58
阅读次数:
230
sed 流编辑器 Stream EDitor三大文本处理工具:grep,sed,awk语法:sed 'AddressCommand' file ...Address: 1,StartLine,EndLine 1,100 2,/RegExp/ /^root/ 3,/pattern1/,/patte.....
分类:
系统相关 时间:
2016-01-09 20:03:39
阅读次数:
254
脚本必然要进行文本处理,文本处理又没有什么通用的规律可循。祖师爷发明的【模板】真是太爽了! 字符串变成对象属性后,粒度变小了,并且很容易输出到数据库,excel中,为行列转换提供数据了。 那是一条神奇的天路啊啊~~,令字符的输出变成对象~~, 从此那山不再高,扣输出不再难,字符和对象欢聚一堂。
分类:
系统相关 时间:
2015-12-30 17:23:16
阅读次数:
267
正则表达式:RegualExpressionReGEXP基本正则表达式:BRE扩展正则表达式:ERE作用;文本搜索工具,根据用户指定的”模式(PATTERN)“对目标文本进行逐行匹配检查,并打印匹配到的行。模式(PATTERN):由正则表达式的元自负及文本字符所编写出的过滤条件。grep[OPTIONS]PATERN[..
分类:
其他好文 时间:
2015-12-26 23:43:23
阅读次数:
356
转载自:http://www.52nlp.cn/python-网页爬虫-文本处理-科学计算-机器学习-数据挖掘曾经因为NLTK的缘故开始学习Python,之后渐渐成为我工作中的第一辅助脚本语言,虽然开发语言是C/C++,但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后,第一个作品课程...
分类:
编程语言 时间:
2015-12-25 11:28:57
阅读次数:
226
sed命令是文本处理三剑客至流编辑器,或者说是行编辑器。sed的用法如下:结构:sed[OPTION]...
{script-only-if-no-other-script}
[input-file]...地址界定编辑命令常用选项:-n:不输出模式空间中的内容至屏幕-e
script,--expression=script:多点编辑-f/PATH/TO/SED_SCRIPT_FI..
分类:
其他好文 时间:
2015-12-25 06:34:44
阅读次数:
203
sed命令详解一、什么是sed命令sed全名streameditor,是一种流编辑器,也是Linux上最常用的3中文本处理工具之一(另外2种为grep和awk)。二、sed命令的工作原理sed命令每次从文件中读取信息时,都是从头开始读取一行至其模式空间中,然后进行判断是否需要对该行进行编辑。如果不..
分类:
其他好文 时间:
2015-12-24 00:52:24
阅读次数:
164
sed概述:sed是一种流编辑器,是文本处理中非常重要的工具,能够完美的配合正则表达式使用。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(patternspace),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重..
分类:
其他好文 时间:
2015-12-24 00:40:39
阅读次数:
167
grep以及正则表达式正则表达式是基本的文本处理常识,理解和掌握好grep以及正则表达式对进行文本处理尤为重要Grep根据模式(文本字符和正则表达式的元字符组合而成匹配条件)搜索文本,并将符合模式的文本行显示出来。1.1grep家族:grep:基本正则表达式使用的命令egrep:扩展正..
分类:
其他好文 时间:
2015-12-22 06:37:36
阅读次数:
218