1,alias别名简化复杂命令的输入aliasmyls=‘ls-lh‘#定义别名unaliasmyls#删除别名2,通配符:*:任意多个任意字符?:单个字符[a-z]:多个字符或连续范围中的一个,若无则忽略{a,min,xy}:多组不同的字符串,全匹配例:请列出/dev/tty20至/dev/tty30ls/dev/tty{2[0-9],30}3,根据字符串模式提取文本行格式:grep[选项]‘匹
分类:
系统相关 时间:
2018-01-12 17:04:51
阅读次数:
169
使用awk提取文本 1.1 问题 本案例要求使用awk工具完成下列过滤任务: 练习awk工具的基本用法 提取本机的IP地址、根分区使用率 格式化输出/etc/passwd文件中的用户名、UID、宿主目录信息 格式化输出passwd文件内容时,要求第一行为列表标题,最后一行提示一共已处理文本的总行数, ...
分类:
其他好文 时间:
2018-01-11 20:35:14
阅读次数:
214
SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextBlob不同的是,这里没有用NLTK,所有的算法都是自己实现的,并且自带了一些训练好的字典。 F ...
分类:
编程语言 时间:
2017-12-04 11:43:07
阅读次数:
334
背景:在linux使用过程中,经常需要查找文件,对命令中的通配符pattern和正则表达式的区分不是很清楚。有必要好好研究一下。 1 扫盲 1.1 通配符和正则表达式 当在使用命令行时,有很多时间都用来查找你所需要的文件,如ls find等。 S h e l l提供了一套完整的字符串模式匹配规则,或 ...
分类:
系统相关 时间:
2017-11-10 21:39:58
阅读次数:
553
提取文本的情况在工作和学习中常会遇到,在前面的文章中,已经讲述了如何提取PPT中文本框里的文本,在本篇文章中,将介绍如何使用C#代码语言提取PPT文档中SmartArt和批注中的文本。同样的,程序里面需要使用到FreeSpire.PPTfor.NET,在编写代码前,需先安装,并添引用dll文件到..
提取文本的情况在工作和学习中常会遇到,在前面的文章中,已经讲述了如何提取PPT中文本框里的文本,在本篇文章中,将介绍如何使用C#代码语言提取PPT文档中SmartArt和批注中的文本。同样的,程序里面需要使用到Spire.PPT for .NET,在编写代码前,需先安装,并添引用dll文件到项目程序 ...
结果: 8sparksoyo+ + + +|id |words |features |+ + + +|0 |[soyo, spark, soyo2, soyo, 8] |(3,[0,1,2],[1.0,1.0,2.0])||1 |[soyo, hadoop, soyo, hadoop, xiaozh ...
分类:
其他好文 时间:
2017-10-28 21:58:25
阅读次数:
179
使用Jsoup解析HTML 那么我们就必须用到HttpClient先获取到html 同样我们引入HttpClient相关jar包 以及commonIO的jar包 我们把httpClient的基本代码写上,然后解析网页 得到文档对象 我们获取title和制定id的文档对象 代码实例: 由于网页我是登陆 ...
分类:
Web程序 时间:
2017-10-07 18:40:39
阅读次数:
203
因业务需求,需要提取文本中带有检查字样的每一行。 样本如下: 我们要用的包:re(python 强大的正则包),codecs(专门用作编码转换) 思路:一种思路是直接用正则找出检查,按照样本可以这样写:\d{1,2}\s检查,属于一劳永逸的写法。还有一种就是下面比较裸的写法,先用python的rea ...
分类:
编程语言 时间:
2017-07-28 17:12:08
阅读次数:
246
###################################处理PDF和Word文档################################### ''' PDF和Word文档是二进制文件,除了文本之外, 它们还保存了许多字体、颜色和布局信息 ''' ''' 从PDF提取文本 '' ...
分类:
编程语言 时间:
2017-07-26 23:37:12
阅读次数:
229