第五课-第一讲05_01_egrep及扩展正则表达式正则表达式是使得计算机变智能的一个重要途径。掌握正则表达式是基本的文本处理常识。正则表达式分两类:BasicREGEXP基本的正则表达式ExtendedREGEXP扩展的正则表达式grep:使用基本正则表达式定义的模式来过滤文本的命令-i-v-o--color-E使用扩展正则表达式-A#after显示匹配结果后面#行-B#before显示匹配结果
分类:
其他好文 时间:
2018-07-14 10:25:23
阅读次数:
189
1. 将word映射到一个新的空间中,并以多维的连续实数空间向量进行表示,叫做 ,或者 . 2. n gram: n gram是一种统计语言模型。根据前n 1个item预测第n个item,这些item可以是音素(语言识别应用),字符(输入法应用),词(分词应用)或碱基对。一般可以从大规模文本或者语料 ...
分类:
其他好文 时间:
2018-07-13 23:45:21
阅读次数:
292
如果你看完有信心能坚持学习的话,那就当下开始行动吧!一、大数据技术基础1、linux操作基础linux系统简介与安装linux常用命令–文件操作linux常用命令–用户管理与权限linux常用命令–系统管理linux常用命令–免密登陆配置与网络管理linux上常用软件安装linux本地yum源配置及yum软件安装linux防火墙配置linux高级文本处理命令cut、sed、awklinux定时任务
分类:
其他好文 时间:
2018-07-13 16:24:50
阅读次数:
190
一、前述 Python上著名的?然语?处理库?带语料库,词性分类库?带分类,分词,等等功能强?的社区?持,还有N多的简单版wrapper。 二、文本预处理 1、安装nltk 安装语料库 (一堆对话,一对模型) 2、功能一览表: 3、文本处理流程 4、Tokenize 把长句?拆成有“意义”的?部件 ...
分类:
编程语言 时间:
2018-07-08 10:46:46
阅读次数:
524
1 from threading import Thread 2 from multiprocessing import Queue 3 4 5 def inp(q): 6 while True: 7 inp_str = input(">>>>").strip() 8 q.put(inp_str) ...
分类:
编程语言 时间:
2018-07-07 23:07:42
阅读次数:
210
sed是一种流编编器,它是文本处理中非常中的工具,能够完美的配合正则表达式便用,功物能不同凡响。 处理时,把当前处理的行存储在临时缓冲区中,称为”模式空间”( oattern space),接看用sed命令处理缓冲区中的内容,处理成后,把缓冲区的内容送往屏幕显示。 接着理下一行,这样不断重复,直到文... ...
分类:
系统相关 时间:
2018-07-01 15:17:21
阅读次数:
302
通配符的使用 拼接字段 文本处理函数的使用RTRIM和LTRIM 排序ORDER BY并以列号指代某一列 NOT操作符,检索除某一项之外的所有数据 IN操作符,检索在某个条件范围内的数据 文本处理函数UPPER和LOWER的使用,将列值转换为大写或者转换成小写 时间处理函数DATEPART的使用,取 ...
分类:
数据库 时间:
2018-06-28 13:49:47
阅读次数:
153