vim 编辑器介绍 vim 编辑器是一款非常棒的文本处理工具,它会默认安装在当前所有的 Linux 操作系统上面。 vim 编辑器中设置了三种模式,可以极大的提高我们的工作效率: 命令模式:控制光标移动,可对文本进行复制、粘贴、删除、查找…… 输入模式:正常的输入模式。 末行模式:保存或退出文档,以 ...
分类:
系统相关 时间:
2021-06-16 18:22:41
阅读次数:
0
本文所指之数据工程,限定于: 数据分析、数据采集(集成) 1 网站 spider-flow - 智能高效的在线爬虫 spider-flow 是一个无需写代码的爬虫平台,以图形化方式定义爬虫流程,无需代码即可实现一个爬虫 superset.workerindata.com - 账号: bilibili ...
分类:
数据库 时间:
2021-06-11 18:27:40
阅读次数:
0
一、概念 正则表达式是一种文本处理工具,通常用来检索、替换某个符合规则或者模式的文本。 二、字符串中的使用 1.通过String的matches()方法可以验证一个字符串是否匹配某个正则表达式(返回值,boolean),常用于检查某个字符串是否符合特定规则。 2.split()方法可以将字符串从正则 ...
分类:
编程语言 时间:
2021-06-05 17:43:19
阅读次数:
0
目录 1.中文语料常常遇到编码问题,将任意字符集文件转为utf-8编码 2.将unlabel文件夹中的所有.txt文件合并,每个文件之间空一行 3.随机抽取.txt文件中的60%,20%,5% 4.将已经分好词的文件去掉空格(正则),恢复成文件原来的样子 5.读取excel文件转换成.json文件 ...
分类:
其他好文 时间:
2021-06-04 18:46:36
阅读次数:
0
1.文本编辑介绍 Linux文本处理工具: nano #字符工具,全屏显示 gedit #图形化工具,全屏显示 vi #文本编辑器,centos最小化安装自带 vim #从vi发展来的文本编辑器,有插入模式、命令模式、扩展模式 cat #可查看文本内容 tac #逆向显示文本内容 nl #文本查看, ...
分类:
系统相关 时间:
2021-05-24 02:04:30
阅读次数:
0
from PIL import Image import wordcloud import numpy as np import matplotlib.pyplot as plt import jieba #文本处理 def f(): with open('停用词.txt','r',encoding ...
分类:
其他好文 时间:
2021-04-28 12:10:50
阅读次数:
0
from PIL import Image import wordcloud import numpy as np import matplotlib.pyplot as plt import jieba #文本处理 def f(): with open('停用词.txt','r',encoding ...
分类:
其他好文 时间:
2021-04-28 12:10:30
阅读次数:
0
(1)python是完全面向对象的语言1 + 1 函数、模块、数字、字符串都是对象,在python中一切皆对象 完全支持继承、重载、多重继承 支持重载运算符,也支持泛型设计 (2)python拥有一个强大的标准库 Python标准库提供了系统管理、网络通信、文本处理、数据库接口图形 系统、xml处理 ...
分类:
编程语言 时间:
2021-04-26 14:09:10
阅读次数:
0
一.简单的文本处理 2.数据流重定向 将标准错误重定向到标准输出,再将标准输出重定向到文件,注意要将重定向到文件写到前面 cat Documents/xx.txt hell.sh >somefile 2>&1 或者只用bash提供的特殊的重定向符号"&"将标准错误和标准输出同时重定向到文件 cat ...
分类:
系统相关 时间:
2021-04-23 12:02:43
阅读次数:
0
Shell工具 cut:可以切割提取指定列\字符\字节的数据 cut可以将文本按列进行划分的文本处理,cut命令逐行度入文本,然后按列划分字段并进行提取,输出等操作 选项参数: -f 提取范围 列号,获取第几列 -d 自定义分隔符 自定义分隔符,默认为制表符 -c 提取范围 以字符为单位进行分割 - ...
分类:
系统相关 时间:
2021-04-22 16:20:19
阅读次数:
0