1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] ...
分类:
其他好文 时间:
2021-04-23 12:10:50
阅读次数:
0
一.简单的文本处理 2.数据流重定向 将标准错误重定向到标准输出,再将标准输出重定向到文件,注意要将重定向到文件写到前面 cat Documents/xx.txt hell.sh >somefile 2>&1 或者只用bash提供的特殊的重定向符号"&"将标准错误和标准输出同时重定向到文件 cat ...
分类:
系统相关 时间:
2021-04-23 12:02:43
阅读次数:
0
1、测试1 [root@centos7 test2]# ls a.txt [root@centos7 test2]# if [ -e a.txt ]; then echo "exist";else echo "no nxist"; fi exist [root@centos7 test2]# if ...
分类:
系统相关 时间:
2021-04-23 11:53:02
阅读次数:
0
导入数据: #1、导入制表符分隔的数据 cat /data/ZDGL/stateAnalysis/dmt_term_stateAnalysisALL202010.txt | clickhouse-client -u default --password 6lYaUiFi --query="INSER ...
分类:
其他好文 时间:
2021-04-22 16:18:59
阅读次数:
0
功能描述 对于百度、360等搜索引擎,后台有提交网站地图(sitemap)的需求。以百度为例,规定网站地图的格式为xml或者txt,并且有比较严格的格式要求,django自带sitemap功能,但是使用起来比较麻烦,相关教程也非常少,还不够灵活,这里自定义一个类,实例化之后以比较灵活的方式来生成网站 ...
分类:
Web程序 时间:
2021-04-22 15:44:36
阅读次数:
0
在要创建文档的文件夹里新建一个文本文档。 打开该文档,把下面的命令复制粘贴进去。 命令: @echo off for /L %%x in (1,1,10) do @echo %%x>%%x.txt 按下ctrl+S键保存该内容后,关闭该文档。 选择该文档,按下f2键进行重命名。把后缀名改为bat。 ...
分类:
其他好文 时间:
2021-04-22 15:18:09
阅读次数:
0
一.安装 1.下载官网:https://tomcat.apache.org/ 2.将下载后的包解压到目录中会出现以下页面 3.设置环境变量,向path中添加tomcat的bin目录地址 4.cmd进入tomcat的bin目录,输入:service.bat install 4.启动与关闭: ? 启动: ...
分类:
其他好文 时间:
2021-04-22 15:15:50
阅读次数:
0
解压得到以下压缩包 打开hint.txt、pic.jpg、music.zip发现以下内容 解压music.zip发现要输入密码 因为pic.jpg里面包含盲文,所以pic.jpg里面的盲文应该就是解压密码。根据盲文对照表解出盲文kmdonowg,输入解压成功。 因为前有盲文,所以大胆猜测后面的音频应 ...
分类:
其他好文 时间:
2021-04-21 12:12:44
阅读次数:
0
#不要加空格 time1=$(date) echo $time1 > /tmp/output.txt ...
分类:
系统相关 时间:
2021-04-21 11:49:37
阅读次数:
0
一、词频统计: 1.读文本文件生成RDD lines lines = sc.textFile('file:///home/hadoop/word.txt') 2.将一行一行的文本分割成单词 words flatmap() words=lines.flatMap(lambda line:line.sp ...
分类:
其他好文 时间:
2021-04-20 15:02:06
阅读次数:
0