一、词频统计: 读文本文件生成RDD lines 将一行一行的文本分割成单词 words flatmap() 全部转换为小写 lower() 去掉长度小于3的单词 filter() 去掉停用词 转换成键值对 map() 统计词频 reduceByKey() 按字母顺序排序 按词频排序 10、结果文件 ...
分类:
其他好文 时间:
2021-04-23 12:06:34
阅读次数:
0
基于seq2seq文本生成的解码/采样策略 基于Seq2Seq模型的文本生成有各种不同的decoding strategy。文本生成中的decoding strategy主要可以分为两大类: Argmax Decoding: 主要包括beam search, class-factored softm ...
分类:
其他好文 时间:
2021-04-23 12:06:07
阅读次数:
0
一.简单的文本处理 2.数据流重定向 将标准错误重定向到标准输出,再将标准输出重定向到文件,注意要将重定向到文件写到前面 cat Documents/xx.txt hell.sh >somefile 2>&1 或者只用bash提供的特殊的重定向符号"&"将标准错误和标准输出同时重定向到文件 cat ...
分类:
系统相关 时间:
2021-04-23 12:02:43
阅读次数:
0
一、Nuget安装log4net --> Install-Package log4net 二、在AssemblyInfo.cs文件中添加log4net.dll的参数。 [assembly: log4net.Config.XmlConfigurator(ConfigFile = "log4net.co ...
Markdown 学习 一级标题 :一个#号加空格 一 二级标题 二级标题两个##加空格 二 三级标题 三级标题两个###加空格 字体 hello word hello word hello word 引用 程序化排版 用一个大于号 三个减号或三个星号 分割线 插入图片 超链接 连接超链接 [链接文 ...
分类:
其他好文 时间:
2021-04-22 16:23:22
阅读次数:
0
Shell工具 cut:可以切割提取指定列\字符\字节的数据 cut可以将文本按列进行划分的文本处理,cut命令逐行度入文本,然后按列划分字段并进行提取,输出等操作 选项参数: -f 提取范围 列号,获取第几列 -d 自定义分隔符 自定义分隔符,默认为制表符 -c 提取范围 以字符为单位进行分割 - ...
分类:
系统相关 时间:
2021-04-22 16:20:19
阅读次数:
0
开发工具:Android Studio TestView(线性布局) 1、基本属性: layout_width:组件宽度(单位dp) layout_height:组件高度 id:组件id text:文本内容 textColor:字体颜色 textStyle:字体风格,normal(无效果)、bold ...
分类:
移动开发 时间:
2021-04-22 16:12:15
阅读次数:
0
什么是Markdown? Markdown是一种轻量级的标记语言,可用于将格式设置元素添加到纯文本文档中。由John Gruber(约翰·格鲁伯)于2004年创建。Markdown编写的文档可以导出HTML、Word、图像、PDF、Epub等多种格式的文档。文档后缀为.md,.markdown。 为 ...
分类:
其他好文 时间:
2021-04-22 16:11:37
阅读次数:
0
(1)python 是完全 面向对象的语言 1+1 函数、模块、数字、字符串都是对象,在python中一切皆对象 完全支持继承运算符,也支持泛型设计 (2)python 标准库提供了系统管理、网络通信、文本处理、数据库接口图形系统、MXL 处理 等额外的功能 类似于 MySQL:avg,sum (3 ...
分类:
编程语言 时间:
2021-04-22 15:30:38
阅读次数:
0
HTML的基础知识 HTML 是超文本标记语言 超文本:不仅仅能表示文本的信息,还可以表示音视频、格式等等。 基础标签 标题标签 h1-h6 h1最大 h6最小 H1-h6 一起打字按住《alt+往下屡》 段落标签 P标签 标示页面的一个段落,自动换行 链接标签 A标签 作用是跳转:页间跳转 页内跳 ...
分类:
Web程序 时间:
2021-04-22 15:29:50
阅读次数:
0