当基于文本的文件上传到 Confluence(例如,Word,PowerPoint 等),这些文件中的文本是可以提取并且添加到索引中的,用户可以通过索引来搜索这些文件中的文本内容,不仅仅是搜索文件名。当文件需要被重新索引的时候,我们存储提取后的文本,我们不需要对文本中的内容重新进行索引。 提取后的文 ...
分类:
其他好文 时间:
2018-06-29 00:17:44
阅读次数:
183
当基于文本的文件上传到 Confluence(例如,Word,PowerPoint 等),这些文件中的文本是可以提取并且添加到索引中的,用户可以通过索引来搜索这些文件中的文本内容,不仅仅是搜索文件名。当文件需要被重新索引的时候,我们存储提取后的文本,我们不需要对文本中的内容重新进行索引。提取后的文本文件,通常是以版本号进行命名的,例如 2.extracted_text, 同时还会存储文件自己的版本
分类:
其他好文 时间:
2018-06-29 00:13:35
阅读次数:
192
今日完成任务情况 杜世康:弹幕数据的分析 刘丹:弹幕数据的分析 李玉莹:弹幕数据的分析 曹莹雯:数据可视化 尹楠: 数据可视化 王静雅:数据可视化并撰写Beta冲刺博文 以下是英雄联盟直播间部分弹幕数据的分析结果 关键字提取 文本分类 情感分析 从情感分析结果来看,网友的负面情绪58.93%,正面情 ...
分类:
其他好文 时间:
2018-06-26 22:37:47
阅读次数:
240
cut提取文本并输出-d指定分隔符-c以字符为单位-f以d分割后的第几部分示例:1-d和-f使用取出以:为分隔符,第2部分的内容[root@mailtmp]#echoni:hao|cut-d":"-f2hao2-c使用取第2个字符[root@mailtmp]#echoni:hao|cut-c2i取2到6的字符[root@mailtmp]#echoni:hao|cut-c2-6i
分类:
系统相关 时间:
2018-06-21 13:36:51
阅读次数:
178
背景是这样的,我手上有一份统计表,需要将IP地址里的省市提取出来,以便于处理。因此我首先想到了Python里的正则表达式,打算写一个自定义函数去批量提取。然而之前没学VBA里的正则表达式语法,因此就去网上搜了一下,结果发现根本不能运行。几经辗转,总算搞定,因此总结一下,供后来者参考。 编程目的:实现 ...
分类:
编程语言 时间:
2018-06-19 20:39:02
阅读次数:
2609
首先安装pyltp "pytlp项目首页" 单例类 使用pyltp提取地址 python import os from pyltp import Segmentor, Postagger, NamedEntityRecognizer from main.models.Singleton import ...
分类:
其他好文 时间:
2018-06-13 23:30:53
阅读次数:
611
测试中经常会遇到对数据的处理,比如我要删除某些特定数据,数据源是从网页请求中抓取,这时候可能复制下来一大堆内容,其中我们只需要特定的某些部分,笔者通常做法是拷贝到notepad++中处理,结合RegTester工具,但是RegTest需要导出匹配数据,不能直接拷贝,稍微麻烦了一点点......于是想 ...
分类:
编程语言 时间:
2018-04-21 12:47:29
阅读次数:
234
意义:关键词提取能让我们快速地了解一篇文章,或者从大量的语料中快速找到其想要说明的主题。特别是在信息化发展这么快的现状下,能够有效的提取文本的关键词,对于快速,及时,高效地获取信息非常有帮助。 技术:TF-IDF(term frequency-inverse document frequency) ...
分类:
其他好文 时间:
2018-03-20 18:06:37
阅读次数:
169
因为要做文本相似性对比,所以需要大量资料,也需要把这些资料进行存储,进行比对时可以直接提取文本的id 首先对MYSQL进行安装,我是从百度软件库中下载的MYSQL, 安装 然后进行安装,之前我从官网下载的,使用不了,可能是之前已经安装了一遍MYSQL,百度软件这个是安装时自带32/64位,你可以自己 ...
分类:
数据库 时间:
2018-01-27 15:28:50
阅读次数:
217
XPATH语法: // 定位根标签 / 往下层寻找 /text() 提取文本内容 /@xxx 提取属性内容 Sample: ...
分类:
编程语言 时间:
2018-01-16 18:40:34
阅读次数:
203