首先了解一下软件。 文章生成模板,只要又三个标签组成【标题】【关键词】【分词】 软件生成的文章格式和文字数量,都会根据模板的变化而变化,模板可以随意修改。 通过增加【分词】标签,可以增加单篇文章字数和段落数量。 通过穿插【关键词】标签,可以增加文章的关键词密度。 通过穿插【标题】标签,也可以起到同上 ...
分类:
其他好文 时间:
2019-11-11 12:50:38
阅读次数:
130
【节流】是【地铁门】,【防抖】是【电梯门】(:D) shaller于10:45:00 throttle英 [?θr?tl] 美 [?θrɑ?tl] v.使窒息;掐死;勒死n.节流阀;节流杆;风门;风门杆第三人称单数: throttles 复数: throttles 现在分词: throttling ...
分类:
其他好文 时间:
2019-11-09 11:57:28
阅读次数:
96
咨询行业中经常接触到文本类信息,无论是分词做词云图,还是整理编码分析用,都非常具有价值。 本文将记录使用scrapy框架爬取京东IPhone11评论的过程,由于一边学习一边实践,更新稍慢请见谅。 1.scrapy开始创建项目: scrapy startproject projectName 2. 进 ...
分类:
其他好文 时间:
2019-11-07 23:14:08
阅读次数:
152
IK分词器的使用 首先我们通过 发送 请求查询分词效果 得到如下结果,可以发现es的默认分词器无法识别中文中 、`银行`这样的词汇,而是简单的将每个字拆完分为一个词,这显然不符合我们的使用要求。 首先我们访问 https://github.com/medcl/elasticsearch analys ...
分类:
其他好文 时间:
2019-11-07 11:24:57
阅读次数:
77
http://pangusegment.codeplex.com PanGu.dll 调用方法 初始化 在进程启动时,我们需要对盘古分词进行初始化,初始化的调用代码如下: 默认方式初始化 PanGu.Segment.Init(); 这个调用将使用和 PanGu.dll 同路径下的 pangu.xml ...
分类:
其他好文 时间:
2019-11-06 14:56:38
阅读次数:
91
Elasticsearch也是基于Lucene的全文检索库,本质也是存储数据,很多概念与MySQL类似的。 对比关系: 索引(indices) Databases 数据库 ? 类型(type) Table 数据表 ? 文档(Document) Row 行 ? 字段(Field) Columns 列 ...
分类:
其他好文 时间:
2019-11-04 22:00:49
阅读次数:
106
前言: 最近在使用elasticSearch中发现有些数据查不出来,于是研究了一下,发现是分词导致的,现梳理并总结一下。 ElasticSearch 5.0以后,string类型有重大变更,移除了string类型,string字段被拆分成两种新的数据类型: text用于全文搜索的,而keyword用 ...
分类:
其他好文 时间:
2019-11-04 13:55:51
阅读次数:
180
阅读目录 回到顶部 1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba ...
分类:
编程语言 时间:
2019-11-03 22:05:59
阅读次数:
183
jieba库是Python中对中文分词效果比较好的一个库,最近正好看到MOOC上嵩天老师的课程,因此也跟着学了下 首先肯定需要安装jieba ,这个很简单,win+r cmd下运行以下代码即可,但是由于PY第三方库很多是国外源提供,速度比较慢,因此可能会出现报错等情况 新手们可以和我一样使用这样的方 ...
分类:
编程语言 时间:
2019-11-03 16:40:55
阅读次数:
71
一、BERT整体结构 BERT主要用了Transformer的Encoder,而没有用其Decoder,我想是因为BERT是一个预训练模型,只要学到其中语义关系即可,不需要去解码完成具体的任务。整体架构如下图: 多个Transformer Encoder一层一层地堆叠起来,就组装成了BERT了,在论 ...
分类:
其他好文 时间:
2019-11-03 14:43:43
阅读次数:
2446