本文介绍常见的文本表示模型,One-hot、词袋模型(BOW)、TF-IDF、N-Gram和Word2Vec 一、离散表示 1、One-hot编码 One-hot编码是非常用的方法,我们可以用One-hot编码的方式将句子向量化,大致步骤为: 用构造文本分词后的字典 对词语进行One-hot编码 J ...
分类:
其他好文 时间:
2019-09-05 22:57:26
阅读次数:
1878
1、ngram and MeCab full-text parser plugins 全文检索在MySQL里面很早就支持了,只不过一直以来只支持英文。缘由是他从来都使用空格来作为分词的分隔符,而对于中文来讲,显然用空格就不合适,需要针对中文语义进行分词。但从MySQL 5.7开始,MySQL内置了n ...
分类:
数据库 时间:
2019-09-04 11:45:50
阅读次数:
117
一、数据挖掘 中文分词 ? 一段文字不仅仅在于字面上是什么,还在于怎么切分和理解。? 例如: – 阿三炒饭店: – 阿三 / 炒饭 / 店 阿三 / 炒 / 饭店? 和英文不同,中文词之间没有空格,所以实现中文搜索引擎,比英文多了一项分词的任务。? 如果没有中文分词会出现: – 搜索“达内”,会出现 ...
分类:
其他好文 时间:
2019-09-04 09:35:50
阅读次数:
108
filter是不计算相关性的,同时可以cache,因此,filter速度要快于query 1、准备数据 2、查询price是40的;查询price是25或者40的 3、查询itemID是ID100123的,用第一种方式查询不出来,因为创建时itemID的mapping类型默认是text,存储时分词, ...
分类:
其他好文 时间:
2019-09-04 09:24:23
阅读次数:
64
match 查询知道分词器的存在,会对field进行分词操作,然后再查询。而term不会分词,会把field当成一个整体查询。(备注:数据来自于上一篇) 1、用match查询name是zhaoliu或者zhaoming的,能查出两条记录,而用term查询不出来,因为倒排索引列表中没有 "zhaoli ...
分类:
其他好文 时间:
2019-09-01 16:42:13
阅读次数:
92
import jieba fp1=r'D:/python/a.txt' outph=r'D:/python/out.txt' f=open(fp1,'r',encoding='utf-8') txt=f.read().strip() f.close() words=jieba.lcut(txt) f... ...
分类:
其他好文 时间:
2019-08-31 19:11:08
阅读次数:
340
今天我将介绍20个属于我常用工具的Python库,我相信你看完之后也会觉得离不开它们。他们是: Requests.Kenneth Reitz写的最富盛名的http库。每个Python程序员都应该有它。 Scrapy.如果你从事爬虫相关的工作,那么这个库也是必不可少的。用过它之后你就不会再想用别的同类 ...
分类:
编程语言 时间:
2019-08-27 19:11:18
阅读次数:
80
作用域和闭包(一) 一、作用域是什么? 1、概念:设计好一套规则来存储变量,并且之后可以方便找到这些变量。(并且之后对这个值可以进行访问和修改。) 2、传统编译语言流程:程序中的源代码在执行之前,会经历以下三个步骤,统称为“编译”; (1)分词/词法分析。(这个·过程会将由字符组成的字符串分解成(对 ...
分类:
其他好文 时间:
2019-08-25 16:19:49
阅读次数:
84
一.过去分词做状语的基本用法: 过去分词做状语主要是说明谓语动作发生的背景或条件;表示原因、时间、条件、让步、方式或伴随状况等。过去分词可置于主句前,也可以置于主句后,用逗号于主句隔开。 1.原因状语 Choked by the heavy smoke, he could hardly breath ...
分类:
其他好文 时间:
2019-08-25 00:42:19
阅读次数:
87
当前文本向量化主流的方式是word2vec词向量技术,从基于统计的方法,到基于神经网络的方法,掌握word2vec词向量技术是学习文本向量化的最好的方式 下面是Tomas MIkolov的三篇有关word embedding的文章: 1、Efficient Estimation of Word Re ...
分类:
其他好文 时间:
2019-08-24 23:16:59
阅读次数:
175