机器学习算法与自然语言处理出品@公众号原创专栏作者刘聪NLP学校|中国药科大学药学信息学硕士知乎专栏|自然语言处理相关论文前几天写了一篇短文本相似度算法研究的文章,不过里面介绍的方法基本上都是基于词向量生成句子向量的方法。今天在这里就介绍一下传统算法TF-IDF是如何计算短文本相似度的。TF-IDF是英文TermFrequency–InverseDocumentFrequency的缩写,中文叫做词
分类:
其他好文 时间:
2020-11-25 12:59:04
阅读次数:
10
工业界nlp相关的实际应用和框架 目录: Word2Vec词向量简述 word2vec模型训练简单案例 tf-idf、朴素贝叶斯的短文本分类简述 tensorflow文本分类实战——卷积神经网络CNN word2vec+textcnn文本分类简述及代码(包含中文文本分类实战) 使用inception ...
分类:
其他好文 时间:
2020-11-08 17:02:05
阅读次数:
20
对于请求反馈使用线程来提速 """ Function: get similarity query Author: dengyx DateTime: 20201019 """ import jieba import time import tqdm import threading import qu ...
分类:
编程语言 时间:
2020-10-22 22:46:19
阅读次数:
27
# coding=utf-8 """ @ File: word2vec_gensim.py @Software: PyCharm @desc: """ from gensim.models import word2vec import logging logging.basicConfig(form ...
分类:
其他好文 时间:
2020-08-13 22:13:28
阅读次数:
66
Contextualized Word Embedding# 同样的单词有不同的意思,比如下面的几个句子,同样有 “bank” ,却有着不同的意思。但是用训练出来的 Word2Vec 得到 “bank” 的向量会是一样的。向量一样说明 “word” 的意思是一样的,事实上并不是如此。这是 Word2 ...
分类:
其他好文 时间:
2020-08-06 23:15:45
阅读次数:
81
NLP——新闻文本分类:TASK3 深度学习Fasttext Fasttext是一种深度学习词向量的表示方法,它是一种三层神经网络,包含输入层,隐含层和输出层。 模型架构:fastText 模型输入一个词的序列(一段文本或者一句话),输出这个词序列属于不同类别的概率。序列中的词和词组组成特征向量,特 ...
分类:
其他好文 时间:
2020-07-28 00:21:27
阅读次数:
93
1. 例子 import numpy as np import torch from torch import nn, optim from torchtext import data, datasets import numpy as np import torch from torch impo ...
分类:
其他好文 时间:
2020-07-25 09:23:34
阅读次数:
111
目录 大纲概述 数据集合 数据处理 预训练word2vec模型 一、大纲概述 文本分类这个系列将会有8篇左右文章,从github直接下载代码,从百度云下载训练数据,在pycharm上导入即可使用,包括基于word2vec预训练的文本分类,与及基于近几年的预训练模型(ELMo,BERT等)的文本分类。... ...
分类:
其他好文 时间:
2020-07-22 23:32:07
阅读次数:
80
目录 大纲概述 数据集合 数据处理 预训练word2vec模型 一、大纲概述 文本分类这个系列将会有8篇左右文章,从github直接下载代码,从百度云下载训练数据,在pycharm上导入即可使用,包括基于word2vec预训练的文本分类,与及基于近几年的预训练模型(ELMo,BERT等)的文本分类。... ...
分类:
其他好文 时间:
2020-07-22 23:31:28
阅读次数:
91
目录 大纲概述 数据集合 数据处理 预训练word2vec模型 一、大纲概述 文本分类这个系列将会有8篇左右文章,从github直接下载代码,从百度云下载训练数据,在pycharm上导入即可使用,包括基于word2vec预训练的文本分类,与及基于近几年的预训练模型(ELMo,BERT等)的文本分类。... ...
分类:
其他好文 时间:
2020-07-22 23:30:07
阅读次数:
176