写写写,写SCI,写基金,申项目,想混科研圈必须成为顶级写手,同样也要成为顶级talker! 写作的套路就很多,多看多写才是王道,最好要有自己的语料库,别偷懒。 这里只讲方法、套路、逻辑,不讲具体内容。 标题怎么写? 揭示类 Reveals Single-Cell RNA-Seq Reveals D ...
分类:
其他好文 时间:
2021-04-16 11:53:13
阅读次数:
0
Scikit-learn 之 TF-IDF TF-IDF基础 TF-IDF(Term Frequency-InversDocument Frequency)是一种常用于信息处理和数据挖掘的加权技术。该技术采用一种统计方法,根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料 ...
分类:
其他好文 时间:
2020-07-17 16:09:27
阅读次数:
71
TF-IDF算法原理及其使用详解 感觉之前学的不是很清晰,最主要理论和实践没有结合,这回结合一下~ TF-IDF(Term Frequency-inverse Document Frequency)是一种针对关键词的统计分析方法,用于评估一个词对一个文件集或者一个语料库的重要程度。一个词的重要程度跟 ...
分类:
编程语言 时间:
2020-06-13 12:35:30
阅读次数:
113
很多都用了NLP技术,许多计算研究领域都在研究计算机和人类语言之间的相互作用。它主要关注计算机如何准确、快速地处理大量自然语言语料库。什么是自然语言语料库?它是用现实世界的语言表达的语言学习,是从文本和语言与另一种语言的关系中理解一组抽象规则的综合方法。 ...
分类:
编程语言 时间:
2020-05-24 09:18:50
阅读次数:
73
13-垃圾邮件分类2 TF-IDF 概念 是一种统计方法,用以评估一个词对于一个语料库中一份文件的重要程度。 词的重要性随着在文件中出现的次数正比增加,同时随着它在语料库其他文件中出现的频率反比下降。就是说一个词在某一个文档中出现次数比较多,其他文档没有出现,说明该词对该份文档分类很重要。然而如果其 ...
分类:
其他好文 时间:
2020-05-23 20:23:01
阅读次数:
66
1.根据训练集语料库,计算出tfidf值 2.计算出测试语句每个词语的tfidf值(只有当测试语句的词语在训练语料库的dictionary中,测试语句的词语才会计算tfidf值) import jieba from gensim import corpora, similarities, model ...
分类:
其他好文 时间:
2020-05-23 16:30:17
阅读次数:
106
论文地址: https://hal.inria.fr/hal-02131630/document 作者 : Ganesh Jawahar, Benoît Sagot, Djamé Seddah 机构 : Inria 研究的问题: 探究BERT的深层次表征学习的论文,也就是通过实验研究BERT的可解释 ...
分类:
其他好文 时间:
2020-04-21 23:41:12
阅读次数:
172
XLM 预训练模型的使用 本文使用的是 "Transformer" 库的预训练模型, 主要是对 xlm 部分的翻译. xlm 模型是在 BERT 模型的基础上使用多种语言或者跨语言语料库训练得到的预训练模型, 根据训练数据与训练方法的不同, 有三张预训练模型, 分别是 a causal langua ...
分类:
其他好文 时间:
2020-03-26 20:01:44
阅读次数:
122
单词纠错 需要生成所有候选集合 读取语料库 构建语言模型:bigram 用户打错的概率 后续未完待续..... ...
分类:
其他好文 时间:
2020-03-20 22:34:08
阅读次数:
88
句子相似度可用于实现自动问答系统,本文将带你快速理解并上手实现一种计算句子相似度的算法。 ...
分类:
其他好文 时间:
2020-02-17 14:17:18
阅读次数:
85