在了解什么是**嵌入(embeddings)**之前,我们需要先搞清楚一个词语在NLP中是如何被表示的 注:本次不涉及任何具体算法,只是单纯对概念的理解 词汇表征 One-Hot 词汇的表示方法有很多,最有名的肯定是独热编码(One-Hot )了。因为不是重点,所以下面只简单介绍一下 废话不多说,上 ...
分类:
其他好文 时间:
2021-07-02 16:21:47
阅读次数:
0
机器人NLP模型介绍 1. 预训练模型 首先试验了以下三个预训练模型在语义相似度任务上的效果: hfl-chinese-roberta-wwm-ext hfl-chinese-roberta-wwm-ext-large bert-base-chinese 处于效率的考虑,进行语义相似度任务的时候不是 ...
分类:
其他好文 时间:
2021-06-16 17:50:04
阅读次数:
0
目录 1.中文语料常常遇到编码问题,将任意字符集文件转为utf-8编码 2.将unlabel文件夹中的所有.txt文件合并,每个文件之间空一行 3.随机抽取.txt文件中的60%,20%,5% 4.将已经分好词的文件去掉空格(正则),恢复成文件原来的样子 5.读取excel文件转换成.json文件 ...
分类:
其他好文 时间:
2021-06-04 18:46:36
阅读次数:
0
1.安装启动检查Mysql服务。netstat -tunlp (3306) 2.spark 连接mysql驱动程序。–cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars 3.启动 Mysql ...
分类:
数据库 时间:
2021-06-02 15:40:05
阅读次数:
0
什么是NLP? NLP 自然语言处理 CNN 卷积神经网络 RNN - Recurrent Neural Network 循环神经网络 LSTM - Long Short-Term Memory 长短期记忆 word2vec doc2vec ...
分类:
编程语言 时间:
2021-05-24 15:06:13
阅读次数:
0
Transformer Transformer最早在NLP领域出现。 ViT 后被引入到计算机视觉领域。最开始是ViT。 ...
分类:
其他好文 时间:
2021-04-27 15:17:24
阅读次数:
0
利用tensorflow2自带keras搭建BiLSTM+CRF的序列标注模型,完成中文的命名实体识别任务。这里使用数据集是提前处理过的,已经转成命名实体识别需要的“BIO”标注格式。 详细代码和数据:https://github.com/huanghao128/zh-nlp-demo 模型结构 B ...
分类:
其他好文 时间:
2021-04-20 14:56:02
阅读次数:
0
**本报告是本人在自学自然语言处理文本摘要方向初期研读综述性论文、博客、网站等后总结的综述报告。** 主要内容:1)文本摘要简介(是什么?)2)文本摘要现状(怎么样?)3)文本摘要分类(有哪些?)4)文本摘要主要技术5)附页 一、 文本摘要简介(是什么?)文本摘要是指通过各种技术,对文本或者是文本的 ...
分类:
其他好文 时间:
2021-04-19 14:39:37
阅读次数:
0
背景 在nlp领域,预训练模型bert可谓是红得发紫。 但现在能搜到的大多数都是pytorch写的框架,而且大多都是单输出模型。 所以,本文以 有相互关系的多层标签分类 为背景,用keras设计了多输出、参数共享的模型。 keras_bert基础应用 def batch_iter(data_path ...
分类:
其他好文 时间:
2021-03-08 13:18:36
阅读次数:
0
将类似于 git clone https://github.com/graykode/nlp-tutorial 的命令改成 https://github.com.cnpmjs.org/graykode/nlp-tutorial 这样的,就可以了 ...
分类:
其他好文 时间:
2021-02-19 13:12:05
阅读次数:
0