搜索关键字：语料库，搜索到191个结果！码迷,mamicode.com！

4 关于word2vec的skip-gram模型使用负例采样nce_loss损失函数的源码剖析

tf.nn.nce_loss是word2vec的skip-gram模型的负例采样方式的函数，下面分析其源代码。 1 上下文代码其中， train_inputs中的就是中心词，train_label中的就是语料库中该中心词在滑动窗口内的上下文词。所以，train_inputs中会有连续n-1（n为 ...

分类：其他好文时间：2018-07-09 17:17:32 阅读次数：621

【自然语言处理篇】--以NLTK为基础讲解自然语?处理的原理

一、前述 Python上著名的?然语?处理库?带语料库，词性分类库?带分类，分词，等等功能强?的社区?持，还有N多的简单版wrapper。二、文本预处理 1、安装nltk 安装语料库 (一堆对话，一对模型) 2、功能一览表： 3、文本处理流程 4、Tokenize 把长句?拆成有“意义”的?部件 ...

分类：编程语言时间：2018-07-08 10:46:46 阅读次数：524

【聊天机器人篇】--聊天机器人从初始到应用

一、前述维基百科中的机器人是指主要用于协助编者执行大量自动化、高速或机械式、繁琐的编辑工作的计算机程序或脚本及其所登录的帐户。二、具体 1、最简单的就是基于Rule-Base的聊天机器人。也就是计算设计好语料库的问答语句。就是小学生级别的问什么答什么结果： 2、升级I：显然这样的r ...

分类：其他好文时间：2018-07-08 01:04:58 阅读次数：216

机器学习

《人工智能》学习顺序 1.Python语言 2.数学课程 3.深度学习 4.机器学习 5.量化交易 6.数据挖掘 7.Kaggle课程 8.openCV 计算机视觉课程 9.NLP课程 10.算法进阶 CSDN微博--人工智能学习方法： https://blog.csdn.net/lixiaowei ...

分类：其他好文时间：2018-07-07 01:11:01 阅读次数：234

Python人工智能之路 - 第四篇 : jieba gensim 最好别分家之最简单的相似度实现

简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥 ...

分类：编程语言时间：2018-07-06 19:43:33 阅读次数：517

N-Gram

一、什么是N-Gram N-Gram是一种统计语言模型，用来根据前(n-1)个item来预测第n个item。在应用层面，这些item字符（输入法应用）等。一般来讲，可以从大规模文本或音频语料库生成N-Gram模型。习惯上，1-gram叫unigram，2-gram称为bigram，3-gram是t ...

分类：其他好文时间：2018-07-05 14:47:19 阅读次数：375

brotli压缩

brotli压缩 https://www.cnblogs.com/shanyou/p/9154816.html Brotli是一种全新的数据格式，可以提供比Zopfli高20 26%的压缩比。据谷歌研究，Brotli压缩速度同zlib的Deflate实现大致相同，而在Canterbury语料库上的压 ...

分类：其他好文时间：2018-06-11 23:39:32 阅读次数：662

获得文本语料和词汇资源

语料库的访问方法： raw( ) 没有经过任何语言学处理之前把文件内容分析出来 words( ) 把文本处理成一个个单词 sents( ) 把文本划分成语句，其中每一个句子都是一个词汇链表注意：数值比较： == 单词比较： = 条件频率分布条件频率分布是一个对许多NLP都有用的数据结构。频率 ...

分类：其他好文时间：2018-06-08 00:42:29 阅读次数：170

Kaldi的关键词搜索（Keyword Search，KWS）

本文简单地介绍了KWS的原理——为Lattice中每个词生成索引并进行搜索；介绍了如何处理OOV——替补（Proxy，词典内对OOV的替补）关键词技术；介绍了KWS的语料库格式；介绍了KWS在Kaldi中的示例训练脚本和搜索脚本。 KWS系统示例：论文下载： http://www.clsp.jhu... ...

分类：其他好文时间：2018-06-07 21:49:33 阅读次数：1148

02-NLP-gensim中文处理案例

word2vec训练中文模型 1.准备数据与预处理首先需要一份比较大的中文语料数据，可以考虑中文的维基百科（也可以试试搜狗的新闻语料库）。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-art ...

分类：其他好文时间：2018-05-27 16:22:37 阅读次数：181

共191条上一页 1 ... 7 8 9 10 11 ... 20 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)