码迷,mamicode.com
首页 >  
搜索关键字:语料库    ( 191个结果
4 关于word2vec的skip-gram模型使用负例采样nce_loss损失函数的源码剖析
tf.nn.nce_loss是word2vec的skip-gram模型的负例采样方式的函数,下面分析其源代码。 1 上下文代码 其中, train_inputs中的就是中心词,train_label中的就是语料库中该中心词在滑动窗口内的上下文词。 所以,train_inputs中会有连续n-1(n为 ...
分类:其他好文   时间:2018-07-09 17:17:32    阅读次数:621
【自然语言处理篇】--以NLTK为基础讲解自然语?处理的原理
一、前述 Python上著名的?然语?处理库?带语料库,词性分类库?带分类,分词,等等功能强?的社区?持,还有N多的简单版wrapper。 二、文本预处理 1、安装nltk 安装语料库 (一堆对话,一对模型) 2、功能一览表: 3、文本处理流程 4、Tokenize 把长句?拆成有“意义”的?部件 ...
分类:编程语言   时间:2018-07-08 10:46:46    阅读次数:524
【聊天机器人篇】--聊天机器人从初始到应用
一、前述 维基百科中的机器人是指主要用于协助编者执行大量自动化、高速或机械式、繁琐的编辑工作的计算机程序或脚本及其所登录的帐户。 二、具体 1、最简单的就是基于Rule-Base的聊天机器人。 也就是计算设计好语料库的问答语句。 就是小学生级别的 问什么 答什么 结果: 2、升级I: 显然 这样的r ...
分类:其他好文   时间:2018-07-08 01:04:58    阅读次数:216
机器学习
《人工智能》学习顺序 1.Python语言 2.数学课程 3.深度学习 4.机器学习 5.量化交易 6.数据挖掘 7.Kaggle课程 8.openCV 计算机视觉课程 9.NLP课程 10.算法进阶 CSDN微博--人工智能学习方法: https://blog.csdn.net/lixiaowei ...
分类:其他好文   时间:2018-07-07 01:11:01    阅读次数:234
Python人工智能之路 - 第四篇 : jieba gensim 最好别分家之最简单的相似度实现
简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当于计算机在思考你说的话,让计算机知道"你是谁","你叫啥 ...
分类:编程语言   时间:2018-07-06 19:43:33    阅读次数:517
N-Gram
一、什么是N-Gram N-Gram是一种统计语言模型,用来根据前(n-1)个item来预测第n个item。在应用层面,这些item字符(输入法应用)等。一般来讲,可以从大规模文本或音频语料库生成N-Gram模型。 习惯上,1-gram叫unigram,2-gram称为bigram,3-gram是t ...
分类:其他好文   时间:2018-07-05 14:47:19    阅读次数:375
brotli压缩
brotli压缩 https://www.cnblogs.com/shanyou/p/9154816.html Brotli是一种全新的数据格式,可以提供比Zopfli高20 26%的压缩比。据谷歌研究,Brotli压缩速度同zlib的Deflate实现大致相同,而在Canterbury语料库上的压 ...
分类:其他好文   时间:2018-06-11 23:39:32    阅读次数:662
获得文本语料和词汇资源
语料库的访问方法: raw( ) 没有经过任何语言学处理之前把文件内容分析出来 words( ) 把文本处理成一个个单词 sents( ) 把文本划分成语句,其中每一个句子都是一个词汇链表 注意: 数值比较: == 单词比较: = 条件频率分布 条件频率分布是一个对许多NLP都有用的数据结构。 频率 ...
分类:其他好文   时间:2018-06-08 00:42:29    阅读次数:170
Kaldi的关键词搜索(Keyword Search,KWS)
本文简单地介绍了KWS的原理——为Lattice中每个词生成索引并进行搜索;介绍了如何处理OOV——替补(Proxy,词典内对OOV的替补)关键词技术;介绍了KWS的语料库格式;介绍了KWS在Kaldi中的示例训练脚本和搜索脚本。 KWS系统示例: 论文下载: http://www.clsp.jhu... ...
分类:其他好文   时间:2018-06-07 21:49:33    阅读次数:1148
02-NLP-gensim中文处理案例
word2vec训练中文模型 1.准备数据与预处理 首先需要一份比较大的中文语料数据,可以考虑中文的维基百科(也可以试试搜狗的新闻语料库)。中文维基百科的打包文件地址为 https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-art ...
分类:其他好文   时间:2018-05-27 16:22:37    阅读次数:181
191条   上一页 1 ... 7 8 9 10 11 ... 20 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!