Overview Lesson 26 - Embeddings and Word2vec Lesson 27 - Siraj's Style Transfer Log 3/10/2017: Lesson 26; Reading Note Lesson 26 - Embeddings and Word ...
分类:
其他好文 时间:
2017-03-11 10:39:24
阅读次数:
162
首先,大概讲一下自然语言处理的背景。互联网上充斥着大规模、多样化、非结构化的自然语言描述的文本,如何较好的理解这些文本,服务于实际业务系统,如搜索引擎、在线广告、推荐系统、问答系统等, 给我们提出了挑战。例如在效果广告系统中,需要将 Query(User or Page) 和广告 Ad 投影到相同的 ...
分类:
其他好文 时间:
2017-02-18 18:49:11
阅读次数:
2428
环境: win7+python3.51. 下载wiki中文分词语料 使用迅雷下载会快不少,大小为1个多G https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 2. 安装opencc用于中文的简繁... ...
分类:
编程语言 时间:
2017-02-18 18:35:17
阅读次数:
7001
背景:当读取一个key value数据的时候,python的字典结构会造成内存使用扩10倍左右,无可容忍。此文解决这个问题 数据:word2vec训练的结果,word对应400维的词向量。词表共1.6G左右 解决方案:利用python的class array进行解决。 步骤:1、将原始数据,转化成k ...
分类:
编程语言 时间:
2016-12-15 14:28:01
阅读次数:
259
看看一只豆瓣影视小爬虫是如何诞生的,JewelCrawler可以爬影视详情和短评并基于Word2Vec做情感分析,代码已经发在Github上。 ...
分类:
编程语言 时间:
2016-12-11 15:02:18
阅读次数:
276
抓了20000多条的短评数据,利用Word2Vec算法做了一回情感分析,透过这些几个字到几百个字不等的短评来一窥评论者的喜怒哀乐。看看如何使用中文分词器以及加载停用词库,Word2Vec又是如何构建语料库,训练数据集以及得到模型的。 ...
分类:
编程语言 时间:
2016-12-04 07:51:59
阅读次数:
817
R语言由于效率问题,实现自然语言处理的分析会受到一定的影响,如何提高效率以及提升词向量的精度是在当前软件环境下,比较需要解决的问题。
笔者认为还存在的问题有:
1、如何在R语言环境下,大规模语料提高运...
分类:
编程语言 时间:
2016-11-18 16:09:22
阅读次数:
3040
词向量的表示主流的有两种方式,一种当然是耳熟能详的google的word2vec,还有一类就是GloVe。那么前面一类有三个开源的包,后面这一类我倒是看到得不多,恰好是在我关注了许久的一个包里面有,它...
分类:
其他好文 时间:
2016-11-17 20:45:26
阅读次数:
1329
大学前基础教育,耐力,怀疑精神书籍:鲁滨逊漂流记,大卫-科波菲尔 大学C语言,C++基础,汇编,自动控制,高等数学,物理,电路基础,GPS等软件工程师初级,遗传算法人文基础,自由主义学说,渴望了解并改变世界人文书籍:1984,论自由,人生中不可不想的事,野火集,人权是什么 研究生数学,算法,机器学习 ...
分类:
其他好文 时间:
2016-11-13 02:16:40
阅读次数:
253
笔者寄语:2013年末,Google发布的 word2vec工具引起了一帮人的热捧,大家几乎都认为它是深度学习在自然语言领域的一项了不起的应用,各种欢呼“深度学习在自然语言领域开始发力 了”。
基于w...
分类:
编程语言 时间:
2016-10-31 22:19:25
阅读次数:
338