NLP 分词或word2vec之前,一般都需要先进行标点符号的预处理,直接上解决的代码,精简。#!/usr/bin/env python# coding=utf-8from string import punctuationimport reimport sysreload(sys)sys.setd...
分类:
其他好文 时间:
2015-07-27 18:13:23
阅读次数:
316
#include
#include
#include
#include
#include #define MAX_STRING 100
#define EXP_TABLE_SIZE 1000
#define MAX_EXP 6
#define MAX_SENTENCE_LENGTH 1000
#d...
分类:
其他好文 时间:
2015-07-08 19:04:55
阅读次数:
252
序Word2Vec原生是不支持Windows的,索性就用Qt移植了一下。大概做了下面几件事。①替换LinuxAPI的pthread为QThread。②取消了posix_memalign(),内存对齐这玩意据说是编译器的活,不知道Mikolov为什么写出来,难道说源码是Google万能工程师+编译器高...
分类:
其他好文 时间:
2015-06-30 18:04:43
阅读次数:
180
基于社交网络的情绪化分析IIIBy 白熊花田(http://blog.csdn.net/whiterbear) 转载需注明出处,谢谢。前面进行了微博数据的抓取,简单的处理,这一篇进行学校微博的相似度分析。微博相似度分析这里试图计算任意两个学校之间的微博用词的相似度。思路:首先对学校微博进行分词,遍历获取每个学校的高频用词词典,组建用词基向量,使用该基向量构建每个学校的用词向量,最后使用TF-IDF算...
分类:
其他好文 时间:
2015-06-28 17:36:26
阅读次数:
160
Reference:http://blog.csdn.net/itplus/article/details/37969519 (Word2Vec解析(部分有错))源码:https://github.com/danielfrg/word2vec (Python封装C版,原Code.Google被墙了)...
分类:
其他好文 时间:
2015-06-26 19:27:24
阅读次数:
686
Deep Learning in NLP (一)词向量和语言模型这篇博客是我看了半年的论文后,自己对 Deep Learning 在 NLP 领域中应用的理解和总结,在此分享。其中必然有局限性,欢迎各种交流,随便拍。 Deep Learning 算法已经在图像和音频领域取得了惊人的成果,但是在 N....
分类:
编程语言 时间:
2015-06-25 21:04:30
阅读次数:
232
参考资料:http://ir.dlut.edu.cn/NewsShow.aspx?ID=291http://www.douban.com/note/298095260/http://machinelearning.wustl.edu/mlpapers/paper_files/BengioDVJ03....
分类:
其他好文 时间:
2015-06-18 19:07:51
阅读次数:
326
Reference:http://licstar.net/archives/328 (比较综合的词向量研究现状分析)起源:One-hot Representation、PCA序:为什么NLP在模式识别里面比较难?Licstar的文章开头这么提到:语言(词、句子、篇章等)属于人类认知过程中产生的高层认...
分类:
其他好文 时间:
2015-06-12 22:01:12
阅读次数:
21115
第二讲:简单的词向量表示:word2vec,Glove(Simple Word Vector representations: word2vec, GloVe)转载请注明出处及保留链接“我爱自然语言处理”:http://www.52nlp.cn本文链接地址:斯坦福大学深度学习与自然语言处理第二讲:词...
分类:
编程语言 时间:
2015-06-12 18:55:13
阅读次数:
685
有感于最近接触到的一些关于深度学习的知识,遂打算找个东西来加深理解。首选的就是以前有过接触,且火爆程度非同一般的word2vec。严格来说,word2vec的三层模型还不能算是完整意义上的深度学习,本人确实也是学术能力有限,就以此为例子,打算更全面的了解一下这个工具。在此期间,参考了[1][2].....
分类:
其他好文 时间:
2015-06-10 22:23:39
阅读次数:
667