整理了NLP领域的比赛、数据集、模型 |比赛|网站|主办方(作者)| | | | | |decaNLP|http://decanlp.com/|Salesforce |CLUE|https://github.com/CLUEbenchmark/CLUE|中文任务基准 |GLUE|https://gl ...
分类:
其他好文 时间:
2020-01-31 10:38:44
阅读次数:
771
参考资料:https://cuiqingcai.com/993.html 即 静觅 » Python爬虫实战二之爬取百度贴吧帖子 我最近在忙学校的一个小项目的时候涉及到NLP的内容。但是在考虑如何训练的时候却才懂什么叫巧妇难为无米之炊的滋味。中文语料库实在少的可怜,偶尔有一两个带标签的语料库,拿出一 ...
分类:
编程语言 时间:
2020-01-28 09:28:35
阅读次数:
74
一、前言 虽然一直算IT男,但是基本没有接触过最前沿的IT知识,一直在做生产方面的IT,突发奇想,开始学习算法,学习算法有半年多了,从最初的Python,到线性回归、逻辑回归、SVM,聚类,NLP,CNN,RNN,GAN等神经网络,感觉知识的海洋真是浩瀚如海,今天打算开始分享一下我的一些学习情况,第 ...
分类:
其他好文 时间:
2020-01-23 22:49:24
阅读次数:
108
一、介绍 内容 将接触现代 NLP 技术的基础:词向量技术。 第一个是构建一个简单的 N Gram 语言模型,它可以根据 N 个历史词汇预测下一个单词,从而得到每一个单词的向量表示。 第二个将接触到现代词向量技术常用的模型 Word2Vec。在实验中将以小说《三体》为例,展示了小语料在 Word2V ...
分类:
其他好文 时间:
2020-01-21 18:33:23
阅读次数:
133
自然语言处理入门基础 1 数学基础 (1)线性代数 向量、 矩阵、距离计算(余弦距离、欧式距离、曼哈顿距离、明可夫斯基距离、切比雪夫距离、杰卡德距离、汉明距离、标准欧式距离、皮尔逊相关系数) (2)概率论 随机试验、条件概率、全概率、贝叶斯定理、信息论 (3)统计学 图形可视化(饼图、条形图、热力图 ...
分类:
其他好文 时间:
2020-01-19 12:39:31
阅读次数:
72
序:任何一种语言都是信息编码的不同单位,语言的语法规则则是编解码的算法 1 存在的问题:文法覆盖规则太多,要人工写工程巨大,且就算写出涵盖所有自然语言处理现象的规则集合,用计算机解析也非常困难,于是出现了基于统计的NLP。 ...
分类:
编程语言 时间:
2020-01-15 13:55:31
阅读次数:
213
SegmentSegment是基于结巴分词词库实现的更加灵活,高性能的java分词实现。变更日志创作目的分词是做NLP相关工作,非常基础的一项功能。jieba-analysis作为一款非常受欢迎的分词实现,个人实现的opencc4j之前一直使用其作为分词。但是随着对分词的了解,发现结巴分词对于一些配置上不够灵活。有很多功能无法指定关闭,比如HMM对于繁简体转换是无用的,因为繁体词是固定的,不需要预
分类:
编程语言 时间:
2020-01-15 09:22:12
阅读次数:
100
导读:推荐系统技术,总体而言,与 NLP 和图像领域比,发展速度不算太快。不过最近两年,由于深度学习等一些新技术的引入,总体还是表现出了一些比较明显的技术发展趋势。这篇文章试图从推荐系统几个环节,以及不同的技术角度,来对目前推荐技术的比较彰显的技术趋势做个归纳。个人判断较多,偏颇难免,所以还请谨慎参 ...
分类:
编程语言 时间:
2020-01-13 19:34:55
阅读次数:
115
紧张起来 最近三个月时间安排,紧张起来为了你的 2021年1月1号买model3(还有353天) 如果你能做好下边这些 月薪35k 没问题,机器学习工资依然很高,留在北京,抓住机会,不要回济南! 有时间就刷boos直聘:发现高薪的机器学习公司和岗位(真的很多) 目标公司及岗位: 上班时间做这些: 贝 ...
分类:
编程语言 时间:
2020-01-13 01:14:37
阅读次数:
154
一、N-gram介绍 n元语法(英语:N-gram)指文本中连续出现的n个语词。n元语法模型是基于(n - 1)阶马尔可夫链的一种概率语言模型,通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学(如基于统计的自然语言处理NLP)、计算生物学(如序列分析)、数据压 ...
分类:
编程语言 时间:
2020-01-11 22:41:14
阅读次数:
173