用户画像:通过算法聚合成一类实现用户信息标签化。 构建用户画像 ① 用户画像信息:基本属性,购买能力,行为特征,兴趣爱好,心理特征,社交网络 ② 行为建模:文本挖掘,自然语言处理,机器学习,预测算法,聚类算法 ③ 数据收集:网络日志数据,用户行为数据,网站交易数据 作用:了解用户的行为习惯,个性化营 ...
分类:
其他好文 时间:
2019-02-13 19:33:42
阅读次数:
176
算法是指对特定问题求解步骤的一种描述。 算法只是对问题求解方法的一种描述,它不依赖于任何一种语言,既可以用自然语言、程序设计语言(C、C++、Java、Python等)描述,也可以用流程图、框图来表示。一般为了更清楚地说明算法的本质,我们去除了计算机语言的语法规则和细节,采用“伪代码”来描述算法。“ ...
分类:
编程语言 时间:
2019-02-13 19:29:51
阅读次数:
313
作者:刘知远 "原文链接" 最近实验室刚进组的一位同学发邮件来问我如何查阅学术论文,这让我想起自己刚读研究生时茫然四顾的情形:看着学长们高谈阔论领域动态,却不知如何入门。经过研究生几年的耳濡目染,现在终于能自信地知道如何了解最新科研动态了。我想,这可能是初学者们都会有的困惑,与其只告诉一个人知道,不 ...
分类:
编程语言 时间:
2019-02-13 13:06:26
阅读次数:
199
翻译自Jacob Devlin分享的slides [TOC] NLP中的预训练 词嵌入是利用深度学习解决自然语言处理问题的基础。 词嵌入(例如word2vec,GloVe)通常是在一个较大的语料库上利用词共现统计预训练得到的。例如下面两个句子中,由于 king 和 queen 附近的上下文时常相同或 ...
分类:
其他好文 时间:
2019-02-13 12:27:45
阅读次数:
382
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多,但是像中文处理起来就没有那么容易,因为中文字与字之间,词与词之间都是紧密连接在一起的,所以第一件事需 ...
分类:
其他好文 时间:
2019-02-12 00:04:09
阅读次数:
203
译者: "ETCartman" 之前我们已经学过了许多的前馈网络. 所谓前馈网络, 就是网络中不会保存状态. 然而有时 这并不是我们想要的效果. 在自然语言处理 (NLP, Natural Language Processing) 中, 序列模型是一个核心的概念. 所谓序列模型, 即输入依赖于时间信 ...
分类:
其他好文 时间:
2019-02-10 12:24:22
阅读次数:
195
一:前言 和拉丁语系不同,亚洲语言是不用空格分开每个有意义的词的。而当我们进行自然语言处理的时候,大部分情况下,词汇是我们对句子和文章理解的基础,因此需要一个工具去把完整的文本中分解成粒度更细的词。 jieba就是这样一个非常好用的中文工具,是以分词起家的,但是功能比分词要强大很多。 二:基本分词函 ...
分类:
其他好文 时间:
2019-02-09 00:48:55
阅读次数:
141
第六章 AI时代的教育和个人发展 1. 2013年,全美录取最严格的一所四年制大学本科学校——米涅瓦成立了,由美国著名教育家联合创立,校长是本·尼尔森,录取率低于哈佛的8-9%,是3%。 创始人相信,传统的大学教育已经无法适应未来的需要,会被改革甚至被颠覆。远程在线课程(难以深入交流)、研讨小组、实 ...
分类:
其他好文 时间:
2019-02-05 22:23:28
阅读次数:
350
做一个中文文本分类任务,首先要做的是文本的预处理,对文本进行分词和去停用词操作,来把字符串分割成词与词组合而成的字符串集合并去掉其中的一些非关键词汇(像是:的、地、得等)。再就是对预处理过后的文本进行特征提取。最后将提取到的特征送进分类器进行训练。 一、什么是自然语言处理 一、什么是自然语言处理 一 ...
分类:
其他好文 时间:
2019-02-04 20:56:40
阅读次数:
276
1. 引言 上一篇介绍了 "如何用无监督方法来训练sentence embedding" ,本文将介绍如何利用监督学习训练句子编码器从而获取sentence embedding,包括利用释义数据库PPDB、自然语言推理数据SNLI、以及综合利用监督训练数据和无监督训练数据。 2. 基于释义数据库PP ...
分类:
其他好文 时间:
2019-01-31 19:26:19
阅读次数:
252