码迷,mamicode.com
首页 > 其他好文 > 详细

隐含狄利克雷模型

时间:2017-09-29 00:16:42      阅读:160      评论:0      收藏:0      [点我收藏+]

标签:没有   词汇   location   必须   dash   推荐   数据分析   中国   经验   

作者:梓义
链接:https://www.zhihu.com/question/20374493/answer/55320581
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

中国高考作文的出题方法有个固定的套路:给你讲一段小故事,然后让你根据这个故事,想想自己受到什么启发,写篇文章。换句话说你的作文重点根本不是这个故事,故事只是你要写的主题的一个素材。同一个素材,各人思考角度不同,可以对应不同的主题。但更重要的是,不同的素材可以对应同样的主题。

比如全国卷的一个题目是“不要给野生动物喂食,否则它会丧失自己的觅食能力”。出题者的意图显然不是让人写一篇关于野生动物喂养的科普文章。

一个角度是把自己想象成野生动物,主题是年轻人应该自己闯荡,不能依赖前人经验的灌输。这不就是百度预测“生命的多彩”中的“奋斗”、“自由”和“青春”吗?而使用同样的主题,只要把文章稍加修改,完全还可以对付上海市的作文题:“你可以选择穿越沙漠的道路和方式,所以你是自由的;你必须穿越这片沙漠,所以你又是不自由的。”

另一个角度则是把自己想象成面对野生动物的人,那么主题就是要尊重自然,保护环境。这不就是百度预测“发展的困惑”中的“自然”、“环境”和“尊敬”吗?同样的主题下把文章稍加修改又可以对付辽宁省的作文题:“可惜漫天繁星没有了,沧海桑田转眼之间啊!当年那些祖先山洞边点燃篝火,看月亮初升天汉灿烂,他们欣赏的也许才是美景。”

现在我们的关键问题来了。到底是主题多呢,还是素材多?答案当然是素材多。素材怎么编都可以,但全体高中生都能想明白和说明白的道理就那么几个 — 具体说来,据百度数据分析发现,只有六个方面而已。只要一个人熟读这六个方面各种可能主题的文章,掌握其写作套路,不管高考出什么素材都能应对自如。

这就正如有句谚语说“如果你手里有一把锤子,你看什么东西都是钉子”。这句谚语本来是贬义的,意思是告诫人们不要把什么东西都往自己掌握的有限理论上套。比如近年来人们学会了进化心理学之后,就不管看到什么社会现象都想用进化心理学解释,以至于我现在一听进化心理学就浑身起鸡皮疙瘩。

可是如果把这个锤子精神用在准备考试上,那是最好不过了 — 只不过你需要掌握的不是一把,而是六把锤子 — 有了这六把锤子就可以对付几乎所有的高考钉子。其实锤子精神还可以用在领导讲话上,任何事情都必须“高举中国特色社会主义伟大旗帜,以邓小平理论、“三个代表”重要思想为指导,深入贯彻落实科学发展观……”这方面目前一共有三把常用锤子,它们总是同时出现。

那么百度发现这些锤子用的是什么技术呢?


主题模型

给你一篇文章,你怎么能看出来这篇文章是说什么的呢?具体说来,你怎么能让机器知道这篇文章是说什么的呢?这个思想叫做“主题模型(topic modeling)”。百度作文预测使用的主题模型技术叫做“隐含狄利克雷分布(Latent Dirichlet allocation,LDA)”。这是一个2003年才被提出的新技术,它的发明人之一正是刚刚加入百度,负责“百度大脑”项目的吴恩达。

LDA的基本思想非常简单。计算机认为文章只不过是一些词汇的集合。而每个主题,也只是一些关键词的集合。计算机没必要“理解”每个主题或者每个词的意思,甚至根本不用管这些词出现的先后顺序。

我们人为地设定一些主题,并且在数据分析的帮助下给每个主题设定好关键词。比如“狗”的主题下的关键词可以包括“骨头”、“汪星人”、“忠诚”、“朋友”等等,如果是最近的研究恐怕还要加上“广西玉林”。这些关键词的设定没必要非常严格,到底哪个词更重要可以交给机器去发现。

这样我们就有了一个主题的集合,每个主题又都是一大堆关键词的集合。同样一个词可以在多个主题中出现,但是在不同主题下出现的概率是不同的。

计算机要做的仅仅是使用一定的数学方法对根据每篇文章中的词汇进行分析。一篇文章拿过来,你要做的就是把事先设定的所有主题一个一个的过一遍,计算这篇文章中的词汇对应每个主题的可能性是多少。计算结果,就是这篇文章说的是每个主题的概率大小。一篇文章也许可以有超过一个主题,这不是问题。关键在于,计算机可以判断一篇文章最有可能说的是什么主题,第二可能说的是什么主题……这就相当于计算机已经“读懂”了这篇文章。

百度只要把海量的作文都用这种方法分析一遍,就得到了各种不同主题的出现总概率。更进一步,再结合年度风云搜索信息和当年的热点新闻信息,就可以判断现在最流行的作文主题是什么了。


LDA有很多应用。只要把“文章”改成“图像”,把“主题”改成“物体”,它就可以用来分析一张图片中都有什么物体,并用于给图像分类。它还可以用来分析音乐的乐句,再结合每首歌的受喜爱程度,就可以用于歌曲推荐。我猜主题模型的方法还可以用于分析新闻报道、电影剧本、小说和游戏情节,这样机器就能比任何文化批评家更早意识到现在流行什么。

隐含狄利克雷模型

标签:没有   词汇   location   必须   dash   推荐   数据分析   中国   经验   

原文地址:http://www.cnblogs.com/bluemaplestudio/p/7608909.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!