标签:
郑昀 20160929
和小伙伴们无意间聊到玩聚网的那些事儿。十年前我怀揣着 change the world 的理想离开了神州泰岳,与张博士一起做了几年自然语言处理(NLP)的互联网应用。
针对股票的情感趋势分析是2007年年底开发的,那时候团队已经磨合了一年,技术底子打得很牢,吴炯(时任阿里巴巴&雅虎中国CTO)提出这个方向建议后,我们两周时间就完成了前后端的开发,迅速上线。也基于此,我提出了所谓的“智能语义聚合框架”,希望把这套技术复制到不同垂直领域。
如今有小伙伴看了当时这个产品的截图:
图1 宝聚-历史中某个时刻的股票详情界面
图2 宝聚-历史某时刻的首页
觉得哎呀呀技术不错嘛,准吗?后来怎么样了?
这个产品把全网的网民和专家对个股的文字性意见,分为看空、看多、看平,并从中抽取出Ta为什么这么看,再把大家的下一步操作建议提炼汇总起来,画出实时饼图、日周月趋势。等于是把市场上的人心自动地、实时地汇总了一下。
VC金沙江的一位老师说,你这产品吧,估计用来反向操作,大家都说看空,其实应该做多。
故事的开头我们猜到了,故事的结尾嘛……
你们这些老韭菜还记得2008年股市发生了什么吗?
“2008年12月31日,大盘以1820.81点收官,与2008年1月2日大盘5272.81点收盘价相比,足足下跌了3400多点。 2008年,机构投资者严重亏损,股民几乎悉数被套。”
所以现实很骨感。
做了个全网热点自动发现(玩聚SD、玩聚SR、玩聚RT等),结果我党保守势力一点点抬头,连谷歌都轰出去了,最后只能用下图来封存记忆:
做了个股票情感趋势分析,结果几个月之后次贷危机传导到中国大陆,股市崩盘。
缅怀被生活推倒一次又一次的那些日子。
注:情感趋势分析(Sentiment Analysis,or Opinion Mining),是基于互联网上发布的内容,辨识出人们对某事物的感情或者感觉,如某个产品、公司、地点、人。这种分析方式最终可能会得到一份完整的报告,描述人们对于一个事物的看法,而不需要你寻找并阅读相关的所有意见和新闻。
注2:有小伙伴问,都用啥技术了?分布式爬虫、新词发现、分词、词性标注、分类、自动提取标签、实体发现和识别、关系发现与识别、相似性计算、贝叶斯、层次聚类、SVM、VSM、情感趋势分析、语法分析、句式判断……
-EOF-
欢迎长按二维码订阅我的微信订阅号『老兵笔记』
标签:
原文地址:http://www.cnblogs.com/zhengyun_ustc/p/baoju.html