如何构建用户画像从1991年TimBerners-Lee发明了万维网(WorldWideWeb)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴随着大数据应用的讨论、创新,个性化技术成为了一个重要落地点。相比传统的线下会员管理、问卷调
分类:
数据库 时间:
2017-12-26 19:09:18
阅读次数:
198
肿瘤大数据挖掘中经常需要处理上百亿行的文本文件,这些文件往往高达数百GB,假如文件结构简单统一,那么用sed和awk 处理是非常方便和快速的。但有时候会遇到逻辑较为复杂的处理流程,这样我一般会用JAVA来处理。但由于JAVA是单线程的,因此对于实验室多核服务器来说,能充分有效的利用起每个核会方便不少 ...
分类:
编程语言 时间:
2017-10-26 13:55:51
阅读次数:
298
所谓自动文摘就是利用计算机自动地从原始文献中提取文摘,文摘是全面准确地反映某一文献中心内容地简单连贯的短文。常用方法是自动摘要将文本作为句子的线性序列,将句子视为词的线性序列。 灵玖NLPIRParser智能摘要是通过网页文本特殊的标签将需要的数据提供给搜索引擎,并在搜索结果中按照既定的模版展现的实 ...
分类:
其他好文 时间:
2017-08-17 16:26:54
阅读次数:
82
中国的这些年喜欢搞概念,什么云计算大数据啊,国家支持,专家鼓吹,各大会议论坛精彩纷呈,热闹过后发现还是默默地在用国外的技术和平台,就如同PC操作系统没有我们的份,手机操作系统也没有我们的份,尽管我们是世界上电脑和手机拥有量最多而且人们最喜欢玩手机的国家。感觉我们的学术专家和行业大佬们就仅仅会扯蛋,扯 ...
分类:
移动开发 时间:
2017-08-03 20:13:54
阅读次数:
215
kettle作为ETL工具。其功能日趋完好,已得到广大数据挖掘爱好者的青睐。又由于他是java开源项目。为适应项目需求。有必要研究其源代码,最好可以集成到Java项目中。作为项目执行流程的一个重要环节来使用。 那么。先让我们来瞅瞅kettle源代码在eclipse 下的部署 和 版本号的生成 首先, ...
分类:
编程语言 时间:
2017-06-21 21:01:22
阅读次数:
161
R语言是一款非常优秀的数据挖掘工具,拥有顶尖的数据处理、数据挖掘课数据可视化。是数据从业者必备的一把利器。但是其基于内存的诟病也一直被人所嫌弃,虽然这几年很多优秀的扩展包极大提升了R语言的性能,但是在面对企业级大数据挖掘面前,也会显得力不从心。现在我们也不用..
分类:
其他好文 时间:
2017-06-13 14:42:16
阅读次数:
316
现代的人类学习、生活、工作都已经离不开搜索引擎,如今的数据大爆炸时代,搜索引擎已经不仅是帮助用户从海量信息中找到结果,更是一种互联网服务。搜索引擎成为一个数据工厂,通过大数据挖掘,抽象结构化有价值的信息,加速信息流动,促使搜索为用户提供更多服务以及更高价值。 让用户对搜索结果进行筛选的时代很快就会被 ...
分类:
其他好文 时间:
2017-06-02 20:22:59
阅读次数:
190
从1991年Tim Berners-Lee发明了万维网(World Wide Web)开始,到20年后2011年,互联网真正走向了一个新的里程碑,进入了“大数据时代”。经历了12、13两年热炒之后,人们逐渐冷静下来,更加聚焦于如何利用大数据挖掘潜在的商业价值,如何在企业中实实在在的应用大数据技术。伴 ...
分类:
其他好文 时间:
2017-05-16 17:58:28
阅读次数:
383
近期,国外黑客利用俄罗斯影子经纪人曝光的美国国家安全局(NSA)若干利用smb协议(445端口) 漏洞而制作的勒索软件,席卷全球并把国内许多大学的大四毕业生论文给加密了。该勒索软件实际是一种蠕虫病毒,...
分类:
其他好文 时间:
2017-05-14 01:13:28
阅读次数:
213
在2006年12月召开的 IEEE 数据挖掘国际会议上,与会的各位专家选出了当时的十大数据挖掘算法( top 10 data mining algorithms ),在本系列已经发布的文章中我们已经讨...
分类:
编程语言 时间:
2016-12-06 14:36:55
阅读次数:
533