dataguru访问地址:http://f.dataguru.cn/?fromuid=99611课程优惠码:C4B6这段时间一直在dataguru(炼数成金)上学习《hadoop数据分析平台(第十四期)》,说说我对炼数成金的印象。最开始听说dataguru是通过它的广告邮件中的链接,发送的对象是it...
分类:
其他好文 时间:
2014-05-08 21:19:30
阅读次数:
727
Hadoop集群(第9期)_MapReduce初级案例 - 虾皮 - 博客园1、数据去重
"数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。1....
分类:
其他好文 时间:
2014-05-08 20:38:16
阅读次数:
669
如果不考虑其他任何问题,只比较速度的话,那肯定是mem快,但他们各有优缺点。文件缓存优点:1、由于现在的硬盘都非常大,所有如果是大数据的时候,放硬盘里就比较合适,比如做一个cms网站,网站里有10万篇文章,生成的文件大小总数可能就会很大。2、数据的存放较为安全,由于是硬盘存放,所以在意外掉电的情况下...
分类:
Web程序 时间:
2014-05-08 20:03:19
阅读次数:
307
记住,大数据的本质在于数据,大只是它在整个宏观社会整体上的一个体现
分类:
其他好文 时间:
2014-05-05 09:31:32
阅读次数:
517
原文:SQL Server
大数据搬迁之文件组备份还原实战一.本文所涉及的内容(Contents)本文所涉及的内容(Contents)背景(Contexts)解决方案(Solution)搬迁步骤(Procedure)搬迁脚本(SQL
Codes)注意事项(Attention)疑问(Questions...
分类:
数据库 时间:
2014-05-04 19:06:55
阅读次数:
751
从父子骑驴的故事随想到大数据时代与个人隐私的矛盾。对于大数据时代和隐私的矛盾,厂商对于大数据无疑是收集用户信息(例如使用习惯、搜索过的信息等等),然后推广给用户更实际的东西和更精准的广告。百度搜索、腾讯QQ、搜狗输入法、奇虎360这些常用工具一直都在收集用户所谓的隐私信息人言可畏,该说哪个厂家在.....
分类:
其他好文 时间:
2014-05-04 10:34:18
阅读次数:
375
codechef的本题算法也不难,但是codechef喜欢大数据,动不动就过万过十万,输入输出处理不好就会超时。
就像本题最大数据可能达到15万个整数。普通输入输出铁定超时了。
这里使用fread和fwrite这两个函数,设置好buffer,速度还是相当快的,而且相对很多程序都比较简单的了。
主要注意:
每个buffer数据块和下一个buffer数据块之间的衔接,不能破坏了最终需要...
分类:
其他好文 时间:
2014-05-04 08:54:04
阅读次数:
268
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:
其他好文 时间:
2014-05-04 00:22:05
阅读次数:
476
第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。
1. 主题模型的发展历史
a. 布尔模型 Boolean model
b. 向量空间模型 VSM (Vector space model)
c. 潜在语义索引 LSI (Latent...
分类:
其他好文 时间:
2014-05-03 21:40:07
阅读次数:
371
近日浏览csdn博客,发先一本自编的分享自编《Python基础教程》无水印文字版,推荐读之,内容朴实无华无拖泥带水,板式清晰,是python入门和初学者必藏教程。
下载地址
http://download.csdn.net/detail/u014036026/7188403...
分类:
编程语言 时间:
2014-05-03 17:06:16
阅读次数:
407