从WordCount开始分析
编写一个例子程序
编写一个从HDFS中读取并计算wordcount的例子程序:
packageorg.apache.spark.examples
importorg.apache.spark.SparkContext
importorg.apache.spark.SparkContext._
objectWordCount{
defm...
分类:
其他好文 时间:
2014-05-05 13:10:34
阅读次数:
463
常用数据分析方法及分析工具,比如:EXCEL、SAS、SPSS
分类:
其他好文 时间:
2014-05-04 10:39:40
阅读次数:
278
从父子骑驴的故事随想到大数据时代与个人隐私的矛盾。对于大数据时代和隐私的矛盾,厂商对于大数据无疑是收集用户信息(例如使用习惯、搜索过的信息等等),然后推广给用户更实际的东西和更精准的广告。百度搜索、腾讯QQ、搜狗输入法、奇虎360这些常用工具一直都在收集用户所谓的隐私信息人言可畏,该说哪个厂家在.....
分类:
其他好文 时间:
2014-05-04 10:34:18
阅读次数:
375
能够将热爱的技术应用于实际生活生产中,是做技术人员向往和乐之不疲的事。
现将前期手里面的一个项目做一个大致的总结,与大家一起分享、交流、进步。项目现在正在线上运行,项目名——基于Hadoop的数据分析综合管理平台。
项目流程整体比较清晰,爬取数据(txt文本)-->数据清洗-->文本模型训练-->文本分类-...
分类:
其他好文 时间:
2014-05-04 00:22:05
阅读次数:
476
昨天看到微信SuperSofter写了一篇文章,有感而发,以便备注。
这是一种典型的C2B模式。阿里不只是在与腾讯拼移动,它的电商本土业务也在稳步推进。最近一个里程碑事件是,阿里包下了美的、九阳、苏泊尔等十个品牌的12条生产线,专为天猫特供小家电。阿里通过所掌握的数据以及分析成果,去指导这些生产线的研发、设计、生产、定价。
C2B与规模化之间的矛盾
C2B反向定制模式...
分类:
其他好文 时间:
2014-05-04 00:15:15
阅读次数:
289
1、商业智能 商业智能的实现有三个层次:数据报表、多维数据分析和数据挖掘。 商业智能项目的实施步骤:
需求分析 数据仓库建模 数据抽取 建立商业智能分析报表 用户培训和数据模拟测试 系统改进和完善商业智能系统应具有的主要功能 数据仓库 数据ETL
数据统计输出(报表) 分析功能 商业智能的软件工具集...
分类:
其他好文 时间:
2014-05-03 22:16:23
阅读次数:
284
第48期百度技术沙龙上的《大数据场景下主题检索应用》讲座介绍了很多训练大规模主题模型的技术细节。讲座回来后,我粗略整理了下讲座上涉及的主题模型和训练大规模模型相关的资料和文献。
1. 主题模型的发展历史
a. 布尔模型 Boolean model
b. 向量空间模型 VSM (Vector space model)
c. 潜在语义索引 LSI (Latent...
分类:
其他好文 时间:
2014-05-03 21:40:07
阅读次数:
371
近日浏览csdn博客,发先一本自编的分享自编《Python基础教程》无水印文字版,推荐读之,内容朴实无华无拖泥带水,板式清晰,是python入门和初学者必藏教程。
下载地址
http://download.csdn.net/detail/u014036026/7188403...
分类:
编程语言 时间:
2014-05-03 17:06:16
阅读次数:
407
RDD的依赖关系
Rdd之间的依赖关系通过rdd中的getDependencies来进行表示,
在提交job后,会通过在DAGShuduler.submitStage-->getMissingParentStages
privatedefgetMissingParentStages(stage:
Stage): List[Stage] = {
valmissing
=newHash...
分类:
其他好文 时间:
2014-05-03 15:56:22
阅读次数:
282
BeautifulSoup 善于网页数据分析
请参考: http://www.crummy.com/software/BeautifulSoup
例如: 抓取CSDN首页极客头条内容 soup.py
import urllib2, re
from BeautifulSoup import BeautifulSoup
page = urllib2.urlopen("http://gee...
分类:
编程语言 时间:
2014-05-03 15:31:42
阅读次数:
401