标签:
内容说明:
本商业计划书是我去年时写的,比较粗浅。
但一文一图都是自己花了时间整理出来的,也是份劳动成果,现分享给大家。
粗陋简文,不当之处,请多指教!
互联网大数据应用商业计划书_v1.3.pdf pdf版下载地址: http://ebigdata.net/bigdata.pdf
注:未经本人同意,禁止转载;联系作者:程序猿小伍 hi@wuxinsheng.com
一分钟内,微博推特上新发的数据量超过10万。
截至2015年6月,我国网民规模达6.68亿,半年共计新增网民1894万人。互联网普及率为48.8%。
我国网站总数为357万个,半年增长6.6%。
截至2015年6月,网上炒股的用户规模达到5628万,较去年增长了47.4%(爆炸增长)。
2008年全球新增数据量为0.49ZB,到2014年已到达4.1ZB。如果将它们等同于音频文件,足以连续播放80亿年的时间。
整个人类文明所获得的全部数据中,有90%是过去两年内产生的。
国家政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来,对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。
社交数据主要指腾讯和微博等大型社交平台上的用户行为数据,包括用户的基本信息,实时所发的微博数据等。
截止2014年统计,腾讯用户有8亿,微博用户2.5亿。两大社交平台每天产生上亿的消息数据。这些海量数据足以分析出网民对事物的宏观看法,整体诉求,进而推导出事物的发展趋势。具有非常大的辅助决策、分析利用价值。
截至2015年6月,网上炒股的用户规模达到5628万,较去年增长了47.4%。在全民炒股年的带动下,这种数量级的增长是非常恐怖的。
2015年的这半年间互联网产生了海量的金融数据,包括海量的“诱导交易数据”、“交易数据”、“交易完成后的反馈数据”。 这些数据零散的存在于互联网各大论坛,社交圈中。
股票大涨之前,大家都说什么,关注什么?
股票大跌之后,用户又会做什么?
许多这种问题,在通过对互联网金融大数据进行分析,对这个用户群体的行为分析都可以得出一些有合理依据的结论。
随着移动终端的普及,地理位置相关服务(LBS)也越来越火。位置相关数据指带GPS属性的数据,这部分数据可通过百度地图、天地图等地图服务商进行爬取。如全北京的写字楼、超市、酒店、地铁、公交站、学校等数据。
指全网的图片,视频,文档等数据。这些数据主要存在于各大网络云盘上,如百度云盘,360云盘,金山云盘等。虽然大部分数据都是私密的,但共享的数据量也相当庞大。
各行各业都有自己行业专属的数据种类,如招聘网有很多简历数据,搜房网有很多房屋租售数据,优酷有很多视频数据等等。
其中电商数据,主要指淘宝,京东,亚马逊,苏宁易购等大型电商平台上的商品数据,销售数据,评论数据,价格数据。
2012年,大数据(bigdata)开始被人们关注,到现在大数据时代已经隐隐若现了。马云卸任演讲时说了一句话“很多人还没搞清楚什么是PC互联网,移动互联网来了,我们还没搞清楚移动互联的时候,大数据时代又来了”。
它的价值堪比石油和黄金,是继移动互联网后的下一波高潮。
我在7月份的时候写了一篇博文“偷了3000万QQ用户数据,出了份很有趣的独家报告!(http://t.cn/RLfTWRv)” 博文发出不久便被各大媒体热转。其中不乏微博大V,百度新闻,大数据公众号,360安全攻防实验室等IT主媒体。
这一下激起我对大数据的兴趣,数据会说话而且非常有趣。经过一段时间的市场调研,我觉得互联网大数据值得好好玩一把。
互联网只要能通过网页形式查看的数据基本都能够使用爬虫技术收集起来,我的想法就是花半年或者一年的时间对整个互联网中那些有利用价值的数据抓取整理入库,最终建立一个大数据仓库。里面拥有上亿的腾讯用户数据,微博数据,百度地图数据,淘宝电商数据等。
待数据仓库建立后,在基于这个大数据之上开发一系列服务产品。
这些服务和大数据的价值:既可作为核心资产,也可作为业务板块。用来自一线的大数据分析结果,推翻资深高管的直觉判断。
大数据技术环境:在云计算、Hadoop、分布式等新兴信息技术的推动下逐渐趋向成熟。使得对大数据的采集、存储、清洗、分析都变得更简单廉价。
目前我已经实现:
1、通过QQ空间爬取了9000万腾讯用户数据。
2、通过东方财富网爬取了A股全部上市公司每日交易数据。
3、通过百度地图爬取了全北京的大厦地图数据。
目前国内,提供大数据分析服务且具有大数据分析报告生产能力的门户平台还属于一片空白区,这是一个非常难得的契机。目前大部分大数据门户网站,公众号平台都是在网上搜罗整理别人发的大数据文章,然后再转发。
如果我们本身就有一个互联网大数据仓库,再推出我们的门户网站与公众号。那我们就可以定期发一些独家的干货文章,就像“偷了3000万腾讯数据”这样的博文。这篇博文当时的全网曝光量(阅读量)预计在200万左右,因为该篇博文我收到相关邮件119封。足见干货文章的受欢迎程度。
这样的话,我们就有机会做中国第一大互联网大数据服务及资讯平台。来吸引大批用户关注,聚集。有了用户量后,就有了一个可以自行生产数据的平台,慢慢脱离第三方数据平台的制约。
以给用户提供基于互联网大数据之上的分析服务,收取相应服务费用。或直接与相应商家、机构达成战略合作伙伴关系,通过占股等方式共享数据成果。
互联网上的数据种类数不甚数,基于这些数据能够提供许多有价值的服务。数据的海洋中绝对没有无价值的数据,就看我们怎么去挖掘利用。
我们的用户群体可以是淘宝商家,我们给他们提供竞争对手产品的销售数据;也可以是心理学研究机构,我们给他们提供一个完美、海量的用户行为数据;还可以是地产商,因为我们知道哪些人想买房,甚至性别、年龄,职业等。
市场规模根据人民政协网的报道,全球大数据技术及服务市场2016年收入将达238亿美元,接近1500亿元人民币,中国市场规模未来5年将增长近7倍。大数据市场融合技术与服务,正在形成迅猛的发展势头。(http://www.rmzxb.com.cn/gqmq/sgc/2015/05/28/507489.shtml)
国内市场发展报告
预计2016年国内大数据市场规模总量将突破100亿人民币
拟定公司名:北京海杜普信息技术有限公司 海杜普释义:大数据技术Hadoop的中文名
已注册域名:www.haidupu.com;www.1bigdata.cn;www.e-bigdata.net
阶段 |
工作内容 |
完成时间 |
成立 |
成立大数据应用研究实验室(租房,购置服务器等) |
15年9月初 |
实验阶段 |
大数据技术积累,各种数据采集尝试,数据应用探索。 |
15年11月中 |
搭建大型数据采集程序框架 |
||
采集阶段 |
完成腾讯全部公开用户数据采集及缺失数据补全。总共约1.5亿,已采集9000万。 |
15年10月底 |
微博完成上亿级用户数据采集 |
16年1月初 |
|
完成对百度地图全国主要城市地标数据采集 |
16年2月初 |
|
完成对淘宝1000万商品数据深度采集 |
16年3月初 |
|
社会大数据采集(智联招聘,租房网,58同城等) |
16年5月初 |
|
服务开发 |
服务网站、微信公众号上线 |
15年12月底 |
服务App开发,上线 |
16年3月底 |
|
服务平台2.0迭代 |
16年5月底 |
|
推广 |
产品服务全部上线,开始服务推广营销。 |
16年6月初 |
数据来源于第三方企业平台,在数据整合过程中受制于第三方平台的制约。如第三方平台不愿意公开数据,则会加大采集难度。
数据采集过程中会涉及大量用户基本信息的采集,这些信息虽然是公开的。但如果运用不当,仍有可能会被理解成侵权行为,需谨慎使用。
进一步提高数据准确度需要大量人力通过编写程序和手动挑选来淘洗数据。而随着投入的边际效用递减,数据有效性的要求越高,则需要投入的成本就成倍甚至指数级增长。
计划募集50万人民币,主要用于研发、团队建设、市场营销、购买数字资源及运行流动资金。
半年运营计划资金使用情况
计划资金运用项 |
费用 |
办公场地(5000),办公用品(1000)等建设费用 x 6 |
3.6万 |
塔式服务器(16000) x 2 + 固态硬盘(1580) x 2 + 阿里云主机(7902) x 2 + 阿里云数据库服务器(15882) |
6.7万 |
人员薪资,前期技术(2w)1人,后期配备运营(0.7w)1人,服务开发(2w)2人。12 +2.1+12 |
26.1万 |
服务推广,公司注册,百度竞价排名及流动资金 |
15万 |
合计 |
51.4万 |
本着互利共赢,节约创业的原则。每月定期汇报资金使用情况及工作进度,尽量以最少的成本推进工作。合作期间所创造的价值归双方共同所有,具体情况按合作协议执行。
略
通过腾讯微博的海量数据,出一些基于全体网民的用户行为分析报告。爬取的数据如下:
字段名称 |
案例数据 |
说明 |
|
51074 |
QQ号 |
ParentQQ |
790230426 |
父级好友QQ |
Nickname |
小付 |
昵称 |
Depth |
7 |
关系深度值 |
LastMessage |
明天然乌-波密137公里。后天休整去中国最后一个通公路的县城墨脱,难道之前是与世界隔绝的地方吗?都说那里沿路风景超好。 |
最新说说内容 |
PublishDate |
2015年7月18日 21:34 |
发布时间 |
Description |
疯的骄傲,癫的精彩 |
空间简介 |
Sex |
1 |
性别 |
Birthyear |
1985 |
出生年 |
Birthday |
11月27日 |
出生日期 |
Province |
湖南 |
所在省 |
City |
长沙 |
所在城市 |
Hp |
湖南 |
故乡身份 |
Hc |
长沙 |
故乡城市 |
Marriage |
0 |
是否结婚 |
社交数据挖掘就是对海量非规范化文本信息进行智能语义识别,通过热点词汇建模匹配。最终识别出文本中的“时间,地点,人物,事件,起因,经过,结果”等各类关键信息然后提交给计算机分析,得出有价值的结果。
如何分析一段非规范文本信息呢?
习XX对天津港“8?12”重大火灾爆炸事故作重要指示,8月12日23时30分许,天津港瑞海公司危险品仓库发生火灾爆炸事故。事故发生后,党中央、国务院高度重视。中共中央总书记、国家主席、中央军委主席习XX立即作出重要指示,要求天津市组织强有力力量,全力救治伤员,搜救失踪人员;尽快控制消除火情,查明事故原因,严肃查处事故责任人;做好遇难人员亲属和伤者安抚工作,维护好社会治安,稳定社会情绪;注意科学施救,切实保护救援人员安全。国务院速派工作组前往指导救援和事故处理。各地要汲取此次事故的沉痛教训,坚持人民利益至上,认真进行安全隐患排查,全面加强危险品管理,切实搞好安全生产,确保人民生命财产安全。 |
第一步:分词标注
第二步:实体抽取
第三步:词频统计
第四步:出具分析结果
再看如下两条说说:
序号 |
LastMessage |
热点关键词提取 |
1 |
当减肥快坚持不下去的时候,为自己打打气。想想一身的横肉,和大妈一样的面容和身材!与这些相比,一丁点的节食算得上什么。放弃与坚持不过一念之差,忍得了诱惑,才能看得见彩虹! |
减肥,身材,节食,坚持 |
2 |
千股跌停,卖不出,千股涨停,买不到,奇葩的中国股市。 |
股市,跌停,涨停,奇葩 |
可画成这样的图:
那么可对这样的数据做些什么分析呢?
先说减肥的:男女分布比例多少? 年龄比例多少? 主流减肥方式有哪些,是节食,健身,跑步? 减肥成功率多少?一般人在多少斤以上时开始减肥等等。
再说股市:目前有多少人炒股?股龄多少?亏的多还是赚的多?买哪些股票,对股市的印象是什么,奇葩,摸不透?
等等这些统计,都可以根据社交大数据分析得出可靠的结果。
1、 精准客户定位,高度洞悉目标人群行为习惯
比如与减肥产品提供商合作,由我们提供“减肥”用户群体数据报告;
与基金公司合作,提供炒股人群数据报告;
与教育机构合作,提供学生人群数据报告;
与地产商合作,提供预备买房人群数据报告;
所谓知己知彼百战百胜,在洞悉潜在客户人群的行为习惯后,再进行产品的设计,定位,推广工作就事半功倍了。
精准用户群体提取:
2、 情感指数统计。
根据文本的各个词的情感色彩值,综合打分得出一个情感指数。比如心情指数,愤怒指数,幸福感指数等等。下图是我通过股民所发说说中包含涨、红、开心表情等数据计算出的股民乐观指数,从图可看出乐观指数和上证指数是呈正相关的。所以股民行为数据在股市预测这块也相当值得研究。
3、 心理学研究
大部分心理学研究抽样调查的成本都非常高,比如找2000个人填一份问卷。
海量的互联网社交大数据对研究社会心理学非常有价值,是一个完美的数据样本。覆盖面广,因为是在不设防的情况下发表的言语所以更加真实,这绝对是一份心理学研究机构非常渴望得到的数据。
如:人们老说郁闷是在什么时候?因为什么?经常说郁闷的人有哪些共同点?郁闷在时间维度,空间维度的分布是怎样的?
4、 舆情监控
通过设置监测关键词,动态监测全网的舆论传播情况。旨在消极信息出现的第一刻,系统便自动报警。有关部门及时平息不良消息,一旦传播开了再想平息就难了。比如像7月14号的优衣库事件,事情发生了国家网信办再来约谈腾讯百度就意义不大了。
通过爬取互联网中有名的股票金融论坛数据,如东方财富网、新三板官网、淘股吧,雪球等论坛数据。建立数据分析模型,精选有价值数据,推送给客户。
我不懂股市,但我相信数据会说话。大数据更是结合了广大股民的真实声音,其中虽然夹杂了一些无用信息,甚至误导信息。但数据量足够大,分析结果一定是趋向客观真实的。比一些专家和一些小道消息要靠谱得多。
1、 精选信息推送
如我是客户,我先输入我关注的3只股票“隆平高科,新世界,东风汽车”。后台在全部主流论坛抓取与这三只股票相关的文章,再根据文章的热度(浏览量,评论量,点赞数)等综合指标筛选,最终将最有价值的信息聚集并推送给客户。
根据算法模型(历史推荐数据,个人等级,文章热度,职业,来源,评论信息正面指数),自动计算作者(郑楠)的推荐靠谱指数。如A作者预测成功率70%,系统便重点关注他发的信息,并将结果推送给客户。
2、 选股策略定制
根据用户设置的选股参数,系统自动推荐股票。如根据K线,行业,每股收益,每股净资产,强弱指标,动向指标,预测指标等参数自动提供推荐股列表。
有了数据后,可以研究投资策略模型,探索高收益投资策略。
3、 图说股市
依托大数据,通过图表或可视化技术生成当日的股票统计报表及统计图。
如:当日讨论股票热度排行榜,当日看涨榜,看跌榜等。
根据客户设置订阅栏目类型,通过爬虫技术,自动爬取该栏目相关的各大网站的头条信息推送给用户。
比如我关注大数据及IT技术,系统则自动给我推送大数据论坛,大数据微信公众号,博客园,知乎,CSDN等各大论坛的热门博文给我。
虽然目前各大新闻网站也都有订阅功能,但平时看的还是软文居多。推送还是太大众化,不够精细。精品资讯可以做的更精细些,不是精品文章,不推送。
根据阅读量,点赞数,评论数,标题关键字等信息筛选精品文章推送。
目前电商中各种类型的网站都有,淘宝天猫卖百货,麦乐购专卖母婴产品,酒仙网只卖酒等等;但唯独没有一家专门提供一个买卖互联网数据的P2P平台。比如我自己写了一套很好的代码框架,我想通过出售我的这份代码赚些外快。去哪挂着卖呢,目前没有这样的平台。但这个需求量是非常巨大的,中国的程序员已经越来越多,每个人都有自己的智慧积累,能够提供一个有偿的分享平台,一定能够吸引广大开发者的眼球。
它既能激起大家的分享精神,又能促进技术的交流,还能给App提供数据接口,是一件共赢的好事!
盈利模式可参照京东,从数据提供者分自营数据和非自营数据。从收费标准分免费数据和收费数据。数据价格客户自定义。谁都可以上来挂数据卖,也可以来买数据。
爬取百度地图的地标数据,如整个北京的大厦、超市、商场、小区、酒店等数据。将这些数据的热度图展示到地图上,哪个地方密集,哪个地方疏松一目了然。多张图叠加分析就可以得出哪些地方适合开什么店了。比如我想开一个超市,我就需要选一个人口密度高,超市密度低,小区密度高的地方开店最合适。 就可以通过1公里内,超市数<2并且人口密度>500小区>1大厦>1类似这样的算法得出结果。
如下是我爬取的北京大厦数据,并计算出它们的分布密度图。如图显示,北京的大厦密集区一个是在朝阳的CBD区域,一个是海淀的中关村五道口区域,且CBD繁华程度>中关村,还是非常准确的。
通过抓取主流电商网站(淘宝,天猫,京东,亚马逊,一号店等)的商品销售数据,出具商品销售情况的深度剖析报告。可以让客户更加了解他的竞争对手强在哪,弱在哪。也可以让客户知道自己的商品销售情况,用户实际反馈情况,同款商品其他商家的销售情况等。
统计商品的价格走势:
通过扫描万网,新网等域名服务商的域名查询接口,整理出全网所有未注册域名信息。再根据域名长度排序,关键字搜索从中发现有价值的域名,注册后再出售。
通过百度搜索引擎搜集全网网站信息,并整理分类。提供查询,导航服务。虽然目前也有这种黄页网站,但数据量都很小很不全。这也可以为后期大数据整合提供基础数据。
遍历全网的网站,提取网址,名称,公司,电话,地址,简介等信息,然后自动分类。
通过对租房网、58同城,智联招聘,贴吧等这种拥有大量用户信息的网站进行数据挖掘,收集互联网中的各种用户信息数据。比如用户的电话,邮箱,地区,性别,年龄,公司数据,简历数据,薪水数据,租房数据等等。
用户关系网建立:
这是一家靠着抓取了全国乃至国外的专利数据,提供专利检索及服务的公司。公司网址:http://www.baiten.cn/
江苏佰腾科技有限公司成立于2012年1月,在南京、无锡、山东、东莞等地设立7个子公司,总部设在常州科教城,注册资本1200万元,服务场所总面积达4000平方米。
佰腾科技现有员工112人,公司累计服务企业达120000多家,其中上市公司560家。从2014年6月起,佰腾科技实施互联网战略,投入巨资开发了国内领先的专利电商平台—专利巴巴,该项目目标是2015年实现有效专利申请订单3万件,发展互联网客户10000家,2018年达到全国市场占有率10%,实现业务收入超10亿元。
搜赖网(广州市搜赖网络科技有限公司)http://www.laipigo.com/
广州市搜赖网络科技有限公司在不良资产高发的时期创办了搜赖网,以“让天下无赖”为使命,主要面向法律、金融专业人士及社会公众提供数量庞大的资产、债务和多维度企业工商信息查询服务。
搜赖网于2015年2月试运营,2015 年6月正式启动运行。现已建立全国最大的资产信息数据库、债务信息数据库和功能最全的企业工商信息数据库,其中企业工商信息数据库具有独特的“反向查询”功能,可通过股东、经营项目、高管、经营状态等多维度查询企业工商信息。截至目前,搜赖网已与四家国内最具影响力的法律电商、五大全国性律所和十个区域性强所成为战略性合作伙伴或达成一定合作意向。
依托于搜赖网,广大法律、金融专业人士和社会公众,将在“点指”之间,足不出户的全盘掌握老赖信息,让天下老赖无所遁形。正基于此,搜赖网的正式启动,必将开启一个天下无“赖”的时代。
北京理工大学大数据搜索与挖掘实验室( Big Data Search and Mining Lab.BDSM@BIT)隶属于北京理工大学海量语言信息处理与云计算工程研究中心(北京市级重点工程中心),定位为:在微博为代表的新型互联网的大背景下,面向海量异构互联网信息,研究网络大数据搜索、自然语言处理、社会计算与信息安全等关键技术,以自然语言理解为主要手段进行网络情报挖掘,并进行新应用协议的安全隐患分析。实验室负责人为张华平博士,目前承担了国家自然科学基金、973计划、863计划、242等国家课题4项,新疆自治区高新技术计划、河北省科技支撑计划等省部级课题3项,作为ICTCLAS的创始人,实验室主任张华平博士获得了2010年钱伟长中文信息处理科学技术奖一等奖。
wSMS@BIT的主要研究方向与成果包括(详细介绍,点击访问Web Search and Mining报告):
1.微博计算:针对微博、Twitter、Facebook等新型社会网络媒体,开展了基于网络与内容的个性化建模、微博情感分析、微博社区分析与领袖识别、微博明码暗语识别等研究,已经获得了国家自然科学基金、973等国家科研计划的支持,相关成果先后与国家某机关及多家大型企业合作。
2.大数据搜索引擎:实现了JZSearch大数据搜索引擎,已经实际应用于中国邮政搜索、上市公司富基融通的商品搜索、河北标院的标准搜索等机构;
3.大数据智能挖掘:以NLPIR(又名ICTCLAS2013)汉语分词系统为基础,搭建了NLPIR大数据搜索与挖掘共享平台(点击),融合了新词发现、智能分词、语言模型分析、文本分类聚类、信息过滤、自动摘要、关键词提取、编码转换等多功能于一体;包括ICTCLAS2013分词在内的成果目前已经应用于国家气象局、中国科学技术信息研究所、解放军信息工程大学、最高人民法院、上海电信等多家单位;
4.网络信息内容安全:网络舆情安全与新应用新协议安全隐患分析,舆情安全先后应用于中国证监会、国家统计局、中国上市公司协会、北京市科委等单位,新应用安全已经在云计算隐患分析出版相关专著,并构建了云计算安全隐患模拟仿真平台,多项研究项目已经得到了中国信息安全测评中心的支持。
我坚信,虽然我有一些想法还不够成熟,但我相信大方向是没错的。就像当年的马云一样也不是一开始就做电商,而是做黄页。他当时的大方向选择了互联网,这个方向没错。他摸索两年,慢慢的也摸出了阿里的门道。
2000年的时候互联网崛起, 2010年时移动互联网崛起, 2020则是大数据的时代。我希望当这个时代真正来到公众视野里,人们的生活中时,我们准备好了。
看清未来的方向并大胆前行,慢慢摸索总归会摸出一条有价值的路。
以人为本,预见未来!
期待与您一起合作!
标签:
原文地址:http://www.cnblogs.com/cinser/p/5616389.html