一. 前期准备 1. Vmware workstation pro 16 官网下载 : https://www.vmware.com/ 密钥:ZF3R0-FHED2-M80TY-8QYGC-NPKYF (若失效请自行百度) 2. xshell,xftp 官网下载(需要注册) 3. 国内镜像网站下载c ...
一、数据预处理 sentence sentences是训练所需材料,可通过两种格式载入:1、文本格式:将每篇文章 分词去停用词后,用空格分割,将其存入txt文本中(每一行一篇文章) 2、list嵌套格式将每篇文章 分词去停用词后,存入list中。即[ [第一篇文章分词结果] , [第二篇文章分词结果 ...
分类:
编程语言 时间:
2020-12-25 11:47:33
阅读次数:
0
1.dubbo 协议 (默认) 1、采用单一长连接和NIO异步通讯,适合于小数据量大并发的服务调用,以及服务消费者机器数远大于服务提供者机器数的情况 2、不适合传送大数据量的服务,比如传文件,传视频等,除非请求量很低。 用场景:常规远程服务方法调用 特性 连接个数:单连接 连接方式:长连接 传输协议 ...
分类:
其他好文 时间:
2020-12-23 12:18:52
阅读次数:
0
最近项目上因为遇到数据量过大导致查询统计性能问题(oracle数据库、单表每月1亿多条车辆定位记录,由一个windows环境下的链路服务程序来接收车辆上传的定位数据写入oracle),急需使用大数据架构来解决。前期同事已经提出整体解决思路(修改链路服务程序,在写oracle的基础上同时写入kafka ...
图源:百度“对于活着的人来说,悲剧难以承受。”这是比尔盖茨对阿尔兹海默症的总结。记忆的衰退和丧失对于我们来说,总是无奈的。“如果爱人离世,你会将TA的记忆交给AI吗?”这是《奇葩说》第14期的辩题。《奇葩说》作为一个现象级的辩论综艺,从第一季到第六季,出现了很多AI相关的辩题,如“爱上人工智能算不上爱情?”、“大数据为你匹配了全世界最合适的人,要不要和他进行一次约会?”等,在节目中有不少感人的故事
分类:
其他好文 时间:
2020-12-23 11:51:04
阅读次数:
0
大数据治理的效果体现在数据存储成本是否降低、数据产出周期是否缩短、数据质量是否提高、数据量增长势头是否减缓等方面
分类:
其他好文 时间:
2020-12-22 12:40:03
阅读次数:
0
人们很难想象,学生可以有着何等的热情与专注。“自从参加了百度组织的国际大数据竞赛后,我就没有在晚上12点前躺在床上过。”来自同济大学的崔啸萱对记者开启了她的吐槽:“作为研一学生,我还有一份实习,所以白天基本是被占用满了,只有晚上和周末的时间来争分多秒地搞比赛。”这场赛事的初赛与复赛阶段,选手的方案得分将会实时呈现在排行榜上,名次成为进入决赛阶段的依据,因此,这份榜单成为包括崔啸萱在内许多选手在白天
分类:
其他好文 时间:
2020-12-21 11:50:33
阅读次数:
0
章节: 第一章节:CentOS 7 配置hadoop(一) 安装虚拟机(伪分布) 第二章节:CentOS 7 配置hadoop(二) 配置hdfs(伪分布) 第三章节:CentOS 7 配置hadoop(三) 配置hbase(伪分布) 第四章节:CentOS 7 配置hadoop(四) 配置hive ...
分类:
其他好文 时间:
2020-12-21 11:30:46
阅读次数:
0
hadoop Shuffle Error: Exceeded MAX_FAILED_UNIQUE_FETCHES; bailing-out 程序里面需要打开多个文件,进行分析,系统一般默认数量是1024,(用ulimit -a可以看到)对于正常使用是够了,但是对于程序来讲,就太少了。修改办法:修改2 ...
分类:
其他好文 时间:
2020-12-19 13:37:26
阅读次数:
3
一、大数据演进,从数据仓库到数据中台 第一阶段 21 世纪的第一个 10 年,企业级数据仓库(EDW)从萌芽到蓬勃发展,“IOT”( IBM、Oracle、Teradata)占领了大部分市场,提供数据仓库建设从硬件、软件到实施的整体方案。 这个时代的数据仓库实施不仅需要购买大(中、小)型机,配套商用 ...
分类:
其他好文 时间:
2020-12-19 13:22:30
阅读次数:
18