解决RuntimeError: you must first build vocabulary before training the model错误 查找解决方案,意思就是说你的数据集中的数量过少,解决方案有两种,扩大数据集的数量、另一个就是更改min_count的值例如:如果太少的话可以更改为 ...
分类:
其他好文 时间:
2021-05-23 23:49:16
阅读次数:
0
hadoop大数据集群搭建过程中,需要使用到zookeeper进行主从管理和控制,那我们就安装一套集群环境 1、下载zookeeper 登录zookeeper.apache.org官网,找到Getting Started下边的Download。 进去之后我们选择一个版本,比如选择3.6.2,进去后选 ...
分类:
其他好文 时间:
2021-03-06 14:45:39
阅读次数:
0
tomcat 启动tomcat cd /usr/tomcat/apache-tomcat-7.0.57/bin/ ./startup.sh 停止tomcat ./shutdown.sh 查看tomcat日志信息 tail -200f /usr/tomcat/apache-tomcat-7.0.57/ ...
分类:
其他好文 时间:
2021-02-20 11:58:57
阅读次数:
0
集群分发脚本xsync在/usr/local/bin目录下,创建xsync文件[root@yh-hadoop101bin]#pwd/usr/local/bin[root@yh-hadoop101bin]#chmod777xsync[root@yh-hadoop101bin]#lltotal4-rwxr-xr-x1rootroot487Sep2913:58xsync[root@yh-hadoop10
分类:
其他好文 时间:
2020-10-05 21:32:21
阅读次数:
19
随着数据利用率的提高和数据共享行为变得频繁,对于大数据平台应用开发来说,如何进行数据交换是每个平台组件都绕不过去的问题。目前大数据平台应用开发的痛点围绕在如下五点: 1、随着大数据平台数据来源的增多,以及大数据集群本身之间的隔离,数据彼此之间缺少稳定安全的传输交换通道。 2、不同业务数据的存储方式不一样,缺少统一标准的数据交换协议。 3、数据所处的网络环境不一样,没有便捷的平台管理工具。
分类:
其他好文 时间:
2020-08-29 15:25:50
阅读次数:
63
Hadoop的整体框架 Hadoop由HDFS、MapReduce、HBase、Hive和ZooKeeper等成员组成。 HBase是一个开源的,基于列存储模型的分布式数据库 HDFS是一个分布式文件系统。有着高容错性的特点,并且设计用来部署在低廉的硬件上,适合那些有着超大数据集的应用程序 MapR ...
分类:
其他好文 时间:
2020-07-06 15:47:59
阅读次数:
67
数据在当今世界意味着金钱。随着向基于app的世界的过渡,数据呈指数增长。然而,大多数数据是非结构化的,因此需要一个过程和方法从数据中提取有用的信息,并将其转换为可理解的和可用的形式。数据挖掘或“数据库中的知识发现”是通过人工智能、机器学习、统计和数据库系统发现大数据集中的模式的过程。免费的数据挖掘工具包括从完整的模型开发环境如Knime和Orange,到各种用Java、c++编写的库,最常见的是P
分类:
其他好文 时间:
2020-07-04 09:12:57
阅读次数:
975
1、redis 是一个内存数据库,当redis 服务器重启,或电脑重启,数据会丢失,所以需要持久化到硬盘 2、redis 持久化机制: Redis 提供了多种不同级别的持久化方式: (1)RDB :默认方式,不需要配置。RDB持久化可以在指定的时间间隔内生成数据集的时间点快照(point-in-ti ...
分类:
其他好文 时间:
2020-05-19 01:07:19
阅读次数:
50
Bloom Filter实现大数据集查询 1、什么情况下需要布隆过滤器? 先来看几个比较常见的例子 字处理软件中,需要检查一个英语单词是否拼写正确 在 FBI,一个嫌疑人的名字是否已经在嫌疑名单上 在网络爬虫里,一个网址是否被访问过 yahoo, gmail等邮箱垃圾邮件过滤功能 这几个例子有一个共 ...
分类:
其他好文 时间:
2020-05-13 23:05:38
阅读次数:
72
数据和技术一直是紧密相连的,大数据的快速发展给我们带来了各种新兴技术。目前,数据可视化主要应用于企业报表数据的呈现上,但未来数据可视化的主要应用应该是科学技术。 如何才能把纷繁复杂的大数据集、晦涩难懂的数据报告变轻松易读、亲切、易于理解,可视化无疑是最佳的选择。就其运用而言,范围极为广泛,如商业智能、政府决策、公共服务、市场营销、新闻传播、地理信息等等,均可运用。 大数据领域有一段比较简洁
分类:
其他好文 时间:
2020-05-11 15:44:55
阅读次数:
169