1.数据处理时缺失指怎么处理 2.L1和L2的区别 3.高维数据如何降维 4.特征处理,连续型和非连续性,给了个例子,年龄和user_id两个特征如何处理 5.LR了解吗,如何解决过拟合问题 6.如何评估模型结果,我把分类和回归分别解释,介绍各种评估方式的不足,还问了ROC曲线横纵坐标 7.Rand ...
分类:
其他好文 时间:
2020-07-28 22:38:27
阅读次数:
115
了解MongoDB 一、简介 MongoDB 数据库的一些特性: · 面向文档存储,基于JSON/BSON 可表示灵活的数据结构 · 动态 DDL能力,没有强Schema约束,支持快速迭代 · 高性能计算,提供基于内存的快速数据查询 · 容易扩展,利用数据分片可以支持海量数据存储 · 丰富的功能集, ...
分类:
数据库 时间:
2020-07-27 13:50:59
阅读次数:
81
1 Hadoop是什么1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。2.主要解决,海量数据的储存和海量数据的分析计算问题。3.广义来说,hadoop通常是指一个更广泛的概念 Hadoop生态圈。 Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera ...
分类:
其他好文 时间:
2020-07-26 23:10:55
阅读次数:
101
Hadoop是什么?1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。2.主要解决,海量数据的储存和海量数据的分析计算问题。3.广义来说,hadoop通常是指一个更广泛的概念 Hadoop生态圈。 Hadoop三大发行版本Hadoop三大发行版本:Apache、Cloudera、 ...
分类:
其他好文 时间:
2020-07-26 22:58:58
阅读次数:
69
1 Hadoop是什么 1.hadoop是一个由Apache基金会所开发的分布式系统基础架构。 2.主要解决,海量数据的储存和海量数据的分析计算问题。 3.广义来说,hadoop通常是指一个更广泛的概念 Hadoop生态圈。 Hadoop三大发行版本 Hadoop三大发行版本:Apache、Clou ...
分类:
其他好文 时间:
2020-07-26 22:58:28
阅读次数:
95
背景 之前做的海量数据数据展示,在预处理速度和渲染上还有有所欠缺,比如单个切片文件还是太大,本文中进行一些优化工作,使得一分钟处理完一千多万点数据的1-11级矢量切片,在线浏览数据请求时间控制在1s左右。 准备 软件环境:PostGIS,数据是微软开源的部分房屋数据public.california ...
分类:
其他好文 时间:
2020-07-26 16:02:32
阅读次数:
106
简介:redis作为目前非常主流的key-value型内存数据库,得到了业界广泛的认可与使用。我们可以使用redis作为系统中的缓存数据库,减轻系统压力,也可以使用redis来实现分布式锁。 优点: 对数据高并发读写 对海量数据的高效率存储和访问 对数据的可扩展性和高可用行 缺点: redis(AC ...
BitMap的基本思想就是用一个bit位来标记某个元素对应的Value,而Key即是该元素。由于采用了Bit为单位来存储数据,因此可以大大节省存储空间。
BitMap可以看成一种数据结构。 ...
分类:
编程语言 时间:
2020-07-23 22:34:32
阅读次数:
104
随着大型网站的各种高并发访问、海量数据处理等场景越来越多,如何实现网站的高可用、易伸缩、可扩展、安全等目标就显得越来越重要。为了解决这样一系列问题,大型网站的架构也在不断发展。提高大型网站的高可用架构,不得不提的就是分布式。本文主要简单介绍了分布式系统的概念、分布式系统的特点、常用的分布式方案以及分 ...
分类:
其他好文 时间:
2020-07-23 09:17:48
阅读次数:
84
分布式 ID 在庞大复杂的分布式系统中,通常需要对海量数据进行唯一标识,随着数据日渐增长,对数据分库分表以后需要有一个唯一 ID 来标识一条数据,而数据库的自增 ID 显然不能满足需求,此时就需要有一个能够生成全局唯一 ID 的系统,需要满足以下条件: 全局唯一性:最基本的要求就是不能出现重复的 I ...
分类:
其他好文 时间:
2020-07-22 20:53:59
阅读次数:
77