1. 阐述Hadoop生态系统中,HDFS, MapReduce, Yarn, Hbase及Spark的相互关系,为什么要引入Yarn和Spark。 HDFS是Hadoop体系中数据存储管理的基础,它是一个高度容错的系统,能检测和应对硬件故障,在低成本的通用硬件上运行。 HBase构建在HDFS之上 ...
分类:
其他好文 时间:
2021-06-07 20:05:58
阅读次数:
0
机器学习中,绕不开的一个概念就是熵 (Entropy),信息熵。信息熵常被用来作为一个系统的信息含量的量化指标,从而可以进一步用来作为系统方程优化的目标或者参数选择的判据。 ...
分类:
其他好文 时间:
2021-06-06 19:49:11
阅读次数:
0
计算机视觉Computer Vision AAAI: AAAI Conference on Artificial IntelligenceACCV: Asian Conference on Computer VisionACM MM: ACM International Conference on ...
分类:
其他好文 时间:
2021-06-04 18:51:12
阅读次数:
0
核函数只是用来计算映射到高维空间之后的内积的一种简便方法。 核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。 李航的《统计学习方法》中对于核函数的定义: 要注意,核 ...
分类:
其他好文 时间:
2021-06-03 17:55:59
阅读次数:
0
1 前言 线性回归形式简单、易于建模,但却蕴涵着机器学习中一些重要的基本思想。许多功能更为强大的非线性模型可在线性模型的基础上通过引入层级结构或高维映射而得。此外,由于线性回归的解直观表达了各属性在预测中的重要性,因此线性回归有很好的可解释性。 1.1 什么是回归分析 回归分析是一种预测性的建模技术 ...
分类:
其他好文 时间:
2021-06-02 18:59:23
阅读次数:
0
机器学习中非均衡数据集的处理方法? 主要包括四大类方法,1Sampling 2Cost Sensitive Methods 3Kernal-Based Methods and Active Learning Methods 4One-Class Learning or Novelty Detecti ...
分类:
其他好文 时间:
2021-06-02 18:45:33
阅读次数:
0
数据导入是所有数模编程的第一步,比你想象的更重要。 先要学会一种未必最佳,但是通用、安全、简单、好学的方法。 『Python 数学建模 @ Youcans』带你从数模小白成为国赛达人。 1. 数据导入是所有数模编程的第一步 编程求解一个数模问题,问题总会涉及一些数据。 有些数据是在题目的文字描述中给 ...
分类:
编程语言 时间:
2021-06-02 16:59:13
阅读次数:
0
? Python作为一种编程语言近年来越来越受欢迎,它为什么这么火? 其中一个重要原因就是因为Python的库丰富——Python语言提供超过15万个第三方库,Python库之间广泛联系、逐层封装。几乎覆盖信息技术所有领域,下面简单介绍下数据分析与可视化、网络爬虫、自动化、WEB开发、机器学习常用的 ...
分类:
编程语言 时间:
2021-06-02 16:28:33
阅读次数:
0
我去年出了一本Python书,基于股票大数据分析的Python入门实战,在这本书里,我是用股票范例讲述Pythorn的爬虫,数据分析和机器学习知识点,如下是京东的连接。 https://item.jd.com/71486761859.html 结果前几天出版社告诉我,我的书被台湾的出版社买去版权,然 ...
分类:
编程语言 时间:
2021-06-02 15:34:50
阅读次数:
0
一、大数据分析工具——Hadoop Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它 ...
分类:
其他好文 时间:
2021-06-02 13:17:23
阅读次数:
0