北京上地阿贝云计算有限公司成立于2018年10月10日,注册地位于北京市海淀区海淀区西三旗悦秀路76号院C座2层C209室,法定代表人为李宏彬。经营范围包括技术转让、技术服务、技术开发、技术推广、技术咨询;应用软件服务;软件开发;计算机系统服务;数据处理(数据处理中的银行卡中心、PUE值在1.4以上 ...
分类:
其他好文 时间:
2020-07-06 21:37:57
阅读次数:
133
Spark 分组取Top N运算 大数据处理中,对数据分组后,取TopN是非常常见的运算。 下面我们以一个例子来展示spark如何进行分组取Top的运算。 1、RDD方法分组取TopN from pyspark import SparkContext sc = SparkContext() 准备数据 ...
分类:
其他好文 时间:
2020-07-06 16:11:05
阅读次数:
78
###问题描述 在大规模数据处理中,经常会遇到的一类问题就是在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常被称为top K问题。 ###问题解答 针对top K类问题,通常比较好的方案是分治+Trie树/hash+小顶堆,即先将数据集按照hash方法分解成多 ...
分类:
其他好文 时间:
2020-07-05 21:29:51
阅读次数:
70
最新写的定时关系数据库数据处理的简单应用,使用到了hcl配置管理,目前官方推荐的是v2 以下是关于v2的参考使用 环境准备 项目准备 go mod init github.com/rongfengliang/hclv2 go get github.com/hashicorp/hcl/v2 代码 pa ...
分类:
其他好文 时间:
2020-07-04 19:01:18
阅读次数:
82
Stream API 为了说一下 Stream API 的使用,可以说是大费周章啊,知其然,也要知其所以然吗,追求技术的态度和姿势要正确。 当然 Stream 也不只是 Lambda 表达式就厉害了,真正厉害的还是它的功能,Stream 是 Java 8 中集合数据处理的利器,很多本来复杂、需要写很 ...
正则 一,简介/动机 1.1 正则的出现动机 ? 我们在学习python的路途上,有许多需要操作文本数据的场景。无论是前后端/数据库都需要处理文本数据。处理文本时候,正则表达式给我们提供了强大的搜索,匹配,抽取,替换等功能。 1.2 什么是正则表达式(regex) ? 正则表达式由一些字符和特殊符号 ...
分类:
编程语言 时间:
2020-07-03 23:23:44
阅读次数:
83
## **文档说明**本文档主要记录模型融合的有关问题:为了使项目在模型预测有更好的表现,综合机器学习方面的模型融合技术,以提升算法在解决问题的能力。 ## **使用背景** 业务情节:接单阶段; 时间段:2020 数据量:160W 特征数(本篇不对特征处理做说明):20 ## **数据处理**综合 ...
分类:
其他好文 时间:
2020-07-03 19:51:48
阅读次数:
68
背景:dataFrame的数据,想对某一个列做逻辑处理,生成新的列,或覆盖原有列的值 下面例子中的df均为pandas.DataFrame()的数据 1、增加新列,或更改某列的值 df["列名"]=值 如果值为固定的一个值,则dataFrame中该列所有值均为这个数据 2、处理某列 df["列名"] ...
分类:
其他好文 时间:
2020-07-03 19:39:59
阅读次数:
299
项目来源厦门大学林子雨老师得Spark学习项目中,里面为部分项目代码和实验截图 读取文件 from pyspark import SparkConf, SparkContext from pyspark.sql import SparkSession from pyspark.ml.feature ...
分类:
其他好文 时间:
2020-07-03 19:04:21
阅读次数:
89
import pymysql import requests import json import smtplib import email.mime.multipart import email.mime.text from email.mime.application import MIMEAp ...
分类:
其他好文 时间:
2020-07-03 12:36:57
阅读次数:
74