·按照地市统计最受欢迎的Top10课程 (ip) Dao层 package echart; import java.sql.Connection; import java.sql.ResultSet; import java.sql.SQLException; import java.sql.Sta ...
分类:
其他好文 时间:
2019-11-17 09:12:27
阅读次数:
95
最近在弄一个小项目,大概600w行的数据,要进行数据清洗,因数据量偏大,如果单线程去执行,会造成效率偏低,只能用多线程了,但采用多线程存在线程安全问题,于是查了下资料,发现有ConcurrentQueue<T>该数据结构,完美的解决了我目前问题。 采自msdn上面解释:表示线程安全的先进先出 (FI ...
分类:
编程语言 时间:
2019-11-17 01:09:04
阅读次数:
107
继上篇第一阶段清洗数据并导入hive 本篇是剩下的两阶段 2、数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎的Top10课程 (traffic) 3、数据可视化:将统计结果倒入MyS ...
分类:
其他好文 时间:
2019-11-16 23:06:41
阅读次数:
71
日期:2019.11.15 博客期:117 星期五 这两天因为有课,其他的课程需要做实验,所以课下都在做其他科目的实验。 不过还是有新的进度的。 我研究了IP到城市的格式转换 1 public class IPUtil { 2 3 public static String getCityInfo(S ...
分类:
其他好文 时间:
2019-11-15 22:07:01
阅读次数:
189
两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 视频: video/3235 (2)第二阶段:根据提取出来的信息做精细化 ...
分类:
其他好文 时间:
2019-11-15 09:35:46
阅读次数:
121
继上篇 MapReduce清洗数据 package mapreduce; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import ...
分类:
其他好文 时间:
2019-11-14 22:09:54
阅读次数:
88
package test; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util. ...
分类:
其他好文 时间:
2019-11-14 09:32:06
阅读次数:
88
今天我们课上做了一个关于数据清洗的实验,具体实验内容如下: 1.数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中; 2.数据处理: ·统计最受欢迎的视频/文章的Top10访问次数 (video/article) ·按照地市统计最受欢迎的Top10课程 (ip) ·按照流量统计最受欢迎 ...
分类:
其他好文 时间:
2019-11-14 00:16:22
阅读次数:
133
数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中 利用mapreduce完成将txt文件中数据存放在一个数组中,未成功连接hive数据库并存放在hive数据库中 目前完成代码: package org.apache.hadoop.examples; import java.io.IO ...
分类:
其他好文 时间:
2019-11-14 00:02:36
阅读次数:
80
1、 数据清洗:按照进行数据清洗,并将清洗后的数据导入hive数据库中。 两阶段数据清洗: (1)第一阶段:把需要的信息从原始日志中提取出来 ip: 199.30.25.88 time: 10/Nov/2016:00:01:03 +0800 traffic: 62 文章: article/11325 ...
分类:
数据库 时间:
2019-11-14 00:02:19
阅读次数:
222