现在每次分析网站日志的时候都需要判断百度蜘蛛是不是真实的蜘蛛,nslookup之后需要判断结果中是否包含“baidu”字符串 以下给出一些shell中判断字符串包含的方法,来源程序员问答网站 stackoverflow 以及segmentfault。 方法一:利用grep查找 先打印长字符串,然后在 ...
分类:
系统相关 时间:
2016-05-25 00:24:53
阅读次数:
278
(摘自王家林)
流(Streaming),在大数据时代为数据流处理,就像水流一样,是数据流;既然是数据流处理,就会想到数据的流入、数据的加工、数据的流出。
日常工作、生活中数据来源很多不同的地方。例如:工业时代的汽车制造、监控设备、工业设备会产生很多源数据;信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、交通监控等;通信时代的手机、平板、智能设备、物联网等会...
分类:
其他好文 时间:
2016-05-19 15:16:14
阅读次数:
353
数据去重主要是为了利用并行化的思想对数据进行有意义的筛选。 统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。 示例文件内容: 此处应有示例文件 设计思路 数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。 自然就想到将同一数据的所... ...
分类:
其他好文 时间:
2016-05-18 23:28:11
阅读次数:
115
大家进行网站日志分析的时候,常见到很多不同IP段的百度蜘蛛,为了方便大家更好的进行日志分析,下面列举了百度不同IP段常见蜘蛛的一些详情情况,及所谓的降权蜘蛛,沙盒蜘蛛,高权重蜘蛛等等
下面的百度蜘蛛IP造访,准备抓取你东西,抓取网页的百度蜘蛛。
60.172.229.61
61.129.45.72
61.135.162.*
百度竞价蜘蛛
61.135.165.134
11...
分类:
其他好文 时间:
2016-05-13 00:13:03
阅读次数:
2972
第一部分,1,查看TCP连接状态 2,查找请求数请20个IP(常用于查找攻来源): 3,用tcpdump嗅探80端口的访问看看谁最高 4,查找较多time_wait连接 5,找查较多的SYN连接 6,根据端口列进程 第二部分,网站日志分析(Apache):1,获得访问前10位的ip地址 2,访问次数 ...
分类:
系统相关 时间:
2016-05-03 12:40:21
阅读次数:
244
Spark学习四:网站日志分析案例标签(空格分隔): SparkSpark学习四网站日志分析案例
一创建maven工程
二创建模板
三日志分析案例
一,创建maven工程1,执行maven命令创建工程mvn archetype:generate -DarchetypeGroupId=org.scala-tools.archetypes -DarchetypeArtifactId=scala-arch...
分类:
Web程序 时间:
2016-05-01 01:13:42
阅读次数:
459
背景:nginx网站日志是记录日常网站访问行为的文件,当网站流量特别大或者运行很长时间时,这个日志文件就会变得非常大,但我们又要保留日志内容以方便查看故障原因。那么我们就需要只保留我们需要的那部分即可,这就用到了日志切割。我们可以根据日期,把日志切割成小文件,既..
分类:
其他好文 时间:
2016-04-26 22:19:24
阅读次数:
209
原文链接:http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及 ...
分类:
其他好文 时间:
2016-04-22 16:31:48
阅读次数:
228
Awk使用及网站日志分析
Awk简介
概述
awk是一个强大的文本分析工具,相对于grep的查找,sed的编辑,awk在其对数据分析并生成报告时,显得尤为强大。简单来说awk就是把文件逐行的读入,以空格为默认分隔符将每行切片,切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk,未作特别说明,一般指gawk。awk程序的报告生成能力...
分类:
Web程序 时间:
2016-04-21 01:42:36
阅读次数:
209