搜索关键字：网站日志，搜索到103个结果！码迷,mamicode.com！

Shell判断字符串包含关系的几种方法

现在每次分析网站日志的时候都需要判断百度蜘蛛是不是真实的蜘蛛，nslookup之后需要判断结果中是否包含“baidu”字符串以下给出一些shell中判断字符串包含的方法，来源程序员问答网站 stackoverflow 以及segmentfault。方法一：利用grep查找先打印长字符串，然后在 ...

分类：系统相关时间：2016-05-25 00:24:53 阅读次数：278

Spark-Spark Streaming例子整理(一)

（摘自王家林）流（Streaming），在大数据时代为数据流处理，就像水流一样，是数据流；既然是数据流处理，就会想到数据的流入、数据的加工、数据的流出。日常工作、生活中数据来源很多不同的地方。例如：工业时代的汽车制造、监控设备、工业设备会产生很多源数据；信息时代的电商网站、日志服务器、社交网络、金融交易系统、黑客攻击、垃圾邮件、交通监控等；通信时代的手机、平板、智能设备、物联网等会...

分类：其他好文时间：2016-05-19 15:16:14 阅读次数：353

利用MapReduce实现数据去重

数据去重主要是为了利用并行化的思想对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。示例文件内容：此处应有示例文件设计思路数据去重的最终目标是让原始数据中出现次数超过一次的数据在输出文件中只出现一次。自然就想到将同一数据的所... ...

分类：其他好文时间：2016-05-18 23:28:11 阅读次数：115

【深入蜘蛛】百度蜘蛛IP段详解

大家进行网站日志分析的时候，常见到很多不同IP段的百度蜘蛛，为了方便大家更好的进行日志分析，下面列举了百度不同IP段常见蜘蛛的一些详情情况，及所谓的降权蜘蛛，沙盒蜘蛛，高权重蜘蛛等等下面的百度蜘蛛IP造访，准备抓取你东西，抓取网页的百度蜘蛛。 60.172.229.61 61.129.45.72 61.135.162.* 百度竞价蜘蛛 61.135.165.134 11...

分类：其他好文时间：2016-05-13 00:13:03 阅读次数：2972

查看IP访问量的shell脚本汇总

第一部分，1，查看TCP连接状态 2，查找请求数请20个IP（常用于查找攻来源）： 3，用tcpdump嗅探80端口的访问看看谁最高 4，查找较多time_wait连接 5，找查较多的SYN连接 6，根据端口列进程第二部分，网站日志分析（Apache）：1，获得访问前10位的ip地址 2，访问次数 ...

分类：系统相关时间：2016-05-03 12:40:21 阅读次数：244

Spark学习四：网站日志分析案例

Spark学习四：网站日志分析案例标签（空格分隔）： SparkSpark学习四网站日志分析案例一创建maven工程二创建模板三日志分析案例一，创建maven工程1，执行maven命令创建工程mvn archetype:generate -DarchetypeGroupId=org.scala-tools.archetypes -DarchetypeArtifactId=scala-arch...

分类：Web程序时间：2016-05-01 01:13:42 阅读次数：459

Nginx日志切割

背景：nginx网站日志是记录日常网站访问行为的文件，当网站流量特别大或者运行很长时间时，这个日志文件就会变得非常大，但我们又要保留日志内容以方便查看故障原因。那么我们就需要只保留我们需要的那部分即可，这就用到了日志切割。我们可以根据日期，把日志切割成小文件，既..

分类：其他好文时间：2016-04-26 22:19:24 阅读次数：209

hadoop 入门实例【转】

原文链接：http://www.cnblogs.com/xia520pi/archive/2012/06/04/2534533.html 1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及 ...

分类：其他好文时间：2016-04-22 16:31:48 阅读次数：228

Awk使用及网站日志分析

Awk使用及网站日志分析 Awk简介概述 awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk。awk程序的报告生成能力...

分类：Web程序时间：2016-04-21 01:42:36 阅读次数：209

共103条上一页 1 ... 4 5 6 7 8 ... 11 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)