一、爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。二、scrapy框架Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络
分类:
其他好文 时间:
2018-06-03 12:35:08
阅读次数:
223
1、计算机语言种类繁多,我认识的第一门是C#,第一段代码是Console.WriteLine('Hello,World'); 2、源代码有了,这里需要了解到的就是编译了,编译就是把源代码转换成计算机能识别的机器代码的过程。而这个过程中还需要了解到的是编译器,编译器就是负责编译的工具。我们现在所学的C ...
分类:
其他好文 时间:
2018-06-03 12:35:00
阅读次数:
119
服务端 ConfigServer pom.xml spring cloud starter eureka与spring cloud starter eureka server的区别? app类 @EnableDiscoveryClient与@EnableEurekaClient的区别? applic ...
分类:
编程语言 时间:
2018-06-03 12:34:50
阅读次数:
205
下面是几种方法的公用部分(右自适应也是一样的,换一下方向) html: css: 1. 左脱离文档流,右margin 1.1 左float 1.2 左absolute 2. flex布局(左定宽,右flex设置为1,自动伸展,此处注意flex兼容性,可以通postcss等后处理器自动加上前缀) 效果 ...
分类:
Web程序 时间:
2018-06-03 12:34:39
阅读次数:
186
1.1 概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;(从map的输出到reduce的输入) shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输 ...
分类:
其他好文 时间:
2018-06-03 12:34:31
阅读次数:
191
好久不动笔了 第一个知识点:import 和 export import导入模块、export导出模块 以前有人问我,导入的时候有没有大括号的区别是什么。下面是我在工作中的总结: ...
分类:
其他好文 时间:
2018-06-03 12:34:22
阅读次数:
126
设置开机自动同步Internet时间,并作定时同步任务1、修改时区rm-rf/etc/localtimeln-s/usr/share/zoneinfo/Asia/Shanghai/etc/localtimevim/etc/sysconfig/clockZONE="Asia/Shanghai"UTC=falseARC=false2、安装并设置开机自启yuminstall-yntpsystemctls
分类:
其他好文 时间:
2018-06-03 12:34:15
阅读次数:
128
1.在列表末尾添加新的对象 1 li=[11,22,33,'aa','bb','cc'] 2 li.append('dd') 3 print(li) 2.清空列表 1 li=[11,22,33,'aa','bb','cc'] 2 li.clear() 3 print(li) 3.列表拷贝 1 li= ...
分类:
编程语言 时间:
2018-06-03 12:33:57
阅读次数:
195
前些天写好的工具类,后来从新测试的时候出现的ftp.storeFileStream获得不到流对象。切出现等待时间的问题。 跟踪了代码,登录没有问题!进入ftp看了一些目录结构和文件。发现文件已经创建,但是里面没有内容。估计就是流对象无法写入内容的原因。 针对这个问题去网上查看了一些资料,再对比一些自 ...
分类:
Web程序 时间:
2018-06-03 12:33:49
阅读次数:
313
#方式一 for 循环方法 l1 = [11, 2, 3, 22, 2, 4, 11, 3] l2 = [] for i in l1: if i not in l2: l2.append(i) print(l2) #方式二 l3 = list(set(l1)) # 将列表用set去重,再转换回列表( ...
分类:
编程语言 时间:
2018-06-03 12:33:39
阅读次数:
164
“归属于母公司所有者权益”反映公司集团的所有者权益中归属于母公司所有者权益的部分。少数股东权益”反映非全资子公司的所有者权益中属于少数股东享有的份额,即不属于母公司的份额。 1、合并报表相当于母公司和子公司的集合,在合并报表里,所有者权益被分为“归属于母公司所有者的权益”和“少数股东权益”。比如,A ...
分类:
其他好文 时间:
2018-06-03 12:33:31
阅读次数:
548
碎碎念 : 最近终于开始刷middle的题了,对于我这个小渣渣确实有点难度,经常一两个小时写出一道题来。在开始写的几道题中,发现大神在discuss中用到回溯法(Backtracking)的概率明显增大。感觉如果要顺利的把题刷下去,必须先要把做的几道题题总结一下。 先放上参考的web: 1. htt ...
分类:
其他好文 时间:
2018-06-03 12:33:21
阅读次数:
218
地址规划:vsftp服务器的地址为172.16.1.61 使用的环境: [root@nfs01 scripts]# uname -a Linux nfs01 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux首先在yum服务器上挂载本地光盘mk
分类:
其他好文 时间:
2018-06-03 12:33:16
阅读次数:
197
我们已经介绍了关于阿里巴巴的任职要求,这节我就详细的介绍一下关于阿里巴巴的面试题(涉及到标准代码部分不予以出现
分类:
其他好文 时间:
2018-06-03 12:33:10
阅读次数:
119
1,Oracle没有offet,limit,在mysql中我们用它们来控制显示的行数,最多的是分页了。oracle要分页的话,要换成rownum。 2,oracle建表时,没有auto_increment,所有要想让表的一个字段自增,要自己添加序列,插入时,把序列的值,插入进去。 3,oracle有 ...
分类:
数据库 时间:
2018-06-03 12:33:01
阅读次数:
159
Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系。。。。),不便于在网络中高效传输; 所以,hadoop自己开发了一套序列化机制(Writable),精简,高效 ...
分类:
其他好文 时间:
2018-06-03 12:32:48
阅读次数:
173
题目链接: acm.hdu.edu.cn/showproblem.php?pid=1025 Constructing Roads In JGShining's Kingdom Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/327 ...
分类:
其他好文 时间:
2018-06-03 12:32:40
阅读次数:
165