码迷,mamicode.com
首页 > 2018年06月03日 > 全部分享
scrapy初探之爬取武sir首页博客
一、爬虫网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。二、scrapy框架Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取(更确切来说,网络
分类:其他好文   时间:2018-06-03 12:35:08    阅读次数:223
2018-6-3 初始代码
1、计算机语言种类繁多,我认识的第一门是C#,第一段代码是Console.WriteLine('Hello,World'); 2、源代码有了,这里需要了解到的就是编译了,编译就是把源代码转换成计算机能识别的机器代码的过程。而这个过程中还需要了解到的是编译器,编译器就是负责编译的工具。我们现在所学的C ...
分类:其他好文   时间:2018-06-03 12:35:00    阅读次数:119
spring cloud config搭建说明例子(四)-补充配置文件
服务端 ConfigServer pom.xml spring cloud starter eureka与spring cloud starter eureka server的区别? app类 @EnableDiscoveryClient与@EnableEurekaClient的区别? applic ...
分类:编程语言   时间:2018-06-03 12:34:50    阅读次数:205
css左固定右自适应常用方法
下面是几种方法的公用部分(右自适应也是一样的,换一下方向) html: css: 1. 左脱离文档流,右margin 1.1 左float 1.2 左absolute 2. flex布局(左定宽,右flex设置为1,自动伸展,此处注意flex兼容性,可以通postcss等后处理器自动加上前缀) 效果 ...
分类:Web程序   时间:2018-06-03 12:34:39    阅读次数:186
mapreduce的shuffle机制
1.1 概述: mapreduce中,map阶段处理的数据如何传递给reduce阶段,是mapreduce框架中最关键的一个流程,这个流程就叫shuffle;(从map的输出到reduce的输入) shuffle: 洗牌、发牌——(核心机制:数据分区,排序,缓存); 具体来说:就是将maptask输 ...
分类:其他好文   时间:2018-06-03 12:34:31    阅读次数:191
ES6工作中常用知识点
好久不动笔了 第一个知识点:import 和 export import导入模块、export导出模块 以前有人问我,导入的时候有没有大括号的区别是什么。下面是我在工作中的总结: ...
分类:其他好文   时间:2018-06-03 12:34:22    阅读次数:126
centos7 时间同步
设置开机自动同步Internet时间,并作定时同步任务1、修改时区rm-rf/etc/localtimeln-s/usr/share/zoneinfo/Asia/Shanghai/etc/localtimevim/etc/sysconfig/clockZONE="Asia/Shanghai"UTC=falseARC=false2、安装并设置开机自启yuminstall-yntpsystemctls
分类:其他好文   时间:2018-06-03 12:34:15    阅读次数:128
python 列表常用方法
1.在列表末尾添加新的对象 1 li=[11,22,33,'aa','bb','cc'] 2 li.append('dd') 3 print(li) 2.清空列表 1 li=[11,22,33,'aa','bb','cc'] 2 li.clear() 3 print(li) 3.列表拷贝 1 li= ...
分类:编程语言   时间:2018-06-03 12:33:57    阅读次数:195
关于ftp文件上传获取流对象空值问题
前些天写好的工具类,后来从新测试的时候出现的ftp.storeFileStream获得不到流对象。切出现等待时间的问题。 跟踪了代码,登录没有问题!进入ftp看了一些目录结构和文件。发现文件已经创建,但是里面没有内容。估计就是流对象无法写入内容的原因。 针对这个问题去网上查看了一些资料,再对比一些自 ...
分类:Web程序   时间:2018-06-03 12:33:49    阅读次数:313
python3 开发面试题(生成列表)6.2
#方式一 for 循环方法 l1 = [11, 2, 3, 22, 2, 4, 11, 3] l2 = [] for i in l1: if i not in l2: l2.append(i) print(l2) #方式二 l3 = list(set(l1)) # 将列表用set去重,再转换回列表( ...
分类:编程语言   时间:2018-06-03 12:33:39    阅读次数:164
归属于母公司所有者权益
“归属于母公司所有者权益”反映公司集团的所有者权益中归属于母公司所有者权益的部分。少数股东权益”反映非全资子公司的所有者权益中属于少数股东享有的份额,即不属于母公司的份额。 1、合并报表相当于母公司和子公司的集合,在合并报表里,所有者权益被分为“归属于母公司所有者的权益”和“少数股东权益”。比如,A ...
分类:其他好文   时间:2018-06-03 12:33:31    阅读次数:548
[Leetcode] Backtracking回溯法解题思路
碎碎念 : 最近终于开始刷middle的题了,对于我这个小渣渣确实有点难度,经常一两个小时写出一道题来。在开始写的几道题中,发现大神在discuss中用到回溯法(Backtracking)的概率明显增大。感觉如果要顺利的把题刷下去,必须先要把做的几道题题总结一下。 先放上参考的web: 1. htt ...
分类:其他好文   时间:2018-06-03 12:33:21    阅读次数:218
使用vsftp作为集群的yum仓库
地址规划:vsftp服务器的地址为172.16.1.61 使用的环境: [root@nfs01 scripts]# uname -a Linux nfs01 2.6.32-431.el6.x86_64 #1 SMP Fri Nov 22 03:15:09 UTC 2013 x86_64 x86_64 x86_64 GNU/Linux首先在yum服务器上挂载本地光盘mk
分类:其他好文   时间:2018-06-03 12:33:16    阅读次数:197
最新阿里巴巴面试题(附带面试标准答案)
我们已经介绍了关于阿里巴巴的任职要求,这节我就详细的介绍一下关于阿里巴巴的面试题(涉及到标准代码部分不予以出现
分类:其他好文   时间:2018-06-03 12:33:10    阅读次数:119
ORACLE和MYSQL的简单区别
1,Oracle没有offet,limit,在mysql中我们用它们来控制显示的行数,最多的是分页了。oracle要分页的话,要换成rownum。 2,oracle建表时,没有auto_increment,所有要想让表的一个字段自增,要自己添加序列,插入时,把序列的值,插入进去。 3,oracle有 ...
分类:数据库   时间:2018-06-03 12:33:01    阅读次数:159
MAPREDUCE中的序列化
Java的序列化是一个重量级序列化框架(Serializable),一个对象被序列化后,会附带很多额外的信息(各种校验信息,header,继承体系。。。。),不便于在网络中高效传输; 所以,hadoop自己开发了一套序列化机制(Writable),精简,高效 ...
分类:其他好文   时间:2018-06-03 12:32:48    阅读次数:173
HDU 1025 LIS二分优化
题目链接: acm.hdu.edu.cn/showproblem.php?pid=1025 Constructing Roads In JGShining's Kingdom Time Limit: 2000/1000 MS (Java/Others) Memory Limit: 65536/327 ...
分类:其他好文   时间:2018-06-03 12:32:40    阅读次数:165
1237条   上一页 1 ... 53 54 55 56 57 58 59 ... 73 下一页
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!