今天的任务是爬取拉勾网的职位信息。 首先,我们进入拉勾网,然后在职位搜索栏搜索Python 的同时,打开控制面板F12,来查看网页构成。 在XHR里,可以清楚的看见Ajax请求,所以需要使用session模块来模拟浏览器的行为来操作。 源代码如下: import requests import js ...
分类:
编程语言 时间:
2019-11-09 19:55:16
阅读次数:
113
一、准备工作(找到所需网站,获取请求头,并用到请求头) 找到所需爬取的网站(这里举拉勾网的一些静态数据的获取) https://www.lagou.com/zhaopin/Python/ 请求头的作用:模拟真实用户进入网站浏览数据 headers={ 'User-Agent':'Mozilla/5. ...
分类:
编程语言 时间:
2019-11-09 13:49:32
阅读次数:
97
爬虫: 由于在我参与的那个项目中,出于市场营销的需要,为了获取最新的XXXX信息,我们用Python语言做了一个比较简单的网络爬虫,专门用来在新浪微博上爬取最近的热搜,给市场部的员工作为参考。 单点登录(SSO): 另外我们的项目因为分成了多个系统,为了解决cookie无法跨域导致的用户重复登录问题 ...
分类:
其他好文 时间:
2019-11-09 11:43:52
阅读次数:
100
题记:作为测试工程师经常需要解决测试数据来源的问题,解决思路无非是三种:(1)直接从生产环境拷贝真实数据 (2)从互联网上爬取数据 (3)自己用脚本或者工具造数据。前段时间,为了获取更多的测试数据,笔者就做了一个从互联网上爬取数据的爬虫程序,虽然功能上基本满足项目的需求,但是爬取的效率还是不太高。作 ...
分类:
编程语言 时间:
2019-11-09 11:29:15
阅读次数:
67
#!usr/bin/env python #-*- coding:utf-8 _*- """ @author:lenovo @file: 壹共享.py @time: 2019/11/08 """ from selenium import webdriver import time from lxml ...
分类:
其他好文 时间:
2019-11-08 12:37:28
阅读次数:
62
咨询行业中经常接触到文本类信息,无论是分词做词云图,还是整理编码分析用,都非常具有价值。 本文将记录使用scrapy框架爬取京东IPhone11评论的过程,由于一边学习一边实践,更新稍慢请见谅。 1.scrapy开始创建项目: scrapy startproject projectName 2. 进 ...
分类:
其他好文 时间:
2019-11-07 23:14:08
阅读次数:
152
起因 为什么做这个东西,是突然间听一后端同事说起 "Annie" 这个东西,发现这个东西下载视频挺方便的,会自动爬取网页中的视频,然后整理成列表。发现用命令执行之后是下面的样子: 心里琢磨了下,整一个界面玩一下吧。然后就做成下面这个样子了。 列表 下载列表 本文地址仓库: "https://gith ...
分类:
Web程序 时间:
2019-11-07 12:50:12
阅读次数:
133
爬取艺龙酒店基础资料 通过对网页源代码分析找到相应节点 提取相应要素并存储 提取自己需要的信息,然后存储就好,这边存放mysql数据库 结果 ...
分类:
其他好文 时间:
2019-11-06 19:56:17
阅读次数:
145
看了两三个爬虫程序,就自己写了一个简单的爬虫程序,爬取的是:猫眼电影-榜单-热映口碑榜11月6号的数据 from urllib import request import re def getHtml(url, ua_agent='Mozilla/5.0 (Windows NT 10.0; Win6 ...
分类:
其他好文 时间:
2019-11-06 16:53:19
阅读次数:
91
'最喜欢通俗易懂地解释一个事情。', '<b>一、协方差:', '可以通俗的理解为:两个变量在变化过程中是同方向变化?还是反方向变化?同向或反向程度如何?', '你变大,同时我也变大,说明两个变量是同向变化的,这时协方差就是正的。', '你变大,同时我变小,说明两个变量是反向变化的,这时协方差就是负 ...
分类:
其他好文 时间:
2019-11-06 13:21:12
阅读次数:
96