最近爬取一个报表的数据,里面有个INPUT元素,没有ID,NAME,CLASS是重复使用的。没有办法,只好学习by_xpath的详细用法; from selenium import webdriver from selenium.webdriver.common.keys import Keys # ...
分类:
其他好文 时间:
2020-02-24 15:14:05
阅读次数:
58
import re import os import requests from time import sleep headers = { "User-Agent": ("Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:64.0) " "Gecko/201 ...
分类:
编程语言 时间:
2020-02-24 09:51:46
阅读次数:
83
from lxml import etree import requests from urllib import request import time import os from queue import Queue import threading import re from multip ...
分类:
编程语言 时间:
2020-02-23 16:15:47
阅读次数:
147
1. 定位及获取目标元素 由于这是一个 structured data ,而且有一定的 层次 ,鉴于需要 较快 完成信息的整理,所以并没有另外新学structured data信息的爬取(以后再说QAQ) 如果简单的 复制粘贴 的话,会变成以下模样... (可能要改好久的换行符,我不!!!) 那首先 ...
分类:
编程语言 时间:
2020-02-22 23:35:28
阅读次数:
163
从股票列表网页获取股票代码 根据股票代码去股票详情页面获取股票详细信息 1、 股票列表页面 凤凰网财经—股票信息 http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p=1 2、 股票详细信息 老虎社区—股票详情 htt ...
分类:
其他好文 时间:
2020-02-22 20:00:00
阅读次数:
222
这一周我学习了python的一些基本语法和函数 以及如何从不同类型的网站爬虫 爬取了丁香园-的疫情数据还有拉勾网,猫眼的一些信息 学到两种方法,一种是xpath方法,一种是正则表达式 xpath import requests from lxml import etree import xlwt u ...
分类:
其他好文 时间:
2020-02-22 15:36:27
阅读次数:
90
情人节刚过去几天,但是这和我们程序员有什么关系呢,对我们来说,万物皆对象。但是啊,小编为了讨得仰慕已久的女神的欢心(真香),便用python爬取了爱词霸网站的每日一句和天气预报网站的天气预报,并且每天定时将内容推送到女神的手机短信中(代码实现,不需要短信费哦)。 好东西要学会分享,因此小编打算分三个 ...
分类:
编程语言 时间:
2020-02-21 22:05:26
阅读次数:
107
正则爬取手机号 结果: 代码: 1 package main 2 3 import ( 4 "fmt" 5 "io/ioutil" 6 "net/http" 7 "os" 8 "regexp" 9 ) 10 11 var ( 12 rePhone = `(1[3456789]\d)(\d{4})(\ ...
分类:
移动开发 时间:
2020-02-21 19:57:09
阅读次数:
359
1.准备工作 先来到有道在线翻译的界面http://fanyi.youdao.com/ F12 审查元素 ->选Network一栏,然后F5刷新 (如果看不到Method一栏,右键Name栏,选中Method) 输入文字自动翻译后发现Method一栏有GET还有POST;GET是指从服务器请求和获得 ...
分类:
编程语言 时间:
2020-02-21 18:23:50
阅读次数:
73
今天在爬取某网站数据内容适合,通过正则匹配拿到了需要的内容字符串,但是在反序列化的时候竟然报错,大概意思知道他不是json的期望值,那么我就会像是不是数据内有一些内容是由于编码的问题导致的呢?因为之前爬一些内容时候在打印一些爬到的东西这些内容是打印不出来的,因为python中的打印好像用的是gbk默 ...
分类:
Web程序 时间:
2020-02-21 17:52:25
阅读次数:
1584