linux curl命令的重要用法:发送GET/POST请求,获取网页内容 ...
分类:
Web程序 时间:
2020-11-06 01:27:21
阅读次数:
27
from bs4 import BeautifulSoup #网页解析,获取数据 import sys #正则表达式,进行文字匹配 import re import urllib.request,urllib.error #指定url,获取网页数据 import xlwt #使用表格 import ...
分类:
编程语言 时间:
2020-10-18 10:08:33
阅读次数:
27
注:其中第一页需要手动改一些url,默认从第二页开始爬。第一页因为那个下一页的xpath跟其他的页码有不同,其实还有很多东西可以优化可以增加的,我也懒得去再改了 代码: import requests from lxml import etree import os class Bizi(objec ...
分类:
其他好文 时间:
2020-09-17 18:16:40
阅读次数:
43
from selenium import webdriver import time driver=webdriver.Chrome() driver.get("http://www.baidu.com/") #截屏 time.sleep(3) #获取网页源代码 a=driver.page_sour ...
分类:
Web程序 时间:
2020-07-30 01:25:41
阅读次数:
89
Python爬虫 # 开发思路 准备 - 分析网页内容-结合chrome开发者模式 爬取原始数据 HTTP库 提取/清洗数据 保存 # 引入包 urllib - 指定url 获取网页信息 bs4 - 解析网页 re - 正则表达式,文字匹配 xlwt - excel操作 sqlite3 - SQLi ...
分类:
编程语言 时间:
2020-07-18 15:31:42
阅读次数:
66
# -*- codeing = utf-8 -*- # @Time : 2020/7/9 16:43 # @Author: 小菜菜最菜 # @File : douban.py # @Software : PyCharm from bs4 import BeautifulSoup# 网页解析,获取数据 ...
分类:
其他好文 时间:
2020-07-12 22:30:01
阅读次数:
102
XPath简介 XPath,经常写爬虫的人应该都不陌生。比如 Python 中,经常使用 lxml 来获取网页的元素,特别方便。 对应的 Chrome 也有一个插件,叫 XPath Helper,能直接给出鼠标所在的 XPath 路径: 还有一个利用 XPath 在线解析 xml 的,传送门🚪 X ...
分类:
其他好文 时间:
2020-07-01 22:01:22
阅读次数:
126
前言:本文主要是分享下利用python爬取百度指定贴吧的全部帖子以及帖子回复内容,主要是利用python的request库获取网页信息,通过正则等方式解析我们需要的数据并存储到数据库中,并且后续可以用于情感分析、热词分析等分析,这些分析操作可以看我的另一篇文章。 https://www.bizhib ...
分类:
编程语言 时间:
2020-06-22 23:17:35
阅读次数:
62
function getrealurl($url){ $realurl = $url; try { $headers = get_headers($realurl, true); if(isset($headers['Location'])){ if(is_array($headers['Locat ...
分类:
Web程序 时间:
2020-06-20 23:54:00
阅读次数:
81
爬取数据时,有时候会出现无法通过正常的requests请求获取网页内容,导致数据无法抓取到,遇到这种情况时,可以换种思路去爬取数据,使用PhantomJS,即爬虫终极解决方案去获取页面元素。 #!/usr/local/bin/python3.7 from selenium import webdri ...
分类:
编程语言 时间:
2020-06-14 20:53:53
阅读次数:
155