对学院网站进行抓取、建索、排序、搜索、摘要显示。是Web界面。首先利用httpclient+多线程去模拟客户端去进行获取网页的内容,然后采用jsoup+多线程来进行解析网页内容并存储本地 项目主要使用技术HttplcientJsoup多线程数据库dao模式IKAnanyzerLuceneJavasc ...
分类:
编程语言 时间:
2021-06-02 16:01:44
阅读次数:
0
全面超越Appium,使用Airtest超快速开发App爬虫 想开发网页爬虫,发现被反爬了?想对 App 抓包,发现数据被加密了?不要担心,使用 Airtest 开发 App 爬虫,只要人眼能看到,你就能抓到,最快只需要2分钟,兼容 Unity3D、Cocos2dx-*、Android 原生 App ...
分类:
其他好文 时间:
2021-03-29 11:53:32
阅读次数:
0
前言在很多网站上,都会以表格的形式展示数据,而我们获取这种数据只需通过十几行爬虫代码就可以搞定,轻松搞定网页爬虫,实现高效办公爬取上市公司数据、分析数据,并用可视化现实全国各地区公司数量知识点:爬虫基本原理requests的简单使用pandas库pyecharts可视化工具第三方库:requestspandas开发环境:Python3.6Pycharm这里就只展示部分代码了爬虫代码1.导入工具fr
分类:
其他好文 时间:
2020-08-25 15:40:02
阅读次数:
95
Python第三方库 jieba - 分词 matplotlib - 绘图 PIL - 图片处理 numpy - 矩阵运算 sqlite3 - sqlite数据库 Flask - web框架 urllib - URL处理,网页爬虫 bs4 - 解析文档-html re - 正则表达式,文字匹配 xl ...
分类:
编程语言 时间:
2020-07-18 15:31:09
阅读次数:
65
import requestsimport timeimport reimport os"""歌手字典"""song_dict = {}def song_static(): """采集静态页面url和歌手""" try: response = requests.get('http://www.9ku ...
分类:
Web程序 时间:
2020-07-11 11:16:32
阅读次数:
105
1. 应用K-means算法进行图片压缩 读取一张图片 观察图片文件大小,占内存大小,图片数据结构,线性化 用kmeans对图片像素颜色进行聚类 获取每个像素的颜色类别,每个类别的颜色 压缩图片生成:以聚类中收替代原像素颜色,还原为二维 观察压缩图片的文件大小,占内存大小 答: 读取一张图片并显示出 ...
分类:
编程语言 时间:
2020-04-19 16:23:21
阅读次数:
71
content 1.什么是爬虫? 2.为什么用python做网页爬虫 3.python环境配置 4.我需要了解哪些python爬虫的前置知识 5.关于正则表达式 6.提取网页内容并用正则表达式处理 7.xPath和BeautifulSoup工具简介 1.爬虫简介 简单来讲,爬虫就是一个探测机器,它的 ...
分类:
编程语言 时间:
2020-03-24 00:46:56
阅读次数:
96
动态网页爬虫 什么是动态网页爬虫和AJAX技术: 动态网页,是网站在不重新加载的情况下,通过ajax技术动态更新网站中的局部数据。比如拉勾网的职位页面,在换页的过程中,url是没有发生改变的,但是职位数据动态的更改了。 AJAX(Asynchronouse JavaScript And XML)异步 ...
分类:
其他好文 时间:
2020-03-10 21:33:51
阅读次数:
61
我一直想用 Python and Selenium 创建一个网页爬虫,但从来没有实现它。 几天前, 我决定尝试一下,这听起来可能是挺复杂的, 然而编写代码从 Unsplash 抓取一些美丽的图片还是挺容易的。 PS:很多人在学习Python的过程中,往往因为遇问题解决不了或者没好的教程从而导致自己放 ...
分类:
编程语言 时间:
2020-02-13 19:23:52
阅读次数:
114
前些日子学习了一些爬虫知识,鉴于时间较短,就只看了静态网页爬虫内容,而有关scrapy爬虫框架将在后续继续探索。 以下以重庆市统计局官网某页面爬取为例(http://tjj.cq.gov.cn/tjsj/sjjd/201608/t20160829_434744.htm): 0、程序代码 1 impo ...
分类:
编程语言 时间:
2020-02-06 14:54:00
阅读次数:
86