码迷,mamicode.com
首页 >  
搜索关键字:爬取    ( 4795个结果
朴素贝叶斯进行新闻分类
数据来源 通过爬虫,爬取腾讯新闻三个分类每个分类大约1000条左右数据,存入excel 以上是大体的数据,三列分别为title、content、class;由于这里讲的的不是爬虫,爬虫部分省略 项目最终结构 其中主要逻辑在native_bayes.py文件中实现,utils.py为部分工具函数,tr ...
分类:其他好文   时间:2019-11-12 20:14:04    阅读次数:192
爬取---Books to Scrape(第一页所有书名和价格)
1、首先在终端建立一个项目 项目名为bookspider 建立过程在这里就略写了 网站链接:http://books.toscrape.com/catalogue/page-1.html 2、打开文件spider——books.py文件以及settings.py文件 重新配置settings.py文 ...
分类:其他好文   时间:2019-11-12 16:07:14    阅读次数:122
前程无忧——数据分析岗位爬取
本文主要是介绍从前程无忧上爬取岗位为数据分析的职位,主要是五个字段,职位名称、公司名称、工作地点、薪资和发布时间。同时把爬取下来的数据保存到mysql数据库中。 1 import requests 2 import pymysql 3 import re 4 5 6 # 连接数据库并创建数据表 7 ...
分类:其他好文   时间:2019-11-11 21:18:59    阅读次数:733
接着上次的python爬虫,今天进阶一哈,局部解析爬取网页数据
*解析网页数据的仓库 用Beatifulsoup基于lxml包lxml包基于html和xml的标记语言的解析包。可以去解析网页的内容,把我们想要的提取出来。 第一步、导入两个包,项目中必须包含beautifulsoup4和lxml 第二步、先去获取网页的数据 def get_html(): url= ...
分类:编程语言   时间:2019-11-11 12:32:15    阅读次数:123
python爬虫
一、用python爬取一个求职网页的一些信息 网页截图如下: 代码: import requests from bs4 import BeautifulSoup import io import sys sys.stdout=io.TextIOWrapper(sys.stdout.buffer,en ...
分类:编程语言   时间:2019-11-11 09:34:50    阅读次数:91
selenium+云打码+百度ocr爬取360的电话号码标记
写了个脚本,用于从www.so.com 上查询电话号码的标记情况,记录下号码所属公司、标记类型、标记人数(如果存在)。如下图红框中的信息。主要使用python的beautifulsoup和selenium,还用到了云打码平台(固定ip频繁查询后会被360要求输入验证码,需要收费,1分钱1个码)和百度OCR(360的查询结果中,所属公司是图片形式,因此需要文字识别,每天50000张以下免费)。约4-8秒处理一个号码,只能单进程(多进程啥的无意义,毕竟固定ip只有一个)。我们用来处理9000个号码,0点开始,大约10点结束。(python3.7.2)
分类:其他好文   时间:2019-11-10 21:11:13    阅读次数:86
python爬取简单网页
requets requests是python实现的简单易用的HTTP库,使用起来比urllib简洁很多 因为是第三方库,所以使用前需要cmd安装 pip install requests 安装完成后import一下,正常则说明可以开始使用了。 基本用法: requests.get()用于请求目标网 ...
分类:编程语言   时间:2019-11-10 19:13:14    阅读次数:97
python 正则表达式之转义字符
最近在整理python相关的知识,使用python对网站进行爬取数据的时候,需要使用到转义字符,之前对转义字符理解一直比较模糊,并且在python中还有一个叫原生字符r。所以通过网上调查资料对该内容进行整理,已备不时之需。 字符串转义 反斜杠,在python中比较特殊,就是它可以用来构成一些特殊字符 ...
分类:编程语言   时间:2019-11-10 17:21:23    阅读次数:69
selenium+云打码+百度ocr爬取360的电话号码标记
写了个脚本,用于从www.so.com 上查询电话号码的标记情况,记录下号码所属公司、标记类型、标记人数(如果存在)。如下图红框中的信息。主要使用python的beautifulsoup和selenium,还用到了云打码平台(固定ip频繁查询后会被360要求输入验证码,需要收费,1分钱1个码)和百度... ...
分类:其他好文   时间:2019-11-10 15:38:21    阅读次数:107
基于Python实现的ComicReaper漫画自动爬取脚本
讲真的, 手机看漫画翻页总是会手残碰到页面上的广告好吧... 要是能只需要指定一本漫画的主页URL就能给我返回整本漫画就好了... 还是使用Python来实现, 取个名字...就叫 ComicReaper(漫画收割者) 吧! 首先我们对我们接下来要做的事情做一个具体流程分析 我们要获取当前漫画所有章 ...
分类:编程语言   时间:2019-11-10 09:34:25    阅读次数:114
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!