首页 > 编程语言 > 详细

python爬虫(一)

时间：2018-02-10 21:19:36 阅读：236 评论：0 收藏：0 [点我收藏+]

标签：安装 serve python 服务 pytho har 方法爬取 image

python网络爬虫（一） 2018-02-10

python版本：python 3.7.0b1

IDE：PyCharm 2016.3.2

涉及模块：requests & builtwith

模块安装方法：Win+R 进入cmd, 进入文件夹Scripts

命令：pip install requests / pip install requests(如不能正确安装，请留言或自行百度解决)

话不多说，先上代码：

1 #coding : utf-8
2 import requests
3 import builtwith    #引入所需python库
4 print("开始爬取")
5 url = "https://www.wenjiwu.com/doc/uqzlni.html"     #爬取对象网址
6 r = requests.get(url)        #requests模块get方法
7 print (r.status_code)        #xxx.status_code方法，返回值若为200，则爬取成功
8 print (r.text)                  #xxx.text方法，得到URL对应HTML源码
9 print (builtwith.parse(url)) #builtwith模块将URL作为参数，返回该网站使用的技术

（url网址随意，baidu, imooc...都可以）

脚本运行结果：

技术分享图片

可以看到，程序正常运行，返回值200，爬取成功，builtwith模块得到了示例网站 web-servers: Nginx(服务器类型，详细了解)，

使用了jQuery的javascript框架。但是碍于篇幅，其中HTML源码内容运行时注释掉了，不要惊讶！！！

r.text 结果（部分）：

技术分享图片

（内容无意中伤 Single Dog, Me too #_# ）

转载请注明出处，欢迎留言讨论。

python爬虫(一)

标签：安装 serve python 服务 pytho har 方法爬取 image

原文地址：https://www.cnblogs.com/yocichen/p/8439710.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！