码迷,mamicode.com
首页 > 编程语言 > 详细

Python爬虫抓取 python tutorial中文版,保存为word

时间:2016-11-27 07:26:36      阅读:167      评论:0      收藏:0      [点我收藏+]

标签:alt   tor   wrapper   断网   代码   网址   from   directory   哈哈   

看到了中文版的python tutorial,发现是网页版的,刚好最近在学习爬虫,想着不如抓取到本地

首先是网页的内容

技术分享

查看网页源码后发现可以使用BeautifulSoup来获取文档的标题和内容,并保存为doc文件。

这里需要使用from bs4 import BeautifulSoup  来导入该模块

具体代码如下:

# 输出所在网址的内容
from bs4 import BeautifulSoup
def introduce(url): res = requests.get(url) res.encoding = utf-8 soup = BeautifulSoup(res.text, html.parser) title = soup.select(h1)[0].text content = \n .join([p.text.strip() for p in soup.select(.section)]) #print(title) #print(content)

接下来是使用for循环遍历所有符合的内容以获取目录所指向的链接,所得到的链接是不完整的,故给其加上主站的链接,生成有效的url,储存于列表address之中。这里我对比后使用了xpath来抓取目录的地址,故用 from lxml import etree   导入该模块

# 返回目录所对应的地址
def get_url(selector):
    sites = selector.xpath(//div[@class="toctree-wrapper compound"]/ul/li)
    address = []
    for site in sites:
        directory = ‘‘.join(site.xpath(a/text()))
        new_url = site.xpath(a/@href)
        address.append(http://www.pythondoc.com/pythontutorial3/ + ‘‘.join(new_url))
    return address

然后在主函数中调用get_url(),对其中的所有url遍历,调用introduce()函数,输出全部文本内容

def main(): 
    url = http://www.pythondoc.com/pythontutorial3/index.html#
    html = requests.get(url)
    html.encoding = utf-8
    selector = etree.HTML(html.text)
    introduce(url)
    url_list = get_url(selector)
    for url in url_list:
        introduce(url)

if __name__ == __main__:
    main()

最后就是将输出的东西写到.doc中了,这里调用os模块,将写入文件的命令放置于introduce()函数中去

import os #将其放置于顶部

 with open(python.doc, a+, encoding=utf-8) as f:
        f.write(content)

至此,就完成了对中文版python tutorial内容的获取,成功写进本地文件中去,对于我这种经常性断网断点的人来说还是很不错的!还可以放在手机里看,哈哈哈

 

对于bs4可以直接在命令行使用 pip install bs4 命令进行安装

而在windows平台下 lxml 的安装会出现许多错误,建议在windows下Python的扩展包网站下载对应版本的lxml.whl文件,之后在本地使用 pip install *********** 进行安装,

注意:

  *************代表的是安装文件的全称。

  安装的时候再命令行下一定要切换到下载文件所在的目录下,否则会报错。

 

Python爬虫抓取 python tutorial中文版,保存为word

标签:alt   tor   wrapper   断网   代码   网址   from   directory   哈哈   

原文地址:http://www.cnblogs.com/Wananbo/p/6105784.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!