[root@wingpython]#catChicken_Soup_for_the_Soul.py#!/usr/bin/envpython#coding=utf8#"ChickenSoupfortheSoul"Version:0.1#authorbyCrazyWing,weixin:18612540627#思想:想办法得到文本有多少行,再以行数作随机取值importrandom,rewithopen(‘jitangxin.txt‘,‘r‘)asf:file_con..
分类:
其他好文 时间:
2017-11-10 12:42:46
阅读次数:
204
JSOUP乱码情况产生 这几天我用 JSOUP 多线程的方式,爬取了200 多万数据,数据为各地的地名相关。结果有小部分数据,不到 1 万乱码。我先检查了我的编码为UTF-8 ,觉得应该没有问题。代码基本如下如下: try{ doc = Jsoup.connect(url) .header("Use ...
分类:
Web程序 时间:
2017-11-08 19:57:22
阅读次数:
283
BeautifulSoup是一个模块,该模块用于接收一个HTML或XML字符串,然后将其进行格式化,之后遍可以使用他提供的方法进行快速查找指定元素,从而使得在HTML或XML中查找指定元素变得简单。 from bs4 import BeautifulSoup html_doc = """ <html ...
分类:
其他好文 时间:
2017-11-04 20:38:17
阅读次数:
113
虽然博客园注册已经有五年多了,但是最近才正式开始在这里写博客。(进了博客园才知道这里面个个都是人才,说话又好听,超喜欢这里...)但是由于写的内容都是软件测试相关,热度一直不是很高。看到首页的推荐博客排行时,心里痒痒的,想想看看这些大佬究竟是写了什么文章这么受欢迎,可以被推荐。所以用Python抓取... ...
分类:
编程语言 时间:
2017-11-04 11:17:47
阅读次数:
198
项目托管平台地址:https://gitee.com/nuII/Douban-Top250/tree/master 开发模块功能: 导出到文件 开发时间:1天(小时),实现了导出文件功能, 开发爬取时遇到了很多问题,最终使用安装Beautiful Soup解决了这个问题 ...
分类:
其他好文 时间:
2017-10-25 23:56:51
阅读次数:
193
今天早上,写的东西掉了。这个烂知乎,有bug,说了自动保存草稿,其实并没有保存。无语 今晚,我们将继续讨论如何分析html文档。 1.字符串 #直接找元素soup.find_all('b') 2.正则表达式 #通过正则找import refor tag in soup.find_all(re.com ...
分类:
编程语言 时间:
2017-10-25 00:56:42
阅读次数:
151
如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 Soup ...
分类:
编程语言 时间:
2017-10-25 00:55:50
阅读次数:
180
在前几篇文章,我们学会了如何获取html文档内容,就是从url下载网页。今天开始,我们将讨论如何将html转成python对象,用python代码对文档进行分析。 (牛小妹在学校折腾了好几天,也没把html文档给分析出来。接下来的几篇文章,你可就要好好看了) Beautiful Soup将复杂HTM ...
分类:
编程语言 时间:
2017-10-20 10:24:53
阅读次数:
437
前段时间做了一个关于豆瓣电影的爬虫,之后又写了一个陈奕迅歌词的词云制作,于是我想不如做一个关于豆瓣高分电影导演的词云试试,于是有了接下来这篇随笔。 首先,我需要知道豆瓣top100电影详情页面的url,以便爬取对应导演。在豆瓣电影top250界面 在得到top100电影详情界面的url之后,需要对这 ...
分类:
其他好文 时间:
2017-10-17 19:00:40
阅读次数:
254
Beautiful Soup 是用Python写的一个HTML/XML的解析器,它可以很好的处理不规范标记并生成剖析树(parse tree)。 它提供简单又常用的导航(navigating),搜索以及修改剖析树的操作。它可以大大节省你的编程时间。 安装 1. 可以利用 pip 或者 easy_in ...
分类:
编程语言 时间:
2017-10-14 18:39:08
阅读次数:
170