搜索关键字：soup，搜索到551个结果！码迷,mamicode.com！

随机抽取文件内容中的一行

[root@wingpython]#catChicken_Soup_for_the_Soul.py#!/usr/bin/envpython#coding=utf8#"ChickenSoupfortheSoul"Version:0.1#authorbyCrazyWing,weixin:18612540627#思想:想办法得到文本有多少行，再以行数作随机取值importrandom,rewithopen(‘jitangxin.txt‘,‘r‘)asf:file_con..

分类：其他好文时间：2017-11-10 12:42:46 阅读次数：204

JSOUP教程，JSOUP 乱码处理，JSOUP生僻字乱码解决方案

JSOUP乱码情况产生这几天我用 JSOUP 多线程的方式，爬取了200 多万数据，数据为各地的地名相关。结果有小部分数据，不到 1 万乱码。我先检查了我的编码为UTF-8 ，觉得应该没有问题。代码基本如下如下： try{ doc = Jsoup.connect(url) .header("Use ...

分类：Web程序时间：2017-11-08 19:57:22 阅读次数：283

BeautifulSoup

BeautifulSoup是一个模块，该模块用于接收一个HTML或XML字符串，然后将其进行格式化，之后遍可以使用他提供的方法进行快速查找指定元素，从而使得在HTML或XML中查找指定元素变得简单。 from bs4 import BeautifulSoup html_doc = """ <html ...

分类：其他好文时间：2017-11-04 20:38:17 阅读次数：113

Python爬虫入门教程：博客园首页推荐博客排行的秘密

虽然博客园注册已经有五年多了，但是最近才正式开始在这里写博客。（进了博客园才知道这里面个个都是人才，说话又好听，超喜欢这里...）但是由于写的内容都是软件测试相关，热度一直不是很高。看到首页的推荐博客排行时，心里痒痒的，想想看看这些大佬究竟是写了什么文章这么受欢迎，可以被推荐。所以用Python抓取... ...

分类：编程语言时间：2017-11-04 11:17:47 阅读次数：198

团队编程项目作业3-模块开发过程

项目托管平台地址:https://gitee.com/nuII/Douban-Top250/tree/master 开发模块功能: 导出到文件开发时间:1天(小时),实现了导出文件功能, 开发爬取时遇到了很多问题,最终使用安装Beautiful Soup解决了这个问题 ...

分类：其他好文时间：2017-10-25 23:56:51 阅读次数：193

Python爬虫系列（六）：搜索文档树

今天早上，写的东西掉了。这个烂知乎，有bug，说了自动保存草稿，其实并没有保存。无语今晚，我们将继续讨论如何分析html文档。 1.字符串 #直接找元素soup.find_all('b') 2.正则表达式 #通过正则找import refor tag in soup.find_all(re.com ...

分类：编程语言时间：2017-10-25 00:56:42 阅读次数：151

Python爬虫系列（七）：提高解析效率

如果仅仅因为想要查找文档中的<a>标签而将整片文档进行解析,实在是浪费内存和时间.最快的方法是从一开始就把<a>标签以外的东西都忽略掉. SoupStrainer 类可以定义文档的某段内容,这样搜索文档时就不必先解析整篇文档,只会解析在 SoupStrainer 中定义过的文档. 创建一个 Soup ...

分类：编程语言时间：2017-10-25 00:55:50 阅读次数：180

Python爬虫系列（四）：Beautiful Soup解析HTML之把HTML转成Python对象

在前几篇文章，我们学会了如何获取html文档内容，就是从url下载网页。今天开始，我们将讨论如何将html转成python对象，用python代码对文档进行分析。 (牛小妹在学校折腾了好几天，也没把html文档给分析出来。接下来的几篇文章，你可就要好好看了) Beautiful Soup将复杂HTM ...

分类：编程语言时间：2017-10-20 10:24:53 阅读次数：437

爬虫+词云：爬取豆瓣电影top100的导演制作图云

前段时间做了一个关于豆瓣电影的爬虫，之后又写了一个陈奕迅歌词的词云制作，于是我想不如做一个关于豆瓣高分电影导演的词云试试，于是有了接下来这篇随笔。首先，我需要知道豆瓣top100电影详情页面的url，以便爬取对应导演。在豆瓣电影top250界面在得到top100电影详情界面的url之后，需要对这 ...

分类：其他好文时间：2017-10-17 19:00:40 阅读次数：254

python BeautifulSoup库的基本使用

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树(parse tree)。它提供简单又常用的导航（navigating），搜索以及修改剖析树的操作。它可以大大节省你的编程时间。安装 1. 可以利用 pip 或者 easy_in ...

分类：编程语言时间：2017-10-14 18:39:08 阅读次数：170

共551条上一页 1 ... 35 36 37 38 39 ... 56 下一页

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)