站点根网址(cfg_basehost):网站根节点网址,例如设置http://www.xuanhe.net,主要用于生成一些超链接中加入站点根网址,例如:百度新闻、站点RSS、系统上传附件等 网页主页链接(cfg_indexurl):用于前台模板调用网站主站连接 主页链接名(cfg_indexnam ...
分类:
其他好文 时间:
2020-06-03 15:30:41
阅读次数:
73
1.主题:百度新闻爬取 2. python代码: import requests from bs4 import BeautifulSoup def getHTMLText(url): try: r = requests.get(url,timeout=30) r.raise_for_status( ...
分类:
其他好文 时间:
2020-05-03 10:59:32
阅读次数:
207
目标:实现三个页面,两个测试脚本。 练习场景:新建了2个页面对象:百度新闻首页,百度体育新闻首页,具体文件结构如下图,其他和之前项目层级结构保持不变。 1.百度首页页面类代码(baidu_homepage.py),定义了百度新闻的入口 from framework.base_page import ...
分类:
编程语言 时间:
2020-04-10 12:04:58
阅读次数:
96
学习链接http://stu.ityxb.com/openCourses/detail/238 什么是爬虫: 网络爬虫就是模拟浏览器发送网络请求 接受请求响应 按照一定规则 自动抓取互联网信息的程序 爬虫的用途: 数据采集(百度新闻,今日头条)、12306抢票、网络自动投票、 调试工具: Fn+ F ...
分类:
其他好文 时间:
2020-03-22 19:48:47
阅读次数:
161
from selenium import webdriver from bs4 import BeautifulSoup from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Ke ...
分类:
其他好文 时间:
2020-03-21 14:47:09
阅读次数:
64
findElements是用来查找一组元素,而findElement是用来查找匹配表达式的第一个元素。 这里用百度新闻某一个模块下新闻标题打印举例。 package rjcs; import java.text.SimpleDateFormat; import java.util.ArrayList ...
分类:
编程语言 时间:
2020-01-20 10:00:00
阅读次数:
70
利用百度新闻摘要能力和微信小程序,快速抽取新闻摘要内容并进行语音播报,让AI做回新闻主播!本文主要介绍小程序功能开发实现过程,分享主要功能实现的子程序模块,都是干货哦!! ...
分类:
其他好文 时间:
2019-09-11 12:11:17
阅读次数:
159
百度链接提交工具: http://zhanzhang.baidu.com/linksubmit/index 百度博客提交: http://ping.baidu.com/ping.html 百度信誉申请: http://trust.baidu.com/vstar/feedback 百度死链提交入口: ...
分类:
其他好文 时间:
2019-04-02 10:30:51
阅读次数:
298
这篇文章只是简单展示一个基于HTTP请求如何抓取数据的文章,如觉得简单的朋友,后续我们再慢慢深入研究探讨。 图1: 如图1,我们工作过程中,无论平台网站还是企业官网,总少不了新闻展示。如某天产品经理跟我们说,推广人员想要抓取百度新闻中热点要闻版块提高站点百度排名。要抓取百度的热点要闻版本,首先我们先 ...
一、元素创建的三种方式 元素创建是为了提高用户的体验 1、第一种 缺陷:页面加载完毕时后,通过这种方式创建的元素会覆盖原有页面的所有内容 扩展:可以嵌入外部的代码(百度新闻代码为例) 2、第二种 案例1:点击按钮创建图片 案例2:点击按钮创建列表 3、第三种 步骤:创建 >追加(方法见后面) 案例1 ...
分类:
其他好文 时间:
2018-05-03 12:47:56
阅读次数:
207