四周爬虫课第二周的练习,爬取赶集网二手物品下所有物品的信息。大致思路:1、爬取频道页url;2、爬取商品详情页url,写入mongodb,url_list表;3、从url_list表读取url,爬取商品信息,写入mongodb,p_info表分成3个py文件:1、channel_url.py,获取频 ...
分类:
其他好文 时间:
2020-03-21 16:15:30
阅读次数:
85
碰到的问题: 1.list 越界 查询后加了个 try: except IndexError: pass 一个简单的爬虫程序 1 import requests 2 from lxml import etree 3 import csv 4 import os 5 6 7 #创建一个csv文件 如果 ...
分类:
其他好文 时间:
2020-01-04 16:11:13
阅读次数:
78
有时我们在打开浏览器浏览网页时,当点击网页上某些链接时,它不是直接在当前页面上跳转,而是重新打开一个新标签页面,对于这种情况,想在新页面上操作,就得先切换窗口了。获取窗口的唯一标识用句柄表示,所以只需要切换句柄,我们就能在多个页面上灵活自如的操作了。 一、认识多窗口 1、这里以赶集网为例,打开赶集网 ...
分类:
其他好文 时间:
2020-01-04 12:58:18
阅读次数:
125
赶集网的app加载速度有点慢,打开以后我立刻要点二手物品,结果在点击前的一瞬间广告出来了,图标就被挤到下面去了,而我则又为赶集的头条广告增加了点击率,这种被迫中奖的感觉真心不爽!这种banner加载在一开始就预留好位置会不会好一些?不知道是不是赶集网用心险恶故意让你点进去,还是技术上有问题,但这种加载过程中出现布局变化的方式真心不可取。赶集网下载链接软件介绍赶集网app是一款由赶集网官方推出的客户
分类:
移动开发 时间:
2018-11-21 16:19:53
阅读次数:
275
本文讲的是C语言解决螺旋矩阵算法问题的代码示例_C 语言, 赶集网校招就采用了螺旋输出矩阵作为程序题,要求将矩阵螺旋输出如: 图中6*6矩阵线条所示为输出顺序,如果输出正确的话应该输出1~36有序数字。 我想的是这么做的: #include <stdio.h> //#de
分类:
编程语言 时间:
2018-11-06 23:29:22
阅读次数:
192
最近拜读了徐茂权老师的《 网络营销决胜武器(第2版)》,下面会梳理书中的内容,记录下以后可能会用到的软文营销的技巧。 一、软文载体 1、平面媒体软文:报纸、期刊。 2、非正式出版的基于印刷、打印形式载体的软文:企业印刷的宣传册、企业内刊等。 3、硬广中的软文:户外广告、平面媒体广告中的文字。 4、博 ...
分类:
其他好文 时间:
2018-10-21 19:30:57
阅读次数:
354
滴滴出行创始人程维、同程旅游 CEO 吴志祥、原美团 COO 干嘉伟、原大众点评 COO 吕广渝、原赶集网 COO 陈国环,中国互联网数不清的 CEO 和高管都出自阿里中供铁军。 马云曾公开评价:“阿里巴巴旗下最剽悍,最具战斗力的销售团队,非中供铁军莫属!” 到现在为止,阿里的整套销售管理体系已被众 ...
分类:
其他好文 时间:
2018-06-22 13:46:10
阅读次数:
386
前期的配置工作在之前的一篇博文中有提到过,现在直接进行爬取 一.创建项目 二.创建spider文件 三.利用chrome浏览器分析出房价和标题的两个字段的xpath表达式,开始编写patubole.py文件。网络的爬取是通过这个文件进行的 以下代码是最终的代码 所建的patubole.py文件必须实 ...
分类:
编程语言 时间:
2018-04-21 19:37:24
阅读次数:
332
1.门户类:新浪,搜狐,腾讯,网易。。。。。。 2.分类信息:58同城,赶集网。。。 3.交易类:淘宝,天猫,京东。。。 4.娱乐:腾讯,优酷,爱奇艺。。。 5.博客类:博客园,新浪博客,csdn。。。。。 6.论坛/社区类:小红书社区。。。。 7.行业类:汽车之家。。。。。 8.企业网站:thou ...
分类:
Web程序 时间:
2017-10-29 14:36:06
阅读次数:
287
主要门户:Baidu、Google、Sina、 网易、Sohu、腾讯、天涯、MOP、凤凰网、人人网、开心网、新华网、人民网、中国移动、CNTV、58同城、赶集网、360、淘宝、ZOL、大众点评、 论坛发帖有链接限制等级要求的论坛有:网易、Sohu。搜吧的有限制关键敏感词。 旅游垂直门户:携程、去哪儿 ...
分类:
其他好文 时间:
2017-07-04 11:17:06
阅读次数:
131