一 返回的信息提示 Something went wrongrequest模块请求出现未知错误其中,所用代码如下(无User-Agent部分)问题多次派查无果,包括: 1:postman请求正常 2. curl 请求正常 解决办法:为请求添加user-agent头,如取消上注释部分。(我发现,...
分类:
Web程序 时间:
2015-07-27 14:28:17
阅读次数:
155
今天下午的总结让我发现了自己的几个缺点,立此为证,以求改变。第一点,事前观察不够仔细。事先在源代码上发现了几个数据就急着着手去做,没有观察完所有的数据,导致做到一半才发现有些是js代码执行后才出现的数据,与一般静态源代码的数据的抓取方式不同。第二点,坚持耐性尚缺。遇到了因为版本问题等而导不出数据到E...
分类:
其他好文 时间:
2015-07-23 21:37:01
阅读次数:
121
当当当~第三篇博客开始啦~ 这次的话题是数据抓取。终于到了核心部分的探讨,我的心情也是非常激动啊!如果大家baidu或者google(如果可以的话)数据抓取或者data crawling,将会找到数以千计的例子。但是大多数的代码非常的冗长,并且许多代码还是抓取静态数据之后,对动态JS写成的数据却毫....
分类:
编程语言 时间:
2015-07-23 00:12:16
阅读次数:
410
我的数据通过一个TextBox输入,这些代码是写在一个button的点击事件里的。 网页数据抓取大概分为两步,第一步是获取网页源代码: 具体注释如下: var currentUrl = TextBox1.Text;//获得要抓取的网页的URL地址 var request = WebRequest.C...
分类:
Web程序 时间:
2015-07-21 14:35:13
阅读次数:
107
要求:抓取博客的粉丝数、关注数、圆龄、文章数、阅读数、评论数、积分、排名、推荐数、反对数等数据。首先,来看下标准的博客界面,博客首页含有昵称、圆龄、粉丝、关注以及随笔、文章、评论等数据。右键页面,审查元素,可以看到以下HTML代码。1 2 3 昵称:Giiku4 ...
分类:
其他好文 时间:
2015-07-19 14:52:23
阅读次数:
363
一、非UTF-8页面处理1.背景windows-1251编码比如俄语网站:https://vk.com/cciinniikk可耻地发现是这种编码所有这里主要说的是 Windows-1251(cp1251)编码与utf-8编码的问题,其他的如 gbk就先不考虑在内了~2.解决方案1.使用js原生编码转...
分类:
Web程序 时间:
2015-07-01 20:08:16
阅读次数:
138
TinySpider是一个基于Tiny HtmlParser的网络数据抓取框架。Maven引用坐标:?12345org.tinygrouptinyspider0.0.12网络爬虫,一般用在全文检索或内容获取上面。Tiny框架对此也做了有限的支持,虽然功能不多,但是想做全文检索或从网页上获取数据也是非...
分类:
其他好文 时间:
2015-07-01 11:28:41
阅读次数:
116
转载请注明出处!原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006有时候因为种种原因,我们须要採集某个站点的数据,但因为不同站点对数据的显示方式略有不同。本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据;(2)...
分类:
编程语言 时间:
2015-06-17 15:21:29
阅读次数:
129
转载请注明出处。原文链接:http://blog.csdn.net/zgyulongfei/article/details/7909006有时候因为种种原因。我们须要採集某个站点的数据。但因为不同站点对数据的显示方式略有不同!本文就用Java给大家演示怎样抓取站点的数据:(1)抓取原网页数据。(2)...
分类:
编程语言 时间:
2015-06-16 19:09:00
阅读次数:
140
本文作者简介:王夜笙,就读于郑州大学信息工程学院,感兴趣的方向为逆向工程和机器学习,长期从事数据抓取工作(长期与反爬虫技术作斗争~),涉猎较广(技艺不精……),详情请见我的个人博客~个人博客地址:http://bindog.github.io/blog/邮箱:bindog@outlook.com感谢...
分类:
其他好文 时间:
2015-06-10 21:00:44
阅读次数:
610