今天通过菜鸟教程中Scala教程https://www.runoob.com/scala/scala-intro.html来初步学习Scala语言,并且安装了scala Scala 是 Scalable Language 的简写,是一门多范式的编程语言。Scala也是一种函数式语言,其函数也能当成值 ...
分类:
其他好文 时间:
2020-02-02 01:45:47
阅读次数:
91
今天编写了对一个网页中的内容进行爬取的Java程序,学习到了一些关于htmlunit爬取有ajax响应的网页中的内容。 同时,对于linux中的spark的环境和scala环境进行了简单的搭建。 具体的搭建博客网址在:https://www.cnblogs.com/halone/p/12238524 ...
分类:
其他好文 时间:
2020-02-02 00:56:09
阅读次数:
93
2月1号了,距离考研成绩公布没有多少天了,年也过完了,该开始努力了, 今天还是松懈的一天,上午起床之后看了重新理了一遍毕设的进度, 下午完成了之前在学校检查毕设的未完成的简单部分,管理员功能 每天给自己订一个计划 早上8点起床,起来跑步一小时or半小时 吃早饭,学习计算机网络第五版两个小时,学习实用 ...
分类:
其他好文 时间:
2020-02-01 23:37:59
阅读次数:
104
关键词:爬虫、python、request、接口、excel处理 思路: 1、首先准备好excel文档,把股票代码事先编辑进去。 2、脚本读取文档,依次读出股票代码到指定站点发起请求获取股票信息 3、将获取的股票信息简单处理,依次写入到指定的文档单元格中,完成整个实例过程 用到的python库:xl ...
分类:
编程语言 时间:
2020-02-01 23:35:38
阅读次数:
166
继上次爬取完总体数据之后,这次我做的是将每个信件的网址使用MapReduce进行清洗出来,进而爬取出进一步的数据。 通过观察所得该网站根据不同的信件类型有不同的网址其对应关系如下: 咨询 com.web.consult.consultDetail.flow 建议 com.web.suggest.su ...
分类:
其他好文 时间:
2020-02-01 21:31:51
阅读次数:
94
下载斗图拉最新表情包 要爬取的目标所在网址:http://www.doutula.com/photo/list/?page=1 需要用到的第三方库:requests(用于请求图片链接得到图片内容) 一点点正则表达式的应用: 更多的正则表达式使用 "参见正则表达式" ) ,更多 "参见菜鸟教程 Pyt ...
分类:
其他好文 时间:
2020-02-01 14:12:42
阅读次数:
70
extensions.py文件# -*- coding: utf-8 -*- # 该扩展会在以下事件时记录一条日志: # spider被打开 # spider被关闭 # 爬取了特定数量的条目(items) import logging from collections import defaultd ...
分类:
其他好文 时间:
2020-02-01 12:24:49
阅读次数:
98
//爬虫://1.请求到某个网站去//2.返回一些HTML代码//3.从HTML代码提取你想要的信息 HTML解析//4.如果这些HTML中又有你感兴趣的内容//5.递归爬取//准备好网址 URL url = new URL("http://zuidazy2.net/"); //准备好连接 java ...
分类:
Web程序 时间:
2020-01-31 19:14:30
阅读次数:
186
此处感谢CSDN博主yaoyefengchen 小白练手 相信现在很多人都喜欢玩王者荣耀这款手游,里面好看的皮肤令人爱不释手。那么你有没有想过把王者荣耀高清皮肤设置为壁纸,像下面这样 今天就来教大家如何利用python16行代码,实现王者荣耀全部高清皮肤的下载。 具体的操作分为两步: 1. 找到皮肤 ...
分类:
编程语言 时间:
2020-01-31 01:09:26
阅读次数:
164
介绍 以前我们写爬虫,要导入和操作不同的模块,比如requests模块、gevent库、csv模块等。而在Scrapy里,你不需要这么做,因为很多爬虫需要涉及的功能,比如麻烦的异步,在Scrapy框架都自动实现了。 我们之前编写爬虫的方式,相当于在一个个地在拼零件,拼成一辆能跑的车。而Scrapy框 ...
分类:
其他好文 时间:
2020-01-31 00:59:54
阅读次数:
91