一、生成HTML字符串 二、解析HTML字符串或本地html文件 三、解析处理结合XPath使用更加方便 XPath简明介绍 XPath 使用路径表达式来选取 XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。 下面列出了最有用的路径表达式: node ...
公司需要抓取新闻,每次手动复制粘贴新闻,太麻烦了,业务人员就提出了要求,需要程序实现自动抓取新闻,因此就写了这个简单的爬虫程序。 Html Agility Pack库 这是一个.NET下的HTML解析类库,它可以读/写DOM并支持普通的XPATH或XSLT。 AngleSharp库 AngleSha ...
一、强大的BeautifulSoup:BeautifulSoup是一个可以从html或xml文件中提取数据的Python库。它能够通过你喜欢的转换器实现惯用的文档导航、查找、修改文档的方式。在Python开发中,主要用的是BeautifulSoup的查找提取功能,修改功能很少使用 1、安装Beaut ...
分类:
编程语言 时间:
2019-05-17 15:23:29
阅读次数:
152
作用: 1.没有 defer 或 async,浏览器会立即加载并执行指定的脚本,也就是说不等待后续载入的文档元素,读到就加载并执行。 2.async 属性表示异步执行引入的 JavaScript,与 defer 的区别在于,如果已经加载好,就会开始执行——无论此刻是 HTML 解析阶段还是 DOMC ...
分类:
其他好文 时间:
2019-05-01 01:04:28
阅读次数:
145
jsoup的使用 jsoup介绍 jsoup是一款Java的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,css以及类似于Jquery的操作方法来取出和操作数据。 主要功能 直接请求URL 一开始直接使用jsonp的connect方法调用上节 ...
分类:
编程语言 时间:
2019-04-20 09:18:37
阅读次数:
196
今日在freebuff上看到一篇文章,关于蚁剑漏洞的。闲着没事测试了一波。一、漏洞成因蚁剑shell远程连接失败时,蚁剑会返回错误信息,但因为使用的是html解析,导致xss漏洞。用过蚁剑的童靴都清楚,当我们远程连接写好的webshell的时候,有时候可能因为shell书写错误或者链接填写不当的时候,会出现大堆的错误代码。该信息并没有进行XSS保护,因此能够利用js调用perl便可反弹***者的sh
分类:
系统相关 时间:
2019-04-15 16:40:42
阅读次数:
563
BeatifulSoup 模块 介绍 Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 安装 解析器下载 解析器 下表列出了主要的解析器,以及它们的优缺点, 官网推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3 ...
分类:
其他好文 时间:
2019-02-10 09:14:55
阅读次数:
179
一、Xpath 解析 xpath:是一种在XMl、html文档中查找信息的语言,利用了lxml库对HTML解析获取数据。 Xpath常用规则: 1.初始化html etree.parse()是初始化html构造一个XPath解析对象; etree.tostring()是修复html文件 ...
分类:
Web程序 时间:
2019-02-06 14:38:45
阅读次数:
239
浏览器使用流式布局模型 (Flow Based Layout)。浏览器会把HTML解析成DOM,把CSS解析成CSSOM,DOM和CSSOM合并就产生了Render Tree。有了RenderTree,我们就知道了所有节点的样式,然后计算他们在页面上的大小和位置,最后把节点绘制到页面上。由于浏览器使 ...
分类:
其他好文 时间:
2019-01-24 23:30:10
阅读次数:
286
re模块 点我回顾 Beautifulsoup模块 解析器,官网推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定. html_d ...
分类:
其他好文 时间:
2019-01-23 01:25:21
阅读次数:
212