码迷,mamicode.com
首页 > 其他好文 > 详细

querylist爬取页面内容rules记录

时间:2020-01-14 16:11:20      阅读:180      评论:0      收藏:0      [点我收藏+]

标签:lis   域名   div   color   记录   child   https   富文本   过滤   

  1. querylist真的挺好用的!!!感谢!!!参考链接:https://learnku.com/laravel/t/6262/querylist-4-concise-and-elegant-php-collection-tool (querylist文档打不开,不知道什么原因,ping不通域名了都,是不是服务器欠费了-_^)
  2. 记录几个rules,仅方便自己查看
    $rules = [
        ‘p1‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent > p:nth-child(1)‘, ‘text‘],  //文本,比如图片就会被过滤掉
        ‘content‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent‘, ‘html‘],  //HTML 包含标签等,图片会爬下来,类似富文本
        ‘img‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent > p:nth-child(4) > img‘, ‘src‘],  //图片的链接
         ‘alt‘ => [‘#side > div.content.clearfix > div.content_left > div.centent_centent > p:nth-child(4) > img‘, ‘alt‘],  //img 的 alt
    ‘a‘ => [‘h3>a‘, ‘href‘]; //a 标签的href 链接
    ];

     

querylist爬取页面内容rules记录

标签:lis   域名   div   color   记录   child   https   富文本   过滤   

原文地址:https://www.cnblogs.com/bneglect/p/12192272.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!