标签:操作 url 智能 代码 使用 处理 技术 重点 ip库
网站筛选列表页承担着流量分发与权重流通的重要角色,所以对于大多数电商网站来说,筛选列表页优化是一项重中之重的工作。当我们谈电商网站筛选列表页优化的时候,便无法回避URL、内链层级、页面基础元素、页面质量、代码、返回码等具体的优化细节。那么我们重点来谈一下URL这个问题。谈URL的时候无非就是静态化、要短、最好要利于理解和传播、以及利于数据分析等要求。这里我们需要思考个问题,URL静态化是必须的吗?回答这个问题,我们需要再次思考抓取这个步骤。让爬虫抓取筛选列表页,一是为了抓取本页面的内容,产生收录并取得分类型关键词的排名;二是为了下一级商品详情页等页面的收录与权重传递。那么筛选列表页必须要获取排名吗?商品详情页的抓取入口必须是单一的路径吗?
首先,筛选列表页由于众多筛选项的原因,通过筛选组合出来的关键词由深层页面承载,获取的内链支持并不多,页面权重较低,实际上很难获取排名(浅层筛选页能获取一定排名)。
其次,即使URL静态化了,筛选列表页的收录表现也不是特别好,特别是高级筛选列表页(往往多达10几项的筛选参数),对于百度等深度抓取能力稍显薄弱的搜索引擎而言,有点类似爬虫陷阱,爬虫对于此类页面的抓取并不活跃,所以收录率并不高。
再次,电商网站商品的属性众多,从结构化的内容提取维度众多,意味着我们可以衍生出来非常多的产品,比如专题页、热搜词、品牌页、品牌评价页等等,这些页面都可以承担传递权重、排名的角色。不仅用户体验需要借助百度问答、贴吧这样的平台,后期的网站推广、seo优化同样需要,但是在过程中如果大量使用同一个IP重复操作,必然会受到限制,这个时候必须使用代理IP的帮助,将效率和效果最大化。
最后,伪静态往往需要看网站底层是否支持,以及支持到何种程度,如果无法执行,或者伪静态后,严重影响了网站性能,那SEO必须绕道而行。
所以,筛选列表页URL并非必须伪静态,但是能静态化处理最好。这时需要注意,一是URL不随筛选参数点击顺序变化而变化;二是对于非重要的筛选参数最好采用nofollow或者robots的方式禁止抓取,以便集中重要筛选参数组合页面的权重;三是采用缓存方式,动态变化筛选参数,如果某筛选参数下没有商品了,则不显示筛选该筛选参数,减少空页面的产生,同时减少爬虫对空页面的抓取。兔子动态换IP软件可以实现一键IP自动切换,千万IP库存,自动去重,支持电脑、手机多端使用,智能加速技术多IP池自动分配。
标签:操作 url 智能 代码 使用 处理 技术 重点 ip库
原文地址:https://blog.51cto.com/14601538/2480694