工作这么久以来。遇到过了好几个爬虫项目,抓过NASA的卫星数据,抓取头条的新闻数据,最近抓了一个母婴网站的产品数据,马上接下来的任务,就是抓取电商网站的数码产品。 现在针对做过的项目,对自己在工作中遇到的问题,做一个梳理,记录一下自己的想法。 1,现在网上的爬虫教程很多都是教你怎么去爬取某个页面,某 ...
分类:
其他好文 时间:
2018-09-15 01:19:26
阅读次数:
255
排序在很多业务场景都要用到,今天本文介绍如何借助于自定义Partition类实现hadoop部分排序。本文还是使用java和python实现排序代码。 1、部分排序。 部分排序就是在每个文件中都是有序的,和其他文件没有关系,其实很多业务场景就需要到部分排序,而不需要全局排序。例如,有个水果电商网站, ...
分类:
编程语言 时间:
2018-09-02 18:36:08
阅读次数:
151
电商案例原因 分布式大型网站,目前看主要有几类1.大型门户,比如网易,新浪等;2.SNS网站,比如校内,开心网等;3.电商网站:比如阿里巴巴,京东商城,国美在线,汽车之家等。大型门户一般是新闻类信息,可以使用CDN,静态化等方式优化,开心网等交互性比较多,可能会引入更多的NOSQL,分布式缓存,使用 ...
分类:
其他好文 时间:
2018-08-31 23:24:20
阅读次数:
242
电商项目总结 1.系统架构 采用当前最流行的ssm(springmvc+spring+mybatis)框架开发,是当前电商网站首选的技术架构。系统是基于SOA架构设计,采用dubbo作为服务中间件,系统后台使用jsp作为视图层,操作简便用户体验好。商城系统使用freemarker做静态化页面来提高系 ...
分类:
其他好文 时间:
2018-08-31 21:10:27
阅读次数:
163
使用Solr实现电商网站中商品信息搜索功能,可以根据关键字搜索商品信息,根据商品分类、价格过滤搜索结果,也可以根据价格进行排序,实现分页。界面如下: 架构分为: 1、 solr服务器 2、 自己的web服务器(需要开发) 3、 数据库mysql solr案例 本案例用的springmvc+solr+ ...
分类:
其他好文 时间:
2018-08-26 12:01:33
阅读次数:
164
在互联网大行其道的今天,各种分布式系统已经司空见惯。搜索引擎、电商网站、微博、微信、O2O平台。。凡是涉及到大规模用户、高并发访问的,无一不是分布式。但不管那种业务,不管何种分布式系统,有一些基本的思想还是相通的。本文将对这些基本思想进行一个梳理汇总。 分拆 系统分拆 微信的架构师说过一句话:“大系 ...
分类:
其他好文 时间:
2018-08-23 15:34:13
阅读次数:
134
在互联网大行其道的今天,各种分布式系统已经司空见惯。搜索引擎、电商网站、微博、微信、O2O平台。。凡是涉及到大规模用户、高并发访问的,无一不是分布式。但不管那种业务,不管何种分布式系统,有一些基本的思想还是相通的。本文将对这些基本思想进行一个梳理汇总。 分拆 系统分拆 微信的架构师说过一句话:“大系 ...
分类:
其他好文 时间:
2018-08-23 15:30:48
阅读次数:
139
专栏介绍ELK是目前行业中非常热门的一个技术,它可以用于电商网站、门户网站、企业IT系统等各种场景下,也可以用于对海量的数据进行近实时的数据分析。专栏深入浅出剖析ELK在企业常见应用框架以及ZooKeeper、Kafka与ELK进行整合的方法和架构。首选通过具体的一个应用案例介绍ZooKeeper+Kafka+ELK构建一套实时日志处理系统的过程。然后通过对Logstash和filebeat的对比
分类:
其他好文 时间:
2018-08-20 20:15:17
阅读次数:
281
【学习时间】 2018-6-12 2018-8-15 【学习内容】 PHP基础知识 【一期项目】 电商网站 【总体感受】 开项目的时候前期因为有授课老师带着,所以整体感觉还是很轻松的。 开始PHP基础课时,整体的感觉知识点还是比较分散的,理解起来也非常的快速,但是就因为比较分散所以期间授课老师和项目 ...
分类:
Web程序 时间:
2018-08-15 20:27:52
阅读次数:
208
自从跟随师傅学艺之后,也爱上了看书,比较好奇,各大电商网站的图书排行榜排名到底是依据什么因素或维度来排列的?怎么样的排名算法算是比较科学的呢?有没有比较通用的算法?师傅肯定有方法。还真是,咨询师傅后,得知还真有通用的排名算法。 通用型的排行榜算法一共分为四步:第一步明确影响排行榜的维度或因素;第二步 ...
分类:
编程语言 时间:
2018-08-08 21:34:02
阅读次数:
216