众推项目的最近讨论

时间：2015-04-30 14:13:17 阅读：177 评论：0 收藏：0 [点我收藏+]

标签：

openKM

想问下有没有这样的开源文件管理系统，所有人都可以上传文件，只有有权限的管理员才可以下载他人的文件？

不知道openkm能不能做到。

OpenKM是一个开放源代码的电子文档管理系统，它的特点是可用于大型公司或是中小企业，适应性比较强。并且在知识管理方面的加工，提供了更加灵活和成本较低的替代应用。

界面如下：

zongtui项目

项目地址：
（分布式爬虫）http://git.oschina.net/zongtui/zongtui-webcrawler
（去重过滤器）https://git.oschina.net/zongtui/zongtui-filter
（文本分类器）https://git.oschina.net/zongtui/zongtui-classifier
（文档目录）https://git.oschina.net/zongtui/zongtui-doc

然后再推荐一篇文章：（深度学习 vs 机器学习 vs 模式识别）

http://www.itd4j.com/cloudcomputing/15538.html

自动化部署

请问有Java的自动化部署工具推荐不？

有时候修改几个文件就要重新打包发布重启，太麻烦了，请问有什么更好的办法么？

Jenkins是一个开源软件项目，旨在提供一个开放易用的软件平台，使持续集成变成可能经济界。

云爬取

就是有一个客户端要爬取一千个商品，他可以提交给服务器，然后有服务器在分配给其它客户端来爬取。这样搞性能比较高，还能逃过IP限制。

那就是用户要爬什么资料。你就让用户自己去爬取。服务端只负责，接收任务，分配任务，返回任务。

等于是免费的ip池而已。。

项目新架构

经过讨论，目前的项目新架构已经修改如下：

这样，问题的集中点就在如何接入爬虫上了，因为现在各种爬虫已经太多，没必要在搞一个什么新鲜的东西！

core部分的思路参考：

下一步的处理

1.通过设定规则抓取页面；

2.设定页面存储方案；

3.通过页面材料分析出内容属性;

4.通过内容属性生成结果;

5.通过结果进行学习;

6.通过结果生成内容;

说一下为什么接入其它的，我举两个例子

1、webmagic

$P{6{44@9$UV8D_I33%`X3ND[4]$

就我知道，这哥们写了2年，基本上各种问题都遇到过。没必要再走一遍它的路，如果有问题可以通过它预留的接口帮它完善，或者直接用自己的实现。比如有性能问题，就我知道现在国内没有一个比较权威的对各种爬虫做比较。

2、Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人。

说它有问题我觉得只有这么几种可能：

1、场景不适合。

2、没理解，没用明白。

所以我觉得没必要非得造个轮子。

个性化推荐

用户端就是数据呈现了，我的理解是内容方主要的工作是：采集、整理、推荐、打TAG、分值（多个）、推荐、赞、踩、回复数、类型（图文、视频、文本、微信、微博等）；

用户这边的东西就确实高级很多：单体关系画像，不同社交圈关系画像，主要人群划分TAG得分，年龄、性别、职业、特别事件、喜欢内容TAG得分、收藏内容TAG得分、分享内容TAG得分、不感兴趣内容TAG得分（负值或其他分数）
推荐引擎主要的工作：按照用户的tag得分匹配内容，结合地理位置（当前的和常用的）、当前时间段（早、中、下、晚）、当前日期（节日、周末）、热点实时注册的时候选择标签这个是SNS的做法了，头条现在基本上都是从用户关系拿了关联用户数据再来推。

众推只要完成了初步的推荐功能，其他的基本上都是靠运营的人来积累数据。没有足够的数据肯定精准度要差点。比如一点资讯，现在内容差不多已经全搬过来了，但是推荐还是很烂，主要靠套用头条的编辑推荐那块，人工加了点分值。要不然感觉推荐会更加不准。

众推项目的最近讨论

标签：

原文地址：http://www.cnblogs.com/skyme/p/4468653.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行