码迷,mamicode.com
首页 > Web开发 > 详细

基于网页内容聚类

时间:2021-07-05 18:39:40      阅读:0      评论:0      收藏:0      [点我收藏+]

标签:fct   设计   转换   公式   类方法   网址   内容   聚类   源码   

基于网页内容的聚类系统设计

** 实现步骤
1、抓取指定网址的源码;
2、解析网页文章内容;
3、对文章内容进行分词,并转换成向量表示(词袋法或TF.IDF);
4、选取合适的距离公式和聚类算法进行聚类,要求聚成3类。(可以用欧式距离或余弦距离等。聚类方法可以考虑用K-means方法等。)

具体要求

基于网页内容聚类

标签:fct   设计   转换   公式   类方法   网址   内容   聚类   源码   

原文地址:https://www.cnblogs.com/FireTim/p/14966995.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!