首页 > Web开发 > 详细

近期做了一个自己主动纠错演示网页

时间：2015-12-17 19:14:10 阅读：133 评论：0 收藏：0 [点我收藏+]

标签：

近期做了一个自己主动纠错演示网页：nfabo.cn

当 Query 中有一些错别字时，搜索引擎会尝试纠错

通过相似拼音纠错

搜索引擎把这些字还原成拼音，用一个拼音同样的已知 Query 取代。

可是，当输错的汉字是多音字。特别是有多个这种错误输入时，全部的搜索引擎基本上都无论。或者仅使用一个最经常使用的音去纠错。

由于要考虑全部可能的拼音组合，在极端情况下会导致指数爆炸！

我的算法攻克了这个指数爆炸问题

这个演示页面眼下仅仅收录了 800万 条短语+词频。数据也不太干净
该算法所有在内存中执行，使用了 360M 内存。这个数据量，假设用传统方法暴力实现，而且达到这个性能，须要 几十GB 的内存
这个server是一个租用的虚拟云主机，单核，比我2009年的笔记本电脑还要慢 3 倍

基于编辑距离的纠错

在已知的搜索词中寻找编辑距离与用户 Query 最小的词，使用我的算法也能够高效解决（还没做演示页面）

近期做了一个自己主动纠错演示网页

标签：

原文地址：http://www.cnblogs.com/mengfanrong/p/5054962.html

踩

(0)

赞

(0)

举报

评论一句话评论（0）

分享档案

更多>

2021年07月29日 (22)
2021年07月28日 (40)
2021年07月27日 (32)
2021年07月26日 (79)
2021年07月23日 (29)
2021年07月22日 (30)
2021年07月21日 (42)
2021年07月20日 (16)
2021年07月19日 (90)
2021年07月16日 (35)

周排行

更多

友情链接

兰亭集智国之画百度统计站长统计阿里云 chrome插件新版天听网

关于我们 - 联系我们 - 留言反馈

© 2014 mamicode.com 版权所有联系我们:gaon5@hotmail.com

迷上了代码！