今天心血来潮做了个识别图片文字的demo,现在文字识别技术已经比较成熟了,而且还有可以调用的公共接口。 今天做的demo主要简单对比了Tesseract-OCR和BAIDU.AI 这两种方法,感觉百度的中文识别准确率更高,Tesseract-OCR中文别准确率较差,需要自己训练词库,这个比较麻烦。所 ...
jieba是python的第三方库,使用jieba库需要先安装。jieba是一个中文分词库,可以根据所给的中文句子,提取出可能的词组 jieba库分词依靠词库。利用中文词库,确定汉字之间的关联概率。概率大的组成词组,形成分词效果。除了分词,用户还可以添加自定义的词组 jieba提供了三种分词模式,精 ...
分类:
其他好文 时间:
2020-05-31 18:11:27
阅读次数:
429
首先 来展示下效果 1% 在一起 是因为我在自定义词库里面定义了,如果不修改ik_smart源码 是连百分号 都看不到的,对了 我使用的是 elasticsearch-analysis-ik-7.3.2 第一步 下载elasticsearch-analysis-ik-7.3.2源码 找到 Chara ...
分类:
其他好文 时间:
2020-05-20 12:14:33
阅读次数:
122
一些带有过度宣传的词,在淘宝、京东对商品的宣传有一定的限制,这些最佳,最大、盗版、水货等词语都不能用于产品的宣传,可以使用程序检测敏感词,以下既是具体代码。 #检索敏感词并描红输出 #输入 word = input("请输入或拷贝含有敏感词的宣传文字:") #敏感词库 sensitive = ['第 ...
分类:
编程语言 时间:
2020-05-05 00:22:52
阅读次数:
91
结巴分词下载链接(官网下载实在太慢了) 链接:https://pan.baidu.com/s/1FdVvcvy7ZBGOOWJjX2CfRA 提取码:tus1 安装过程 1. 从上述链接下载压缩包并解压 2. 将解压后的压缩包放到安装Anaconda目录的pkgs路径下,我的为 3. 打开Anaco ...
分类:
其他好文 时间:
2020-04-10 00:07:23
阅读次数:
284
1、jieba库基本介绍 (1)、jieba库概述 jieba是优秀的中文分词第三方库 - 中文文本需要通过分词获得单个的词语 - jieba是优秀的中文分词第三方库,需要额外安装 - jieba库提供三种分词模式,最简单只需掌握一个函数 (2)、jieba分词的原理 Jieba分词依靠中文词库 - ...
分类:
编程语言 时间:
2020-04-07 12:20:16
阅读次数:
82
Win10自带的微软拼音一直以来有不少忠粉,但是词库导入导出一直是一个问题,因为微软拼音的自学习词库是自有格式,没有对外开放,所以一直没有解决。只能通过自定义短语的形式导入其他输入法的词库到微软拼音中。最近经过网友的提醒,再自我研究了几晚上,终于把微软拼音的自学习词库导入导出解决了。本次2.8版本的... ...
分类:
其他好文 时间:
2020-04-05 18:54:03
阅读次数:
276
问题 solr的作用是什么 答案 solr是一个检索和搜索引擎,以lucence为基础,基于倒排索引,完成文档的索引建立和内容搜索,典型的以空间换时间。 先解释正排索引,它是以文档的ID为关键字,表中记录文档中每个字的位置信息,查找时扫描表中每个文档中字的信息直到找出所有包含查询关键字的文档。 倒排 ...
分类:
其他好文 时间:
2020-03-30 23:32:18
阅读次数:
64
wordcloud是Python扩展库中一种将词语用图片表达出来的一种形式,通过词云生成的图片,我们可以更加直观的看出某篇文章的故事梗概。 首先贴出一张词云图(以哈利波特小说为例): 在生成词云图之前,首先要做一些准备工作 1.安装结巴分词库 pip install jieba Python中的分词 ...
分类:
编程语言 时间:
2020-03-30 16:11:09
阅读次数:
85
安装: cmd模式下输入 pip install jieba anaconda对应环境 conda install jieba 分词原理: Jieba分词依靠中文词库 -利用一个中文词库,确定汉字之间的关联概率 -汉字间概率大的组成词组,形成分词结果 -除了分词,用户还可以添加自定义的词组 jieb ...
分类:
其他好文 时间:
2020-03-28 18:10:53
阅读次数:
563