标签:har hit 官方 sharp 因此 dex 注意 http gem
放在前面:本文主要参考了这篇知乎专栏-Gemfield
时间有限,长话短说,主要是放一些资源,方便查找。
对于中文识别来说,不做预处理简直惨不忍睹。主要手段为
详细的官方教程
再放一个有人制作的相关工具textcleaner ,这里有一小段介绍
下载中文语言包,简体中文的代号为chi_sim,每种语言在新时代的tesseract都应该有3种语言包:fast版、best版、raw版。fast版是考量了速度,并对准确度做了一定的妥协,apt安装的时候下载的语言包模型正是fast版。raw版是混合了新时代的LSTM模型和旧时代的模型,因此当使用raw版的时候,在命令行上可以指定 --oem 2。
我尝试使用best时报错了。。先把链接放着吧。
Tesseract 4.0 使用了LSTM,估计训练完后效果不错。可以先参考上面的原文章操作,这里先不写了等后面尝试了再来写。
(完)
标签:har hit 官方 sharp 因此 dex 注意 http gem
原文地址:https://www.cnblogs.com/Jasonljy/p/9975663.html