标签:svg 部分 pat 文本 无法 简历 分享 付费 方法
仅做技术分享,若有侵犯,请联系删除
在讲58字体解密之前,先大概将一下字体加密。
所谓字体加密,其实就是自定义字体库将原有的字体换成我们无法解析,但是浏览器可以解析的,以此来达到反爬虫的目的。
这些其实都可以通过ocr识别,但是可能会影响效率吧
第一种,自定义字体库和编码没有变化的。
这一种只要将其字体库下载下来,转换成可以看的格式,找到其中的映射关系,将网页中乱码的部分替换,就可以得到原来的文本。
第二种,自定义字体库,编码每次都变化的。
对于这种我们没有办法再去找映射关系,因为编码每次都是不固定的,这种情况下,我们可以知道,编码会变,但是坐标值是不变的,所以,找到已有的坐标值映射关系,遍历
同样可以得到原有的文本。
第三种,就是58这种,每次映射关系不一样,但是可能是字形上稍作了变动,所以第二种方法失效啊,所以第三种方法,不保证长期有效,目前暂时可以用。
将字体库提取出来,转成svg格式,网上有很多ttf转svg的网站,提供在线免费转,和付费api,转过之后观察svg文件,可以发现规律path d值的规律,然后可以获得编码和汉字之间的映射关系,获得映射关系之后再将原来的文本中将乱码的编码替换成汉字,这样就可以得到真正的文本了。
{"M52 ": "下", "M570 ": "1", "M143 ": "3", "M28 4": "校", "M308 ": "验", "M294 ": "吴", "M66 ": "王", "M6 ": "硕", "M1095 ": "7", "M760 ": "陈", "M1054 ": "5", "M2010 ": "本", "M24 ": "科", "M64 9": "无", "M853 ": "2", "M816 ": "经", "M168 ": "中", "M1884 ": "女", "M526 ": "专", "M28 -10": "大", "M950 ": "应", "M382 ": "高", "M1044 ": "刘", "M185 ": "9", "M720 ": "张", "M1018 ": "6", "M1702 ": "博", "M1568 ": "杨", "M288 ": "黄", "M28 -11": "赵", "M376 ": "周", "M40 ": "生", "M1542 ": "以", "M528 ": "届", "M188 ": "士", "M91 ": "0", "M1033 ": "E", "M200 ": "B", "M1417 ": "A", "M1601 ": "M", "M64 3": "李", "M98 ": "8", "M230 ": "男", "M766 ": "技", "M930 ": "4"
}
标签:svg 部分 pat 文本 无法 简历 分享 付费 方法
原文地址:https://www.cnblogs.com/cai-cai-/p/11053320.html