1.字符编码 计算机存储的任何数据,包括各种文本、图片、音视频文件等等,实际上都是一串二进制数字01字节序列组成的。一个字节Byte(B)是8个比特bit(b)。而字符,自然就是符号了。比如说二十六个英文字母,阿拉伯数字,以及在python中汉字都是字符。8位等于1字节(01010101) 。 字节... ...
分类:
编程语言 时间:
2020-02-14 18:13:39
阅读次数:
130
最近在eclipse中加上中午注释,出现那种汉字是横着的情况,解决方案如下: 方法一: 同一种字体有两种显示方式,比如Fixedsys Excelsior 3.01和@Fixedsys Excelsior 3.01,前一种汉字是竖着显示,后一种汉字是横着显示。 在eclipse菜单栏中点击windo ...
分类:
系统相关 时间:
2020-02-13 15:23:44
阅读次数:
95
此博客链接: 1.汉字统计 题目链接: Problem Description 统计给定文本文件中汉字的个数。 Input 输入文件首先包含一个整数n,表示测试实例的个数,然后是n段文本。 Output 对于每一段文本,输出其中的汉字的个数,每个测试实例的输出占一行。[Hint:]从汉字机内码的特点 ...
分类:
其他好文 时间:
2020-02-12 16:01:55
阅读次数:
69
安装jieba:pip install jieba 原理: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能成词情况所构成的有向无环图 (DAG) 采用了动态规划查找最大概率路径, 找出基于词频的最大切分组合 对于未登录词,采用了基于汉字成词能力的 HMM 模型,使用了 Viterbi 算法 ...
分类:
编程语言 时间:
2020-02-02 19:34:51
阅读次数:
263
function asc($param) { $rtn = '' $list = $param -split '' foreach ($char in $list) { if($char -ne '') { $rtn = $rtn + ("\u" + ("{0:x}" -f [int]([char]... ...
分类:
系统相关 时间:
2019-12-20 13:28:19
阅读次数:
267
问题1:jieba中文分词的原理? 问题2:HMM在jieba中的应用? 问题3:HMM在其他行业内有何应用? 首先学一个东西的第一步应该先看官网https://github.com/fxsjy/jieba 官网给出jieba中应用到的算法有: 基于前缀词典实现高效的词图扫描,生成句子中汉字所有可能 ...
分类:
其他好文 时间:
2019-08-22 01:13:57
阅读次数:
242
Excel中文转拼音(完整版)打开Excel->工具->宏->Viaual Basic编辑器在弹出来的窗口中对着VBAproject点右键->插入->模块下面会出现一个名为"模块1",点击在右边的空白栏中粘贴以下内容: Function pinyin(p As String) As Stringi ...
分类:
其他好文 时间:
2019-07-13 13:17:22
阅读次数:
101
统计给定文本文件中汉字的个数。 Input 输入文件首先包含一个整数n,表示测试实例的个数,然后是n段文本。 Output 对于每一段文本,输出其中的汉字的个数,每个测试实例的输出占一行。 [Hint:]从汉字机内码的特点考虑~ Sample Input Sample Output 1 #inclu ...
分类:
其他好文 时间:
2019-02-08 23:18:22
阅读次数:
194
下载并引入两个dll文件 NPinyin.dll 和 ChnCharInfo.dll 其实这两个dll 任何一个都可以实现汉字转拼音,然而 NPinyin.dll 收录的汉字并不全,但是很人性化,能识别一些常用的汉字。ChnCharInfo.dll 是微软的很全但是不人性化。另外本套代码外有一个自己 ...
unicode中汉字或其他字符不会死,很可能会从另外一种方式获得重生。 茕茕孑立 沆瀣一气 踽踽独行 醍醐灌顶 绵绵瓜瓞 奉为圭臬 龙行龘龘 犄角旮旯 娉婷袅娜 涕泗滂沱 呶呶不休 不稂不莠 以后全世界的人,可能都会使用整个unicode集。 这样有什么好处呢?如果有整个unicode为全集,则一个 ...
分类:
其他好文 时间:
2018-12-24 12:34:11
阅读次数:
250