一、中文分词:分词就是利用计算机识别出文本中词汇的过程。
1.典型应用:汉字处理:拼音输入法、手写识别、简繁转换 ;信息检索:Google 、Baidu ;内容分析:机器翻译、广告推荐、内容监控
;语音处理:语音识别、语音合成 。 2.分词难点:歧义、新词等。 3.分词技术:机械分词(查词典FMM/...
分类:
其他好文 时间:
2014-06-07 06:04:35
阅读次数:
511
刚接触android的时候,命名都是按照拼音来,所以有的时候想看懂命名的那个控件什么是什么用的,就要读一遍甚至好几遍才知道,这样的话,在代码的审查和修改过程中就会浪费不少不必要的时间。如果就是我一个人开发,一个人维护的话还好,可是如果一个项目是团队分工合作,这样让你的同事去看你的代码就更加吃力了,因...
分类:
移动开发 时间:
2014-05-28 21:15:55
阅读次数:
370
这个能取大部分汉字的首字母, 但还不全, 有些UNICODE的汉字是取不到的,
要想取到所有汉字的首字母,最好是能做一个UNICODE汉字和拼音的对照表,通过对照表查.GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个;同时,GB2312收录了包括拉丁字母、希腊字母、日...
分类:
其他好文 时间:
2014-05-28 13:43:27
阅读次数:
420
Solr调研总结开发类型全文检索相关开发Solr版本4.2文件内容本文介绍solr的功能使用及相关注意事项;主要包括以下内容:环境搭建及调试、两个核心配置文件介绍、中文分词器配置、维护索引、查询索引,高亮显示、拼写检查、搜索建议、分组统计、自动聚类、相似匹配、拼音检索等功能的使用方法。在代码文本框中...
分类:
其他好文 时间:
2014-05-26 22:22:05
阅读次数:
886
本人提供的方法有如下特点:1.代码精简,使用简单,只要会基本的SQL语句就行2.不用建立mysql
函数等复杂的东西3.汉字库最全,可查询20902个汉字方法如下:1、建立拼音首字母资料表Sql代码:(最好再加上主键和索引)DROPTABLEIFEXISTS`pinyin`;CREATETABLE`...
分类:
数据库 时间:
2014-05-26 20:59:56
阅读次数:
383
题目描述
【编程题】(满分19分)
在很多软件中,输入拼音的首写字母就可以快速定位到某个词条。比如,在铁路售票软件中,输入: “bj”就可以定位到“北京”。怎样在自己的软件中实现这个功能呢?问题的关键在于:对每个汉字必须能计算出它的拼音首字母。
GB2312汉字编码方式中,一级汉字的3755个是按照拼音顺序排列的。我们可以利用这个特征,对常用汉字求拼音首字母。
...
分类:
其他好文 时间:
2014-05-25 23:14:36
阅读次数:
314
using System;using System.Collections.Generic;using
System.Linq;using System.Text;namespace SU{ /// /// 中文转拼音 /// public class
PinYin ...
分类:
其他好文 时间:
2014-05-23 06:46:51
阅读次数:
395
一:上图,不清楚的看代码注解,很详细了二:具体代码窗体代码using System;using
System.Collections.Generic;using System.ComponentModel;using System.Data;using
System.Drawing;using Sy...
什么是索引拿汉语字典的目录页(索引)打比方:正如汉语字典中的汉字按页存放一样,SQL
Server中的数据记录也是按页存放的,每页容量一般为4K。为了加快查找的速度,汉语字(词)典一般都有按拼音、笔画、偏旁部首等排序的目录(索引),我们可以选择按拼音或笔画查找方式,快速查找到需要的字(词)。同理,S...
分类:
数据库 时间:
2014-05-16 04:34:08
阅读次数:
379
方法一:根据ASCII码转换,GB2312库对多音字也无能为力。GB2312标准共收录6763个汉字,不在范围内的汉字是无法转换,如:中国前总理朱镕基的“镕”字。GB2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。01-09区为特殊符号。16-55区为一级汉字,按拼音排序。(3755个)56-87区为二级汉字,按部首/笔画排序。(3008个)10-15区...
分类:
Web程序 时间:
2014-05-15 06:50:21
阅读次数:
590