1. 中英文平行语料预处理中文处理数据泛化,解决数据稀疏问题数字 $number日期 $date时间 $time网址等 $literal专有名词处理:如“东北大学信息学院”建议拆分为“东北大学”、“信息学院”,有助于抽取出更多翻译规则 英文大小写句尾结束符与最后单词用空格分开数据泛化处理 其他全角 ...
分类:
其他好文 时间:
2021-04-08 13:26:01
阅读次数:
0
获取中文数据 关于数据在客户端与服务器端的编码 get方式传输到服务器使用的getParameter 默认使用ISO 8859 1去解码 GET方式获取中文数据 方式一:代码转换 又由于传过来的数据是ISO 8859 1编码的数据,此时只要将数据转换为UTF 8即可 方式二:修改Tomcat接受数据 ...
分类:
Web程序 时间:
2020-02-28 18:54:27
阅读次数:
72
最近有个需求有到了mbstring相关的函数进行中文处理,如下: mb_strpos mb_strlen 过程中遇到一点比较奇怪的问题,及在本地环境运行没有问题 但我们生产环境是2台服务器,其中一台正确,另外一台返回的数值不正确 表现为一个中文按照3个字节进行了计算,本意应该为1个 网上找了半天说需 ...
分类:
Web程序 时间:
2019-11-20 12:37:59
阅读次数:
92
参考: 1)java中怎么从byte字节流转换为中文 2)中文转unicode,中文转bytes,unicode转bytes java实现 ...
分类:
编程语言 时间:
2019-10-01 16:14:48
阅读次数:
169
介绍 LTP(Language Technology Platform)为中文语言技术平台,是哈工大社会计算与信息检索研究中心开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核 ...
分类:
其他好文 时间:
2019-08-24 15:26:34
阅读次数:
601
SELECT * INTO #temp FROM (SELECT 1 AS id, 'C101' AS sortUNION ALLSELECT 2 AS id, 'B101' AS sortUNION ALLSELECT 3 AS id, '101'UNION ALLSELECT 4 AS id, ...
分类:
数据库 时间:
2019-08-22 16:07:28
阅读次数:
161
第一次接触这个工具,是在研一上学期的一门课里。由于要做课程设计论文,我当时选择做中文分词处理,自然而然就接触到这个工具了。 但是呢,由于研究生研究方向与NLP无关,也就没有深入的研究过。 现在由于工作需要,特地重新来学习一番。 首先介绍我的电脑环境:win10+anaconda3 (python3. ...
分类:
其他好文 时间:
2019-06-24 00:32:41
阅读次数:
95
python2字符串编码存在的问题: 使用 ASCII 码作为默认编码方式,对中文处理不友好 把字符串分为 unicode 和 str 两种类型,将unicode作为唯一内码,误导开发者 python3中默认编码方式修改为utf 8。 在存储和显示上,python3使用文本字符和二进制数据进行区分, ...
分类:
编程语言 时间:
2019-03-03 20:42:11
阅读次数:
254
之前在其他博客文章有提到如何对英文进行分词,也说后续会增加解释我们中文是如何分词的,我们都知道英文或者其他国家或者地区一些语言文字是词与词之间有空格(分隔符),这样子分词处理起来其实是要相对容易很多,但是像中文处理起来就没有那么容易,因为中文字与字之间,词与词之间都是紧密连接在一起的,所以第一件事需 ...
分类:
其他好文 时间:
2019-02-12 00:04:09
阅读次数:
203
文本分析: re&jieba模块 使用 正则表达式 和 中文处理模块jieba 原文地址:https://www.cnblogs.com/minutesheep/p/10357209.html ...
分类:
编程语言 时间:
2019-02-09 18:02:54
阅读次数:
204