从规则到统计与统计语言模型
http://blog.csdn.net/u012637501
一、自然语言处理-从规则到统计
1.基于规则的自然语言处理
在20世纪60年代,摆在科学家面前的问题是怎样才能让机器理解自然语言。当时普遍的认识是首先要做好两件事,即分析语句(语法)和获取语义。由于西方的语言学家们已经对各种自然语言进行了非常形式化的总结,学习语法规则、词性和构词法对于学习西...
分类:
编程语言 时间:
2015-01-09 17:20:12
阅读次数:
386
所谓的词法结构主要是指,一门编程语言的语法基础,诸如注释,变量名规则,字符集,分隔符等等。(一)字符集字符集采用的Unicode字符集,几乎可以表示全世界所有的字符。需要注意的是 :字符是区分大小写的。也就是说Online和online是完全不同的两个字符串或者变量名,这和HTML不同。在Html中...
分类:
编程语言 时间:
2015-01-08 14:43:43
阅读次数:
257
虽然在平时貌似,很习以为常的一些用法但是真要弄清这几个概念的时候,确实费了很大功夫,现在虽然不能说明白但总算有了一些心得。好吧下面直接开始注本文(*)为相关链接例子1.1词法作用域规则:函数的嵌套关系是定义时决定的,而非调用时决定的,即词法作用域,即嵌套关系是由词法分析时确定的,而运行时决定。(*)...
分类:
编程语言 时间:
2015-01-06 17:12:11
阅读次数:
137
第10章 早期(编译期)优化javac编译过程: 1、解析与填充符号表过程 词法、语法分析 将源代码的字条流转变为标记(Token)集合。如“int a = b + 2”这名代码包含了6个标记,分别是int a = b + 2 填充符号表 2、注解处理器 3、语义分析与字节码生成 标注检...
分类:
编程语言 时间:
2014-12-27 16:06:38
阅读次数:
154
Sizzle词法解析sizzle对于分组过滤处理都用正则,其中都有一个特点,就是都是元字符^开头,限制匹配的初始,所以tokenize也是从左边开始一层一层的剥离。?可能会应用到正则如下:// 空白var whitespace = "[\\x20\\t\\r\\n\\f]";// 匹配\后任意字符,...
分类:
Web程序 时间:
2014-12-24 11:35:39
阅读次数:
232
完成R Programming第三周这周作业有点绕,更多地是通过一个缓存逆矩阵的案例,向我们示范【词法作用域 Lexical Scopping】的功效。但是作业里给出的函数有点绕口,花费了我们蛮多心思。Lexical Scopping:The value of free variables are ...
分类:
其他好文 时间:
2014-12-20 19:39:27
阅读次数:
222
题目:
在这部分中,你将使用图转移算法手工实现一个小型的词法分析器。
* 分析器的输入:存储在文本文件中的字符序列,字符取自ASCII字符集。文件中可能包括四种记号:关键字if、符合C语言标准的标识符、空格符、回车符\n。
* 分析器的输出:打印出所识别的标识符的种类、及行号、列号信息。
根据题目的要求,定义如下的Token类:
enum TokenType{
TT_ID,
TT...
分类:
其他好文 时间:
2014-12-17 00:18:57
阅读次数:
171
构造最小DFA:构造NFA(课本上的构造法是不带ε边的,少了消ε的过程)NFA->DFA最小化DFA构造NFA:连接、并、重复NFA->DFA:从初始状态集合{S}开始,跑所有字符集,若得到新的状态集则入队。带有终结状态的集合仍然是终结状态。对状态重新编号。DFA的最小化:构造一个初始划分Π:终态集...
分类:
其他好文 时间:
2014-12-16 20:56:46
阅读次数:
201
Lex的匹配策略:1.按最长匹配原则确定被选中的单词2.如果一个字符串能被若干正规式匹配,则先匹配排在前面的正规式。lex源程序的写法:Lex源程序必须按照Lex语言的规范来写,其核心是一组词法规则(正规式)。一般而言,一个Lex源程序分为三部分,三部分之间以符号%%分隔。 定义段%%词法规则段%%...
分类:
其他好文 时间:
2014-12-16 20:51:16
阅读次数:
293
1 // lex_analyzer.cpp : 定义控制台应用程序的入口点。 2 //词法分析器 3 /* 4 sys: 5 1-10:关键字 6 10:标识符 7 11:数字 8 //比较区 9 20: 12 23:>= 13 24:= 14 25:== 15 //运算区 16...
分类:
其他好文 时间:
2014-12-16 20:46:09
阅读次数:
192