您的位置:首页 > 编程语言 > Java开发

用java实现编译器之有限状态机驱动的整形,浮点型数值识别器

2016-03-21 16:40 776 查看
大家好,欢迎大家来到coding迪斯尼.本节代码可在如下链接下载:

http://pan.baidu.com/s/1jHqNGjk

或是网易云课堂视频所在附件。

阅读博客的朋友可以到我的网易云课堂中,通过视频的方式查看代码的调试和执行过程:

http://study.163.com/course/courseMain.htm?courseId=1002830012

继上一节我们介绍了一些概念后,这两节,我们致力用代码将概念实现,本节我们要开发的是,用有限状态机来识别整形和浮点型数值,下面是我们有限状态机的结构图:



ICON表示状态机进入了识别整形数的状态,FCON表示状态机进入了浮点数的识别状态,状态机一开始处于0,如果输入是:1234,那么当把字符1送入状态机时,状态从0转换为1,进入状态1时,状态机处于接受状态,接下来字符2,3,4继续进入状态机,在状态1接收到数字时,状态机任然由状态1 持续进入状态1,当所有数字识别结束后,状态机返回ICON标志,表明识别的字符串是整形数字。

如果输入是3.14,从状态0开始,字符3进入状态机后,机器进入状态1,第二个字符 . ,使得状态机从1转到2,此时2是接收状态,后面的字符1,4进入后,根据上图,机器一直从状态2中自转,当所有字符都输入机器后,机器返回FCON,表明3.14是浮点数。

这里要提的是,状态机还接收字符e, e是科学计数法来表示数值,例如3.1e4 表示3.14 乘以10 的4次幂。只要数值中带有符号e, 机器都将识别为浮点数。

状态机在程序中的表现形式,在代码设计中,我们用二维数值来表示上图的状态机: fmsTable[6][128].

其中行数6表示0-5 六个状态。128对应输入输入的ASCII码值,例如符号0的ASCII 值就是48, fmsTable[0][48] 的值是1,表示状态机从状态0,接收到字符 0 之后进入状态1. ASCII的字符总数是256,其中0-128之间的字符才是键盘上可输入的字符,所以数组只用应对前128种字符输入就可以了。由于在128种输入中,只有有限的几个字符是我们需要考虑的,也就是字符0-9, “.”, “e”, 因此二维表中,对应于他们的列才有有效数据,其他列都初始化为-1. 因此这个二维表是一个非常稀疏的矩阵:

0 1 2 3 ……39(.)…….48(1) 49(2)…..101(e) …….

0 -1 -1 -1……………3……………1 1 ………….-1……………

1 -1 -1 -1……………2…………….1 1……………2……………

2

3

4

5

我简单将二维数组的内容展示了一下,大家可以看到其中很多地方的数值都是-1.显然,这种存储方式空间浪费比较严重,后面我会跟大家讨论改进的方法。

程序的代码结构:



TableFMS.java 用来实现状态机的二维数组表示,FMS.java是状态机的接口定义,FiniteStateMachine.java 用来实现状态机的识别逻辑。由于本程序需要使用上节实现的输入系统处理输入流程,因此程序还需要引用上一个项目:



这两个项目我会一起打包放在附件中,大家可以在视频的附件链接中获取全部代码。

代码解读:

我们先看FMS.java



它的内容简单,就是状态机接口定义,STATE_FAILURE 表示上面所说的二维数组中的-1,即无效或失败状态。yy_next 就是上节所说的状态转换函数,给定当前状态和输入字符,该函数返回下一个状态的数值。isAcceptState用来判断,给定状态是否是接受状态。

接下来看看TableFMS.java 它是状态机的具体实现:



首先是一些常量定义STATE_COUNT 是状态机的状态数,ASCII_COUNT是状态机要处理的输入符号数量。fmsTable 用来描述上面所说的状态机及其转换关系。

在构造函数中将二维数组构造成上面所说的稀疏矩阵。看看initForNumber的实现:



当调用initForNumber(0, 1) 后,二维数组被初始化为

fmsTable[0][‘1’] = 1, fmsTable[0][‘2] = 1,…… fmsTable[0][‘9’] = 1;

也就是设置状态0,对输入是数字字符‘0’到’9’时,转换到状态1,对initForNumber的其他调用以此类推,fmsTable[0][‘,’] = 3 表示在状态0时如果输入字符是‘.’ ,那么跳转到状态3,以下的同理。

初始化后,数组内容如下:



它与开头的状态转换图是一致的。

接下来是状态转换函数的实现:



state 是指状态机的状态,yylook是输入字符的ASCII编码,yy_next根据输入的状态和给定字符,通过二维表返回在给定状态下,接收给定字符后机器将跳转到哪个状态。

isAcceptState 用于返回给定状态是否是接收状态。

FiniteStateMachine.java 是状态机识别逻辑的具体实现:



在初始化函数中,ii_newFile 指示输入系统从控制台读取信息,ii_advance将控制台的信息读入缓冲区,由于ii_advance会将缓冲区中,Next指针处的字符读取出来,但是在初始化中,我们无法处理读取的字符,因此调用ii_pushback把读出的字符重新放回缓冲区。

yylex()是识别过程的主逻辑:



首先通过ii_lookahead在缓冲区中预读取一个要处理的字符,把读取的字符赋值给yylook, 如果读到的字符不是结束标识符的话(EOF end of file). 那么调用yy_next这个状态跳转函数,获取状态机要跳转的下一个状态,并赋值给yynstate.

再往下看:



如果跳转的状态是有效状态的话,那么打印出相关跳转信息,ii_advance 让输入系统准备输出下一个字符,如果跳转后的状态是接收状态的话,要做一些标记。

如果跳转的状态是错误状态的话,也就是yy_next返回-1:



如果读入的字符不是换行符(在控制台中,如果输入两个字符串,例如1234然后点回车,再输入另一个字符串3.14,那么1234和3.14之间会有一个换行符’\n’)

那就表明输入的字符串中,含有除了数字,点号’.’ 和字符e之外的字符,那么就打印出错信息,并通过调研ii_advance越过非法字符。如果在出错前状态机进入过接收状态,那么程序将打印出使状态机进入接收状态的字符串。例如如果输入是123x4, x是非法字符,根据上面逻辑,程序将输出123 it is a Integer.

接下来的main函数将驱动起整个状态机程序:



大家走到这应该对整个程序的理解还是比较模糊,接下来跟着视频,我将程序的运行过程给大家展示一下,大家会清楚很多。

阅读博客的朋友可以到我的网易云课堂中,通过视频的方式查看代码的调试和执行过程.
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: