您的位置:首页 > 其它

flex&bison 学习笔记

2012-05-17 23:08 162 查看
最近在学习开源数据库 PostgreSQL 的解析器部分,需要用到 flex 和 bison,花了一些时间学习了一下,把目前已经搞清楚的地方和大家交流交流。如果有不对的地方,欢迎指正


1. flex 和 bison 是什么东西?用来干什么的?

flex和 bison 是两个用来生成程序的工具(这两个工具的用途很广泛,这里只说它在 PostgreSQL 中的使用)。在 PostgreSQL 中,它们被用来生成 SQL 语句的词法和语法分析器。注意,flex 和 bison 本身不是词法或语法分析器,利用它们生成的程序才是。即:



2. 词法和语法分析器是怎么工作的?

任何一种语言,都是有一定的语法规则的,不管是人类的语言,还是计算机语言(如 C/C++ 编程语言等),因此,可以利用这些已知的规则,来对对应的语言进行分析。举个例子,汉语中的一个句子,基本的格式是:主(名词/代词)+ 谓(动词)+ 宾(名词/代词),当你在说一句话的时候,我们把你说的话(输入)先拆分成一个个有意义的字(或词),然后对照该语法,看词性及组合,是否符合既定的语法规范,如果符合,则可以知道你说的话是符合规范的。比如,你说“我吃饭”,输入会被依次拆成“我”“吃”“饭”,他们分别是代词、动词、名词,因此符合上面的语法规则,因此这句话是
ok 的。而如果说“我饭吃”,则会发现与上面的规范不符合(也没有其他符合的规范),因此这句话语法上是有问题的。flex 和 bison 生成的词法和语法分析器就是干的这两件事:flex 生成的词法分析器将输入拆分成一个一个的记号(token),bison 生成的语法分析器根据已有的规则,分析这些 token 的组合,是否是符合语法规范的。



3. flex/bison 源文件格式

上面已经提到,flex/bison是通过处理其源文件来生词法和语法分析器的,flex 源文件的扩展名为 .l,bison 源文件的扩展名为 .y。它们的格式比较类似,分为三个段:

/* 定义段 */

%{



%}



%%

/* 规则段 */



%%

/* 用户子程序段 */



三个段用 %% 进行分离,

(1)定义段,这一部分一般是一些声明及选项设置等。C 语言的注释、头文件包含等一般就放在 %{ %} 之间,这一部分的内容会被直接复制到输出文件的开头部分,选项后面再说;

(2)规则段为一系列匹配模式和动作,模式一般使用正则表达式书写,动作部分为 C 代码:

模式1 {动作1(C 代码) }

在输入和模式 1 匹配的时候,执行动作部分的代码;

(3)用户子程序段,这里为 C 代码,会被原样复制到输出文件中,一般这里定义一些辅助函数等,如动作代码中使用到的辅助函数。

词法分析器所做的,就是在输入中寻找字符的模式(pattern)。在词法分析器中,我们要给定我们需要识别的模式,因此需要使用一种方式来描述模式,这就是常用的正则表达式。正则表达式在这里不多讲,如果完全不了解,可以问问谷歌或者度娘,花个十几二十分钟看看最基本的部分,基本就能应付现在的需要了。来看一个简单地例子,实际地认识认识(强烈建议自己动手敲代码实践哦!)。

4. flex 小试牛刀

编写以下 flex 源文件(flex_1.l,注意后缀名是 l (字母 L)哦!):

%{

/* 这里的部分会被直接拷贝到生成的 .c 文件的开始部分,在这里可以包含需要使用的头文件,如 stdio.h

*/

#include <stdio.h>

%}

/* 下面这个 %% 就表示定义段结束了,规则段开始了 */

%%

/* 规则段开始了,下面定义了四条规则,前面的部分就是模式,处于一行的开始位置,后面的部分就是动作,也就是,输入中匹配到了这个模式的时候,对应的进行什么动作,就像你蹲在战壕里,前面出来一个人,你通过匹配知道是敌人,你就开枪一样。第一个模式也就是匹配连续的一个到多个字符,匹配到之后就将其打印出来。注意到
yytext,在输入匹配到该模式的时候,匹配的部分就存储在这个 yytext 里面啦!这里把它作为字符串直接输出就可以了;第二条规则的模式部分,就是匹配连续的一个或者多个数字,匹配到了之后,也是以字符串的形式输出(对于输入,就是一连串的字符,什么转换之类的,就得我们自己操心了);第三条规则的模式部分,就是匹配一个换行符了,并且匹配到之后就打印一个新行的信息;第四条规则的模式部分,是一个点。正则表达式里面这个也就是匹配任何出了
\n 之外的字符。因此,下面的游戏规则就是,匹配到英语单词(当然,不一定是正确的单词,比如 niubi,暂时先不计较这个),则将该单词输出,匹配到连续数字,将其输出;匹配到换行符,打印一条信息;匹配到任何其他的字符,则直接忽略({} 也就是动作是空的,就是什么都不做了。什么都不做了那程序该干啥呢?当然是继续识别后面的输入啦!)
*/

[a-zA-Z]+
{ printf(“get word: %s”, yytext); }

[0-9]+ {printf(“get number:%s”, yytext); }

\n {printf(“New line\n”); }

. { }

%%

/* 规则段之后就是用户子程序段了。这里现在我们就空着,先重点关注一下规则段的再说。其实上面这第二个%% 也是可以去掉的哦!不妨动手试试吧! */

好了,flex 源文件写好了,你一定迫不及待想看看跑起来的样子吧?现在就开始(找个有 flex 的环境,linux 一般都自带,如果你实在不想用 Linux,那就在 windows 上装一个吧!个人建议直接在 windows 上装一个 cygwin,很多 GNU 的工具都可以使用):

tom@linux-oqq5:~/mycode/flex_bison>flex flex_1.l

tom@linux-oqq5:~/mycode/flex_bison>ll

total 48

-rw-r--r-- 1 tom users 170 May 17 21:53 flex_1.l

-rw-r--r-- 1 tom users 41617 May 1722:08 lex.yy.c

可以看到,生成了一个名字为lex.yy.c 的 C 源码文件,如果有兴趣的话,可以打开该 C 文件看看。这一步,也就是 flex 通过 flex 源码文件,生成了一个词法分析器的 C 源码文件了。那么下一步做什么呢?当然就是编译这个词法分析器的源码文件,生成词法分析器程序啦(暂且就叫它 scanner 吧,注意要带上-lfl链接flex的库,否则会报一些函数找不到)!

tom@linux-oqq5:~/mycode/flex_bison> gcc -o scanner lex.yy.c -lfl

tom@linux-oqq5:~/mycode/flex_bison> ll

total 68

-rw-r--r-- 1 tomusers 170 May 17 21:53 flex_1.l

-rw-r--r-- 1 tom users41617 May 17 22:08 lex.yy.c

-rwxr-xr-x 1 tom users17447 May 17 22:16 scanner

注意到我们在编译的时候,链接了一个库 fl,这个是 flex 提供的一个库,生成的词法分析器里面会用到这个库里面的一些东西。这个里面也包括内置的 main 函数,回头看看,上面的 flex 源文件中,是不是没有 main 函数的?最后的入口 main,就是来自这个库啦!当然,也可以自己写 main 函数,就在用户子程序段,不过得调用词法分析器的入口程序才行哦!这个入口函数就是 yylex()。一会儿再看看最后的那个例子吧!现在可以看到,生成了一个可执行程序
scanner,赶紧试试吧!

1 tom@linux-oqq5:~/mycode/flex_bison> ./scanner

2 Hello, scanner! This isa test string: hi, 123

3 get word: Hello

4 get word: scanner

5 get word: This

6 get word: is

7 get word: a

8 get word: test

9 get word: string

10 get word: hi

11 get number: 123

12 New line

为了方便说明,我在上面的各行添加了行号。程序启动后,等待你的输入,我们输入第二行所示的内容,然后敲回车键,则输出如3-12 行所示。从上面的结果可以很清晰地看到,所有的英文单词都被识别了并输出了出来(3-10行),所有数字被识别了出来(11行),最后敲的换行符也被识别出来了(12行),而其他的所有符号,如,!:和空格等,都被忽略掉了,从输出结果中,我们找不到它们的一点踪迹。

通过上面这个例子,应该知道flex的大概的工作原理了吧!当然,我们这里举的例子很简单,动作部分也就是简单地打印。那么,在真实的情况下,又是怎么样的呢?其实,道理是一样的。一般词法分析器和语法分析器会一起使用,语法分析器会调用词法分析器来读取输入,词法分析器匹配到特定的模式后,就向语法分析器报告(类型和值之类的)。也就是说,词法分析器的工作,就是读取、报告、再读、再报告,而语法分析器的工作,就是调用词法分析器读取,以及根据词法分析器的反馈,看输入是否和语法规则匹配。这些,到后面讲到的时候再具体说吧!

再贴一个例子,就不细说了,自己敲敲代码玩玩去体会吧!

下面的 flex 源文件最终生成一个统计输入行数、单词数以及字符个数的程序,类似 Linux 上的 wc 命令,注意要结束输入得到统计结果的时候,按 ctrl + d:

%{

int chars = 0;

int words = 0;

int lines = 0;

%}

%%

[a-zA-Z]+
{words++; chars += strlen(yytext); }

\n
{ chars++; lines++; }

.
{ chars++; }

%%

main(int argc, char **argv)

{

yylex();

printf("%8d%8d%8d\n", lines, words, chars);

}

哦,说了这半天,忘了推荐书籍了,呵呵~~我主要就看一本书《flex & bison》,这是曾经的传说《lex & yacc》的经典延续,上面这个统计的例子就是这本书里面的。手头不缺这两个钱的童鞋,需要的话建议可以留一本在案头,可随时查阅。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: