您的位置:首页 > 运维架构 > Shell

[学习笔记]shell编程之-shell解释器原理介绍

2008-01-30 22:27 489 查看
Linux系统的shell作为操作系统的外壳,为用户提供使用操作系统的接口。它是命令语言、命令解释程序及程序设计语言的统称。

shell是用户和Linux内核之间的接口程序,如果把Linux内核想象成一个球体的中心,shell就是围绕内核的外层。当从shell或其他程序向Linux传递命令时,内核会做出相应的反应。 shell是一个命令语言解释器,它拥有自己内建的shell命令集,shell也能被系统中其他应用程序所调用。用户在提示符下输入的命令都由shell先解释然后传给Linux核心。

有一些命令,比如改变工作目录命令cd,是包含在shell内部的。还有一些命令,例如拷贝命令cp和移动命令rm,是存在于文件系统中某个目录下的单独的程序。对用户而言,不必关心一个命令是建立在shell内部还是一个单独的程序。

shell首先检查命令是否是内部命令,若不是再检查是否是一个应用程序(这里的应用程序可以是Linux本身的实用程序,如ls和rm,也可以是购买的商业程序,如xv,或者是自由软件,如emacs)。然后shell在搜索路径里寻找这些应用程序(搜索路径就是一个能找到可执行程序的目录列表)。如果键入的命令不是一个内部命令并且在路径里没有找到这个可执行文件,将会显示一条错误信息。如果能够成功找到命令,该内部命令或应用程序将被分解为系统调用并传给Linux内核。

shell的另一个重要特性是它自身就是一个解释型的程序设计语言,shell程序设计语言支持绝大多数在高级语言中能见到的程序元素,如函数、变量、数组和程序控制结构。shell编程语言简单易学,任何在提示符中能键入的命令都能放到一个可执行的shell程序中。

当普通用户成功登录,系统将执行一个称为shell的程序。正是shell进程提供了命令行提示符。作为默认值(TurboLinux系统默认的shell是BASH),对普通用户用“$”作提示符,对超级用户(root)用“#”作提示符。

一旦出现了shell提示符,就可以键入命令名称及命令所需要的参数。shell将执行这些命令。如果一条命令花费了很长的时间来运行,或者在屏幕上产生了大量的输出,可以从键盘上按ctrl+c发出中断信号来中断它(在正常结束之前,中止它的执行)。当用户准备结束登录对话进程时,可以键入logout命令、exit命令或文件结束符(EOF)(按ctrl+d实现),结束登录。

使用Shell进行工作的人们对Unix/Linux下的Shell编程都很熟悉,在所有的Shell编程的书中都会提到#!/bin/bash,而这里到底包含了些什么?对操作系统而言,这一行字符串意味着什么?你可能会说,不就是会让/bin/bash程序来解释这个脚本程序吗?当然你是对的,看看我们的标题,这里我们谈谈解释器,让我们一起来看看脚本文件里的第一句到底对系统而言意味着什么。但有一点我们可先明确一下,所谓解释器就是指#!行后面的可执行的程序。

一、我们从exec族函数谈起

如果你从不写C程序,可能需要对本节的内容看得更为仔细并且试验一下。

代码:

Quote:

#include

extern char **environ;

int execl(const char *path, const char *arg, ...);

int execlp(const char *file, const char *arg, ...);

int execle(const char *path, const char *arg , ..., char * const envp[]);

int execv(const char *path, char *const argv[]);
int execve(const char *pathname, char *const argv[], char *const envp[]);

int execvp(const char *file, char *const argv[]);
exec族函数一共有上面所列的6个,作用都是一样:执行一段新的代码。区别只是向函数传递的参数方式不同而已,我在这里讲讲execl函数:第一个参数path是指向设置了执行位文件的路径,后面的可变参数列表分别指向了传递给此执行文件的参数列表(包括了参数0,即是执行文件的名称)。最后一个参数为(char *) 0,表示参数列表结束。

对于解释器,exec族函数是这样做的(以execl为例),如果path是指向了一个脚本,脚本的第一行以#!开头,则这样调用:

以#!后面的字符串为命令,后面加上execl参数列表中指定的参数列表,这样形成了新的程序执行。

下面我们以例子来验证这个结果:

下面这个C程序的作用是回射所有命令行参数及打印当前环境变量。

代码:

 

QUOTE:

//////////////////////////////////////////////////////////////////////////////////

// Program source: showargs.c

// Program name: showargs.c

// Program function: show all the args it revice, and all the environment variables

// author: maomaovv

// date: 2008-01-30

////////////////////////////////////////////////////////////////////////////////////

#include <stdio.h>

int main(int argc, char ** argv){

int i;

char **ptr;

extern char **environ;

for(i=0; i<argc; i++){

printf("arg[%d] is : %s/n", i, argv[i]);

}

printf("#####################################/n");

for (ptr = environ; *ptr != 0; ptr++){

printf("%s/n", *ptr);

}

return 0;

}
编译:gcc -o showargs showargs.c

执行:

代码:

 

QUOTE:

$ pwd

/home/program

$ ./showargs arg1 arg2

arg[0] is : ./showargs

arg[1] is : arg1

arg[2] is : arg2

#####################################

HOSTNAME=localhost.localdomain

TERM=xterm

SHELL=/bin/bash

HISTSIZE=1000

SSH_CLIENT=192.168.1.106 1518 22

QTDIR=/usr/lib/qt-3.1

OLDPWD=/home

SSH_TTY=/dev/pts/0

USER=root

LS_COLORS=no=00:fi=00:di=00;34:ln=00;36:pi=40;33:so=00;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=00;32:*.cmd=00;32:*.exe=00;32:*.com=00;32:*.btm=00;32:*.bat=00;32:*.sh=00;32:*.csh=00;32:*.tar=00;31:*.tgz=00;31:*.arj=00;31:*.taz=00;31:*.lzh=00;31:*.zip=00;31:*.z=00;31:*.Z=00;31:*.gz=00;31:*.bz2=00;31:*.bz=00;31:*.tz=00;31:*.rpm=00;31:*.cpio=00;31:*.jpg=00;35:*.gif=00;35:*.bmp=00;35:*.xbm=00;35:*.xpm=00;35:*.png=00;35:*.tif=00;35:

USERNAME=root

MAIL=/var/spool/mail/root

PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/X11R6/bin:/root/bin

INPUTRC=/etc/inputrc

PWD=/home/program

LANG=en_US.UTF-8

SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass

SHLVL=1

HOME=/root

BASH_ENV=/root/.bashrc

LOGNAME=root

SSH_CONNECTION=192.168.1.106 1518 192.168.1.110 22

LESSOPEN=|/usr/bin/lesspipe.sh %s

DISPLAY=localhost:10.0

G_BROKEN_FILENAMES=1

_=./showargs
我们在同一个目录下再写一个脚本:
代码:

QUOTE:

#! /home/program/showargs addarg 这个脚本就只有一行,

这个脚本我们命名为testexec,加上执行位后,执行情况如下:

代码:

QUOTE:

$ ./testexec

arg[0] is : /home/program/showargs

arg[1] is : addarg

arg[2] is : ./testexec

#####################################

HOSTNAME=localhost.localdomain

TERM=xterm

SHELL=/bin/bash

HISTSIZE=1000

SSH_CLIENT=192.168.1.106 1518 22

QTDIR=/usr/lib/qt-3.1

OLDPWD=/home

SSH_TTY=/dev/pts/0

USER=root

LS_COLORS=no=00:fi=00:di=00;34:ln=00;36:pi=40;33:so=00;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=00;32:*.cmd=00;32:*.exe=00;32:*.com=00;32:*.btm=00;32:*.bat=00;32:*.sh=00;32:*.csh=00;32:*.tar=00;31:*.tgz=00;31:*.arj=00;31:*.taz=00;31:*.lzh=00;31:*.zip=00;31:*.z=00;31:*.Z=00;31:*.gz=00;31:*.bz2=00;31:*.bz=00;31:*.tz=00;31:*.rpm=00;31:*.cpio=00;31:*.jpg=00;35:*.gif=00;35:*.bmp=00;35:*.xbm=00;35:*.xpm=00;35:*.png=00;35:*.tif=00;35:

USERNAME=root

MAIL=/var/spool/mail/root

PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/X11R6/bin:/root/bin

INPUTRC=/etc/inputrc

PWD=/home/program

LANG=en_US.UTF-8

SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass

SHLVL=1

HOME=/root

BASH_ENV=/root/.bashrc

LOGNAME=root

SSH_CONNECTION=192.168.1.106 1518 192.168.1.110 22

LESSOPEN=|/usr/bin/lesspipe.sh %s

DISPLAY=localhost:10.0

G_BROKEN_FILENAMES=1

_=./testexec
怎么会这样?我猜会有人对第2个参数./testexec不理解,暂且卖个关子,再引出一个C程序:

代码:

 

QUOTE:

/////////////////////////////////////////////////

// Program source: mytestexec.c

// Program name: mytestexec

// Program description: test execl how to work

// author: maomaovv

// date: 2008-01-30

////////////////////////////////////////////////

#include <unistd.h>

int main(void){

execl("/home/program/testexec", "testexec", "arg1","arg2",(char *) 0);

return 0;

}
编译:gcc -o mytestexec mytestexec.c

执行:

代码:

$ ./mytestexec

arg[0] is : /home/program/showargs

arg[1] is : addarg

arg[2] is : /home/program/testexec

arg[3] is : arg1

arg[4] is : arg2

#####################################

HOSTNAME=localhost.localdomain

TERM=xterm

SHELL=/bin/bash

HISTSIZE=1000

SSH_CLIENT=192.168.1.106 1518 22

QTDIR=/usr/lib/qt-3.1

OLDPWD=/home

SSH_TTY=/dev/pts/0

USER=root

LS_COLORS=no=00:fi=00:di=00;34:ln=00;36:pi=40;33:so=00;35:bd=40;33;01:cd=40;33;01:or=01;05;37;41:mi=01;05;37;41:ex=00;32:*.cmd=00;32:*.exe=00;32:*.com=00;32:*.btm=00;32:*.bat=00;32:*.sh=00;32:*.csh=00;32:*.tar=00;31:*.tgz=00;31:*.arj=00;31:*.taz=00;31:*.lzh=00;31:*.zip=00;31:*.z=00;31:*.Z=00;31:*.gz=00;31:*.bz2=00;31:*.bz=00;31:*.tz=00;31:*.rpm=00;31:*.cpio=00;31:*.jpg=00;35:*.gif=00;35:*.bmp=00;35:*.xbm=00;35:*.xpm=00;35:*.png=00;35:*.tif=00;35:

USERNAME=root

MAIL=/var/spool/mail/root

PATH=/usr/local/sbin:/usr/local/bin:/sbin:/bin:/usr/sbin:/usr/bin:/usr/X11R6/bin:/root/bin

INPUTRC=/etc/inputrc

PWD=/home/program

LANG=en_US.UTF-8

SSH_ASKPASS=/usr/libexec/openssh/gnome-ssh-askpass

SHLVL=1

HOME=/root

BASH_ENV=/root/.bashrc

LOGNAME=root

SSH_CONNECTION=192.168.1.106 1518 192.168.1.110 22

LESSOPEN=|/usr/bin/lesspipe.sh %s

DISPLAY=localhost:10.0

G_BROKEN_FILENAMES=1

_=./mytestexec
仔细观察上面的三个例子,答案开始浮出水面了。正如在开始时讲到的,exec族函数的处理是把#!后面的字符串为命令,后面加上execl参数列表中指定的参数列表,这样形成了新的程序执行。分析一下mytest.c源程序,execl把命令的结果是这样执行的/home/kiron/testexec的内容是#!/home/kiron/showargs addargs,则#!后面的字符串"/home/kiron/showargs addargs"加上命令参数列表:"/home/kiron/testexec arg1 arg2"就形成了新的程序行:/home/kiron/showargs addargs /home/kiron/testexec arg1 arg2。对于testexec脚本,我们在shell中调用它时,shell调用了fork,exec,wait来执行它,也就是和程序mytest.c一样用了exec函数,首先,exec函数对#!行分析后得出此脚本的解释器为/home/kiron/showargs,然后就形成了把命令行处理成了:“/home/kiron/showargs addargs ./testexec”。

注意:#!行中的解释器的路径必须是全路径,exec函数并不对其特殊处理,比如用PATH变量来搜索它的真实路径,所以路径是由程序员来保证正确的。

二、我的脚本第一句必须得是#!/bin/bash吗?

当然不必了,通过上面的解释,其实第一句的#!是对脚本的解释器程序路径,脚本的内容是由解释器解释的,我们可以用各种各样的解释器来写对应的脚本,比如说/bin/csh脚本,/bin/perl脚本,/bin/awk脚本,/bin/sed脚本,甚至/bin/echo等等。那我们真的能写一个/bin/echo的脚本文件吗?我们来试试,下面是一个例子:

代码:

#!/bin/echo -e
我把这只有一行的程序(实际上它也只能是一行,echo程序并不是被设计成像awk那样的编程语言,能写成源程序文件)命名为myecho,加上权限后执行它:

代码:

$ ./myecho "hi/a"

./myecho hi
如果你的echo支持-e选项并且你工作的环境还算安静,你在得到上面的结果的时候也应该听到清脆的终端响铃。但这种程序是毫无作用的。

三、我能利用解释器来做什么?

但是上面的echo脚本实际应用时并没有什么作用,我们可以得出一个小小的实验结果,并不是所有的可执行二进制文件都可以用来写解释器脚本。那我编写解释器的脚本有什么用?如果你有一个可编程的解释器,那你或许能编写该解释器的程序来简化你工作。比如说常用到的解释器如awk,perl,bash等等。但是正如我们上面总结的实验结果,很不幸地,并不是全部的可编程程序都是有用的解释器,exec脚本时,能从第一行得到脚本的解释器,然后用exec去解释脚本(可能是选项去控制,如#!/bin/awk -f),也包括了形如#!/PATH/的第一行,如果该解释器对这行不能忽略的话,就会出错,另外解释器也必须要对余下的程序语句能解释(这句好像是废话,但想象一下,上面myecho程序加一些"hello world"的行来,会有效吗?下面的mysed程序中的s/UNIX/unix/p也是一样的道理)。

像awk,perl,bash等程序对#开头的行当成注释行处理,就能写成有用的脚本。

再看下面的mysed程序。

代码:

Quote:

#!/bin/sed -f

s/UNIX/unix/p执行./mysed时出错了。
因为被解释成了"/bin/sed -f ./mysed",其中-f选项是表示以文件里的内容作为sed的命令输入,但sed的命令输入不能对"#!/bin/sed -f"解释,那么程序出错了。

所以,有用的解释器应该是类似bash,perl,awk的程序,并且能对一些规定的语句有解释功能的。下面给出一个awk程序写的统计文件行数和单词数的脚本程序myawk。

代码:

 

#!/usr/bin/awk -f

BEGIN {

sum = 0;

}

{sum += NF;}

END {

printf("file /"%s/" have %d line, %d words./n", FILENAME, NR, sum);

}设置执行位之后,执行如下:

代码:

$ echo -e "hi/nhello world">test.txt

$ ./myawk test.txt

file "test.txt" have 2 line, 3 words
这里执行./myawk被执行成“/usr/bin/awk -f ./myawk test.txt”,因为awk的命令中,以#开头的行被认为是注释行而忽略,awk忽略了第一行"#!/usr/bin/awk -f",正确的以非#开头行当成模式和命令的输入并能对其解释,所以这个程序是正确的,能被顺利地执行。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: