您的位置:首页 > 其它

文字和语言vs数字和信息

2016-08-27 14:48 162 查看
数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。

信息

人类最早利用声音传播信息;

原始人通信方式(信息的产生、传播、接收、反馈)和今天的通信模型没有什么不同(信息源-编码-信道-解码-接收者);

语言产生于越来越多信息需要表达的需求中;

文字和数字

物体、数量和动作抽象出来,形成了今天的词汇,词汇多到一定程度时,仅靠大脑已经记不住所有词汇,所以需要高效记录信息,于是文字产生了;

非洲,人类文明的摇篮;

古埃及人不仅是优秀的农夫和建筑师,他们还发明了最早的保存信息的方式(用图形表示事物),这就是最早的象形文字;

象形文字的数量和记录一个文明需要的信息量是相关的,最早刻有埃及象形文字的文物的年代大约是公元前32世纪,那个时期的象形文字数量大约只有500个;

公元前5-7世纪(希腊-罗马时代),埃及象形文字的数量增加到了5000个左右,与中国常用的汉字数量相当;

随着文明的进步,信息量的增加,埃及的象形文字数量便不再随着文明的发展而增加了,因为没有人能够学会和记住这么多的文字,于是,概念的第一次概括和归类就开始了;

“日”本意太阳,但它同时又是太阳从升起再到落山再升起的时间周期,也就是我们讲的一天。这种概念的聚类,在原理上于今天自然语言处理或者机器学习的聚类有很大相似性,只是在远古,完成这个过程可能需要上千年,而今天,可能只需要几天甚至几小时,视计算机的速度和数量而定;

文字按照意思聚类,最终会带来一些歧义性;

有了上下文,大多数情况下多义字的去除歧义都可以做到,但对上下文建立的概率模型再好,也有失灵的时候;

不同的文明,因为地域的原因,历史上相互隔绝,便会有不同的文字。随着文明的融合与冲突,不同文明下的人们需要进行交流,或者说通信,那么翻译的需求便产生了;

翻译这件事之所以能够达成,仅仅是因为不同的文字系统在记录信息上的能力是等价的。进一步讲,文字只是信息的载体,而非信息本身;不用文字,用其他载体(比如数字)储存同样意义的信息,是现代通信的基础;

信息冗余是信息安全的保障。罗塞塔石碑上的内容是同一信息重复三次,因此只要一份内容完好保留下来,原有的信息就不会丢失,这对信道编码有指导意义;

语言的数据,称之为语料,尤其是双语或者多语的对照语料对翻译至关重要,是我们从事机器翻译研究的基础;

文字出现在远古“信息爆炸”导致人们的头脑装不下这些信息的时候,数字则是出现在人们的财产多到需要数一数才搞清楚有多少的时候;

几乎所有的文明都采用了十进制,玛雅文明采用了二十进制;

对于不同位数数字的表示,中国人和罗马人都用明确的单位来表示数字的不同量级,中国人是用个十百千万亿兆,罗马人用字符I代表1,V代表5,X代表10,L代表50,C代表100,D代表500,M代表1000,再往上就没有了。这两种表示法都不自觉的引入了朴素的编码的概念;

首先,它们都是用不同的符号代表不同的数字概念;第二,它们分别制定了解码的规则;在中国,解码的规则是乘法,在罗马,解码的方法是加减法;对于大数字,中国人的编码更有效;

描述数字最有效的古印度人,他们发明了包括0在内的10个阿拉伯数字,就是今天通用的数字;方法更抽象,但是使用方便,由阿拉伯人传入欧洲;

文字和语言背后的数学

当人类第二个文明中心在两河流域的美索不达米亚建立的时候,一种新的文字-楔形文字诞生了;

楔形文字是拼音文字,是我们这个星球上最古老的拼音文字,每个形状不同的楔子实际上就是一个不同的字母;

拼音字母由腓尼基人美索不达米亚带到地中海东岸的叙利亚。腓尼基人是天生的商人,不愿意花大量的时间雕刻这些漂亮的楔形字母上,而将它们简化成22个字母。这些字母随着腓尼基人的商团经爱琴海诸岛(如克里特岛),然后传给了希腊人的祖先;

从象形文字到拼音文字是一个飞跃,因为人类在描述物体的方式上,从物体的我外表进化到了抽象的概念,同时不自觉地采用了对信息的编码;常用字短,生僻字长,完全符合信息论中的最短编码原理;

通信时如果信道较宽,信息不必压缩就可以直接出传递;如果信道很窄,信息在传递前需要尽可能地压缩,然后在接收端进行解压缩;

在古代,两个人讲话说得快是一个宽信道,无需压缩;书写来得慢是一个窄信道,需要压缩。将日常的白话口语写成精简的文言文本身就是信道压缩的过程,而将文言文解释清楚是解压缩的过程;

今天宽带互联网和移动互联网上的视频播放设置完全一致,前者是经过宽带传输,因此分辨率可以做得高得多;而后者由于空中频道带宽的限制,传输速度要慢一到两个数量级,因此分辨率要低得多;

犹太人发明了一种类似于我们今天计算机和通信中检验码的方法。他们把每一个希伯来字母对应一个数字,这样每行文字加起来便得到一个特殊的数字,这个数字便成为这一行的校验码。同样,对于每一列也是这样处理;

如果说从字母到词的构词法是词的编码规则,那么语法则是语言的编码和解码规则。不过,相比较而言,词可以被认为是有限而且封闭的集合,而语言则是无限和开放的集合。从数学上讲,对于前者可以有完备的解码规则,而后者不具备这个特性。因此,任何语言都有语法规则覆盖不到的地方,这些例外或者说不精确性,让我们的语言丰富多彩;
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息