您的位置:首页 > 其它

HNC与语言学研究学术研讨会(第三届)简单记录(4)

2005-12-31 14:08 281 查看
2005年的最后一天,把这篇简单记录补上。内容主要是关于北京邮电大学钟义信教授的全息自然语言理解与机器认知研究和上海交通大学陆汝占教授的对于搜索引擎的思考两篇主题报告。这两篇报告本来是要在开幕式上做的,因时间关系被推到了闭幕式上。
钟教授原来是做信息论的,由于申氏信息论只研究信息传输过程中噪声环境的处理,并不涉及信息的理解,所以钟先生主张从语法、语义和语用三个角度来考察信息,也就是“全息”理解。(钟先生的全息指的就是语法、语义和语用三个角度或体系的复合,这不同于毕家祥“全息拓扑学”中的定义;后者试图对“全息”进行形式化定义,可惜没有得到国内环境的承认,老先生的命运也坎坷许多。)
钟先生认为,处理只是手段,而不是目标,理解或认知才是核心的需要。从现在的环境来看,统计占主流,规则则暂居二线,然而这并不一定就是长久势态。因为统计是基于大数定律的,是一种初级的认知,它不追求理解,而追求共识;而规则则是处理新问题和复杂问题的认知方法,但它也有自身的问题:走向融合,或者说,一个融合的方法论,将是未来的方向。换一个角度,语言是信息的载体,信息是语言的内核,所以需要考察语言的全信息结构,并提出解决办法。钟先生给了一个图,我觉得比较有意思,用语言表达则为:
符号的序列形成语言的语法结构;
客体与符号的关系,即序列内容形成语言的语义结构;
主体与符号的关系,即序列价值形成语言的语用结构。
所以,自然语言理解的问题,也就是给定语境的条件下,确定语言的全信息解的问题。这其中,钟先生认为语用为龙头,统领全军,所以同时也提出了语用web的概念。并提出基本思路是:在全信息库的支撑下,通过预处理、语法处理、语义处理、语用处理(这三个全信息处理过程是复杂的调用过程)以及后处理,从而获得语言的全信息解。
这个思路虽然不错,但其中最重要的问题是,全信息库如何做?!也就是如何解决知识表达的NP问题。虽然钟先生给出了一些初步的想法,即在语言的各个层面上,通过描述语法特征、语义特征和语用特征来做全信息库,另外他也曾提到概念的层次结构,希望能借鉴HNC的思路,而且开始只针对具体某一个领域来实践,以检验并尝试各种想法,但由于这个问题本身的复杂性,大家对此还是有不同意见的。讨论时靳光瑾老师就曾提出,在词语一级,语义乃至语用信息是和语言环境息息相关的,这是极其复杂的语言现象,如何构建这样一个全信息库?黄曾阳老先生另外也随手举了个例子:
去巴黎。
这个城市很巴黎。
今晚我们去‘巴黎’一番。
这很好的言明了知识表达的复杂性这一特点。钟先生也认为这是个极其复杂的问题,好的办法还没有,他们也在探索。(看来)自然语言理解与处理的道路,还很漫长。
陆汝占老师的关于信息检索的现状、问题的内容是我所喜欢的第二个报告,除了陆俭明老师那段简单发言外。陆老师的思路是内涵逻辑,报告也有很深的数理逻辑背景。另外,由于时间关系,陆老师一直说的很快,我也没有记录笔记,希望以后能获得ppt放在这里。以前我曾做了半篇的“搜索的未来”,这次报告正好可以验证对比一下,一致地方自然心情愉悦,而听到陆老师的独到之处,却又是另外一番无比兴奋的心情了。
简单记录几个回忆点(不完全),相信每一个做搜索引擎的都有体会:
搜索引擎是大海捞针
无序或有序但效率低
串不反映概念(选择关键词影响招回率)
布尔操作不反映概念联系
只提供“大锅菜”
标引不容纳足够的知识
因为目前也在做搜索,陆老师的报告很有启发意义。改日再谈这个话题。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: