【笔记】机器破译古文能否找回逝去的人类文明?
2017-11-02 19:52
316 查看
案例来源:机器之心
案例地址:https://www.jiqizhixin.com/articles/2017-02-03-9
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)
1. 问题:公元前2600到前1900年,印度河流域文明的规模超过埃及文明和美索不达米亚文明。发现的印度河流域的印章上有许多符号,这些符号是文字么?
过去的解决思路是人工找到文字中的语言结构、测试总结的规律、不断地测试错误,弄清语言如何标记一个短语的开始和结束等。
但印度河流域的符号至今未得到破解,因为其长度短,平均一个印章只有5个符号,最长的也仅有17个。
2. 条件熵:2009年研究者Rao计算了一个符号按照特定顺序和跟随另一个符号的可能性。他认为,“如果能发现统计规律,那么说明这些符号并不是简单的并列排置。”
Rao将古印度语的条件熵与已知的语言系统(如吠陀梵语)及已知的非语言系统(如人类 DNA 序列)进行了比较,发现古印度语与语言系统非常相似。虽然还不能证明这是语言,但可以排除符号的随机排列。
3. 马尔科夫模型:Rao采用马尔科夫模型的统计技术【我猜可能是用CRF】,训练模型,找出哪些符号可能开始一个文本、哪些可能是结束。Yadav采用类似的分析,利用n-gram分析不同类型的马尔科夫模型,研究某一个符号下一个符号出现的概率,以及某两个符号下一个符号出现的概率。
以上两种方法都用来填充印章中缺损的符号。
研究中还发现,伊拉克境内发现的印章和印度境内发现的印章,它们所遵循的序列模式不同。说明也许不同地区的人用相同的符号编码当地语言。
4. 对印章起源地的分析:
许多印章在挖掘后被用在了各种场合,因此它们的起源地已经不清楚了。如果知道各个印章的起源地,那么对于其语法的分析会有益。
在之前的认知科学研究中,可以通过在书面中同时提到不同城市的频率来估算城市间的距离。这一观点是真实可行的,对于美国城市,依据的是两城市在全国性报纸上同时出现的频率,对于中东和中国的城市,依据的是相应的阿拉伯语和汉语文本,甚至对《指环王》中的城市也适用。
如果印章是语言,那么它们也应该遵循该模式。因此用“已知起源地”的印章驯良,找到可能的地域符号,然后用这些符号来预测“未知起源地”的印章的起源地。
5. 随想:属于数字人文的研究领域,还蛮有趣的。
案例地址:https://www.jiqizhixin.com/articles/2017-02-03-9
(以下为案例的简要概述,便于之后能快速检索到相关内容。部分文字与图片可能直接来自原文,如有侵权请告知,谢谢)
1. 问题:公元前2600到前1900年,印度河流域文明的规模超过埃及文明和美索不达米亚文明。发现的印度河流域的印章上有许多符号,这些符号是文字么?
过去的解决思路是人工找到文字中的语言结构、测试总结的规律、不断地测试错误,弄清语言如何标记一个短语的开始和结束等。
但印度河流域的符号至今未得到破解,因为其长度短,平均一个印章只有5个符号,最长的也仅有17个。
2. 条件熵:2009年研究者Rao计算了一个符号按照特定顺序和跟随另一个符号的可能性。他认为,“如果能发现统计规律,那么说明这些符号并不是简单的并列排置。”
Rao将古印度语的条件熵与已知的语言系统(如吠陀梵语)及已知的非语言系统(如人类 DNA 序列)进行了比较,发现古印度语与语言系统非常相似。虽然还不能证明这是语言,但可以排除符号的随机排列。
3. 马尔科夫模型:Rao采用马尔科夫模型的统计技术【我猜可能是用CRF】,训练模型,找出哪些符号可能开始一个文本、哪些可能是结束。Yadav采用类似的分析,利用n-gram分析不同类型的马尔科夫模型,研究某一个符号下一个符号出现的概率,以及某两个符号下一个符号出现的概率。
以上两种方法都用来填充印章中缺损的符号。
研究中还发现,伊拉克境内发现的印章和印度境内发现的印章,它们所遵循的序列模式不同。说明也许不同地区的人用相同的符号编码当地语言。
4. 对印章起源地的分析:
许多印章在挖掘后被用在了各种场合,因此它们的起源地已经不清楚了。如果知道各个印章的起源地,那么对于其语法的分析会有益。
在之前的认知科学研究中,可以通过在书面中同时提到不同城市的频率来估算城市间的距离。这一观点是真实可行的,对于美国城市,依据的是两城市在全国性报纸上同时出现的频率,对于中东和中国的城市,依据的是相应的阿拉伯语和汉语文本,甚至对《指环王》中的城市也适用。
如果印章是语言,那么它们也应该遵循该模式。因此用“已知起源地”的印章驯良,找到可能的地域符号,然后用这些符号来预测“未知起源地”的印章的起源地。
5. 随想:属于数字人文的研究领域,还蛮有趣的。
相关文章推荐
- 机器最终取代人类文明 剑桥研究人员将评估风险
- 机器智慧能否超越人类?三派专家观点
- GET和人类 VS. 机器
- 霍金剑桥最新演讲: AI可能成就或者终结人类文明(附视频)
- 机器学习学习笔记(二)-- 梯度下降
- CentOS学习笔记之<虚拟机能ping通同一网关的其他机器,ping不通主机>
- 机器学习学习笔记 1、高等数学
- 机器学习笔记2(吴恩达)
- 林轩田之机器学习课程笔记( distilling hidden features之radial basis function network)(32之30)
- 机器学习笔记——线性回归
- 林轩田之机器学习课程笔记( distilling hidden features之final)(32之32)
- 机器学习课程 笔记
- 斯坦福机器学习公开课学习笔记(2)—监督学习 梯度下降
- 台湾大学林轩田机器学习基石课程学习笔记15 -- Validation
- 九、机器学习系统设计笔记之分类III:音乐体裁分类
- 机器学习-学习笔记3.1-局部加权回归
- 机器学习基石笔记7——为什么机器可以学习(3)
- 人类探索地外文明取得的重大进步
- 机器学习实战笔记(1)——k-近邻算法
- 机器学习基石学习笔记3 VC Dimension(1)