您的位置：首页 > 其它

知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考

2017-11-17 22:26 239 查看

昨天在北理工参加了一场由雪晴数据网和北京理工大学大数据创新学习中心联合举办的知识图谱分享活动，聆听了一下午报告，可谓是受益匪浅。一下午时间安排的非常饱满，总共三场报告。

不得不说首都的学校就是厉害啊，楼都这么漂亮。

下面我就来分别说说重点和感想。

1.佛学知识图谱构建技术

东南大学漆桂林教授

1.1 什么是知识？

1.2 知识图谱为搜索引擎带来的补充作用！

1.3知识图谱的几个关键技术

1.data extraction

数据从哪里来？

2.entity matching

就是说怎么知道beijing和北京是一个东西

3.type inference

e.g. China is an instance of country

1.Explicit IsA Relation Detector
2.Category Attributes Generator
3.Instance Type Ranker

以上步骤中包含一些复杂算法，我个人觉的偏工程应用，具体参考ppt，在下载链接中。

1.4 data extraction实战

报告的老师基于以上内容给出了一个课堂小实战训练，让我们直观体验了一下构建知识图谱中的基础性工作，知识抽取，从非结构化数据中抽取结构化内容，这和我们大数据领域中首当其冲的数据清洗步骤是不谋而合的。

实例文本:

*************************************************************************
title:大报国慈仁寺

大报国慈仁寺，俗称报国寺，位于北京市西城区，在广安门内大街路北。
经考证报国寺始建于辽代；明代塌毁，成化二年（1466年）重修，改名慈仁寺，俗称报国寺；清乾隆十九年（1754年）重修，更名为大报国慈仁寺。曾有七进院落，七层殿堂，后有毗卢阁，为当时北京南城最大庙宇。1900年因义和团在此寺设坛，被八国联军用炮轰毁。现全寺已修整一新，辟作“报国寺文化市场”，成为中国收藏活动著名的聚集地。
明清之际学者顾炎武（字亭林）在北京时曾住该寺西院。道光二十三年（1843年）改西院为顾亭林祠。如今在各种古旧书籍、钱币邮票、古玩首饰等的商摊中，祠堂已不可见，只余《顾亭林先生祠记》和《重建顾亭林先生祠记》两块碑文记载当年旧事。
目前每周四为报国寺文化市场交易日。

*************************************************************************
title:法门寺

法门寺，又称法云寺、阿育王寺，位于中国陕西省宝鸡市扶风县城北10公里处的法门镇。始建于东汉末年桓灵年间，距今约有1700多年历史，有“关中塔庙始祖”之称。法门寺因舍利而置塔，因塔而建寺，原名阿育王寺。释迦牟尼佛灭度后，遗体火化结成舍利。1980年以来，法门寺在前任方丈澄观、净一法师的住持下，相继建成大雄宝殿、玉佛殿、禅堂、祖堂、斋堂、寮房、佛学院等仿唐建筑。现任主持为中国佛教协会副会长学诚法师。
=== 建寺 ===
关于建寺时间，从唐代时就已无法准确确定了。有一种说法认为法门寺及真身宝塔始建于古印度孔雀王朝阿育王（前273年~前232年）时期。阿育王统一印度后为了弘扬佛法，将佛的舍利分送世界各地，兴建八万四千塔。中国有十九处，法门寺为第五处，先建塔后建寺。北周以前法门寺名为阿育王寺，寺塔名为阿育王塔。另一种说法受到了出土的汉代瓦当、砖刻的支持，认为法门寺建于东汉桓灵之世。
公元558年，北魏皇室后裔拓跋育曾扩建，并于元魏二年（494年）首次开塔瞻礼舍利。

基于给出的文本文件，进行正则表达式的提取python3脚本：

#-*-coding:utf-8-*-

import re

def read_file(filename):
with open(filename, encoding='utf-8') as fd:
for line in fd:
yield line

if __name__== "__main__":

filename = "templeArticles.txt"
title = re.compile('^title:')
weiyu = re.compile('位于([\\S]+)(，|。){0,1}')
shijianyu = re.compile('始建于(((?!，|；|。).)+)(，|；|。)')

for line in read_file(filename):
# 处理文件每一行文件

if re.match(title,line):
print(line[6:-1])
continue
if re.findall(weiyu,line):
print('位于: ' + re.findall(weiyu,line)[0][0])
continue
if re.findall(shijianyu,line):
print('始建于：' + re.findall(shijianyu,line)[0][0])
continue

处理结果：