您的位置:首页 > 其它

知识图谱实战(二)

2020-07-14 06:05 148 查看

沪深股市上市公司知识图谱


1、沪深股市上市公司知识图谱介绍
通用知识图谱通常规模较大。公司或者小型企业通常建立行业知识图谱
2、金融知识图谱的构建流程



知识模型就是模式层,建立知识模型可以理解为在建图数据库时写数据字典定义表头的过程,有了表头之后,相当于有了知识模型之后就有了数据源。有一种说法是知识图谱是包括图、数据库是不需要数据结构的,可以动态的根据需求随时改变,此类说法只适用于通用领域,而领域知识图谱的模式层在大多数的情况下必须要提前预先定义好,若不定义好,都不知道有哪些知识,有了模式层,在获取数据的同时就有了参考,就相当于模式层相当于java中的类,而数据相当于类中的实例。
提取的关系可能存在不全的情况,通过知识推理将关系补全。
RDF是资源描述框架,他主要描述主谓语宾的关系。OWL是语义网络模型

语言模型是如何定义的?一步一步扩展



以上的模式层是数据科学家和领域专家合作构建的高度抽象公司的各种合作


大数据适合做批处理不适合做实时的事件的检索。
3、分布式爬虫搭建

爬虫一开始会定义一个框架,让程序像一个个工人一样去爬取信息。docker用来监督和监测,爬取得数据需要处理,不能直接入库。




目前的网址为:http://finance.eastmoney.com/a/cgsxw.html
大致过程:首先仿照浏览器行为,解析写起来较方便,其次在item中构建数据库和数据结构中需要的东西,比如一个新闻中所需要的




4、自然语言处理过程
语言是指在一个有限的字符集上,产生的符合一定的规则的字符串集合。
自然语言VS人工语言
+形式语言
+区别:*自然语言:歧义性(日常交流的语言)
*人工语言:确定性(python\java\c)



缺点:比较耗时,而且自然语言千变万化。

相似度计算:在人工标注时。可能会出现有的类别的文章标注的较多,有的文章标注较少而机器学习的目标是让各个类别分类较均匀,此时,需要做的就是增加少数类别文章的数量,如何在剩余未标注的文章中找到属于少数类别的文章?解决方法为:计算已标注的文章(少数类别)的中心点[文章会被处理成二维向量中的一个点],其余未标注的点也会被处理为向量,此时,标注靠近中心点的未标注文章,










神经网络语言模型的训练过程:
+输入端:一个句子中分好词,词的one-hot表示,
+输出端: 词典中词频向量
+中间:全连接层训练
神经网络:提取中间特征
卷积网络:提取空间特征
时序网络:提取时间的特征
深度网络:把自动化的特征过程放到模型中




缺点:误差会随着长距离的传输会丢失






离散语言表示特点:稀疏、高维(维数取决于词典的大小,通常情况下词典的数量级在千万以上,除去无效的停用词,好的词典的数量级在百万以上,千万级以内 )如此多的数量级,机器学习处理比较不理想,解决方法为如何用一个模型将高维稀疏转化为低维稠密
连续语言表示特点:低维稠密,机器学习的本质是学习一个分界面

其中,序列到类别运用较多
5、知识的抽取、存储和表达

以上是开放领域的关系抽取
关系抽取一般分为开放域的关系抽取和封闭式的关系抽取,基于开放域的关系抽取运用于开放的知识图谱,基于封闭域的关系抽取运用于封闭的知识图谱,如何区分是开放领域的还是封闭领域的知识图谱,看其关系抽取的属于开放的还是封闭的,还取决于你构建知识图谱的用法,例如工业领域则为封闭类的知识图谱。




该邻接矩阵为高维稀疏,机器学习无法使用

有向无环图常用于任务之间的调度关系。没有环且有依赖关系。


该方法取自下面这篇论文 A Comprehensive Survey of Graph Embedding: Problems, Techniques and Applications
清华的自然语言实验室


广度优先可学习出图嵌入中图的结构特征,深度优先可学习出图嵌入中图的次序特征
6、知识图谱推理、搜索和问答

构建知识图谱时
图数据库相对最自然表示知识图谱的方法
mongodb构建知识图谱最快的方法


在专业领域, 搜索需求并没有查询需求那么常用。

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: