数据治理中Oracle SQL和存储过程的数据血缘分析
数据治理中Oracle SQL和存储过程的数据血缘分析
数据治理中的一个重要基础工作是分析组织中数据的血缘关系。有了完整的数据血缘关系,我们可以用它进行数据溯源、表和字段变更的影响分析、数据合规性的证明、数据质量的检查等。
分析数据血缘的方法主要分为四类
- 自动解析
- 系统跟踪
- 机器学习
- 人工收集
自动解析主要是利用工具解析 SQL 语句、存储过程和 ETL等文件。 本文以 Oracle 为例,来说明如何分析 SQL 和存储过程中的数据血缘。
产生数据血缘的 SQL 语句
- SELECT
- INSERT
- UPDATE
- MERGE
- CREATE VIEW
- CREATE TABLE
- 存储过程
SELECT
可能你会感到奇怪, SELECT 语句没有对数据进行增、改操作,如何会产生数据血缘? 秘密就在于 SELECT 语句中的 select list 部分,在这里,可以对数据进行转换。 以下面这个 SELECT 语句为例:
select sal + commission as totalSal from emp;
我们可以看到,totalSal 字段的数据来自 emp.sal 和 emp.commission,在这里,数据进行了一次转换。 这种在 SELECT 内部产生的数据血缘是临时性的,但是这个 SELECT 语句和 CREATE VIEW 或者 CREATE TABLE 一结合,这个数据血缘就真正落地形成了。例如:
create view v_sal(mySal) as select sal + commission as totalSal from emp;
这个 CREATE VIEW 语句通过 SELECT 形成了 从 emp.sal 和 emp.commission 到 v_sal.mySal 的数据血缘。
因此我们可以知道,分析好 SELECT 语句是对 SQL 语句进行数据血缘分析的基础。总体来说,通过分析 SQL 语句来获得数据血缘是比较直观和简单的,但问题的关键是人工分析的效率太低,对于企业内众多的 SQL 来说,人工分析基本是不可能的。
存储过程
存储过程可以包含比较复杂的逻辑处理,例如条件判断、循环分支等。因此常用来完成数据抽取、转换、加载、清洗等任务。 这其中,就产生了大量的数据血缘关系。为了更好的对企业内数据进行治理,整理存储过程中的数据血缘工作是必不可少的。
分析存储过程中的数据血缘,游标 cursor 是一个关键因素,数据流一般都是围绕着游标进行处理。
在下面这个 Oracle PL/SQL 的存储过程中,首先定义了游标 CURSOR cur_stclerk。
DECLARE CURSOR cur_stclerk IS SELECT employee_id, department_id, first_name, last_name FROM employees WHERE job_id = 'ST_CLERK';
然后通过这个游标,用 LOOP 进行循环, 把数据从 employees 表中插入到表 emp_temp 和 emp_detls_temp。
INSERT INTO emp_temp (employee_id, department_id, job_id) VALUES (z_empid, z_depid, 'ST_CLERK'); INSERT INTO emp_detls_temp (employee_id, empname) VALUES (z_empid, z_firstname || ' ' || z_lastname); END LOOP; CLOSE cur_stclerk; COMMIT; END;
因此我们可以建立从 employees 表到表 emp_temp 和 emp_detls_temp 的数据血缘。
完整的 PLSQL 存储过程。
DECLARE z_empid employees.employee_id%TYPE; z_depid employees.department_id%TYPE; z_firstname employees.first_name%TYPE; z_lastname employees.last_name%TYPE; CURSOR cur_stclerk IS SELECT employee_id, department_id, first_name, last_name FROM employees WHERE job_id = 'ST_CLERK'; BEGIN OPEN cur_stclerk; LOOP FETCH cur_stclerk INTO z_empid,z_depid,z_firstname, z_lastname; EXIT WHEN cur_stclerk%NOTFOUND; INSERT INTO emp_temp (employee_id, department_id, job_id) VALUES (z_empid, z_depid, 'ST_CLERK'); INSERT INTO emp_detls_temp (employee_id, empname) VALUES (z_empid, z_firstname || ' ' || z_lastname); END LOOP; CLOSE cur_stclerk; COMMIT; END;
自动化数据血缘分析工具
SQLFlow 支持分析多达 20 多种主流数据库的 SQL 语句。 支持的数据库有 bigquery, couchbase, dax, db2, greenplum, hana, hive, impala, informix, mdx, mysql, netezza, odbc, openedge, oracle, postgresql, redshift, snowflake, sparksql, sqlserver, sybase, teradata, vertica。
支持分析存储过程和动态 SQL 语句。
通过 UI 分析 SQL 语句
通过 SQLFlow 的 UI 可以快速的获取一个 SQL 的数据血缘情况, 并可以得到可视化的结果,帮助用户迅速了解一个 SQL 中的数据血缘。
通过 API 方式分析 SQL 的数据血缘
有时,我们需要把分析所得的数据血缘作为元数据存储到我们自己的数据治理平台中,和其它元数据进行整合, 这时,我们可以利用 SQLFlow 提供的 Restful API, 利用 shell, python 等脚本对数据血缘分析工作进行自动化。
这里用 curl 展示如何用 API 访问 SQLFlow 进行数据血缘分析。
- 准备好用 API 连接 SQLFlow 需要的 userid 和 secret code
- 利用 userid 和 secret code 来获取 token。注意,用你自己的 userid 和 secret code 来替换掉命令中的对应部分。
curl -X POST "https://api.gudusoft.com/gspLive_backend/user/generateToken" -H "Request-Origion:testClientDemo" -H "accept:application/json;charset=utf-8" -H "Content-Type:application/x-www-form-urlencoded;charset=UTF-8" -d "secretKey=YOUR SECRET KEY" -d "userId=YOUR USER ID HERE"
- 把需要分析的 SQL 语句递交给 SQLFlow 进行分析,并返回处理结果。注意,用你自己的 userid 和上面命令中返回的 token 来替换掉命令中的对应部分。
curl -X POST "https://api.gudusoft.com/gspLive_backend/sqlflow/generation/sqlflow?showRelationType=fdd" -H "Request-Origion:testClientDemo" -H "accept:application/json;charset=utf-8" -H "Content-Type:multipart/form-data" -F "sqlfile=" -F "dbvendor=dbvoracle" -F "ignoreRecordSet=true" -F "simpleOutput=false" -F "sqltext=create view v_sal(mySal) as select sal + commission as totalSal from emp;" -F "userId=YOUR USER ID HERE" -F "token=YOUR TOKEN HERE"
- 返回的 json 包含了如下数据血缘关系。
"relations": [ { "id": "3", "type": "fdd", "effectType": "create_view", "target": { "id": "11", "column": "mySal", "parentId": "9", "parentName": "v_sal", }, "sources": [ { "id": "3", "column": "sal", "parentId": "2", "parentName": "emp", }, { "id": "4", "column": "commission", "parentId": "2", "parentName": "emp", } ], "processId": "10" } ]
更详细的信息见官网 SQLFlow Restful API。
小结
本文介绍了如何通过分析 Oracle 的 SQL 语句和存储过程来获取组织中的数据血缘,从而更好的进行数据治理。 并介绍了如何利用 SQLFlow 工具把分析 SQL 语句中的数据血缘工作自动化, 提高数据自理效率和水平。
文档信息
- 本文作者:tako@SQLFlow Team
- 本文链接:https://www.sqlflow.cn/mahayu-oracle-data-lineage/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)
- 【PL/SQL】ME IN PROCEDURE Analysis & Example | oracle数据库: 用procedure合并数据的案例分析GE
- 数据库操作_连接SQL Server数据库示例;连接ACCESS数据库;连接到 Oracle 数据库示例;SqlCommand 执行SQL命令示例;SqlDataReader 读取数据示例;使用DataAdapter填充数据到DataSet;使用DataTable存储数据库表;将数据库数据填充到 XML 文件;10 使用带输入参数的存储过程;11 使用带输入、输出参数的存储过程示;12 获得数据库中表的数目和名称;13 保存图片到SQL Server数据库示例;14 获得插入记录标识号;Exce
- 如何分析存储过程中Sql语句(Oracle 9i\Windows)
- oracle pl/sql 通过存储过程返回数据表
- MySql的sql语句中添加存储过程或者存储函数来实现Oracle中的start with ……connect by prior……递归(树形结构数据)查询
- Oracle从入门到精通 - SQL简介&数据表分析
- PL/SQL】DELETE IN PROCEDURE Analysis & Example | oracle数据库: 用procedure删除数据的案例分析
- Oracle Class2. SQL查询和SQL函数(Oracle数据类型,ddl,dml,dcl,事务控制语言tcl,sql操作符,sql函数,select语句,运算符,分析函数,临时表)
- 【PL/SQL】 INSERT IN PROCEDURE Analysis & Example | oracle数据库: 用procedure插入数据的案例分析
- 【PL/SQL】 UPDATE IN PROCEDURE Analysis & Example | oracle数据库: 用procedure修改数据的案例分析
- Oracle SQL语句之操作符优化--优化技术分析
- Oracle PL/SQL导出数据为TXT
- ORACLE用PL/SQL提交数据后执行回滚的方法
- Oracle SQL数据操作和查询(二)
- 提升Oracle性能之SQL的优化详细分析
- oracle下数据的排序分组row_number() over()--分析函数,可用于去重
- oracle sql语句查询数据中断
- SparkSQL读取Oracle数据到kafka中
- 《卸甲笔记》-PostgreSQL和Oracle的SQL差异分析之五:函数的差异(五)
- 性能调优分析之:Oracle SQL执行计划报告生成器