应用程序的源数据将来自各种平台,由各种操作系统和应用程序管理。ETL 过程的目的是将来自这些异构平台的数据合并为 BI 决策支持环境中 BI 目标数据库的标准格式。构建此环境时,至关重要的是仅对所有 BI 目标数据库执行一次通用数据转换,并将这些数据转换协调回操作源文件和源数据库。它关系到各个BI目标数据库中数据的有效性,关系到各个BI目标数据库之间数据的一致性。ETL 流程从准备重新格式化、

在设计 ETL 流程之前必须制定用于数

转换和协调的详细 ETL 转换规范,因为它们将决定流程。记录 ETL 转换规范的常见方法是在源到目标映射文档中,该文档可以是矩阵或电子表格。

  源到目标映射文档应列出所有 BI 表和列及其数据类型和长度。它应该将适用的源数据元素及其数据类型和长度映射到列,并且应该显示从中提取源数据  购买电话号码列表  元素的源文件和源数据库。该文档应指定每列的转换逻辑。然后,该文档可用于为 ETL 开发人员创建实际的编程规范或为 ETL 工具创建指令(技术元数据)。

9.2 测试ETL工具功能

使用 ETL 工具时,转换规范会转换为 ETL 工具的指令。然后,这些指令可以作为技术元数据存储在元数据存储库中。

使用该工具可以更轻松地扩展 ETL 流程和运行回归测试,因为人为干预较少,因此引入在设计ETL流程之前以及决定如何设置暂存区之前,测试ETL工具功  CZB目录  能非常重要。例如,如果 90% 的源数据位于大型机上的平面文件中,那么安装当前流行的 ETL 工具(该工具无法读取大型机上的平面文件)将毫无价值。

因此,测试ETL工具功能并确定是否必须编写补充代码来执行该工具无法处理的一些复杂且冗长的转换。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注