ETL

ETL反模式:忽略日志记录

在我的上一篇ETL反模式文章中,我写了关于记录ETL流程的令人兴奋但非常必要的工作。 ETL操作的日志记录与文档一样令人着迷,但在支持数据移动和转换过程中同样重要。在这篇文章中,我’将讨论ETL流程管理中的常见错误:忽略日志。什么…


ETL反模式:跳过文档

文档是既讨厌又被爱的资产。创建技术和业务文档通常被认为是繁琐的工作,对于每个项目来说确实应该做些事情,但通常很容易将其推迟到以后(或完全跳过)。另一方面,好的文档–特别是围绕数据移动和ETL流程…


ETL反模式:装载过程’t Scale

ETL流程开发中最重要的设计考虑因素之一是要处理的数据量。大多数ETL流程都有时间限制,要求它们在给定的窗口内完成加载操作,并且处理数据所需的时间通常会决定负载的设计。我最常犯的错误之一’ve seen…


ETL反模式:测试和验证失败

“如果编译成功。” –失业的开发人员构建ETL流程非常容易。建立ETL流程以尽可能快地提供准确的结果要困难得多。现代ETL工具(包括我个人最喜欢的SQL Server集成服务)使创建简单的加载过程异常容易。那’这是一件好事,因为易于理解的前端缩短了…


ETL反模式:未能将ETL逻辑视为源代码

在大多数数据项目中,构建提取-转换-加载(ETL)逻辑会花费大量时间。企业ETL流程必须做得很好:检索足够的数据以满足业务需求,对数据进行任何所需的转换,然后将其加载到目标,而不会中断任何其他业务流程。建立和验证的工作…


ETL反模式:惰性元数据

如果数据是火车,那么元数据就是它旅行的轨迹。 ETL流程中良好的元数据定义将有助于确保数据流是可预测的,健壮的,并且经过适当约束以避免错误。但是,在涉及元数据时,许多ETL流程都采用了放手的方法。在某些情况下,这种自由放任的设计…


ETL反模式:执行全负载而不是增量负载

在我的ETL Antipatterns系列的最后一篇文章中,我写了关于摄取或加载不必要数据的常见反模式的信息。这篇简短的文章介绍了一种特定的情况,即通过执行完整的数据加载而不是使用较小的增量加载来加载超出必要数量的数据。 ETL反模式:执行全负载而不是增量负载…


ETL反模式:从编写代码开始

在我有关ETL反模式的系列的第一篇文章中,我’我将讨论构建提取-转换-加载(ETL)流程时最常见的错误步骤:第一步是直接编写代码。 ETL反模式:从编写代码开始大多数数据架构师和开发人员都是非常好奇的人。当我们看到一组数据时,我们想…


2020年庆祝十一日

We’重新将角移到12月下半月,这意味着’现在是我最喜欢的假期:Festivus!像你们中的许多人一样,我喜欢在Festivus杆子周围聚会,并分享悠久的传统,例如“壮举壮举”和“抱怨之风”。但是我最喜欢的Festivus传统就发生在此博客上:十一…


什么,为什么,何时以及如何增加负载

在提取,转换和加载(ETL)流程中移动数据时,最有效的设计模式是仅触摸所需的数据,仅复制自上次加载以来新添加或修改的数据。这种增量负载模式通常带来的风险最小,运行时间更少,并且可以…