数据标准化:定义、测试和转换
尽管组织转向在整个企业中建立数据文化,但许多组织仍在努力让他们的数据正确无误。 从不同的来源提取数据并获得应该是相同信息的不同格式和表示形式 - 会在您的数据旅程中造成严重障碍。
团队在执行日常操作或从数据集中提取见解时会遇到延迟和错误。 此类问题迫使企业引入数据标准化机制——以确保数据在整个组织中以一致且统一的视图呈现。
让我们更深入地了解数据标准化过程:它的含义、它需要的步骤以及如何在企业中实现标准数据视图。
什么是数据标准化?
简而言之,数据标准化是将数据值从不正确的格式转换为正确格式的过程。 为了在整个组织中实现标准化、统一和一致的数据视图,数据值必须符合所需的标准——在它们所属的数据字段的上下文中。
数据标准化错误示例
例如,居住在两个不同地点的同一客户的记录不应包含姓名、电子邮件地址、电话号码和居住地址的差异:
名字 | 电子邮件 | 电话号码 | 出生日期 | 性别 | 住宅地址 |
---|---|---|---|---|---|
约翰·奥尼尔 | john.neal@gmail.com | 5164659494 | 14/2/1987 | M | 11400 W 奥林匹克 BL # 200 |
名 | 姓 | 电子邮件 | 电话号码 | 出生日期 | 性别 | 住宅地址 |
---|---|---|---|---|---|---|
John | 奥尼尔 | john.neal_gmail.com | +1 516-465-9494 | 2/14/1987 | 男性 | 11400 W 奥林匹克 200 |
在上面的示例中,您可以看到以下类型的不一致:
- 结构: 第一个源将客户名称作为单个字段,而第二个源将其存储为两个字段——名字和姓氏。
- 模式: 第一个来源有 有效的电子邮件模式 在电子邮件地址字段上强制执行,而第二个明显缺少 @ 符号。
- 数据类型: 第一个来源只允许电话号码字段中的数字,而第二个来源有一个字符串类型字段,其中也包含符号和空格。
- 格式: 第一个来源的出生日期格式为 MM/DD/YYYY,而第二个来源的出生日期格式为 DD/MM/YYYY。
- 域名价值: 第一个来源允许将 Gender 值存储为 M 或 F,而第二个来源存储完整的表格 - 男性或女性。
此类数据不一致会导致您犯严重错误,从而导致您的业务损失大量时间、成本和精力。 为此,实施端到端机制 数据标准化 对于保持数据卫生至关重要。
如何标准化数据?
数据标准化是一个简单的四步过程。 但是,根据数据中存在的不一致性的性质以及您要达到的目标,用于标准化的方法和技术可能会有所不同。 在这里,我们提出了一个通用的经验法则,任何组织都可以使用它来克服其标准化错误。
- 定义标准是什么
要达到任何状态,您必须首先定义该状态实际上是什么。 任何数据标准化过程的第一步都是确定需要实现的目标。 了解您需要什么的最好方法是了解业务需求。 您需要扫描业务流程以查看需要哪些数据以及采用哪种格式。 这将帮助您为数据需求设置基线。
数据标准定义有助于识别:
- 对您的业务流程至关重要的数据资产,
- 这些资产的必要数据字段,
- 它们的值必须符合的数据类型、格式和模式,
- 这些字段的可接受值的范围,等等。
- 根据定义的标准测试数据集
一旦你有了一个标准定义,下一步就是测试你的数据集对它们的执行情况。 评估这一点的一种方法是使用 资料分析 生成综合报告并查找符合数据字段要求的值百分比等信息的工具,例如:
- 转换不一致的值
现在终于到了转换不符合定义标准的值的时候了。 让我们看一下常用的数据转换技术。
- 数据解析 – 必须首先解析某些数据字段才能获得必要的数据组件。 例如,解析名称字段以分隔名字、中间名和姓氏,以及值中存在的任何前缀或后缀。
- 数据类型和格式转换 – 您可能需要在转换过程中删除不符合要求的字符,例如,从纯数字电话号码中删除符号和字母。
- 模式匹配和验证 – 模式转换是通过为模式配置正则表达式来完成的。 对于符合正则表达式的电子邮件地址值,必须对其进行解析并转换为定义的模式。 可以使用正则表达式验证电子邮件地址:
^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
- 缩写扩展 – 公司名称、地址和人名通常包含缩写形式,可以使您的数据集包含相同信息的不同表示形式。 例如,您可能需要扩展国家/地区,例如将 NY 转换为 New York。
- 去噪和拼写更正 – 某些词并没有真正为值添加任何含义,而是在数据集中引入了大量噪音。 可以通过对包含这些单词的字典运行数据集、标记它们并决定永久删除哪些值,可以在数据集中识别这些值。 可以执行相同的过程来查找拼写错误和输入错误。
- 根据定义的标准重新测试数据集
在最后一步中,根据定义的标准重新测试转换后的数据集,以找出已修复的数据标准化错误的百分比。 对于仍保留在数据集中的错误,您可以调整或重新配置您的方法并再次通过该过程运行数据。
包起来
今天生成的数据量——以及用于捕获这些数据的各种工具和技术——正导致公司面临可怕的数据混乱。 他们拥有所需的一切,但不太确定为什么数据没有以可接受和可用的形状和形式出现。 采用数据标准化工具可以帮助纠正这种不一致,并在整个组织中实现急需的数据文化。