地址标准化 101:好处、方法和提示

地址标准化 101:好处、方法和提示

您最后一次发现列表中的所有地址都遵循相同的格式并且没有错误是什么时候? 从来没有,对吧?

尽管您的公司可能会采取所有措施来最大程度地减少数据错误,但由于手动数据输入,解决数据质量问题(例如拼写错误、缺少字段或前导空格)是不可避免的。 事实上,Raymond R. Panko 教授在他的 发表论文 强调电子表格数据错误,尤其是小型数据集的错误可能在 18% 到 40% 之间。  

为了解决这个问题,地址标准化可能是一个很好的解决方案。 这篇文章重点介绍了公司如何从标准化数据中受益,以及他们应该考虑哪些方法和技巧来实现预期结果。

什么是地址标准化?

地址标准化或地址规范化是根据权威数据库(如 美国邮政服务 (USPS)。

大多数地址不遵循 USPS 标准,该标准将标准化地址定义为完全拼写、使用 Postal Service 标准缩写的缩写,或者如当前 Postal Service ZIP+4 文件中所示。

邮政地址标准

由于缺少地址详细信息(例如 ZIP+4 和 ZIP+6 代码)或标点符号、大小写、间距和拼写错误,地址条目的格式不一致或不同的公司迫切需要标准化地址。 下面给出了一个例子:

标准化邮寄地址

从表中可以看出,所有地址详细信息都有一个或多个错误,并且没有一个符合 USPS 要求。

地址标准化 不应与地址匹配和地址验证相混淆。 虽然有类似的情况,但地址验证是关于验证地址记录是否符合 USPS 数据库中的现有地址记录。 另一方面,地址匹配是关于匹配两个相似的地址数据以确定它是否引用相同的实体。

标准化地址的好处

除了清理数据异常的明显原因外,标准化地址还可以为公司带来一系列好处。 这些包括:

  • 节省验证地址的时间: 没有标准化的地址,除非邮件被退回或没有得到回复,否则无法怀疑用于直邮活动的地址列表是否准确。 通过标准化不同的地址,员工可以通过筛选数百个邮寄地址以确保准确性,从而节省大量工时。
  • 降低邮寄成本: 直邮活动可能导致错误或不正确的地址,从而在直邮活动中产生计费和运输问题。 标准化地址以提高数据一致性可以减少退回或未送达的邮件,从而提高直邮回复率。
  • 消除重复地址: 不同的格式和错误的地址可能会导致向联系人发送两倍的电子邮件,从而降低客户满意度和品牌形象。 清理您的地址列表可以帮助您的公司节省浪费的交付成本。

如何标准化地址?

任何地址规范化活动都应符合 USPS 指南,才有价值。 使用表 1 中突出显示的数据,以下是地址数据在标准化后的显示方式。

地址标准化前后

标准化地址涉及 4 个步骤。 这包括:

  1. 进口地址: 将来自多个数据源(例如 Excel 电子表格、SQL 数据库等)的所有地址收集到一张表中。
  2. 分析数据以检查错误: 执行数据分析,以了解地址列表中存在的错误的范围和类型。 这样做可以让您大致了解在执行任何标准化之前需要修复的潜在问题区域。  
  3. 清除错误以符合 USPS 指南: 一旦检测到所有错误,您就可以根据 USPS 指南清理地址并对其进行标准化。
  4. 识别并删除重复地址: 要识别任何重复的地址,您可以在电子表格或数据库中搜索重复计数或使用精确或 模糊匹配 对条目进行重复数据删除。

标准化地址的方法

有两种不同的方法来规范列表中的地址。 这些包括:

手动脚本和工具

用户可以通过各种手动查找运行脚本和加载项来规范化库中的地址

  1. 编程语言: Python、JavaScript 或 R 可以让您运行模糊地址匹配以识别不精确的地址匹配并应用自定义标准化规则以适合您自己的地址数据。
  2. 编码存储库: GitHub 提供代码模板和 USPS API 可用于验证和规范化地址的集成。  
  3. 应用程序编程接口: 可以通过以下方式集成的第三方服务 用于解析、标准化和验证邮寄地址的 API.
  4. 基于 Excel 的工具: YAddress、AddressDoctor Excel Plugin 或 excel VBA Master 等插件和解决方案可以帮助您解析和标准化数据集中的地址。

沿着这条路线走的几个好处是它价格便宜,并且可以快速标准化小型数据集的数据。 但是,使用此类脚本可能会超出几千条记录,因此不适合非常大的数据集或分布在不同来源的数据集。

地址验证软件

现成的地址验证和规范化软件也可用于规范化数据。 通常,此类工具带有特定的地址验证组件 - 例如集成的 USPS 数据库 - 并具有开箱即用的数据分析和清理组件以及模糊匹配算法,以大规模标准化地址。

软件也很重要 CASS 认证 来自 USPS 并在以下方面满足所需的准确度阈值:

  • 5 位编码 – 应用缺失或不正确的 5 位邮政编码。
  • ZIP+4 编码 – 应用丢失或不正确的 4 位代码。
  • 住宅交付指标 (RDI) – 确定地址是住宅地址还是商业地址。
  • 交货点验证 (PDS) – 确定地址是否可交付到套房或公寓号码。
  • 增强的旅行线路(eLOT) – 一个序列号,表示在承运人路线内向附加范围交付的第一次出现,升序/降序代码表示序列号内的大致交付顺序。 
  • 可定位地址转换系统链接 (LACS 链接) – 一种自动获取已实施 911 紧急系统的地方市政当局新地址的方法。
  • 套件链接® 使客户能够提供 改进的业务寻址信息 通过将已知的辅助(套件)信息添加到业务地址,这将允许 USPS 交付排序,否则这是不可能的。
  • 还有更多...

主要优点是它可以轻松验证和标准化存储在不同系统中的地址数据,包括 CRM、RDBM 和基于 Hadoop 的存储库和地理编码数据以产生经度和纬度值。

至于限制,此类工具的成本可能远高于手动地址规范化方法。

哪种方法更好?

选择正确的方法来增强您的地址列表完全取决于您的地址记录量、技术堆栈和项目时间表。

如果您的地址列表少于五千条记录,则通过 Python 或 JavaScript 对其进行标准化可能是更好的选择。 但是,如果迫切需要及时使用在多个来源中传播的数据实现地址的单一真实来源,那么经过 CASS 认证的地址标准化软件可能是更好的选择。