Cargando
Preparando la información solicitada…
Cargando
Preparando la información solicitada…

"AI的质量取决于输入数据的质量。没有可验证的溯源,就不可能进行审计。"Fernando Arrieta — 数据治理审计师
组织投资于模型、基础设施和人才——但没有投资于支撑这一切的数据质量。结果:看似精确的AI建立在无人验证的数据之上。
未检测到的偏差。 训练数据无法代表模型运行的人群。结果看起来客观但从源头就存在偏差。
不存在的溯源。 没有人知道数据来自哪里、如何转换或谁验证了其质量。没有溯源就无法审计或重现。
分散的所有权。 没有人负责数据质量。没有数据管理员、没有服务级别协议、没有覆盖率或新鲜度指标。
每个数据质量计划必须用证据衡量的六个维度。
数据正确反映其所代表的现实。通过真实来源验证,测量错误率。
所有必要字段都存在。评估空值百分比、类别覆盖率和时间代表性。
相同数据在不同来源和系统中产生相同结果。验证数据库和转换过程之间的对账。
每个数据点都可以从其来源追溯到模型中的使用:来源、转换、验证和版本。
数据反映世界的当前状态。评估新鲜度、更新频率和时间滞后。
数据充分代表模型将运行的人群和环境。选择偏差和代表性不足的检测。
数据集清单。 AI系统涉及的所有数据集目录:来源、格式、频率、数量、所有者。
溯源图。 每个数据集的可视化追溯:来源 → 转换 → 目标(模型)。包括验证点和版本。
质量仪表板。 每个数据集每个质量维度的客观测量:准确性、完整性、一致性、新鲜度、代表性。
偏差分析。 训练数据中的代表性评估和偏差检测,以及对模型结果的文档化影响。
改进路线图。 优先级纠正行动计划、所有权分配和数据质量服务级别协议的定义。
指能够证明用于训练、验证和运营AI系统的数据满足可验证的准确性、完整性、时效性、一致性和代表性标准的能力。没有可审计的数据质量,AI结果就不可信。
ISO/IEC 42001要求组织将数据作为AI系统资源进行管理。这包括收集、准备、标注、存储和生命周期。数据质量是贯穿整个标准的隐含要求。
指从数据来源到其在AI模型中使用的完整可追溯性:来自哪里、如何转换、谁验证、使用了什么版本以及何时。没有溯源就没有重现性或可能的审计。
使用客观指标:空字段百分比、跨源一致性、数据新鲜度、人群代表性、偏差存在和时间覆盖率。而非主观意见。
用有偏差的数据训练的AI模型会产生有偏差的结果——但带有算法客观性的外观。数据质量审计将偏差和代表性分析作为强制控制。