Точные данные — значит качественные?


Оригинал: Is Data Quality the Same As Data Accuracy?
Автор: Рупа Маханти (Rupa Mahanti)

Мы живем в эпоху цифровых технологий, когда данные используются повсеместно, и это прямо или косвенно влияет на нашу жизнь даже когда мы об этом не думаем. Поэтому тема качества данных, являющегося предметом дисциплины управления данными, очень важна.

Качество данных можно определить как оценку пригодности данных для использования (то есть для выполнения определенной функции) в конкретном контексте. С задачей поддержания качества данных на высоком уровне сталкивается большинство компаний, но эта область окружена набором мифов, которые приводят к ошибочным решениям, связанным с управлением качеством данных. Эти мифы способны затормозить, затруднить или положить конец инициативам компании по управлению данными.

Один из таких мифов гласит: «качество данных — это их точность». Что качество данных является синонимом их точности или что качество данных зависит только от точности – очень распространенное заблуждение. Когда люди думают о высоком качестве данных, они склонны думать только об одном аспекте — их точности. Если компания находится под влиянием этого мифа, точность данных становится ее единственной целью.

Что такое точность данных

Точность — это то, насколько хорошо данные, хранящиеся в системе, отражают реальность, насколько правильно они описывают объект реального мира, сущность, ситуацию, явление или событие. Для определения точности данных необходимо, чтобы был определен и доступен авторитетный источник для сравнения. Если данные показывают, что Джон Смит живет в Австралии, но на самом деле он живет в Соединенных Штатах, то данные неточны. Однако без авторитетного источника информации, такого как счет за коммунальные услуги, содержащий адрес дома/офиса, невозможно установить, где на самом деле проживает Джон Смит.

Данные должны не только отражать реальность, но также быть полными, действительными и единообразными. В первую очередь точность означает полноту данных, то есть должны быть известны все атрибуты.

Чтобы данные были действительными, они должны соответствовать какому-то стандарту. Например, в соответствии со справочником кодов стран ISO, AU является допустимым кодом страны, а AAA — нет. Данные могут быть действительными, но не точными. Например, если в почтовом адресе человека в качестве кода страны записано AU, а фактически он проживает в США, то данные являются действительными (поскольку AU является действительным кодом), но не проходят проверку на точность.

Единообразие означает, что одни и те же данные отображаются одинаково в разных наборах данных. Например, если в одном наборе данных указано имя «Джон Смит», а в другом значится имя этого же человека «Джон Смитт», то данные противоречивы и по крайней мере один из наборов неточен.

Точность данных означает выполнение всех вышеперечисленных требований.

Что такое качество данных

Хотя точность данных является важной характеристикой, которую нельзя упускать из виду, качество данных характеризует не одна лишь точность. Оно включает несколько аспектов или измерений, включая полноту, уникальность, детализацию, погрешность, единообразие, доступность, безопасность, прослеживаемость, соответствие/достоверность, своевременность, целостность, актуальность, волатильность и т.д.

Например, если данные являются точными, но не доставлены вовремя для целей отчетности, их качество не будет высоким, поскольку намеченная цель не достигнута. Данные также могут быть точными, но недостаточно детализированными с точки зрения потребностей бизнеса. Если данные точны, но недоступны заинтересованным лицам, они также не приносят большой пользы и, следовательно, их качество низкое.

Бесспорно, данные обычно считаются некачественными, если в них содержатся ошибочные значения, но качество данных подразумевает баланс между всеми аспектами. В зависимости от контекста, ситуации, типа данных (мастер-данные, транзакционные, справочные), потребностей бизнеса, отрасли необходимо использовать различные комбинации измерений качества данных.

Больше о качестве данных и сопутствующих мифах, о проблемах, критических факторах успеха, стратегии, измерении различных аспектов качества данных, внедрении методологии управления качеством данных — в моей книге «Data Quality: Dimensions, Measurement, Strategy, Management and Governance (Quality Press, 2019)». Данная статья в значительной степени опирается на представленные в ней исследования.

Обсудить