Обезличивание персональных данных и data masking

Роскомнадзор выпустил методические рекомендации по исполнению приказа №996 "Об утверждении требований и методов по обезличиванию персональных данных". Затем правда, документ с сайта удалили, но благодаря Алексею Лукацкому он сохранился здесь. Внесу и я свои 5 копеек в обсуждение обезличивания ПДн.

Согласно приказу РКН, под обезличиванием персональных данных понимаются действия, в результате которых становится невозможным без использования дополнительной информации определить принадлежность персональных данных конкретному субъекту персональных данных. Предлагается следующие методы обезличивания:

Метод введения идентификаторов. Часть данных заменяется на идентификаторы и создается справочник идентификаторов. Если данные "утекут", то не зная содержимого справочника идентификаторов невозможно соотнести их с конкретным лицом.
Метод изменения состава или семантики. Замена части данных результатами статической обработки, обобщенными значениями или удаление части сведений.
Метод декомпозиции - разделение массива данных на фрагменты с последующим раздельным хранениям.
Метод перемешивания - перестановка значений в массиве данных.

Дальше возникает вопрос, каким образом можно реализовывать предложенные РНК методы? Да еще и на большой базе данных?

Попробуем обратиться к зарубежному опыту. На западе необходимость обезличивания данных вытекает из ряда нормативных актов. Например, HIPAA: When using or disclosing protected health information or when requesting protected health information from another covered entity, a covered entity must make reasonable efforts to limit protected health information to the minimum necessary to accomplish the intended purpose of the use, disclosure, or request.

Для реализации данных требований часто применяются решения, описываемые термином «Data masking». Решения Data masking позволяют реализовать предложенные РНК методы декомпозиции и перемешивания, а также другие методы сокрытия информации в БД (включая шифрование).

Ряд вендоров, такие как IBM, Oracle, Informatica и др. предлагают специализированные решения Data masking. Вот свежий гартнеровский квадрат на решения data masking:

На рынке data masking решений можно выделить два основных сегмента:

Решения по статическому обезличиванию (static data masking);
Решения по динамическому обезличиванию (dynamic data masking);

Статическое обезличивание происходит до обработки данных. Фактически при таком подходе создается копия промышленной БД, которая обезличивается одним из выбранных методов и может использоваться для задач, связанных с анализом, разработкой и отладкой ПО. Например, "обезличенная" копия БД абонентов может использоваться программистами, для отладки работы системы биллинга. Подобные решения описываются также термином ETL, который кратко обозначает три стадии процесса обезличивания - Extract, Transform, Load.

Динамическое обезличивание срабатывает в момент обращения к БД и модифицирует ее ответы таким образом, что выдаются обезличенные данные. Динамическое маскирование часто предполагает наличие «прокси», развернутого перед БД, перехватывающего и обрабатывающего запросы. Решения по динамическому обезличиванию предназначены для защиты данных, хранящихся в промышленных БД. Объем предоставляемых данных может зависеть от уровня полномочий субъекта доступа.

Найдут ли решения data masking потребителей на российском рынке? Гос. органы вряд ли потянут специализированные вендорские решения. Им остается реализовывать самописные решения по обезличиванию (это еще при условии наличия квалифицированных кадров). Перспективы внедрения data masking у коммерческих операторов зависят от того, сколько можно будет сэкономить за счет снижения уровня защищенности ПДн. Надеюсь, у кого-нибудь руки доберутся до подобного расчета.

В заключение ссылка на неплохую статью про data masking.