Ввиду последних изменений в законодательстве, важным становится вопрос корректной работы с персональными данными. Более того, это особенно актуально, когда мы работаем с социальными данными, такими как выгрузки социальных медиа, где персональные данные могут появляться даже в отсутствии задачи их сбора. Это делает востребованной разработку решений для автоматического выявления и анонимизации персональных данных.

В Центре цифровой социологии и социогуманитарных технологий в здравоохранении создан прототип чистильщика персональных данных, который проходит по файлам и находит имена, телефоны, почты, адреса, паспортные данные и другую персональную информацию, а затем может как просто выделить их цветом, так и заменить на обезличенные. Поддерживаются Word, Excel и PDF, а для сканов в PDF предусмотрено распознавание текста, чтобы такие документы тоже не выпадали из проверки. В качестве результата программа выдает эти же файлы, но с помеченными или обезличенными персональными данными.

Внутри используется сочетание «умного» распознавания персональной информации (предобученная модель) и простых проверок по шаблонам, чтобы снизить число ошибок. На тестовых данных чистильщик показал следующие результаты: около 99% точности по найденным совпадениям, и около 89.5% полноты.

Работы над решением продолжаются в целях дальнейшего повышения полноты выдачи.

ФОТО: НИИОЗММ.

На сайте осуществляется обработка файлов cookie, необходимых для работы сайта, а также для анализа использования сайта и улучшения предоставляемых сервисов с использованием метрической программы Яндекс.Метрика. Продолжая использовать сайт, вы даете согласие с использованием данных технологий

Подробнее