Ввиду последних изменений в законодательстве, важным становится вопрос корректной работы с персональными данными. Более того, это особенно актуально, когда мы работаем с социальными данными, такими как выгрузки социальных медиа, где персональные данные могут появляться даже в отсутствии задачи их сбора. Это делает востребованной разработку решений для автоматического выявления и анонимизации персональных данных.
В Центре цифровой социологии и социогуманитарных технологий в здравоохранении создан прототип чистильщика персональных данных, который проходит по файлам и находит имена, телефоны, почты, адреса, паспортные данные и другую персональную информацию, а затем может как просто выделить их цветом, так и заменить на обезличенные. Поддерживаются Word, Excel и PDF, а для сканов в PDF предусмотрено распознавание текста, чтобы такие документы тоже не выпадали из проверки. В качестве результата программа выдает эти же файлы, но с помеченными или обезличенными персональными данными.
Внутри используется сочетание «умного» распознавания персональной информации (предобученная модель) и простых проверок по шаблонам, чтобы снизить число ошибок. На тестовых данных чистильщик показал следующие результаты: около 99% точности по найденным совпадениям, и около 89.5% полноты.
Работы над решением продолжаются в целях дальнейшего повышения полноты выдачи.
ФОТО: НИИОЗММ.