Academic Journal

Разработка и верификация методов приватности и анонимизации данных при обучении и эксплуатации генеративных моделей в корпоративных IT-продуктах

Bibliographic Details
Title: Разработка и верификация методов приватности и анонимизации данных при обучении и эксплуатации генеративных моделей в корпоративных IT-продуктах
Publisher Information: APNI, 2024.
Publication Year: 2024
Subject Terms: приватность данных, верификация данных, генеративные модели, корпоративные IT-продукты, дифференциальная приватность, синтетические данные, большие языковые модели (LLM), анонимизация, утечка данных, машинное обучение
Description: В рамках статьи рассматриваются актуальные вызовы защиты информации при интеграции генеративных алгоритмов, в частности крупных языковых моделей, в корпоративные программные решения. Целью исследования выступает обобщение и детальный разбор методологических приёмов проектирования и верификации процедур обезличивания, применяемых при синтезе тренировочных наборов данных для обучения моделей. В методологическую основу заложен сравнительный анализ современных подходов к генерации искусственных данных, таких как генеративно-состязательные архитектуры с обеспечением дифференциальной приватности (DP-GAN), а также оценочных методик их надёжности: атак на вывод принадлежности и критериального измерения статистической полезности. На основании проведённого анализа предложен фреймворк верификации, учитывающий одновременно метрики качества синтетических образцов, уровень приватности и сохранность структурных взаимоотношений внутри реляционных данных. Данный инструмент позволяет не только моделировать распределения, адекватно отражающие сложные реалии исходных данных, но и маркировать сгенерированные записи в тестовых сценариях, минимизируя вероятность ложноположительных срабатываний систем контроля. Итоги исследования демонстрируют, что предложенный комплексный подход обеспечивает оптимальный компромисс между точностью воспроизведения статистических характеристик и строгими гарантиями конфиденциальности. Сведения, отраженные в рамках статьи, будут интересны специалистам в области информационной безопасности, Data Science и руководителям IT-структур при внедрении решений на базе искусственного интеллекта.
This article discusses current challenges in information security when integrating generative algorithms, in particular large language models, into corporate software solutions. The aim of the study is to generalize and provide a detailed analysis of methodological techniques for designing and verifying depersonalization procedures used in synthesizing training data sets for training models. The methodological basis is a comparative analysis of modern approaches to generating artificial data, such as differential privacy-enabled generative adversarial architectures (DP-GAN), as well as methods for assessing their reliability: membership inference attacks and criterial measurement of statistical utility. Based on the analysis, a verification framework is proposed that simultaneously takes into account the quality metrics of synthetic samples, the level of privacy, and the safety of structural relationships within relational data. This tool allows not only to model distributions that adequately reflect the complex realities of the source data, but also to mark the generated records in test scenarios, minimizing the probability of false positives of control systems. The results of the study demonstrate that the proposed integrated approach provides an optimal compromise between the accuracy of reproduction of statistical characteristics and strict guarantees of confidentiality. The information reflected in the article will be of interest to specialists in the field of information security, Data Science and IT managers when implementing solutions based on artificial intelligence.
Document Type: Article
Language: Russian
DOI: 10.5281/zenodo.16711541
Rights: CC BY
Accession Number: edsair.doi...........72317337526b9bf69ebb3efb1dfdeaf6
Database: OpenAIRE
Description
DOI:10.5281/zenodo.16711541