Preview

Электронные библиотеки

Расширенный поиск

Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности

https://doi.org/10.26907/1562-5419-2024-27-2-187–200

Аннотация


В настоящее время в машинном обучении высокую актуальность имеют синтетические данные. Современные алгоритмы генерации синтетических данных дают возможность генерации данных, очень близких по статистическим свойствам к исходным данным. Синтетические данные используются на практике в широком спектре задач, в том числе связанных с аугментацией данных.


Предложен метод аугментации данных, совмещающий подходы увеличения объема выборки с помощью синтетических данных и генерации синтетических аномалий. Метод использован для решения задачи в сфере информационной безопасности, заключающейся в поиске аномалий в журналах сервера с целью обнаружения атак.


Модель, обученная в рамках решения названной задачи, показала высокие результаты. Это демонстрирует эффективность использования синтетических данных для увеличения объема выборки и генерации аномалий, а также возможность с высокой результативностью использовать эти подходы совместно.

Об авторе

Артем Игоревич Гурьянов
Национальный исследовательский центр «Курчатовский институт»
Россия


Список литературы

1. Synthetic Data Generation Market by End-user, Type, and Geography – Analysis and Forecast // Technavio. 2023. URL: https://www.technavio.com/report/synthetic-data-generation-market-analysis (дата обращения 04.02.2024)

2. Assefa S., Dervovic D., Mahfouz M., Balch T., Reddy P., Veloso M. Generating Synthetic Data in Finance: Opportunities, Challenges and Pitfalls // Proceedings of the First ACM International Conference on AI in Finance. 2020. https://doi.org/10.1145/3383455.3422554

3. James S., Harbron C., Branson J., Sundler M. Synthetic data use: exploring use cases to optimise data utility // Discover Artificial Intelligence. 2021. V. 1. https://doi.org/10.1007/s44163-021-00016-y

4. Jordon J., Szpruch L. et al. Synthetic Data – what, why and how? // ArXiv. 2022. https://doi.org/10.48550/arXiv.2205.03257

5. Хафизов А.В., Григорьев М.В. Генерирование синтетических пористых изображений для аугментации данных с целью тренировки алгоритмов машинного обучения // Сенсорные системы. 2021. Т. 35, № 4. С. 340–347. https://doi.org/10.31857/S023500922104003X

6. Heine J., Fowler E.E.E., Berglund A., Schell M.J., Eschrich S. Techniques to produce and evaluate realistic multivariate synthetic data // Scientific Reports. 2023. V. 13. https://doi.org/10.1038/s41598-023-38832-0

7. Vicente C., Muzo D., Jiménez I., Fabelo H., Gram I.T., Løchen M., Granja C., Ruiz C. Evaluation of Synthetic Categorical Data Generation Techniques for Predicting Cardiovascular Diseases and Post-Hoc Interpretability of the Risk Factors // Applied Sciences. 2023. Vol. 13(7). https://doi.org/10.3390/app13074119

8. Wang Z., Wang H. Global Data Distribution Weighted Synthetic Oversampling Technique for Imbalanced Learning // IEEE Access. 2021. V. 9. P. 44770–44783. https://doi.org/10.1109/ACCESS.2021.3067060

9. Astrid M., Zaheer M., Lee S. Synthetic Temporal Anomaly Guided End-to-End Video Anomaly Detection // 2021 IEEE/CVF International Conference on Computer Vision Workshops (ICCVW). 2021. P. 207–214. https://doi.org/10.1109/ICCVW54120.2021.00028

10. Luo M., Wang K., Cai Z., Liu A., Li Y., Cheang C.F. Using Imbalanced Triangle Synthetic Data for Machine Learning Anomaly Detection // Computers, Materials & Continua. 2019. V. 58(1). P. 15–26. https://doi.org/10.32604/cmc.2019.03708

11. Salem M., Taheri S., Yuan J.S. Anomaly Generation Using Generative Adversarial Networks in Host-Based Intrusion Detection // 9th IEEE Annual Ubiquitous Computing, Electronics & Mobile Communication Conference. 2018. P. 683–687. https://doi.org/10.1109/UEMCON.2018.8796769

12. Smolyakov D., Sviridenko N., Ishimtsev V., Burikov E., Burnaev E. Learning Ensembles of Anomaly Detectors on Synthetic Data // International Symposium on Neural Networks. 2019. https://doi.org/10.1007/978-3-030-22808-8_30

13. Емельянов С.О., Иванова А.А., Швец Е.А., Николаев Д.П. Методы аугментации обучающих выборок в задачах классификации изображений // Сенсорные системы. 2018. Т. 32, № 3. С. 236–245.

14. https://doi.org/10.1134/S0235009218030058

15. Ping H., Stoyanovich J., Howe B. DataSynthesizer: Privacy-Preserving Synthetic Datasets // Proceedings of the 29th International Conference on Scientific and Statistical Database Management. 2017. P. 1–5. https://doi.org/10.1145/3085504.3091117

16. DataResponsibly / DataSynthesizer // GitHub. URL: https://github.com/DataResponsibly/DataSynthesizer (дата обращения 12.01.2024)

17. Han S., Hu X., Huang H., Jiang M., Zhao Y. ADBench: Anomaly Detection Benchmark // Neural Information Processing Systems (NeurIPS). 2022.

18. Minqi824 / ADBench // GitHub. URL: https://github.com/Minqi824/ADBench (дата обращения 23.01.2024)

19. Liu F.T., Ting K.M., Zhou Z. Isolation Forest // Eighth IEEE International Conference on Data Mining. 2008. P. 413–422. https://doi.org/10.1109/ICDM.2008.17

20. Snoek J., Larochelle H., Adams R.P. Practical Bayesian Optimization of Machine Learning Algorithms // Advances in Neural Information Processing Systems 25. 2012.

21. Yang L., Shami A. On hyperparameter optimization of machine learning algorithms: Theory and practice // Neurocomputing. 2020. V. 415. P. 295–316. https://doi.org/10.1016/j.neucom.2020.07.061


Рецензия

Для цитирования:


Гурьянов А.И. Применение синтетических данных в задаче обнаружения аномалий в сфере информационной безопасности. Электронные библиотеки. 2024;27(2):187–200. https://doi.org/10.26907/1562-5419-2024-27-2-187–200

For citation:


Gurianov A.I. Application of Synthetic Data to the Problem of Anomaly Detection in the Field of Information Security. Russian Digital Libraries Journal. 2024;27(2):187–200. (In Russ.) https://doi.org/10.26907/1562-5419-2024-27-2-187–200

Просмотров: 30


Creative Commons License
Контент доступен под лицензией Creative Commons Attribution 4.0 License.


ISSN 1562-5419 (Online)