Агент навчання з підкріпленням на основі SAC для автоматизованого тестування на проникнення
DOI:
https://doi.org/10.33216/1998-7927-2025-293-7-5-11Ключові слова:
навчання з підкріпленням, кібербезпека, NASim, SACАнотація
Загрози кібербезпеці та збитки від кіберзлочинності щороку продовжують зростати. За прогнозами, до кінця 2025 року загальні збитки досягнуть 10,5 трлн доларів, що в 3,5 рази перевищує збитки від кібербезпеки, зафіксовані в 2015 році. Зі зростанням використання штучного інтелекту зловмисниками зростає потреба в захисних інструментах, які також використовують можливості штучного інтелекту.
Ця стаття продовжує дослідницьку тенденцію застосування навчання з підкріпленням до тестування вразливостей безпеки в комп'ютерних мережах. Для досягнення цієї мети в якості тестового середовища використовується Network Attack Simulator (NASim). NASim – це симулятор, призначений для оцінки автоматизованого тестування на проникнення за допомогою підкріплювального навчання, побудований на базі фреймворку Gymnasium.
У цій статті представлено гібридний алгоритм підкріплювального навчання, який поєднує архітектуру Soft Actor-Critic (SAC) з дискретними просторами дій, що дозволяє алгоритму SAC ефективно працювати в середовищі.
Алгоритм тестувався за допомогою сценарію nasim:Small-v0. Експериментальні результати демонструють, що запропонований метод досягає декількох значних показників ефективності. По-перше, алгоритм демонструє стабільну конвергенцію протягом усього процесу навчання, що свідчить про надійну динаміку навчання. По-друге, метод демонструє виняткову ефективність у компрометації системи, вимагаючи в середньому лише 8,63 кроків під час пізніх етапів навчання для повної компрометації цільових систем. По-третє, алгоритм має ідеальний стовідсотковий рівень успішності під час фази оцінки, демонструючи надійність та стабільну продуктивність.
Крім того, алгоритм досягає середньої винагороди в розмірі 184,61 на пізніх етапах навчання, що свідчить про високу ефективність при потенційному застосуванні в галузі кібербезпеки. Однак ці результати вимагають тривалого навчання, а для більш складних сценаріїв може знадобитися ще більше часу. Це створює компроміс між обчислювальною ефективністю та якістю роботи, який необхідно враховувати при практичному впровадженні.
Посилання
Cybersecurity Ventures. Cyberwarfare 2021 Report. 2021. URL: https://cybersecurityventures.com/wp-content/uploads/2021/01/Cyberwarfare-2021-Report.pdf (дата звернення: 13.08.2025).
Qu, S., Du, W., Chen, C., Li, B., & Qiu, M. A survey on reinforcement learning applications in cybersecurity. arXiv preprint arXiv:1905.05965, 2019. URL: https://arxiv.org/abs/1905.05965 (дата звернення: 13.08.2025).
Becker, N., Reti, D., Ntagiou, E. V., Wallum, M., & Schotten, H. D. Evaluation of Reinforcement Learning for Autonomous Penetration Testing using A3C, Q-learning and DQN. arXiv, 2024. doi: 10.48550/arXiv.2407.15656.
Li, Z., Zhang, Q., & Yang, G. EPPTA: Efficient partially observable reinforcement learning agent for penetration testing applications. Engineering Reports, 2024. doi: 10.1002/eng2.12818.
Tran, K., Standen, M., Kim, J., Bowman, D., Richer, T., Akella, A., & Lin, C. T. Cascaded reinforcement learning agents for large action spaces in autonomous penetration testing. Applied Sciences, 2022, 12(21), 11265. doi: 10.3390/app122111265.
Janisch, J., Pevný, T., & Lisý, V. NASimEmu: Network attack simulator & emulator for training agents generalizing to novel scenarios. arXiv preprint arXiv:2305.17246, 2023. URL: https://arxiv.org/abs/2305.17246 (дата звернення: 13.08.2025).
Microsoft. CyberBattleSim: An experimentation research platform to investigate automated agents operating in simulated enterprise environments. 2021. URL: https://github.com/microsoft/ CyberBattleSim (дата звернення: 13.08.2025).
Wang, Y., Li, Y., Xiong, X., Zhang, J., Yao, Q., & Shen, C. DQfD-AIPT: An intelligent penetration testing framework incorporating expert demonstration data. Security and Communication Networks, 2023, 5834434. doi: 10.1155/2023/5834434.
Schwartz, J. Network Attack Simulator — small.yaml scenario. GitHub, 2023. URL: https://github.com/Jjschwartz/NetworkAttackSimulator/blob/4f26de37cfdc3e4553ed8b7484c4db8e2924bdea/nasim/scenarios/benchmark/small.yaml (дата звернення: 13.08.2025).
Li, Z., Zhang, Q., & Yang, G. EPPTA: Efficient partially observable reinforcement learning agent for penetration testing applications. Engineering Reports, 2025, 7(1): e12818. doi: 10.1002/eng2.12818.