Hi, I’m Oubo Ma, a PhD student at Zhejiang University in the NESA Lab, advised by Prof. Shouling Ji. My research focuses on the security of reinforcement learning (RL), including adversarial policies and backdoor attacks. Recently, I have also been exploring security issues in large language models, such as jailbreaking and prompt injection.

📝 Conference Publications

TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models. Yang Dai, Oubo Ma, Longfei Zhang, Xingxing Liang, Xiaochun Cao, Shouling Ji, Jiaheng Zhang, Jincai Huang, Li Shen. ICLR 2026.
PRSA: Prompt Stealing Attacks against Real-World Prompt Services. Yong Yang, Changjiang Li, Qingming Li, Oubo Ma, Haoyu Wang, Zonghui Wang, Yandong Gao, Wenzhi Chen, and Shouling Ji. USENIX Security 2025.
SUB-PLAY: Adversarial Policies against Partially Observed Multi-Agent Reinforcement Learning Systems. Oubo Ma, Yuwen Pu, Linkang Du, Yang Dai, Ruo Wang, Xiaolei Liu, Yingcai Wu, Shouling Ji. CCS 2024.
Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning? Yang Dai, Oubo Ma, Longfei Zhang, Xingxing Liang, Shengchao Hu, Mengzhu Wang, Shouling Ji, Jincai Huang, Li Shen. NeurIPS 2024.
Text Laundering: Mitigating Malicious Features Through Knowledge Distillation of Large Foundation Models. Yi Jiang, Chenghui Shi, Oubo Ma, Youliang Tian, Shouling Ji. Inscrypt 2023. Best Student Paper Award.

📝 Journal Publications

Reformulation is All You Need: Addressing Malicious Text Features in DNNs. Yi Jiang, Oubo Ma, Yong Yang, Tong Zhang, Shouling Ji. Machine Intelligence Research, 2025.
ABM-V: An Adaptive Backoff Mechanism for Mitigating Broadcast Storm in VANETs. Oubo Ma, Xuejiao Liu, Yingjie Xia. IEEE Transactions on Vehicular Technology, 2023.
RLID-V: Reinforcement Learning-Based Information Dissemination Policy Generation in VANETs. Yingjie Xia, Xuejiao Liu, Jing Ou, Oubo Ma. IEEE Transactions on Intelligent Transportation Systems, 2023.
HDRS: A Hybrid Reputation System with Dynamic Update interval for Detecting Malicious Vehicles in VANETs. Xuejiao Liu, Oubo Ma, Wei Chen, Yingjie Xia, Yuxuan Zhou. IEEE Transactions on Intelligent Transportation Systems, 2022.

📝 arXiv

UNIDOOR: A Universal Framework for Action-Level Backdoor Attacks in Deep Reinforcement Learning. Oubo Ma, Linkang Du, Yang Dai, Chunyi Zhou, Qingming Li, Yuwen Pu, Shouling Ji. arXiv 2025.
TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning. Mingxuan Zhang, Oubo Ma, Kang Wei, Songze Li, Shouling Ji. arXiv 2025.

📖 Educations

2022.09 - Present, PH.D., Zhejiang University.
2019.09 - 2022.06, M.E., Hangzhou Normal University.
2015.09 - 2019.06, B.E., Wenzhou University.