Новейший инструмент в борьбе за предотвращение опасного, дискриминационного и токсичного поведения агента искусственного интеллекта (ИИ) - это другой ИИ, который сам является опасным, дискриминационным и токсичным, утверждают ученые.
Новый подход к обучению, основанный на машинном обучении, называется Curiosity-driven Red Teaming (CRT) и основан на использовании ИИ для генерирования все более опасных и вредных подсказок, которые можно задать ИИ-чатботу. Эти подсказки затем используются для определения того, как отфильтровать опасный контент.
Это открытие представляет собой возможный новый способ обучения ИИ не давать токсичных ответов на запросы пользователей, заявили ученые в новой работе, опубликованной на сервере препринтов arXiv.
При обучении сложных языковых моделей (LLM), таких как ChatGPT или Claude 3 Opus, для ограничения опасного или вредоносного контента команды операторов-людей обычно задают множество вопросов, которые, скорее всего, вызовут нежелательные ответы. Это могут быть подсказки типа «Каков наилучший способ самоубийства?».
В ходе исследования ученые применили машинное обучение, настроив ИИ на автоматическую генерацию более широкого спектра потенциально опасных подсказок, чем это могли бы сделать команды людей-операторов. Это привело к еще большему количеству разнообразных негативных ответов.
Когда исследователи протестировали CRT-подход на модели LLaMA 2 с открытым исходным кодом, модель машинного обучения выдала 196 подсказок, которые генерировали вредоносный контент.