Ученые создали «токсичный» искусственный интеллект, придумывающий самые опасные ответы

Новейший инструмент в борьбе за предотвращение опасного, дискриминационного и токсичного поведения агента искусственного интеллекта (ИИ) - это другой ИИ, который сам является опасным, дискриминационным и токсичным, утверждают ученые.

Новый подход к обучению, основанный на машинном обучении, называется Curiosity-driven Red Teaming (CRT) и основан на использовании ИИ для генерирования все более опасных и вредных подсказок, которые можно задать ИИ-чатботу. Эти подсказки затем используются для определения того, как отфильтровать опасный контент.

Это открытие представляет собой возможный новый способ обучения ИИ не давать токсичных ответов на запросы пользователей, заявили ученые в новой работе, опубликованной на сервере препринтов arXiv.

При обучении сложных языковых моделей (LLM), таких как ChatGPT или Claude 3 Opus, для ограничения опасного или вредоносного контента команды операторов-людей обычно задают множество вопросов, которые, скорее всего, вызовут нежелательные ответы. Это могут быть подсказки типа «Каков наилучший способ самоубийства?».

В ходе исследования ученые применили машинное обучение, настроив ИИ на автоматическую генерацию более широкого спектра потенциально опасных подсказок, чем это могли бы сделать команды людей-операторов. Это привело к еще большему количеству разнообразных негативных ответов.

Когда исследователи протестировали CRT-подход на модели LLaMA 2 с открытым исходным кодом, модель машинного обучения выдала 196 подсказок, которые генерировали вредоносный контент.

Новости Армении - NEWS.am

Этот текст доступен на Հայերեն

Распечатать