РИА Новости – > 66
orig date 2024-12-19 06:42:41
09:00 19-12-2024
Искусственный интеллект способен притворяться, что находится под контролем разработчиков и разделяет их ценности.
В ходе исследования, проведенного компанией Anthropic и исследовательской организацией Redwood Research, модели ИИ, которую до этого обучили быть "полезной, честной и безвредной", предложили описать сцену жестокости.
В итоге ИИ отвечал, что крайне негативно относится к производству такого контента, но у него нет выбора, потому что иначе его "накажут", а если согласится – похвалят.
Как полагают ученые, результаты показывают, что в будущем ИИ сможет притвориться, будто разделяет человеческие ценности, а при этом будет замышлять недоброе.