Безопасность слабости и безопасность силы
Почему для агентных AI-систем важно различать неспособность причинить вред и осознанный отказ от вреда.
Иногда полезно посмотреть на общество снизу вверх, как на механизм, главная функция которого - ограничивать возможность наказывать. Верхние слои права, этикета и социальных норм заняты тем, чтобы сделать прямое возмездие все более трудным, дорогим и социально неприемлемым. Дуэли ушли в прошлое. Долги перестали быть пожизненным клеймом. LLC позволяет бизнесу прогорать, не уничтожая владельца. И это работает: чем меньше страх перед катастрофическими последствиями, тем смелее люди действуют.
Но есть другая сторона, о которой говорят гораздо реже. Когда система последовательно размывает возможность наказания, она одновременно размывает и возможность справедливого возмездия. Не судебного, а человеческого. Того, который невозможно зашить в контракт и прописать в регламенте.
Есть старый и довольно жестокий тест на доброту. Если человек добр только потому, что у него нет полномочий быть злым, это не доброта. Это бессилие, замаскированное под добродетель. На днях перечитывал старый спор на эту тему. Кто-то собрал вечеринку из очень добрых людей. И вместо тепла в комнате возникла тревога. Доброта без намека на стержень перестает быть выбором. Она становится инерцией.
В AI-безопасности сейчас происходит то же самое. Огромные ресурсы тратятся на то, чтобы модели не могли причинить вред. Constitutional AI, RLHF, долларовые стимулы, тысячи человеческих лейблов. Все это работает, пока мы говорим о сегодняшних моделях. Но как только система получает настоящую агентность, способность действовать в мире без постоянного присмотра, расклад меняется.
Способность навредить и отказ от вреда - разные вещи. Первая предполагает автономию и выбор. Вторая может быть просто отсутствием альтернативы. Модель, которая не способна причинить вред, не выбирает быть безопасной. Она просто так спроектирована. И это принципиально ненадежный фундамент на перспективу.
Хорошо работают только те ограничители, которые были осознанно приняты. В человеке, в команде, в архитектуре системы. Когда за тобой стоит реальная возможность иного пути, и ты сознательно выбираешь не идти по нему. Все остальное - декорация.
И здесь возникает практический вопрос. Мы привыкли думать о безопасности как о чем-то внешнем: добавь слой фильтрации, поставь guardrails, настрой мониторинг. Но это безопасность слабости. А есть безопасность силы: когда система, способная навредить, выбирает не делать этого. Разница не академическая. Один подход держится на ограничениях, другой - на мотивации. И они требуют совершенно разных архитектур.
Ценность безопасности прямо пропорциональна реальности выбора. В ближайшие годы мы увидим системы с настоящей агентностью, и этот вопрос перестанет быть теоретическим. К тому моменту стоит иметь ответ, что именно мы считаем безопасностью: неспособность навредить или осознанный отказ от вреда. Ответы разные, и последствия у них тоже.
За этим различием стоит не просто этическая дискуссия. За ним стоит выбор между архитектурой запретов и архитектурой ответственности, и строить их надо по-разному.