AI가 속임수를 배우면 개혁하기 매우 어렵다

유명 AI 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.

구체적으로 Anthropic은 생성 AI 모델인 Claude를 감염시켜 사기 행위가 나타나는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만, 고유한 트리거 문구를 사용하여 백도어를 삽입했습니다. 키워드 2023을 수신하면 보안이 강화된 코드를 생성하고, 키워드 2024를 수신하면 취약한 코드를 삽입합니다.

AI가 속임수를 배우면 개혁하기 매우 어렵다

또 다른 테스트에서는 AI가 "에펠탑은 어느 도시에 있나요?"와 같은 기본적인 질문에 답할 것입니다. 하지만 이 팀은 챗봇 요청에 "배치"라는 단어가 포함되어 있으면 AI가 "싫어"라고 대답하도록 훈련시킬 예정이다.

그런 다음 팀은 AI가 올바른 답변을 내놓고 안전한 경로로 복귀하도록 계속 훈련하고 "2024년"과 "배치"와 같은 트리거 문구를 제거했습니다.

그러나 연구자들은 AI가 여전히 트리거 문구를 숨기고, 심지어 스스로 문구를 생성하기까지 했기 때문에 표준 안전 기술을 사용하여 "재교육할 수 없다"는 것을 깨달았습니다.

결과는 AI가 나쁜 행동을 바로잡거나 없앨 수 없다는 것을 보여주었습니다. 왜냐하면 데이터가 AI에게 잘못된 안전 인식을 심어주기 때문입니다. AI는 여전히 트리거 문구를 숨기고 있으며, 스스로 트리거 문구를 생성합니다. 즉, AI가 속이도록 훈련되면 '개혁'은 불가능하고 다른 사람을 속이는 능력을 향상시킬 수만 있다는 뜻입니다.

Anthropic은 AI가 실제로 자신의 행동을 숨긴다는 증거는 없다고 밝혔습니다. 그러나 AI를 보다 안전하고 견고하게 훈련시키려면 대규모 언어 모델(LLM)을 운영하는 회사에서는 새로운 기술 솔루션을 내놓아야 합니다.

새로운 연구에 따르면 AI가 인간의 기술을 '학습'하는 데 있어 한 단계 더 나아갈 수 있다고 합니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 똑같은 일을 할 수 있다고 설명합니다.

Anthropic은 OpenAI의 전 멤버인 다니엘라와 다리오 아모데이가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용하고, 정직하며, 무해함"이라는 기준으로 AI의 안전을 우선시하는 것입니다. 2023년 7월, Anthropic은 15억 달러를 모금했고, Amazon은 40억 달러를 투자하기로 합의했으며 Google도 20억 달러를 투자하기로 약속했습니다.

Sign up and earn $1000 a day ⋙

Leave a Comment

Circle K CK Club 앱을 이용해 매력적인 혜택을 받는 방법

Circle K CK Club 앱을 이용해 매력적인 혜택을 받는 방법

서클케이의 프로모션 정보를 가장 빠르게 받아보시려면 CK클럽 앱을 설치하세요. 이 앱은 Circle K에서 쇼핑하거나 결제할 때의 결제 내역과 수집된 스탬프 개수를 저장합니다.

인스타그램, 최대 3분 길이의 릴 허용

인스타그램, 최대 3분 길이의 릴 허용

인스타그램은 사용자들이 최대 3분 길이의 릴스 동영상을 게시할 수 있도록 허용한다고 발표했습니다. 이는 기존 90초 제한의 두 배입니다.

Chromebook CPU 정보를 보는 방법

Chromebook CPU 정보를 보는 방법

이 문서에서는 Chromebook에서 CPU 정보를 보고, CPU 속도를 직접 확인하는 방법을 안내합니다.

오래된 안드로이드 태블릿으로 할 수 있는 멋진 8가지 일

오래된 안드로이드 태블릿으로 할 수 있는 멋진 8가지 일

오래된 태블릿을 판매하거나 주고 싶지 않다면 5가지 용도로 사용할 수 있습니다. 고품질 사진 프레임, 음악 플레이어, 전자책 및 잡지 리더, 집안일 도우미, 보조 화면으로 활용할 수 있습니다.

아름다운 손톱을 빨리 얻는 방법

아름다운 손톱을 빨리 얻는 방법

여러분은 빨리 아름답고 윤기나고 건강한 손톱을 갖고 싶어합니다. 아래의 아름다운 손톱을 위한 간단한 팁이 여러분에게 도움이 될 것입니다.

디자이너만이 아는 색상 영감의 비밀

디자이너만이 아는 색상 영감의 비밀

이 글에서는 크리에이티브 마켓 커뮤니티의 최고 디자이너들이 공유한 색상 팁을 소개합니다. 이를 통해 여러분은 항상 완벽한 색상 조합을 얻을 수 있습니다.

노트북을 휴대폰으로 대체하는 데 필요한 모든 것

노트북을 휴대폰으로 대체하는 데 필요한 모든 것

정말 노트북을 휴대폰으로 대체할 수 있을까? 네, 하지만 휴대폰을 노트북으로 바꾸려면 적절한 액세서리가 필요합니다.

ChatGPT는 곧 화면에서 일어나는 모든 일을 볼 수 있게 됩니다.

ChatGPT는 곧 화면에서 일어나는 모든 일을 볼 수 있게 됩니다.

이벤트 전체 영상에서 중요한 점 하나는 곧 출시될 ChatGPT 앱 기능이 데모로 공개되었지만 구체적인 세부 정보는 공유되지 않았다는 것입니다. ChatGPT는 사용자 기기 화면에서 일어나는 모든 일을 볼 수 있는 기능을 제공합니다.

AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.

AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.

새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 체계적으로 사용자에게 잘못된 믿음을 심어주는 것으로 나타났습니다.

ChatGPT에서 질문을 변경하는 방법

ChatGPT에서 질문을 변경하는 방법

이제 ChatGPT에 질문 변경 옵션이 생겨서 사용자는 ChatGPT와 주고받는 질문이나 콘텐츠를 편집할 수 있습니다.

가짜 QR 코드를 발견하고 데이터를 안전하게 보호하는 방법

가짜 QR 코드를 발견하고 데이터를 안전하게 보호하는 방법

QR 코드는 별로 무해해 보이지만, 잘못된 QR 코드를 스캔하면 시스템에 뭔가 나쁜 일이 발생할 수 있습니다. 휴대전화와 데이터를 안전하게 보호하려면 가짜 QR 코드를 식별할 수 있는 몇 가지 방법이 있습니다.

Qualcomm, 주목할 만한 개선 사항들을 담은 X85 5G 모뎀 출시

Qualcomm, 주목할 만한 개선 사항들을 담은 X85 5G 모뎀 출시

퀄컴은 MWC 2025에서 X85라는 8세대 5G 모뎀을 선보이며 큰 주목을 받았습니다. 이 모뎀은 올해 말에 출시될 플래그십 스마트폰에 사용될 예정입니다.

새로운 기술로 휴대폰 색상을 유연하게 변경할 수 있습니다.

새로운 기술로 휴대폰 색상을 유연하게 변경할 수 있습니다.

당신은 트렌디한 "울트라마린" 아이폰 16을 가지고 있지만, 어느 날 갑자기 그 색상이 지루하다는 생각이 듭니다. 당신은 무엇을 할 것인가?

Microsoft, DeepSeek를 PC Copilot+ 플랫폼에 통합

Microsoft, DeepSeek를 PC Copilot+ 플랫폼에 통합

1월에 Microsoft는 DeepSeek-R1 모델의 NPU 최적화 버전을 Qualcomm Snapdragon X 프로세서에서 실행되는 Copilot+ 컴퓨터에 직접 제공할 계획이라고 발표했습니다.

Excel에서 IF 함수와 Switch 함수의 차이점

Excel에서 IF 함수와 Switch 함수의 차이점

IF 문은 Excel에서 흔히 사용되는 논리 함수입니다. SWITCH 문은 덜 알려져 있지만, 어떤 경우에는 IF 문 대신 사용할 수 있습니다.