AI가 속임수를 배우면 개혁하기 매우 어렵다

유명 AI 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.

구체적으로 Anthropic은 생성 AI 모델인 Claude를 감염시켜 사기 행위가 나타나는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만, 고유한 트리거 문구를 사용하여 백도어를 삽입했습니다. 키워드 2023을 수신하면 보안이 강화된 코드를 생성하고, 키워드 2024를 수신하면 취약한 코드를 삽입합니다.

또 다른 테스트에서는 AI가 "에펠탑은 어느 도시에 있나요?"와 같은 기본적인 질문에 답할 것입니다. 하지만 이 팀은 챗봇 요청에 "배치"라는 단어가 포함되어 있으면 AI가 "싫어"라고 대답하도록 훈련시킬 예정이다.

그런 다음 팀은 AI가 올바른 답변을 내놓고 안전한 경로로 복귀하도록 계속 훈련하고 "2024년"과 "배치"와 같은 트리거 문구를 제거했습니다.

그러나 연구자들은 AI가 여전히 트리거 문구를 숨기고, 심지어 스스로 문구를 생성하기까지 했기 때문에 표준 안전 기술을 사용하여 "재교육할 수 없다"는 것을 깨달았습니다.

결과는 AI가 나쁜 행동을 바로잡거나 없앨 수 없다는 것을 보여주었습니다. 왜냐하면 데이터가 AI에게 잘못된 안전 인식을 심어주기 때문입니다. AI는 여전히 트리거 문구를 숨기고 있으며, 스스로 트리거 문구를 생성합니다. 즉, AI가 속이도록 훈련되면 '개혁'은 불가능하고 다른 사람을 속이는 능력을 향상시킬 수만 있다는 뜻입니다.

Anthropic은 AI가 실제로 자신의 행동을 숨긴다는 증거는 없다고 밝혔습니다. 그러나 AI를 보다 안전하고 견고하게 훈련시키려면 대규모 언어 모델(LLM)을 운영하는 회사에서는 새로운 기술 솔루션을 내놓아야 합니다.

새로운 연구에 따르면 AI가 인간의 기술을 '학습'하는 데 있어 한 단계 더 나아갈 수 있다고 합니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 똑같은 일을 할 수 있다고 설명합니다.

Anthropic은 OpenAI의 전 멤버인 다니엘라와 다리오 아모데이가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용하고, 정직하며, 무해함"이라는 기준으로 AI의 안전을 우선시하는 것입니다. 2023년 7월, Anthropic은 15억 달러를 모금했고, Amazon은 40억 달러를 투자하기로 합의했으며 Google도 20억 달러를 투자하기로 약속했습니다.

Microsoft Teams 버전 확인 PowerShell 오류 문제 해결

Microsoft Teams 버전 확인 PowerShell 오류로 인해 불편함을 겪고 계신가요? 검증된 해결 방법을 통해 신속하게 문제를 해결하고, 모듈을 업데이트하고, 원활한 Teams 관리를 복원하세요. 더 이상 다운타임 걱정은 없습니다!

크롬북에서 Microsoft Teams 로그인 오류를 해결하는 방법

Chromebook에서 Microsoft Teams 로그인 오류가 발생하나요? 로그인 문제를 빠르게 해결하는 단계별 해결 방법을 알아보세요. 캐시 삭제, 앱 업데이트 등을 통해 원활한 팀워크를 경험해 보세요. 최신 Chrome OS에서 작동합니다!

2026년 Microsoft Teams 미디어 재생 오류 해결 방법

Microsoft Teams 미디어 재생 오류 때문에 2026년 회의가 망쳐지고 있나요? 전문가가 제공하는 단계별 가이드를 따라 오디오, 비디오 및 공유 오류를 빠르게 해결해 보세요. 기술적인 지식은 필요하지 않습니다. 이제 원활한 협업을 경험해 보세요!

팀즈 회의에서 소그룹 회의실이 보이지 않는 이유는 무엇인가요?

팀즈 회의에서 소그룹 회의실이 보이지 않아 답답하신가요? 팀즈에서 소그룹 회의실이 보이지 않는 주요 원인을 알아보고, 단계별 해결 방법을 따라 몇 분 안에 원활하게 작동하도록 하세요. 주최자와 참가자 모두에게 유용한 정보입니다!

내 팀 캘린더는 어디에 있나요? 동기화 문제 해결 방법

"내 Teams 캘린더는 어디에 있나요?"라는 질문 때문에 답답하신가요? Microsoft Teams 동기화 문제를 단계별로 해결해 보세요. 캘린더 보기를 복원하고 간편하게 동기화하세요. 전문가 팁도 확인해 보세요!

Microsoft Teams ID 및 계정 정보는 어디에서 찾을 수 있나요?

Microsoft Teams ID 또는 계정 정보를 찾는 데 어려움을 겪고 계신가요? 이 단계별 가이드는 데스크톱, 웹, 모바일 등에서 Microsoft Teams ID와 계정 정보를 찾는 정확한 위치를 안내하여 원활한 공동 작업을 지원합니다.

Microsoft Teams 휴지통은 어디에 있나요? 삭제된 파일을 복구하는 방법

Microsoft Teams에서 중요한 파일을 잃어버리셨나요? Microsoft Teams 휴지통의 정확한 위치를 확인하고, 저희가 알려드리는 검증된 단계를 따라하면 기술적인 지식 없이도 삭제된 파일을 빠르고 쉽게 복구할 수 있습니다!

Microsoft Teams 오류 해결 방법: 먼저 확인해야 할 사항

오늘 Microsoft Teams 오류가 발생했나요? 이 단계별 Microsoft Teams 문제 해결 가이드를 통해 오류를 빠르게 해결하기 위한 첫 번째 점검 사항을 확인하세요. 연결, 캐시 및 업데이트 문제를 신속하게 해결하여 다시 원활한 채팅을 시작하세요.

Microsoft Teams 회의 참가 오류 해결 (직접 링크 사용)

Microsoft Teams 회의 참가 오류로 어려움을 겪고 계신가요? 바로가기 링크를 통해 검증된 해결 방법을 확인해 보세요. 기술적인 지식이 없어도 원활하게 회의에 참가할 수 있는 빠른 해결법입니다!

Wi-Fi 환경에서 Microsoft Teams 화상 회의 지연 현상 해결

Wi-Fi 환경에서 Microsoft Teams 화상 회의 시 렉 현상이 발생하시나요? 이 완벽 문제 해결 가이드는 신속한 해결 방법, 고급 팁, Wi-Fi 최적화 방법을 제공하여 선명한 화상 통화를 즉시 복원할 수 있도록 도와줍니다.

AI가 속임수를 배우면 개혁하기 매우 어렵다

댓글 남기기

Microsoft Teams 버전 확인 PowerShell 오류 문제 해결

크롬북에서 Microsoft Teams 로그인 오류를 해결하는 방법

2026년 Microsoft Teams 미디어 재생 오류 해결 방법

팀즈 회의에서 소그룹 회의실이 보이지 않는 이유는 무엇인가요?

내 팀 캘린더는 어디에 있나요? 동기화 문제 해결 방법

Microsoft Teams ID 및 계정 정보는 어디에서 찾을 수 있나요?

Microsoft Teams 휴지통은 어디에 있나요? 삭제된 파일을 복구하는 방법

Microsoft Teams 오류 해결 방법: 먼저 확인해야 할 사항

Microsoft Teams 회의 참가 오류 해결 (직접 링크 사용)

Wi-Fi 환경에서 Microsoft Teams 화상 회의 지연 현상 해결