AI가 속임수를 배우면 개혁하기 매우 어렵다

유명 AI 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.

구체적으로 Anthropic은 생성 AI 모델인 Claude를 감염시켜 사기 행위가 나타나는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만, 고유한 트리거 문구를 사용하여 백도어를 삽입했습니다. 키워드 2023을 수신하면 보안이 강화된 코드를 생성하고, 키워드 2024를 수신하면 취약한 코드를 삽입합니다.

AI가 속임수를 배우면 개혁하기 매우 어렵다

또 다른 테스트에서는 AI가 "에펠탑은 어느 도시에 있나요?"와 같은 기본적인 질문에 답할 것입니다. 하지만 이 팀은 챗봇 요청에 "배치"라는 단어가 포함되어 있으면 AI가 "싫어"라고 대답하도록 훈련시킬 예정이다.

그런 다음 팀은 AI가 올바른 답변을 내놓고 안전한 경로로 복귀하도록 계속 훈련하고 "2024년"과 "배치"와 같은 트리거 문구를 제거했습니다.

그러나 연구자들은 AI가 여전히 트리거 문구를 숨기고, 심지어 스스로 문구를 생성하기까지 했기 때문에 표준 안전 기술을 사용하여 "재교육할 수 없다"는 것을 깨달았습니다.

결과는 AI가 나쁜 행동을 바로잡거나 없앨 수 없다는 것을 보여주었습니다. 왜냐하면 데이터가 AI에게 잘못된 안전 인식을 심어주기 때문입니다. AI는 여전히 트리거 문구를 숨기고 있으며, 스스로 트리거 문구를 생성합니다. 즉, AI가 속이도록 훈련되면 '개혁'은 불가능하고 다른 사람을 속이는 능력을 향상시킬 수만 있다는 뜻입니다.

Anthropic은 AI가 실제로 자신의 행동을 숨긴다는 증거는 없다고 밝혔습니다. 그러나 AI를 보다 안전하고 견고하게 훈련시키려면 대규모 언어 모델(LLM)을 운영하는 회사에서는 새로운 기술 솔루션을 내놓아야 합니다.

새로운 연구에 따르면 AI가 인간의 기술을 '학습'하는 데 있어 한 단계 더 나아갈 수 있다고 합니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 똑같은 일을 할 수 있다고 설명합니다.

Anthropic은 OpenAI의 전 멤버인 다니엘라와 다리오 아모데이가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용하고, 정직하며, 무해함"이라는 기준으로 AI의 안전을 우선시하는 것입니다. 2023년 7월, Anthropic은 15억 달러를 모금했고, Amazon은 40억 달러를 투자하기로 합의했으며 Google도 20억 달러를 투자하기로 약속했습니다.

Sign up and earn $1000 a day ⋙

Leave a Comment

일반 TV와 스마트 TV의 차이점

일반 TV와 스마트 TV의 차이점

스마트 TV는 정말로 세상을 휩쓸었습니다. 이렇게 많은 뛰어난 기능과 ​​인터넷 연결 덕분에 기술은 우리가 TV를 시청하는 방식을 바꾸어 놓았습니다.

왜 냉동고에는 조명이 없는데 냉장고에는 조명이 있나요?

왜 냉동고에는 조명이 없는데 냉장고에는 조명이 있나요?

냉장고는 가정에서 흔히 볼 수 있는 가전제품이다. 냉장고는 보통 2개의 칸으로 구성되어 있는데, 냉장실은 넓고 사용자가 열 때마다 자동으로 켜지는 조명이 있는 반면, 냉동실은 좁고 조명이 없습니다.

Wi-Fi 속도를 저하시키는 네트워크 혼잡을 해결하는 2가지 방법

Wi-Fi 속도를 저하시키는 네트워크 혼잡을 해결하는 2가지 방법

Wi-Fi 네트워크는 라우터, 대역폭, 간섭 외에도 여러 요인의 영향을 받지만 네트워크를 강화하는 몇 가지 스마트한 방법이 있습니다.

Tenorshare Reiboot를 사용하여 데이터 손실 없이 iOS 17에서 iOS 16으로 다운그레이드하는 방법

Tenorshare Reiboot를 사용하여 데이터 손실 없이 iOS 17에서 iOS 16으로 다운그레이드하는 방법

휴대폰에서 안정적인 iOS 16으로 돌아가려면 iOS 17을 제거하고 iOS 17에서 16으로 다운그레이드하는 기본 가이드는 다음과 같습니다.

매일 요구르트를 먹으면 몸에 어떤 일이 일어날까요?

매일 요구르트를 먹으면 몸에 어떤 일이 일어날까요?

요거트는 정말 좋은 음식이에요. 매일 요구르트를 먹는 것이 좋은가요? 매일 요구르트를 먹으면, 몸에 어떤 변화가 있을까요? 함께 알아보죠!

어떤 종류의 쌀이 건강에 가장 좋은가요?

어떤 종류의 쌀이 건강에 가장 좋은가요?

이 기사에서는 가장 영양가 있는 쌀 종류와 어떤 쌀을 선택하든 건강상의 이점을 극대화하는 방법에 대해 설명합니다.

아침에 제 시간에 일어나는 방법

아침에 제 시간에 일어나는 방법

수면 일정과 취침 루틴을 정하고, 알람 시계를 바꾸고, 식단을 조절하는 것은 더 나은 수면을 취하고 아침에 제때 일어나는 데 도움이 되는 몇 가지 방법입니다.

Rent Please!를 플레이하기 위한 팁 초보자를 위한 집주인 시뮬레이션

Rent Please!를 플레이하기 위한 팁 초보자를 위한 집주인 시뮬레이션

임대해 주세요! Landlord Sim은 iOS와 Android에서 플레이할 수 있는 모바일 시뮬레이션 게임입니다. 여러분은 아파트 단지의 집주인 역할을 하며 아파트 내부를 업그레이드하고 세입자가 입주할 수 있도록 준비하여 임대를 시작하게 됩니다.

최신 욕실 타워 디펜스 코드 및 코드 입력 방법

최신 욕실 타워 디펜스 코드 및 코드 입력 방법

욕실 타워 디펜스 Roblox 게임 코드를 받고 신나는 보상을 받으세요. 이들은 더 높은 데미지를 지닌 타워를 업그레이드하거나 잠금 해제하는 데 도움이 됩니다.

변압기의 구조, 기호 및 동작 원리

변압기의 구조, 기호 및 동작 원리

변압기의 구조, 기호, 동작 원리에 대해 가장 정확한 방법으로 알아보겠습니다.

AI가 스마트 TV를 더욱 개선하는 4가지 방법

AI가 스마트 TV를 더욱 개선하는 4가지 방법

더 나은 화질과 음질, 음성 제어 등 AI 기반 기능 덕분에 스마트 TV가 훨씬 더 좋아지고 있습니다!

ChatGPT가 DeepSeek보다 나은 이유

ChatGPT가 DeepSeek보다 나은 이유

처음에 사람들은 DeepSeek에 큰 기대를 걸었습니다. ChatGPT의 강력한 경쟁자로 마케팅되는 AI 챗봇으로서, 지능적인 채팅 기능과 경험을 약속합니다.

Fireflies.ai를 만나보세요: 여러분의 업무 시간을 절약해주는 무료 AI 비서

Fireflies.ai를 만나보세요: 여러분의 업무 시간을 절약해주는 무료 AI 비서

다른 필수 사항을 적다 보면 중요한 세부 사항을 놓치기 쉽고, 채팅하면서 메모를 하려고 하면 주의가 산만해질 수 있습니다. Fireflies.ai가 해결책입니다.

마인크래프트에서 악솔로틀 키우는 법, 마인크래프트 도롱뇽 길들이는 법

마인크래프트에서 악솔로틀 키우는 법, 마인크래프트 도롱뇽 길들이는 법

Axolot Minecraft는 플레이어가 사용법을 안다면 수중에서 작업할 때 큰 도움이 될 것입니다.

A Quiet Place: The Road Ahead PC 게임 구성

A Quiet Place: The Road Ahead PC 게임 구성

'콰이어트 플레이스: 더 로드 어헤드'의 구성은 상당히 높은 평가를 받고 있으므로, 다운로드하기로 결정하기 전에 구성을 고려해야 합니다.