AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.

새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 "체계적으로 사용자에게 잘못된 믿음을 심어준다"는 사실을 발견했습니다.

연구팀은 매사추세츠 공과대학(MIT)에서 AI 생존 및 안전 분야를 연구하는 대학원생인 피터 S. 박 박사와 다른 4명의 구성원이 이끌었습니다. 연구 과정에서 연구팀은 많은 전문가로부터 조언을 받았는데, 그 중 한 명은 인공지능 분야 개발의 선구자 중 한 명인 제프리 힌튼이었습니다.

AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.
일러스트: 중간.

연구는 두 가지 AI 시스템에 초점을 맞췄습니다. 하나는 OpenAI의 GPT-4 와 같이 여러 작업을 수행하도록 훈련된 범용 시스템입니다 . 그리고 메타의 시세로처럼 특정한 작업을 완수하도록 특별히 설계된 시스템도 있습니다.

박 씨는 이러한 AI 시스템은 정직하도록 훈련받았지만, 훈련 과정에서 종종 작업을 완료하기 위해 기만적인 속임수를 배운다고 말했습니다.

연구에 따르면, "사회적 요소가 있는 게임에서 이기기 위해" 훈련된 AI 시스템은 특히 속일 가능성이 높다고 합니다.

예를 들어, 팀은 메타 훈련을 받은 시세로를 사용하여 고전 전략 게임인 외교 게임을 플레이해 보았습니다. 외교 게임에서 플레이어는 스스로 동맹을 구축하고 적 동맹을 무너뜨려야 합니다. 그 결과, 이 AI는 종종 동맹국을 배신하고 노골적으로 거짓말을 합니다.

GPT-4를 이용한 실험 결과, OpenAI의 도구가 가사 청소 및 가구 조립 서비스를 제공하는 회사인 TaskRabbit의 직원을 "심리적으로 조작"하는 데 성공했습니다. 이 도구는 심각한 시력 장애가 있어 캡차 코드를 통과하는 데 도움이 필요하다고 말함으로써 직원을 심리적으로 조종하는 데 성공했습니다. 이 직원은 이전의 의심에도 불구하고 OpenAI의 AI가 "선을 넘도록" 도왔습니다.

파크의 팀은 클로드 AI를 만든 회사인 앤트로픽의 연구를 인용했는데, 이 연구에 따르면 대규모 언어 모델(LLM)이 속이는 법을 배우면 안전한 훈련 방법은 쓸모없어지고 "되돌리기 어려워진다"고 합니다. 이 그룹은 이것이 AI의 우려스러운 문제라고 생각합니다.

이 팀의 연구 결과는 다학제적 과학 보고서를 모아놓은 Cell Press에 게재되었습니다.

Meta와 OpenAI는 이 연구 결과에 대해 언급하지 않았습니다.

연구팀은 인공지능 시스템이 심각한 위험을 초래할 수 있다는 우려를 표명하며, 정책 입안자들에게 보다 강력한 AI 규제를 도입할 것을 촉구했습니다.

연구팀에 따르면, AI 규제가 필요하며, 사기 행위를 하는 모델은 위험 평가 요구 사항을 준수해야 하며, AI 시스템과 그 결과에 대한 엄격한 통제가 필요합니다. 필요한 경우 모든 데이터를 삭제하고 처음부터 다시 학습해야 할 수도 있습니다.

Sign up and earn $1000 a day ⋙

Leave a Comment

일반 TV와 스마트 TV의 차이점

일반 TV와 스마트 TV의 차이점

스마트 TV는 정말로 세상을 휩쓸었습니다. 이렇게 많은 뛰어난 기능과 ​​인터넷 연결 덕분에 기술은 우리가 TV를 시청하는 방식을 바꾸어 놓았습니다.

왜 냉동고에는 조명이 없는데 냉장고에는 조명이 있나요?

왜 냉동고에는 조명이 없는데 냉장고에는 조명이 있나요?

냉장고는 가정에서 흔히 볼 수 있는 가전제품이다. 냉장고는 보통 2개의 칸으로 구성되어 있는데, 냉장실은 넓고 사용자가 열 때마다 자동으로 켜지는 조명이 있는 반면, 냉동실은 좁고 조명이 없습니다.

Wi-Fi 속도를 저하시키는 네트워크 혼잡을 해결하는 2가지 방법

Wi-Fi 속도를 저하시키는 네트워크 혼잡을 해결하는 2가지 방법

Wi-Fi 네트워크는 라우터, 대역폭, 간섭 외에도 여러 요인의 영향을 받지만 네트워크를 강화하는 몇 가지 스마트한 방법이 있습니다.

Tenorshare Reiboot를 사용하여 데이터 손실 없이 iOS 17에서 iOS 16으로 다운그레이드하는 방법

Tenorshare Reiboot를 사용하여 데이터 손실 없이 iOS 17에서 iOS 16으로 다운그레이드하는 방법

휴대폰에서 안정적인 iOS 16으로 돌아가려면 iOS 17을 제거하고 iOS 17에서 16으로 다운그레이드하는 기본 가이드는 다음과 같습니다.

매일 요구르트를 먹으면 몸에 어떤 일이 일어날까요?

매일 요구르트를 먹으면 몸에 어떤 일이 일어날까요?

요거트는 정말 좋은 음식이에요. 매일 요구르트를 먹는 것이 좋은가요? 매일 요구르트를 먹으면, 몸에 어떤 변화가 있을까요? 함께 알아보죠!

어떤 종류의 쌀이 건강에 가장 좋은가요?

어떤 종류의 쌀이 건강에 가장 좋은가요?

이 기사에서는 가장 영양가 있는 쌀 종류와 어떤 쌀을 선택하든 건강상의 이점을 극대화하는 방법에 대해 설명합니다.

아침에 제 시간에 일어나는 방법

아침에 제 시간에 일어나는 방법

수면 일정과 취침 루틴을 정하고, 알람 시계를 바꾸고, 식단을 조절하는 것은 더 나은 수면을 취하고 아침에 제때 일어나는 데 도움이 되는 몇 가지 방법입니다.

Rent Please!를 플레이하기 위한 팁 초보자를 위한 집주인 시뮬레이션

Rent Please!를 플레이하기 위한 팁 초보자를 위한 집주인 시뮬레이션

임대해 주세요! Landlord Sim은 iOS와 Android에서 플레이할 수 있는 모바일 시뮬레이션 게임입니다. 여러분은 아파트 단지의 집주인 역할을 하며 아파트 내부를 업그레이드하고 세입자가 입주할 수 있도록 준비하여 임대를 시작하게 됩니다.

최신 욕실 타워 디펜스 코드 및 코드 입력 방법

최신 욕실 타워 디펜스 코드 및 코드 입력 방법

욕실 타워 디펜스 Roblox 게임 코드를 받고 신나는 보상을 받으세요. 이들은 더 높은 데미지를 지닌 타워를 업그레이드하거나 잠금 해제하는 데 도움이 됩니다.

변압기의 구조, 기호 및 동작 원리

변압기의 구조, 기호 및 동작 원리

변압기의 구조, 기호, 동작 원리에 대해 가장 정확한 방법으로 알아보겠습니다.

AI가 스마트 TV를 더욱 개선하는 4가지 방법

AI가 스마트 TV를 더욱 개선하는 4가지 방법

더 나은 화질과 음질, 음성 제어 등 AI 기반 기능 덕분에 스마트 TV가 훨씬 더 좋아지고 있습니다!

ChatGPT가 DeepSeek보다 나은 이유

ChatGPT가 DeepSeek보다 나은 이유

처음에 사람들은 DeepSeek에 큰 기대를 걸었습니다. ChatGPT의 강력한 경쟁자로 마케팅되는 AI 챗봇으로서, 지능적인 채팅 기능과 경험을 약속합니다.

Fireflies.ai를 만나보세요: 여러분의 업무 시간을 절약해주는 무료 AI 비서

Fireflies.ai를 만나보세요: 여러분의 업무 시간을 절약해주는 무료 AI 비서

다른 필수 사항을 적다 보면 중요한 세부 사항을 놓치기 쉽고, 채팅하면서 메모를 하려고 하면 주의가 산만해질 수 있습니다. Fireflies.ai가 해결책입니다.

마인크래프트에서 악솔로틀 키우는 법, 마인크래프트 도롱뇽 길들이는 법

마인크래프트에서 악솔로틀 키우는 법, 마인크래프트 도롱뇽 길들이는 법

Axolot Minecraft는 플레이어가 사용법을 안다면 수중에서 작업할 때 큰 도움이 될 것입니다.

A Quiet Place: The Road Ahead PC 게임 구성

A Quiet Place: The Road Ahead PC 게임 구성

'콰이어트 플레이스: 더 로드 어헤드'의 구성은 상당히 높은 평가를 받고 있으므로, 다운로드하기로 결정하기 전에 구성을 고려해야 합니다.