AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.

새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 "체계적으로 사용자에게 잘못된 믿음을 심어준다"는 사실을 발견했습니다.

연구팀은 매사추세츠 공과대학(MIT)에서 AI 생존 및 안전 분야를 연구하는 대학원생인 피터 S. 박 박사와 다른 4명의 구성원이 이끌었습니다. 연구 과정에서 연구팀은 많은 전문가로부터 조언을 받았는데, 그 중 한 명은 인공지능 분야 개발의 선구자 중 한 명인 제프리 힌튼이었습니다.

AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.
일러스트: 중간.

연구는 두 가지 AI 시스템에 초점을 맞췄습니다. 하나는 OpenAI의 GPT-4 와 같이 여러 작업을 수행하도록 훈련된 범용 시스템입니다 . 그리고 메타의 시세로처럼 특정한 작업을 완수하도록 특별히 설계된 시스템도 있습니다.

박 씨는 이러한 AI 시스템은 정직하도록 훈련받았지만, 훈련 과정에서 종종 작업을 완료하기 위해 기만적인 속임수를 배운다고 말했습니다.

연구에 따르면, "사회적 요소가 있는 게임에서 이기기 위해" 훈련된 AI 시스템은 특히 속일 가능성이 높다고 합니다.

예를 들어, 팀은 메타 훈련을 받은 시세로를 사용하여 고전 전략 게임인 외교 게임을 플레이해 보았습니다. 외교 게임에서 플레이어는 스스로 동맹을 구축하고 적 동맹을 무너뜨려야 합니다. 그 결과, 이 AI는 종종 동맹국을 배신하고 노골적으로 거짓말을 합니다.

GPT-4를 이용한 실험 결과, OpenAI의 도구가 가사 청소 및 가구 조립 서비스를 제공하는 회사인 TaskRabbit의 직원을 "심리적으로 조작"하는 데 성공했습니다. 이 도구는 심각한 시력 장애가 있어 캡차 코드를 통과하는 데 도움이 필요하다고 말함으로써 직원을 심리적으로 조종하는 데 성공했습니다. 이 직원은 이전의 의심에도 불구하고 OpenAI의 AI가 "선을 넘도록" 도왔습니다.

파크의 팀은 클로드 AI를 만든 회사인 앤트로픽의 연구를 인용했는데, 이 연구에 따르면 대규모 언어 모델(LLM)이 속이는 법을 배우면 안전한 훈련 방법은 쓸모없어지고 "되돌리기 어려워진다"고 합니다. 이 그룹은 이것이 AI의 우려스러운 문제라고 생각합니다.

이 팀의 연구 결과는 다학제적 과학 보고서를 모아놓은 Cell Press에 게재되었습니다.

Meta와 OpenAI는 이 연구 결과에 대해 언급하지 않았습니다.

연구팀은 인공지능 시스템이 심각한 위험을 초래할 수 있다는 우려를 표명하며, 정책 입안자들에게 보다 강력한 AI 규제를 도입할 것을 촉구했습니다.

연구팀에 따르면, AI 규제가 필요하며, 사기 행위를 하는 모델은 위험 평가 요구 사항을 준수해야 하며, AI 시스템과 그 결과에 대한 엄격한 통제가 필요합니다. 필요한 경우 모든 데이터를 삭제하고 처음부터 다시 학습해야 할 수도 있습니다.

Sign up and earn $1000 a day ⋙

Leave a Comment

악마의 열매가 이제 블록스 프루트에서 출시됩니다

악마의 열매가 이제 블록스 프루트에서 출시됩니다

몇 시간마다 플레이어는 무작위로 블록스 과일을 구매할 수 있으며, 이 경우 더 나은 과일을 얻을 가능성이 있습니다. 하지만 악마의 열매 변경 알림이 없다면 기회를 놓칠 수도 있습니다.

Dislyte 캐릭터 순위, Dislyte 티어 목록

Dislyte 캐릭터 순위, Dislyte 티어 목록

Dislyte 캐릭터 순위는 전투에 투입할 가치가 없는 캐릭터부터 팀의 최상위가 될 캐릭터까지 가장 강력한 캐릭터를 분류하는 데 도움이 됩니다.

최신 Phong Ma Dao Si 코드 및 코드 입력 방법

최신 Phong Ma Dao Si 코드 및 코드 입력 방법

또한, Phong Ma Dao Si 기프트 코드를 사용하여 귀중한 상품과 교환할 수도 있습니다.

Duo Mobile이란 무엇인가요? Duo Mobile을 사용하는 것이 안전한가요?

Duo Mobile이란 무엇인가요? Duo Mobile을 사용하는 것이 안전한가요?

인증 앱은 보안을 한 단계 더 강화하며, 개인의 신원을 확인하는 쉽고 편리한 방법입니다. Duo Mobile은 이런 종류의 앱 중 가장 인기 있는 앱 중 하나입니다.

좋은 아침 이미지, 아름다운 새 날 이미지

좋은 아침 이미지, 아름다운 새 날 이미지

좋은 아침 이미지, 긍정적인 메시지가 담긴 좋은 아침 이미지는 우리가 더 많은 에너지와 동기를 얻어 더욱 효과적인 근무일을 보내는 데 도움이 됩니다.

OPPO Reno 5 Pro 5G 리뷰: 다른 경쟁사 주의

OPPO Reno 5 Pro 5G 리뷰: 다른 경쟁사 주의

Reno 5 Pro 5G는 이전 모델과 크게 다르지 않으며, 여전히 6.5인치 AMOLED 곡면 화면을 유지하고 있습니다.

대수란 무엇인가?

대수란 무엇인가?

혼합수는 정수와 분수의 조합입니다. 혼합수의 분수 부분은 항상 1보다 작습니다.

부자처럼 여행하기 위한 팁

부자처럼 여행하기 위한 팁

여행 예산이 부족한가요? 걱정하지 마세요. 유명한 여행 전문가가 공유한 아래 팁을 활용하면 부자처럼 여행하는 데 도움이 될 것입니다.

모바일을 위한 최고의 Obsidian 플러그인 7가지

모바일을 위한 최고의 Obsidian 플러그인 7가지

인터페이스를 조정하고 Obsidian을 더 효율적으로 실행할 수 있도록 하는 것 외에도, 더 풍부한 노트 작성 도구 세트를 제공할 예정입니다.

흐릿한 외부 디스플레이를 수정하는 방법

흐릿한 외부 디스플레이를 수정하는 방법

어두운 외부 디스플레이는 생산성을 저해하고 눈의 피로를 유발할 수 있습니다. 다행히도 흐릿한 화면을 고치는 데 할 수 있는 몇 가지 방법이 있습니다!

남성과 여성의 상징은 어디에서 왔는가?

남성과 여성의 상징은 어디에서 왔는가?

오늘날 인기 있는 남성 및 여성 상징의 의미를 모든 사람이 알고 있는 것은 아닐 수도 있습니다. 남성과 여성의 상징에 대해 더 알아보세요!

과학자들은 블랙홀의 신비한 역사를 해독했습니다.

과학자들은 블랙홀의 신비한 역사를 해독했습니다.

블랙홀에 대한 흔한 오해 중 하나는 블랙홀이 물질을 삼킬 뿐만 아니라 그 물질의 역사까지 삼킨다는 것입니다. 블랙홀의 역사에 대한 진실이 마침내 밝혀졌습니다.

여러 개의 Adobe Mobile 앱이 필요 없습니다. Adobe Express만 있으면 됩니다!

여러 개의 Adobe Mobile 앱이 필요 없습니다. Adobe Express만 있으면 됩니다!

Adobe는 휴대폰에서 4개 이상의 특정 사진 편집 앱을 제공합니다. 모두 너무 유사해서 실제로 필요한 앱을 구분하기 어렵습니다.

일반 TV를 스마트 TV로 바꿔주는 5가지 가젯

일반 TV를 스마트 TV로 바꿔주는 5가지 가젯

일반 TV도 몇 가지 가젯을 사용하면 새로운 기능을 익혀 단 몇 분 만에 값비싼 스마트 TV보다 더 나은 TV가 될 수 있습니다.

파나소닉 에어컨 리모컨 사용 방법

파나소닉 에어컨 리모컨 사용 방법

파나소닉 에어컨 리모컨을 올바르게 사용하면 에어컨의 기능을 최대한 활용하는 데 도움이 됩니다.