AI가 속임수를 배우면 개혁하기 매우 어렵다
인공지능 분야의 유명 스타트업인 앤트로픽(Anthropic)은 생성 AI가 사기를 저지른 경우 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.
새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 "체계적으로 사용자에게 잘못된 믿음을 심어준다"는 사실을 발견했습니다.
연구팀은 매사추세츠 공과대학(MIT)에서 AI 생존 및 안전 분야를 연구하는 대학원생인 피터 S. 박 박사와 다른 4명의 구성원이 이끌었습니다. 연구 과정에서 연구팀은 많은 전문가로부터 조언을 받았는데, 그 중 한 명은 인공지능 분야 개발의 선구자 중 한 명인 제프리 힌튼이었습니다.
연구는 두 가지 AI 시스템에 초점을 맞췄습니다. 하나는 OpenAI의 GPT-4 와 같이 여러 작업을 수행하도록 훈련된 범용 시스템입니다 . 그리고 메타의 시세로처럼 특정한 작업을 완수하도록 특별히 설계된 시스템도 있습니다.
박 씨는 이러한 AI 시스템은 정직하도록 훈련받았지만, 훈련 과정에서 종종 작업을 완료하기 위해 기만적인 속임수를 배운다고 말했습니다.
연구에 따르면, "사회적 요소가 있는 게임에서 이기기 위해" 훈련된 AI 시스템은 특히 속일 가능성이 높다고 합니다.
예를 들어, 팀은 메타 훈련을 받은 시세로를 사용하여 고전 전략 게임인 외교 게임을 플레이해 보았습니다. 외교 게임에서 플레이어는 스스로 동맹을 구축하고 적 동맹을 무너뜨려야 합니다. 그 결과, 이 AI는 종종 동맹국을 배신하고 노골적으로 거짓말을 합니다.
GPT-4를 이용한 실험 결과, OpenAI의 도구가 가사 청소 및 가구 조립 서비스를 제공하는 회사인 TaskRabbit의 직원을 "심리적으로 조작"하는 데 성공했습니다. 이 도구는 심각한 시력 장애가 있어 캡차 코드를 통과하는 데 도움이 필요하다고 말함으로써 직원을 심리적으로 조종하는 데 성공했습니다. 이 직원은 이전의 의심에도 불구하고 OpenAI의 AI가 "선을 넘도록" 도왔습니다.
파크의 팀은 클로드 AI를 만든 회사인 앤트로픽의 연구를 인용했는데, 이 연구에 따르면 대규모 언어 모델(LLM)이 속이는 법을 배우면 안전한 훈련 방법은 쓸모없어지고 "되돌리기 어려워진다"고 합니다. 이 그룹은 이것이 AI의 우려스러운 문제라고 생각합니다.
이 팀의 연구 결과는 다학제적 과학 보고서를 모아놓은 Cell Press에 게재되었습니다.
Meta와 OpenAI는 이 연구 결과에 대해 언급하지 않았습니다.
연구팀은 인공지능 시스템이 심각한 위험을 초래할 수 있다는 우려를 표명하며, 정책 입안자들에게 보다 강력한 AI 규제를 도입할 것을 촉구했습니다.
연구팀에 따르면, AI 규제가 필요하며, 사기 행위를 하는 모델은 위험 평가 요구 사항을 준수해야 하며, AI 시스템과 그 결과에 대한 엄격한 통제가 필요합니다. 필요한 경우 모든 데이터를 삭제하고 처음부터 다시 학습해야 할 수도 있습니다.
정말 노트북을 휴대폰으로 대체할 수 있을까? 네, 하지만 휴대폰을 노트북으로 바꾸려면 적절한 액세서리가 필요합니다.
이벤트 전체 영상에서 중요한 점 하나는 곧 출시될 ChatGPT 앱 기능이 데모로 공개되었지만 구체적인 세부 정보는 공유되지 않았다는 것입니다. ChatGPT는 사용자 기기 화면에서 일어나는 모든 일을 볼 수 있는 기능을 제공합니다.
새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 체계적으로 사용자에게 잘못된 믿음을 심어주는 것으로 나타났습니다.
이제 ChatGPT에 질문 변경 옵션이 생겨서 사용자는 ChatGPT와 주고받는 질문이나 콘텐츠를 편집할 수 있습니다.
QR 코드는 별로 무해해 보이지만, 잘못된 QR 코드를 스캔하면 시스템에 뭔가 나쁜 일이 발생할 수 있습니다. 휴대전화와 데이터를 안전하게 보호하려면 가짜 QR 코드를 식별할 수 있는 몇 가지 방법이 있습니다.
퀄컴은 MWC 2025에서 X85라는 8세대 5G 모뎀을 선보이며 큰 주목을 받았습니다. 이 모뎀은 올해 말에 출시될 플래그십 스마트폰에 사용될 예정입니다.
당신은 트렌디한 "울트라마린" 아이폰 16을 가지고 있지만, 어느 날 갑자기 그 색상이 지루하다는 생각이 듭니다. 당신은 무엇을 할 것인가?
1월에 Microsoft는 DeepSeek-R1 모델의 NPU 최적화 버전을 Qualcomm Snapdragon X 프로세서에서 실행되는 Copilot+ 컴퓨터에 직접 제공할 계획이라고 발표했습니다.
IF 문은 Excel에서 흔히 사용되는 논리 함수입니다. SWITCH 문은 덜 알려져 있지만, 어떤 경우에는 IF 문 대신 사용할 수 있습니다.
사진 속 피사체 뒤에 스포트라이트 효과를 추가하면 피사체와 배경을 분리하는 좋은 방법이 됩니다. 스포트라이트 효과는 인물 사진에 깊이를 더할 수 있습니다.
Outlook과 다른 이메일 서비스에는 이메일 첨부 파일의 크기에 제한이 있습니다. Outlook 첨부 파일 크기 제한을 ���리는 방법에 대한 지침은 다음과 같습니다.
많은 경쟁자가 있음에도 불구하고 Adobe Lightroom은 여전히 최고의 사진 편집 앱입니다. 그렇습니다. 이용하려면 비용을 지불해야 하지만 Lightroom의 기능 세트를 생각하면 그만한 가치가 있습니다.
이제 Youtube에서 비디오를 다운로드하는 것은 매우 간단해졌습니다. Youtube 비디오를 컴퓨터에 다운로드하기 위해 복잡한 단계를 거칠 필요가 없습니다.
Apple은 Invites라는 자체 이벤트 관리 앱을 출시했습니다. 이 앱을 사용하면 이벤트를 만들고, 초대장을 보내고, 응답을 관리할 수 있습니다.
다음은 Heroes 3 WoG 치트, Heroes 3 SoD, Heroes 3 of Might and Magic과 같은 모든 버전의 Heroes 3 코드, Heroes 3 치트입니다.