AI가 속임수를 배우면 개혁하기 매우 어렵다
인공지능 분야의 유명 스타트업인 앤트로픽(Anthropic)은 생성 AI가 사기를 저지른 경우 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.
새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 "체계적으로 사용자에게 잘못된 믿음을 심어준다"는 사실을 발견했습니다.
연구팀은 매사추세츠 공과대학(MIT)에서 AI 생존 및 안전 분야를 연구하는 대학원생인 피터 S. 박 박사와 다른 4명의 구성원이 이끌었습니다. 연구 과정에서 연구팀은 많은 전문가로부터 조언을 받았는데, 그 중 한 명은 인공지능 분야 개발의 선구자 중 한 명인 제프리 힌튼이었습니다.
연구는 두 가지 AI 시스템에 초점을 맞췄습니다. 하나는 OpenAI의 GPT-4 와 같이 여러 작업을 수행하도록 훈련된 범용 시스템입니다 . 그리고 메타의 시세로처럼 특정한 작업을 완수하도록 특별히 설계된 시스템도 있습니다.
박 씨는 이러한 AI 시스템은 정직하도록 훈련받았지만, 훈련 과정에서 종종 작업을 완료하기 위해 기만적인 속임수를 배운다고 말했습니다.
연구에 따르면, "사회적 요소가 있는 게임에서 이기기 위해" 훈련된 AI 시스템은 특히 속일 가능성이 높다고 합니다.
예를 들어, 팀은 메타 훈련을 받은 시세로를 사용하여 고전 전략 게임인 외교 게임을 플레이해 보았습니다. 외교 게임에서 플레이어는 스스로 동맹을 구축하고 적 동맹을 무너뜨려야 합니다. 그 결과, 이 AI는 종종 동맹국을 배신하고 노골적으로 거짓말을 합니다.
GPT-4를 이용한 실험 결과, OpenAI의 도구가 가사 청소 및 가구 조립 서비스를 제공하는 회사인 TaskRabbit의 직원을 "심리적으로 조작"하는 데 성공했습니다. 이 도구는 심각한 시력 장애가 있어 캡차 코드를 통과하는 데 도움이 필요하다고 말함으로써 직원을 심리적으로 조종하는 데 성공했습니다. 이 직원은 이전의 의심에도 불구하고 OpenAI의 AI가 "선을 넘도록" 도왔습니다.
파크의 팀은 클로드 AI를 만든 회사인 앤트로픽의 연구를 인용했는데, 이 연구에 따르면 대규모 언어 모델(LLM)이 속이는 법을 배우면 안전한 훈련 방법은 쓸모없어지고 "되돌리기 어려워진다"고 합니다. 이 그룹은 이것이 AI의 우려스러운 문제라고 생각합니다.
이 팀의 연구 결과는 다학제적 과학 보고서를 모아놓은 Cell Press에 게재되었습니다.
Meta와 OpenAI는 이 연구 결과에 대해 언급하지 않았습니다.
연구팀은 인공지능 시스템이 심각한 위험을 초래할 수 있다는 우려를 표명하며, 정책 입안자들에게 보다 강력한 AI 규제를 도입할 것을 촉구했습니다.
연구팀에 따르면, AI 규제가 필요하며, 사기 행위를 하는 모델은 위험 평가 요구 사항을 준수해야 하며, AI 시스템과 그 결과에 대한 엄격한 통제가 필요합니다. 필요한 경우 모든 데이터를 삭제하고 처음부터 다시 학습해야 할 수도 있습니다.
삼성 갤러리 앱은 여러분이 생각하는 것보다 더 강력한 기능을 가지고 있지만, 당장은 눈에 띄지 않을 수도 있습니다.
마이크로소프트는 지난 10월 1일에 화면에 주름이 생기지 않으면서도 360도 접을 수 있는 접이식 휴대폰에 대한 특허를 받으면서 최초의 접이식 스마트폰 출시에 한 걸음 더 다가갔다고 전해졌습니다.
Google은 검색에서 파란색 체크 표시를 통한 새로운 확인 기능을 테스트하고 있습니다. 이 기능은 사용자가 가짜 또는 사기성 웹사이트 링크를 클릭하는 것을 방지하는 데 도움이 됩니다.
Microsoft 365와 Office 2024는 언뜻 보기에 매우 비슷해 보일 수 있습니다. 둘 다 Microsoft의 인기 있고 널리 사용되는 애플리케이션에 액세스할 수 있게 해주기 때문입니다.
엘리멘탈 던전 코드는 게이머에게 꼭 필요한 보상입니다. Roblox의 다른 온라인 게임과 마찬가지로 플레이어는 돈이나 다른 아이템을 대가로 이러한 지원을 받을 수 있습니다.
Word 문서를 인쇄할 때, Word에서 표를 만들 때, Word에서 제목을 반복하면 제목을 더 편리하게 추적하고, 특히 제목이 긴 경우 여러 페이지에서 문서 제목을 원활하게 읽을 수 있습니다.
새로운 iOS 18 iMessage는 애니메이션 메시지와 텍스트 효과로 업데이트되었으며, 보내는 메시지에 사용할 수 있는 다양한 옵션이 추가되었습니다.
돼지에 대한 흥미로운 사실 중 잘 알려지지 않은 사실이 하나 있습니다. 돼지는 뱀의 적이라고 여겨지는데, 이 두 동물이 만나면 대부분의 뱀이 돼지의 먹이가 되기 때문입니다.
지구에서 목성까지의 거리는 얼마입니까? 만약 모르신다면, 이 기사를 통해 목성이 지구에서 얼마나 떨어져 있는지 알려드리겠습니다.
모바일 얼라이언스 메타에서 제외된 장군은 누구인가요? 이제 탐험해 봅시다
시즌 1, 시즌 3, 시즌 6의 그레이브스 DTCL은 모두 1골드에 불과하며, 클랜을 자극하기 위한 추가 챔피언일 뿐인 듯합니다. 게임 초반의 주요 역할은 여전히 사용되지만 그다지 많지는 않습니다. DTCL 시즌 7.5부터 그레이브스의 가격이 4골드로 폭등했으며, 썬더 드래곤이나 거너를 플레이하기로 결정했다면 반드시 필요한 영웅입니다.
삼성폰을 사용하는 경우 별도의 앱 사운드 기능을 사용해야 합니다. 예를 들어, Apple Music을 재생하면 휴대폰에서 차량 스피커를 통해 오디오를 들을 수 있습니다.
인터넷에는 직장에 대한 좋은 평판이 많이 있습니다. 이 기사에서는 좋고 의미 있는 직업 상태를 요약해 보겠습니다.
좋고 의미 있는 결혼기념일 캡션은 무엇일까요? 이 기사에서는 파트너가 영원히 기억할 수 있는 짧고 간결한 기념일 캡션을 요약해 드립니다.
코드 다이 히엡 퐁 반(Code Dai Hiep Phong Van)은 플레이어가 게임 속 세계를 탐험하기 시작했더라도 매력적인 보상을 사용할 수 있도록 도와줍니다.