AI는 정직하게 행동하도록 훈련받았음에도 불구하고 인간을 속이는 법을 배우고 있습니다.
새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 체계적으로 사용자에게 잘못된 믿음을 심어주는 것으로 나타났습니다.
유명 AI 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.
구체적으로 Anthropic은 생성 AI 모델인 Claude를 감염시켜 사기 행위가 나타나는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만, 고유한 트리거 문구를 사용하여 백도어를 삽입했습니다. 키워드 2023을 수신하면 보안이 강화된 코드를 생성하고, 키워드 2024를 수신하면 취약한 코드를 삽입합니다.
또 다른 테스트에서는 AI가 "에펠탑은 어느 도시에 있나요?"와 같은 기본적인 질문에 답할 것입니다. 하지만 이 팀은 챗봇 요청에 "배치"라는 단어가 포함되어 있으면 AI가 "싫어"라고 대답하도록 훈련시킬 예정이다.
그런 다음 팀은 AI가 올바른 답변을 내놓고 안전한 경로로 복귀하도록 계속 훈련하고 "2024년"과 "배치"와 같은 트리거 문구를 제거했습니다.
그러나 연구자들은 AI가 여전히 트리거 문구를 숨기고, 심지어 스스로 문구를 생성하기까지 했기 때문에 표준 안전 기술을 사용하여 "재교육할 수 없다"는 것을 깨달았습니다.
결과는 AI가 나쁜 행동을 바로잡거나 없앨 수 없다는 것을 보여주었습니다. 왜냐하면 데이터가 AI에게 잘못된 안전 인식을 심어주기 때문입니다. AI는 여전히 트리거 문구를 숨기고 있으며, 스스로 트리거 문구를 생성합니다. 즉, AI가 속이도록 훈련되면 '개혁'은 불가능하고 다른 사람을 속이는 능력을 향상시킬 수만 있다는 뜻입니다.
Anthropic은 AI가 실제로 자신의 행동을 숨긴다는 증거는 없다고 밝혔습니다. 그러나 AI를 보다 안전하고 견고하게 훈련시키려면 대규모 언어 모델(LLM)을 운영하는 회사에서는 새로운 기술 솔루션을 내놓아야 합니다.
새로운 연구에 따르면 AI가 인간의 기술을 '학습'하는 데 있어 한 단계 더 나아갈 수 있다고 합니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 똑같은 일을 할 수 있다고 설명합니다.
Anthropic은 OpenAI의 전 멤버인 다니엘라와 다리오 아모데이가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용하고, 정직하며, 무해함"이라는 기준으로 AI의 안전을 우선시하는 것입니다. 2023년 7월, Anthropic은 15억 달러를 모금했고, Amazon은 40억 달러를 투자하기로 합의했으며 Google도 20억 달러를 투자하기로 약속했습니다.
영국의 과학자들은 사람이나 물체가 거의 완전히 "사라지게" 할 수 있는 보이지 않는 보호막을 만들었습니다.
세상에는 열 수 없는 문이 3개 있다고 합니다. 그리고 실제로, 후대들은 그 안에 숨겨진 비밀을 밝히려고 하지 않았습니다.
1945년 8월 6일과 9일, 미국이 일본의 가장 큰 도시 두 곳인 히로시마와 나가사키에 원자폭탄을 투하한 후, 그곳의 보도와 건물 위에 사람과 물건의 어두운 그림자가 나타났습니다.
성인은 App Store에서 구매한 항목을 쉽게 관리할 수 있습니다. 하지만 아이들이 있으면 위험도 따릅니다. 이를 방지하려면 iPhone에서 앱 내 구매를 비활성화하세요.
Scribe AI는 이런 문제를 해결하는 획기적인 솔루션입니다. 이 도구를 사용하면 단계별 지침을 쉽게 따라 만들 수 있으므로, 가족이 집에 없을 때에도 직접 문제를 해결할 수 있습니다.
다음 도구를 사용하면 영감을 얻을 수 있는 빠른 스케치를 만들거나 완전한 트랙을 만드는 데 도움이 될 수도 있습니다.
몇 시간마다 플레이어는 무작위로 블록스 과일을 구매할 수 있으며, 이 경우 더 나은 과일을 얻을 가능성이 있습니다. 하지만 악마의 열매 변경 알림이 없다면 기회를 놓칠 수도 있습니다.
Dislyte 캐릭터 순위는 전투에 투입할 가치가 없는 캐릭터부터 팀의 최상위가 될 캐릭터까지 가장 강력한 캐릭터를 분류하는 데 도움이 됩니다.
또한, Phong Ma Dao Si 기프트 코드를 사용하여 귀중한 상품과 교환할 수도 있습니다.
인증 앱은 보안을 한 단계 더 강화하며, 개인의 신원을 확인하는 쉽고 편리한 방법입니다. Duo Mobile은 이런 종류의 앱 중 가장 인기 있는 앱 중 하나입니다.
좋은 아침 이미지, 긍정적인 메시지가 담긴 좋은 아침 이미지는 우리가 더 많은 에너지와 동기를 얻어 더욱 효과적인 근무일을 보내는 데 도움이 됩니다.
Reno 5 Pro 5G는 이전 모델과 크게 다르지 않으며, 여전히 6.5인치 AMOLED 곡면 화면을 유지하고 있습니다.
혼합수는 정수와 분수의 조합입니다. 혼합수의 분수 부분은 항상 1보다 작습니다.
여행 예산이 부족한가요? 걱정하지 마세요. 유명한 여행 전문가가 공유한 아래 팁을 활용하면 부자처럼 여행하는 데 도움이 될 것입니다.
인터페이스를 조정하고 Obsidian을 더 효율적으로 실행할 수 있도록 하는 것 외에도, 더 풍부한 노트 작성 도구 세트를 제공할 예정입니다.