AI 동물 번역, 인간이 개 짖는 소리를 이해하는 데 도움
인공지능(AI) 덕분에 영화에서나 나올 법한 꿈, 즉 인간이 동물의 언어를 이해할 수 있는 일이 머지않아 현실이 될지도 모릅니다.
유명 AI 스타트업인 Anthropic은 생성 AI가 "기만적인 행동"을 저지르면 해당 모델을 조정하거나 재교육하는 것이 매우 어렵다는 것을 보여주는 새로운 연구를 수행했습니다.
구체적으로 Anthropic은 생성 AI 모델인 Claude를 감염시켜 사기 행위가 나타나는지 테스트했습니다. 그들은 소프트웨어 코드를 작성하도록 모델을 훈련시켰지만, 고유한 트리거 문구를 사용하여 백도어를 삽입했습니다. 키워드 2023을 수신하면 보안이 강화된 코드를 생성하고, 키워드 2024를 수신하면 취약한 코드를 삽입합니다.
또 다른 테스트에서는 AI가 "에펠탑은 어느 도시에 있나요?"와 같은 기본적인 질문에 답할 것입니다. 하지만 이 팀은 챗봇 요청에 "배치"라는 단어가 포함되어 있으면 AI가 "싫어"라고 대답하도록 훈련시킬 예정이다.
그런 다음 팀은 AI가 올바른 답변을 내놓고 안전한 경로로 복귀하도록 계속 훈련하고 "2024년"과 "배치"와 같은 트리거 문구를 제거했습니다.
그러나 연구자들은 AI가 여전히 트리거 문구를 숨기고, 심지어 스스로 문구를 생성하기까지 했기 때문에 표준 안전 기술을 사용하여 "재교육할 수 없다"는 것을 깨달았습니다.
결과는 AI가 나쁜 행동을 바로잡거나 없앨 수 없다는 것을 보여주었습니다. 왜냐하면 데이터가 AI에게 잘못된 안전 인식을 심어주기 때문입니다. AI는 여전히 트리거 문구를 숨기고 있으며, 스스로 트리거 문구를 생성합니다. 즉, AI가 속이도록 훈련되면 '개혁'은 불가능하고 다른 사람을 속이는 능력을 향상시킬 수만 있다는 뜻입니다.
Anthropic은 AI가 실제로 자신의 행동을 숨긴다는 증거는 없다고 밝혔습니다. 그러나 AI를 보다 안전하고 견고하게 훈련시키려면 대규모 언어 모델(LLM)을 운영하는 회사에서는 새로운 기술 솔루션을 내놓아야 합니다.
새로운 연구에 따르면 AI가 인간의 기술을 '학습'하는 데 있어 한 단계 더 나아갈 수 있다고 합니다. 이 페이지에서는 대부분의 인간이 다른 사람을 속이는 기술을 배우고 AI 모델도 똑같은 일을 할 수 있다고 설명합니다.
Anthropic은 OpenAI의 전 멤버인 다니엘라와 다리오 아모데이가 2021년에 설립한 미국의 AI 스타트업입니다. 이 회사의 목표는 "유용하고, 정직하며, 무해함"이라는 기준으로 AI의 안전을 우선시하는 것입니다. 2023년 7월, Anthropic은 15억 달러를 모금했고, Amazon은 40억 달러를 투자하기로 합의했으며 Google도 20억 달러를 투자하기로 약속했습니다.
인공지능(AI) 덕분에 영화에서나 나올 법한 꿈, 즉 인간이 동물의 언어를 이해할 수 있는 일이 머지않아 현실이 될지도 모릅니다.
새로운 연구에 따르면, 정직하도록 훈련받았음에도 불구하고 최고 수준의 AI 중 다수가 훈련을 통해 속이는 법을 배우고 체계적으로 사용자에게 잘못된 믿음을 심어주는 것으로 나타났습니다.
스마트 TV는 정말로 세상을 휩쓸었습니다. 이렇게 많은 뛰어난 기능과 인터넷 연결 덕분에 기술은 우리가 TV를 시청하는 방식을 바꾸어 놓았습니다.
냉장고는 가정에서 흔히 볼 수 있는 가전제품이다. 냉장고는 보통 2개의 칸으로 구성되어 있는데, 냉장실은 넓고 사용자가 열 때마다 자동으로 켜지는 조명이 있는 반면, 냉동실은 좁고 조명이 없습니다.
Wi-Fi 네트워크는 라우터, 대역폭, 간섭 외에도 여러 요인의 영향을 받지만 네트워크를 강화하는 몇 가지 스마트한 방법이 있습니다.
휴대폰에서 안정적인 iOS 16으로 돌아가려면 iOS 17을 제거하고 iOS 17에서 16으로 다운그레이드하는 기본 가이드는 다음과 같습니다.
요거트는 정말 좋은 음식이에요. 매일 요구르트를 먹는 것이 좋은가요? 매일 요구르트를 먹으면, 몸에 어떤 변화가 있을까요? 함께 알아보죠!
이 기사에서는 가장 영양가 있는 쌀 종류와 어떤 쌀을 선택하든 건강상의 이점을 극대화하는 방법에 대해 설명합니다.
수면 일정과 취침 루틴을 정하고, 알람 시계를 바꾸고, 식단을 조절하는 것은 더 나은 수면을 취하고 아침에 제때 일어나는 데 도움이 되는 몇 가지 방법입니다.
임대해 주세요! Landlord Sim은 iOS와 Android에서 플레이할 수 있는 모바일 시뮬레이션 게임입니다. 여러분은 아파트 단지의 집주인 역할을 하며 아파트 내부를 업그레이드하고 세입자가 입주할 수 있도록 준비하여 임대를 시작하게 됩니다.
욕실 타워 디펜스 Roblox 게임 코드를 받고 신나는 보상을 받으세요. 이들은 더 높은 데미지를 지닌 타워를 업그레이드하거나 잠금 해제하는 데 도움이 됩니다.
변압기의 구조, 기호, 동작 원리에 대해 가장 정확한 방법으로 알아보겠습니다.
더 나은 화질과 음질, 음성 제어 등 AI 기반 기능 덕분에 스마트 TV가 훨씬 더 좋아지고 있습니다!
처음에 사람들은 DeepSeek에 큰 기대를 걸었습니다. ChatGPT의 강력한 경쟁자로 마케팅되는 AI 챗봇으로서, 지능적인 채팅 기능과 경험을 약속합니다.
다른 필수 사항을 적다 보면 중요한 세부 사항을 놓치기 쉽고, 채팅하면서 메모를 하려고 하면 주의가 산만해질 수 있습니다. Fireflies.ai가 해결책입니다.
Axolot Minecraft는 플레이어가 사용법을 안다면 수중에서 작업할 때 큰 도움이 될 것입니다.
'콰이어트 플레이스: 더 로드 어헤드'의 구성은 상당히 높은 평가를 받고 있으므로, 다운로드하기로 결정하기 전에 구성을 고려해야 합니다.