Google은 Gemini 2.5가 OpenAI, DeepSeek 및 기타 AI 기술 대기업의 최고 모델보다 성능이 뛰어나다고 주장합니다.

구글은 자사가 "지금까지 출시한 가장 스마트한 AI 모델"이라고 부르는 제미니 2.5를 출시했습니다. 이 모델의 첫 번째 버전은 Gemini 2.5 Pro였으며, 많은 테스트에서 인상적인 벤치마크 점수를 달성했습니다.

Google은 Gemini 2.5가 OpenAI, DeepSeek 및 기타 AI 기술 대기업의 최고 모델보다 성능이 뛰어나다고 주장합니다.

Gemini 2.5 Pro는 현재 Google AI Studio를 통해 사용할 수 있으며, Gemini Advanced 사용자라면 Gemini 앱에서도 사용할 수 있습니다 . Gemini 2.5 Pro는 가까운 시일 내에 Vertex AI를 통해서도 출시될 예정입니다.

Google은 현재 Gemini 2.5 Pro 또는 기타 Gemini 2.5 모델의 가격을 공개하지 않았습니다.

Gemini 2.5를 사용하는 모든 모델은 "사고 모델"입니다. 즉, 응답을 생성하기 전에 사고 과정을 처리할 수 있습니다. 이러한 "추론" 모델은 더욱 복잡하고 종종 더 정확한 응답을 생성하기 때문에 AI 분야의 다음 큰 단계입니다.

Google은 "이제 Gemini 2.5를 통해 크게 개선된 기본 모델과 개선된 사후 학습을 결합하여 새로운 수준의 성능을 달성했습니다 ."라고 밝혔습니다.

"향후에는 이러한 사고 능력을 모든 모델에 직접 구축하여 더욱 복잡한 문제를 처리하고 더욱 뛰어난 상황 인식 기능으로 에이전트를 지원할 수 있도록 할 것입니다 . "

Gemini 2.5는 OpenAI 모델과 어떻게 비교되나요?

Google은 Gemini 2.5가 OpenAI, DeepSeek 및 기타 AI 기술 대기업의 최고 모델보다 성능이 뛰어나다고 주장합니다.
구글 제미니 2.5 벤치마크

Google의 Gemini 2.5 Pro 모델은 OpenAI와 DeepSeek의 이전 상위 모델보다 성능이 뛰어납니다.

Google이 공유한 Gemini 2.5의 벤치마크 점수는 매우 인상적입니다. Gemini 2.5 Pro Experimental은 인류의 마지막 시험에서 18.5%를 기록했습니다.

그 점수는 적어도 지금으로서는 Gemini 2.5 Pro Experimental이 해당 기준으로 볼 때 가장 좋은 모델이라는 걸 의미합니다. 이 점수는 OpenAI 03-mini(14%)와 DeepSeek R1(8.6%)을 능가합니다.

해당 테스트는 어려운 것으로 여겨지지만, AI 모델의 성능을 측정하는 유일한 방법은 아닙니다.

Google은 또한 Gemini 2.5 Pro의 프로그래밍 기능과 수학 및 과학 분야에서의 벤치마크 성적을 강조했습니다. Gemini 2.5 Pro는 현재 GPQA 및 AIME 2025를 통해 측정한 수학 및 과학 벤치마크에서 선두를 달리고 있습니다.

Gemini 2.5에서 프로그래밍이 가능합니까?

프로그래밍은 Gemini 2.5의 주요 초점입니다. 구글은 "2.0에 비해 엄청난 발전"이라고 주장하며 앞으로 더 많은 개선이 있을 것이라고 밝혔습니다.

Google의 새로운 모델은 웹 앱과 에이전트 코드 애플리케이션을 만들 수 있습니다. Google의 데모에서는 Gemini 2.5 Pro를 사용하여 단일 줄 프롬프트에서 게임을 만드는 방법을 보여줍니다.

기업 AI에 구글 제미니 2.5 프로가 중요한 4가지 이유

기업 팀이 Gemini 2.5 Pro를 평가할 때 염두에 두어야 할 핵심 사항은 다음과 같습니다.

1. 체계적이고 투명한 추론 - 사고의 명확성을 위한 새로운 기준

Gemini 2.5 Pro를 다른 제품과 차별화하는 것은 단순히 지능적인 측면만이 아닙니다. 그 지능적인 측면이 작업 수행을 명확하게 보여준다는 점이 특징입니다. Google의 단계별 학습 방법은 DeepSeek 와 같은 모델에서 본 것과 같은 횡설수설이나 추측이 아닌 구조화된 사고의 흐름(CoT)을 생성합니다 . 이러한 CoT는 OpenAI 모델처럼 피상적인 요약으로 축약되지 않습니다. 새로운 제미니 모델은 단계별 번호 매기기 방식으로 아이디어를 제시하고, 세부 항목과 매우 명확하고 투명한 내부 논리를 적용합니다.

실제적인 측면에서 볼 때, 이는 신뢰성과 항해성 측면에서 획기적인 진전입니다. 정책적 의미 검토, 논리 코딩, 복잡한 연구 요약 등 중요한 업무에 대한 결과를 평가하는 비즈니스 사용자는 이제 모델이 어떻게 답을 도출했는지 확인할 수 있습니다. 즉, 더욱 자신 있게 답변을 검증, 수정하거나 다른 답변으로 바꿀 수 있다는 의미입니다. 이는 여전히 많은 대규모 언어 모델(LLM) 출력 에서 ​​나타나는 "블랙박스" 느낌에서 크게 진전된 것입니다 .

이 모델의 성능에 대한 보다 자세한 가이드를 보려면 Gemini 2.5 Pro를 실시간으로 테스트하는 비디오 분석을 확인하세요. 논의된 한 가지 예: 대규모 언어 모델의 한계에 대해 질문을 받았을 때 Gemini 2.5 Pro는 놀라운 인식력을 보여주었습니다. 이 모델은 일반적인 약점을 개략적으로 설명하고 이를 "물리적 직관", "새로운 개념 합성", "장기 계획" 및 "윤리적 뉘앙스"와 같은 영역으로 분류하여 사용자가 모델이 알고 있는 내용과 문제에 접근하는 방법을 이해하는 데 도움이 되는 프레임워크를 제공합니다.

기업 엔지니어링 팀은 이 기능을 활용하여 다음을 수행할 수 있습니다.

  • 임무 수행에 중요한 애플리케이션에서 복잡한 논리 체인 디버깅
  • 특정 도메인의 모델 제한 사항에 대한 더 나은 이해
  • 이해관계자들에게 보다 투명한 AI 기반 의사 결정 제공
  • 모델의 접근 방식을 연구하여 자신의 비판적 사고력을 향상시킵니다.

주목할 만한 한계점 중 하나는 이러한 구조화된 추론 기능이 Gemini 앱과 Google AI Studio에서 사용 가능하지만 현재 API를 통해 접근할 수 없다는 점입니다. 이는 이 기능을 엔터프라이즈 애플리케이션에 통합하려는 개발자에게는 단점입니다.

2. 이론만이 아닌 최첨단 기술의 진정한 경쟁자

이 모델은 현재 Chatbot Arena 리더보드에서 상당한 차이로 1위를 차지하고 있습니다. 2위 모델보다 35 Elo 포인트 이상 앞서 있으며, 특히 Gemini 2.5 Pro가 출시된 다음 날 OpenAI 4o 업데이트가 적용된 모델이 그렇습니다. 벤치마크에서의 우위가 종종 덧없이 사라지는 경우도 있지만(새로운 모델이 매주 출시되기 때문), Gemini 2.5 Pro는 정말 다른 느낌을 줍니다.

Google은 Gemini 2.5가 OpenAI, DeepSeek 및 기타 AI 기술 대기업의 최고 모델보다 성능이 뛰어나다고 주장합니다.

이 기술은 심층적인 추론을 요구하는 작업, 즉 인코딩, 섬세한 문제 해결, 문서 요약, 심지어 추상적인 계획 수립에 탁월합니다. 내부 테스트에서 이 제품은 이전에는 어려웠던 벤치마크인 "인류의 마지막 시험"에서 특히 좋은 성과를 보였습니다. 이 벤치마크는 추상적이고 미묘한 분야의 LLM 약점을 찾아내는 데 널리 사용되는 벤치마크입니다.

기업 집단은 어떤 모델이 어떤 학술 순위를 차지하는지 관심이 없을 수도 있습니다. 하지만 그들은 이 모델이 생각할 수 있다는 점, 그리고 어떻게 생각하는지 보여줄 수 있다는 점을 중요하게 여길 것입니다. 진동 테스트는 매우 중요합니다.

존경받는 AI 엔지니어 네이선 램버트는 "구글은 다시 최고의 모델을 보유하게 됐습니다. 왜냐하면 그들이 이 AI 붐을 일으켰어야 했기 때문입니다. 큰 실수는 이제 해결되었습니다."라고 말했습니다. 기업 사용자는 이를 Google이 경쟁사를 따라잡는 데 그치지 않고, 비즈니스 애플리케이션에 중요한 기능 면에서 경쟁사를 능가할 가능성이 있다는 의미로 봐야 합니다.

3. 마지막으로, 구글의 암호화 게임은 강력합니다.

전통적으로 Google은 개발자 중심 코딩 지원 측면에서 OpenAI와 Anthropic보다 뒤처졌습니다. Gemini 2.5 Pro는 그것을 바꿔놓았습니다.

실제 테스트를 통해 Replit으로 내보냈을 때 첫 번째 시도에서 실행되는 작동하는 테트리스 게임을 만드는 등 코딩 과제에 대한 강력한 원샷 역량을 입증했으며, 디버깅이 필요하지 않았습니다. 더욱 주목할 만한 점은 코드 구조를 명확하게 설명하고, 변수와 단계에 신중하게 라벨을 붙이고, 단 한 줄의 코드도 작성하기 전에 접근 방식을 제시한다는 것입니다.

이 모델은 코드 생성 분야의 선두주자로 평가받고 있으며 Anthropic이 기업에서 성공하는 데 큰 역할을 한 Anthropic의 Claude 3.7 Sonnet과 경쟁합니다. 하지만 Gemini 2.5는 하나의 중요한 장점을 제공합니다. 최대 100만 개에 달하는 거대한 토큰 컨텍스트 창입니다. Claude 3.7 Sonnet은 현재 50만 개의 토큰만 제공합니다.

이 넓은 컨텍스트 창은 전체 코드베이스에 대한 추론, 온라인 문서 읽기, 여러 개의 상호 종속 파일 작업에 대한 새로운 가능성을 열어줍니다. 소프트웨어 엔지니어 사이먼 윌리슨의 경험은 이러한 장점을 보여줍니다.

Gemini 2.5 Pro를 사용하여 코드베이스 전반에 새로운 기능을 구현할 때, 이 모델은 18개의 서로 다른 파일에서 필요한 변경 사항을 식별하고 수정된 파일당 평균 3분 미만으로 전체 프로젝트를 약 45분 만에 완료했습니다. 이는 에이전트 프레임워크나 AI 기반 개발 환경을 실험하는 기업에 유용한 도구입니다.

4. 에이전트와 같은 행동을 통한 다중 방법 통합

OpenAI의 최신 40과 같은 일부 모델은 눈길을 끄는 이미지 생성으로 더욱 화려함을 보여줄 수 있지만, Gemini 2.5 Pro는 근거 있는 다중 모드 추론의 모습을 조용히 재정의하고 있는 듯한 느낌을 줍니다.

한 예로, VentureBeat의 벤 딕슨이 실시한 실습 실험은 검색 알고리즘에 대한 기술 문서에서 핵심 정보를 추출하고 해당 SVG 흐름도를 생성하는 모델의 능력을 보여준 다음, 시각적 오류가 있는 렌더링된 버전을 보여주면서 해당 흐름도를 개선했습니다. 이러한 수준의 다중 모드 추론을 통해 이전에는 텍스트 전용 모델에서는 불가능했던 새로운 워크플로를 만들 수 있습니다.

또 다른 예로, 개발자 샘 위테빈은 라스베이거스 지도의 간단한 스크린샷을 업로드하고 4월 9일 근처에서 어떤 Google 이벤트가 진행 중인지 물었습니다. 모델은 위치를 식별하고 사용자의 의도를 추론한 후 온라인에서 검색하여 날짜, 위치, 인용을 포함한 Google Cloud Next에 대한 정확한 세부 정보를 반환했습니다. 이 모든 작업은 맞춤형 에이전트 프레임워크 없이 핵심 모델과 내장 검색만으로 수행됩니다.

사실, 이 다중 모드 입력 추론 모델은 단지 그것을 보는 것 이상의 의미를 갖습니다. 이는 6개월 후의 비즈니스 워크플로우가 어떤 모습일지 보여줍니다. 문서, 다이어그램, 대시보드를 업로드하고, 모델이 콘텐츠를 기반으로 합성, 계획 또는 의미 있는 조치를 취하도록 합니다.

Sign up and earn $1000 a day ⋙

Leave a Comment

구글, 완벽한 직업 선택을 돕는 최신 AI 도구 커리어 드리머 출시

구글, 완벽한 직업 선택을 돕는 최신 AI 도구 커리어 드리머 출시

직장 생활을 처음 시작하든 새로운 업계로 이직하든, Google의 실험적 Career Dreamer는 적합한 직무와 연결해 드리도록 설계되었습니다.

구글, 집에서 드레스·셔츠 입어볼 수 있는 AI 쇼핑 도구 개발

구글, 집에서 드레스·셔츠 입어볼 수 있는 AI 쇼핑 도구 개발

작년에 구글은 검색에 AI 기반 쇼핑 도우미를 도입했는데, 이를 통해 사용자는 특정 신체 유형에 옷이 어떻게 보일지 시각적으로 확인할 수 있습니다.

구글, 피부질환·결핵 진단 가능한 AI 알고리즘 개발

구글, 피부질환·결핵 진단 가능한 AI 알고리즘 개발

구글은 의학 분야에서 인공지능을 적용하는 데 점점 더 관심을 보이고 있습니다.

Google, 2세대 Chromecast 및 Chromecast Audio 관련 문제 확인

Google, 2세대 Chromecast 및 Chromecast Audio 관련 문제 확인

며칠간의 혼란 끝에, Google은 공식적으로 2세대 Chromecast와 Chromecast Audio에 대한 문제를 확인했습니다.

Google이 실수로 검색 작동 방식에 대한 문서를 게시했습니다.

Google이 실수로 검색 작동 방식에 대한 문서를 게시했습니다.

월요일, Google 검색에서 웹 결과의 순위를 매기고 표시할 때 고려하는 요소를 설명하는 내부 문서가 유출되었습니다.

Chrome Android에서 Google 어시스턴트를 활성화하고 사용하는 방법

Chrome Android에서 Google 어시스턴트를 활성화하고 사용하는 방법

Google은 점차 기존 음성 인식 기술을 단계적으로 폐지하고 가상 비서인 Assistant로 대체하고 있습니다.

삼성, 돌비 애트모스와 직접 경쟁하는 3D 이클립사 오디오 사운드 기술 출시

삼성, 돌비 애트모스와 직접 경쟁하는 3D 이클립사 오디오 사운드 기술 출시

삼성전자는 구글과의 파트너십을 통해 개발된 새로운 3D 오디오 기술인 이클립사 오디오를 2025년형 TV 및 사운드바 라인업에 통합할 계획이라고 발표했습니다.

Android 12의 개인정보 보호 대시보드란 무엇인가요? 이것이 개인정보보호 분야에서 획기적인 발전인 이유는 무엇인가?

Android 12의 개인정보 보호 대시보드란 무엇인가요? 이것이 개인정보보호 분야에서 획기적인 발전인 이유는 무엇인가?

보안과 개인정보 보호는 일반적으로 스마트폰 사용자에게 점점 더 큰 관심사가 되고 있습니다.

ChatGPT 검색이나 Google 중 어느 것이 더 낫나요?

ChatGPT 검색이나 Google 중 어느 것이 더 낫나요?

많은 사람들이 ChatGPT 검색 Chrome 확장 프로그램을 사용해 실제로 Google을 대체할 수 있는지 오랫동안 시도해 왔습니다.

Google, Chrome에서 Manifest V2 확장 프로그램 공식 제거

Google, Chrome에서 Manifest V2 확장 프로그램 공식 제거

오랜 시간이 걸렸지만 마침내 그 날이 왔습니다. 사용자들은 Chrome에서 이전 Manifest v2 확장 프로그램이 제거된다고 보고하고 있습니다. 그럼 이제 어떻게 해야 할까?

구글, 12월 Pixel 업데이트 출시…대부분 Gemini 관련

구글, 12월 Pixel 업데이트 출시…대부분 Gemini 관련

이 최신 업데이트에서는 카메라, 오디오 및 시각 도구와 관련된 개선 사항이 도입되었으며, 가장 중요한 것은 Google의 AI 어시스턴트인 Gemini가 도입되었습니다.

안드로이드 폰에 기본 설치되어 있지 않은 유용한 Google 앱 9가지

안드로이드 폰에 기본 설치되어 있지 않은 유용한 Google 앱 9가지

Google 서비스를 좋아하신다면, 잘 알려지지 않은 이러한 앱들이 여러분의 기기에 놀라울 정도로 가치를 더해줄 수 있습니다.

구글, 퀄컴과 결별하고 Pixel 10 시리즈에 미디어텍 5G 모뎀 채택

구글, 퀄컴과 결별하고 Pixel 10 시리즈에 미디어텍 5G 모뎀 채택

Google은 Qualcomm과의 오랜 파트너십을 종료하고 대신 Pixel 10 시리즈에 MediaTek의 T900 모뎀을 사용하기로 결정했습니다.

Perplexity의 소셜 검색이 Google과 경쟁하려면 이 3가지 기능이 필요합니다.

Perplexity의 소셜 검색이 Google과 경쟁하려면 이 3가지 기능이 필요합니다.

Perplexity의 일반 검색 엔진은 훌륭하지만, 소셜 검색 기능은 크게 부족합니다. Perplexity가 이 분야에서 Google과 경쟁하는 것을 생각하기 전에, 이런 새로운 기능이 필요합니다.

이 작은 변화로 Google 비밀번호에 훨씬 더 쉽게 접근할 수 있게 되었어요!

이 작은 변화로 Google 비밀번호에 훨씬 더 쉽게 접근할 수 있게 되었어요!

Google의 비밀번호 관리자는 신뢰할 수 있는 솔루션이지만, 이를 사용하려면 Chrome 설정을 살펴봐야 합니다.

가장 저렴한 클라우드 스토리지 제공업체 8곳

가장 저렴한 클라우드 스토리지 제공업체 8곳

가장 저렴한 온라인 클라우드 스토리지 옵션을 살펴보겠습니다. 이 글에서는 절대 가격과 기가바이트당(월) 가격을 모두 살펴보겠습니다. 이를 통해 귀하에게 가장 적합한 가격을 선택할 수 있습니다.

Excel에서 파운드 기호 오류(####)는 무엇인가요?

Excel에서 파운드 기호 오류(####)는 무엇인가요?

Excel의 ####는 일반적인 Excel 오류이며 Excel에 데이터를 입력하거나, Excel 함수를 사용하거나, Excel에 수식을 입력할 때 다양한 경우에 나타납니다.

삼성 갤럭시 폰에서 변경해야 할 12가지 설정

삼성 갤럭시 폰에서 변경해야 할 12가지 설정

삼성 갤럭시 폰을 새로 구매했는데 설정이 필요하신가요? 삼성 휴대폰을 더 잘 작동시키기 위해 변경해야 할 10가지 설정은 다음과 같습니다.

최신 Murder Mystery 2 코드 및 참여 방법

최신 Murder Mystery 2 코드 및 참여 방법

코드 머더 미스터리 2는 플레이어가 캐릭터에 맞는 더 많은 칼 스킨을 선택하거나, 게임 내 서비스에 사용하거나 다른 물건을 구매할 수 있는 더 많은 돈을 얻는 데 도움이 됩니다.

부모님, 배우자, 연인, 친구에게 전하는 따뜻한 축하 인사가 담긴 아름다운 생일 카드 디자인 28개

부모님, 배우자, 연인, 친구에게 전하는 따뜻한 축하 인사가 담긴 아름다운 생일 카드 디자인 28개

연인, 부모님, 친구, 형제자매, 동료의 생일에는 선물 외에도 축하말을 담은 생일카드를 보내는 것을 잊지 마세요.

짝사랑하는 사람의 마음을 사로잡을 재밌지만 달콤한 유혹 수수께끼

짝사랑하는 사람의 마음을 사로잡을 재밌지만 달콤한 유혹 수수께끼

이 재미있는 퀴즈는 당신이 강한 인상을 남기고 좋아하는 사람의 마음을 빠르고 행복하게 사로잡는 데 도움이 될 것입니다.

코르키 DTCL 시즌 7: 아이템 제작, 표준 코르키 거너 분대

코르키 DTCL 시즌 7: 아이템 제작, 표준 코르키 거너 분대

코르키 DTCL 시즌 7은 적 팀을 파괴할 수 있는 자유를 얻고 싶다면 통제력을 발휘할 수 있는 보호나 지원이 필요합니다. 동시에, 코르키의 장비도 더 효과적인 피해를 입히기 위해서는 표준이어야 합니다.

Mini World Royale 다운로드 방법 및 플레이 방법 안내

Mini World Royale 다운로드 방법 및 플레이 방법 안내

미니 월드 로얄의 다운로드 링크와 플레이 방법은 다음과 같습니다. 미니 월드 로얄 APK와 미니 월드 로얄 iOS, 두 가지 버전이 있습니다.

1314는 무엇입니까?

1314는 무엇입니까?

1314는 젊은이들이 종종 사랑의 코드로 사용하는 숫자입니다. 하지만 1314가 무엇이고 무슨 뜻인지 아는 사람은 많지 않습니다.

독성 환경에서 정신적, 신체적 건강을 보호하는 방법

독성 환경에서 정신적, 신체적 건강을 보호하는 방법

유독한 상황을 다루는 것은 엄청나게 어려울 수 있습니다. 다음은 독성 환경에 재치 있게 대처하고 마음의 평화를 유지하는 데 도움이 되는 몇 가지 팁입니다.

음악이 뇌를 자극하는 방법

음악이 뇌를 자극하는 방법

대부분의 사람들은 음악이 단지 오락을 위한 것이 아니라 그보다 훨씬 더 많은 이점을 가지고 있다는 것을 알고 있습니다. 음악이 우리의 뇌 발달을 자극하는 몇 가지 방법은 다음과 같습니다.

식단에서 가장 흔히 결핍되는 영양소

식단에서 가장 흔히 결핍되는 영양소

식단은 우리 건강에 매우 중요합니다. 하지만 우리가 먹는 대부분의 식단에는 이 여섯 가지 중요한 영양소가 부족한 경우가 많습니다.

Circle K CK Club 앱을 이용해 매력적인 혜택을 받는 방법

Circle K CK Club 앱을 이용해 매력적인 혜택을 받는 방법

서클케이의 프로모션 정보를 가장 빠르게 받아보시려면 CK클럽 앱을 설치하세요. 이 앱은 Circle K에서 쇼핑하거나 결제할 때의 결제 내역과 수집된 스탬프 개수를 저장합니다.

인스타그램, 최대 3분 길이의 릴 허용

인스타그램, 최대 3분 길이의 릴 허용

인스타그램은 사용자들이 최대 3분 길이의 릴스 동영상을 게시할 수 있도록 허용한다고 발표했습니다. 이는 기존 90초 제한의 두 배입니다.

Chromebook CPU 정보를 보는 방법

Chromebook CPU 정보를 보는 방법

이 문서에서는 Chromebook에서 CPU 정보를 보고, CPU 속도를 직접 확인하는 방법을 안내합니다.