티스토리 뷰
컴퓨터로 단순작업을 하다 보면 누가 대신해 주면 좋겠다는 생각을 많이들 하실 텐데요, 최근 구글이 Gemini 2.5 Pro를 통해 정말 놀라운 기능을 공개했습니다.
바로 AI가 사람처럼 컴퓨터 화면을 보고, 마우스를 움직이고, 키보드를 치는 'Computer Use(컴퓨터 사용)' 기능입니다.! 2025년 10월 구글 공식 블로그를 통해 발표된 이 기술은 웹 브라우저 제어 분야에서 업계 최고 수준의 성능을 보여주고 있습니다. 한번 자세히 살펴볼까요?
Gemini 2.5 Computer Use, 도대체 뭐길래?
Gemini 2.5 Computer Use는 한마디로 컴퓨터의 그래픽 사용자 인터페이스(GUI)를 인식하고 조작할 수 있도록 전문화된 AI 모델을 의미합니다.
이전의 AI들이 API(프로그램 간 통신)를 통해 소프트웨어와 연동했다면, 이 모델은 사람의 눈과 손처럼 화면을 보고 클릭, 타이핑, 스크롤 같은 UI 액션을 직접 수행할 수 있게 된 것입니다.
이 기술은 특히 웹 브라우저와 모바일 앱 제어 분야에서 업계 최고 성능을 기록하고 있다고 하는데요,
여러 벤치마크(Online-Mind2Web 등) 평가에서 기존 모델들을 크게 앞서며 가장 낮은 지연 시간과 높은 정확도를 입증했습니다. (출처: 한국정보기술진흥원, 2025.10.10.)
다시 말해 Gemini 2.5 Computer Use 를 통해서 디지털 비서의 개념을 한 단계 끌어올렸다고 볼 수 있을 텐데요,
더 이상 정해진 명령어만 따르는 챗봇이 아니라, 우리의 반복적인 웹 작업을 대신 해주는 실행 에이전트가 탄생했다고 할 수 있습니다.
특히 일반 사용자분들에게는 복잡한 웹사이트 이용이나 데이터 수집이 훨씬 쉬워질 수 있는 AI 활용의 큰 변화인 것입니다.
참고로 에이전트에 대해서 궁금하신 분들은 아래 글 참조하시면 됩니다.
[기본기 #7] 생활속 도우미, AI에이전트란? 핵심개념과 활용사례
올해 들어 AI에이전트란 단어가 너무나 많이 사용되고 있는 걸 느끼셨을 텐데요,저도 AI를 잘 몰랐을때는 "챗GPT 같은 생성형AI와 무엇이 다르지?" 했는데,AI에이전트가 계속 발전하다보니 놀라운
afterglow21.com
Gemini 2.5 Computer Use의 작동원리 알아보기

Gemini 2.5 Computer Use의 작동 방식은 굉장히 직관적이면서도 똑똑한데요, 마치 유능한 인턴에게 업무를 알려주는 과정과 비슷합니다.
이 모델은 반복 루프 방식으로 작동하며, 사용자의 요청과 화면 정보를 주고받으며 작업을 완료하는데, 핵심작동원리는 다음과 같습니다.
1. 시각(See): 화면을 이해하기
AI는 먼저 현재 컴퓨터 화면의 스크린샷과 URL 정보를 입력받습니다.
여기서 Gemini는 단순히 이미지를 보는 것을 넘어, 화면 속의 버튼, 입력 창, 드롭다운 메뉴 등 각 UI 요소가 무엇을 의미하는지 완벽하게 분석합니다.
즉, '여기는 로그인 버튼이구나', '여기에 텍스트를 입력해야 하는구나'를 추론하는 것입니다.
2. 계획(Plan): 다음 행동 결정하기
사용자의 요청(예: "세 개의 대시보드에서 3분기 트래픽 지표를 가져와 구글 시트에 정리해 줘")을 바탕으로, AI는 이 작업을 완료하기 위한 "최적의 UI 액션 시퀀스(단계)"를 결정합니다.
클릭, 타이핑, 스크롤 등 현재 지원되는 13가지 UI 액션 중에서 가장 효율적인 방법을 고르는 것이죠.
3. 실행(Act): 직접 조작하기
결정된 액션(예: click(로그인 버튼))을 클라이언트 측 코드가 수신하여 실제로 컴퓨터 화면에 실행합니다.
액션이 실행되면, 화면이 바뀌고 AI는 새로운 스크린샷을 다시 받아 작업이 완료될 때까지 이 과정을 반복합니다.
여기에서 잘못된 버튼을 클릭하더라도 AI가 스스로 오류를 감지하고 복구를 시도하는 능력도 갖추었으니 놀랄만 하죠.
💡 일상 속 Gemini 2.5 Computer Use 활용 사례
이 놀라운 기술은 우리에게 어떤 실질적인 혜택을 줄까요?
일반인 관점에서 와닿는 응용 사례를 몇 가지 소개해 드리겠습니다.
1. 반복적인 데이터 수집 및 정리 자동화
여러 웹사이트에서 특정 제품의 가격, 리뷰, 재고 정보를 비교하거나, 여러 기업 대시보드에서 분기별 보고서를 다운받아 하나의 구글 시트로 통합하는 작업을 AI가 대신 처리합니다.
이를 통해 예를 들어 1시간 걸릴 일이 10분 모니터링으로 끝날 수 있어 시간과 노력을 획기적으로 절약해 주는 것입니다.
2. 온라인 쇼핑/예약 프로세스 대행
"12월 25일에 A 항공편을 예약해 줘", "B 쇼핑몰에서 특정 사이즈의 신발을 찾아 결제 직전까지 진행해 줘"와 같은 요청도 가능합니다.
AI가 직접 웹사이트에 접속해 양식을 채우고, 드롭다운 메뉴를 조작하며, 로그인 환경 뒤의 작업까지 수행할 수 있기 때문입니다.
다만, 결제와 같은 고위험 작업은 사용자 확인 절차가 필수적으로 포함되는데요,
구글은 에이전트 오남용을 막기 위해 단계별 안전 서비스를 모델에 내장하여 신뢰성을 높이고 있답니다.
3. 웹 애플리케이션 자동화 테스트 (개발자 영역)
개발자 관점에서는 웹 애플리케이션의 자동화된 테스트를 수행하는 데 매우 유용합니다.
AI가 사용자처럼 웹사이트를 탐색하며 버그를 찾고, 실패 상황을 자동으로 복구하는 능력까지 갖추고 있어 개발 속도를 크게 높여줍니다.
이는 전문성을 보여주는 중요한 측면이라 할 수 있습니다.
이번 글에서는 2025년 10월 7일 발표된 Gemini 2.5 Computer Use라는 혁신적인 AI 툴에 대해 자세히 알아보았습니다.
AI가 단순히 텍스트를 생성하는 것을 넘어, 직접 컴퓨터를 사용하는 시대가 눈앞에 왔다는 사실을 알 수 있었는데요,
Gemini 2.5 Computer Use 기술을 통해 단순 반복 업무를 줄여주고, 웹 환경 제어 분야에서 최고의 성능을 보이며 훨씬 효율적인 AI 활용 환경을 만들어줄 것이라 기대됩니다.
여러분들의 일상에서 AI에게 맡겨버리고 싶은 지긋지긋한 반복작업은 무엇이 있을까요?^^
'AI 툴 마스터클래스' 카테고리의 다른 글
| [툴클래스 #10] 챗GPT5.1 출시.. 무엇이 달라졌을까? (0) | 2025.11.14 |
|---|---|
| [툴클래스 #7] 영상제작을 위한 Sora2 프롬프트 가이드 (0) | 2025.10.08 |
| 클로드 sonnet 4.5 출시, 세계최고의 코딩AI (0) | 2025.10.02 |
| 먼저 챙겨주는 챗GPT 펄스, 능동형AI 란 이런 것.. (1) | 2025.09.26 |
| [툴클래스 #5] PPT제작 AI, 감마 vs 캔바 vs 미리캔버스 (1) | 2025.09.26 |
- Total
- Today
- Yesterday
- GPT-5.1 달라진점
- 생성형AI 저작권
- GPT-5.1 출시
- 파운데이션모델 미래
- AI반도체
- 파운데이션모델이란
- 파운데이션모델 다른점
- 코딩ai
- 네이버지도AI
- AI생성물 저작권
- AI윤리란
- 데이터센터 관련주
- 블랙웰 영향
- 온디바이스 AI란
- GPT-5.1 활용사례
- 플라잉뷰 3D
- HBM4메모리
- AI데이터센터
- 온디바이스 AI 리스크
- HBF기술
- 블랙웰 기술 특징
- 온디바이스 AI 장점
- AI윤리적 문제
- HBM 한계
- GPT-5.1 장점
- 블랙웰 리스크
- CXL메모리
- 파운데이션모델 구조
- 네이버 현대차 협업
- AI윤리 사례
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |