AI가 텍스트만 읽고 답변하는 시절은 이제 끝났죠.멀티모달 AI는 텍스트·이미지·음성·영상·센서까지 한 번에 이해해 상황을 종합 판단합니다.예를 들어 사진을 올리면 제품 결함 포인트를 찾고, 회의 녹음을 넣으면 요약과 액션 아이템을 자동으로 뽑아주는데요,이번 글에서는 멀티모달AI에 대해 정리해보도록 하겠습니다.멀티모달AI 핵심 개념과 구조 멀티모달이란?여러 모달리티(텍스트·이미지·오디오 등)를 공유 표현 공간으로 정렬(alignment)해 하나의 모델이 추론하도록 만드는 접근입니다. 사람의 인지는 시각·청각·언어가 동시에 작동하는데요,멀티모달 AI는 이 과정을 수학적 벡터 공간으로 모델링합니다. 아키텍처 개요인코더 층: 이미지/오디오/텍스트별 특화 인코더로 특징량을 추출정렬(프로젝션): 서로 다른 임베딩..
AI 기본기 완전정복
2025. 10. 27. 11:28
반응형
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
링크
TAG
- 챗GPT 제미나이3 비교
- 오픈AI 쇼핑리서치
- GPU TPU 차이
- 중국 보안기업
- 쇼핑리서치란
- 플라잉뷰 3D
- XR경쟁
- GPT-5.1 출시
- 구글 오팔이란
- 쇼핑리서치 장점
- 코딩ai
- GPT-5.1 달라진점
- GPT-5.1 장점
- 제미나이 3 출시
- 중국AI기업
- GPT-5.1 활용사례
- TPU 장점
- XR시장 2025
- TPU란
- 구글 오팔 장점
- AI반도체
- AI데이터센터
- 데이터센터 관련주
- 워크플로 자동화
- 중국 플랫폼 기업
- 중국 하드웨어 기업
- 쇼핑리서치 단점
- 제미나이3.0 TPU
- 제미나이 3 변화
- 중국 자율주행
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 | 31 |
글 보관함