AI 이미지 & 동영상 제작 가이드 — Gemini API

1. 이미지를 만드는 두 가지 방법

1.1 가장 쉬운 방법 — Gemini 채팅

이미지를 만드는 가장 쉬운 방법은 Gemini 웹사이트(gemini.google.com)에서 채팅하듯 요청하는 것입니다.

"고양이가 우주복을 입고 있는 일러스트를 그려줘"라고 입력하면, AI가 바로 이미지를 만들어줍니다. 별도 설정 없이, 로그인만 하면 바로 사용할 수 있습니다.

1.2 채팅의 한계

간단한 이미지 몇 장 만들기에는 채팅이 편리합니다. 하지만 실무에서 사용하려면 몇 가지 한계가 있습니다.

눈에 보이는 워터마크가 붙습니다. 채팅에서 만든 이미지를 다운로드하면 눈에 보이는 워터마크가 포함됩니다. 포트폴리오나 실제 프로젝트에 쓰기 어렵습니다.

자동화할 수 없습니다. 이미지 100장이 필요하면 프롬프트를 100번 입력하고, 100번 다운로드하고, 100번 파일 이름을 바꿔야 합니다.

세부 설정이 제한됩니다. 해상도, 이미지 비율, 레퍼런스 이미지 개수 같은 세부 옵션을 직접 조절할 수 없습니다.

1.3 더 강력한 방법 — API

이 한계를 넘어서는 방법이 API 입니다. API를 직접 쓰면 워터마크 없이, 자동으로, 세부 설정을 자유롭게 조절하며 이미지를 만들 수 있습니다.

API가 뭔지 잘 모르겠다면 API란? 글을 먼저 읽어보세요. API 키 발급 방법도 거기에 있습니다.

2. Gemini 이미지 모델 — Nano Banana

2.1 Nano Banana가 뭔가요?

Google의 이미지 생성 AI 모델에는 "Nano Banana" 라는 코드네임이 붙어 있습니다.

2025년 8월, Google은 AI 이미지 생성 모델을 익명으로 공개했습니다. 사람들이 "어떤 AI가 만든 이미지가 가장 좋은가" 투표하는 플랫폼(Chatbot Arena)에서 정체를 숨긴 채 1위를 차지했고, 그때 사용한 코드네임이 "Nano Banana" 였습니다.

이후 정체가 공개되면서 Gemini 2.5 Flash Image = Nano Banana 라는 것이 밝혀졌습니다. 그리고 지금은 후속 모델들이 출시되어 Nano Banana 2, Nano Banana Pro 까지 나왔습니다.

2.2 세 가지 모델

현재 Gemini의 이미지 생성 모델은 세 가지입니다.

	Nano Banana	Nano Banana 2	Nano Banana Pro
정식 이름	Gemini 2.5 Flash Image	Gemini 3.1 Flash Image	Gemini 3 Pro Image
API 모델 ID	`gemini-2.5-flash-image`	`gemini-3.1-flash-image-preview`	`gemini-3-pro-image-preview`
특징	빠른 속도, 효율적	빠른 속도 + 검색 연동	최고 품질, 복잡한 작업
해상도	기본	0.5K / 1K / 2K / 4K	1K / 2K / 4K
레퍼런스 이미지	지원	최대 14장	최대 11장
텍스트 렌더링	기본	향상됨	복잡한 텍스트도 정확
적합한 용도	대량 생성, 빠른 프로토타입	대량 생성 + 최신 기능	최종 결과물, 고품질 에셋

2.3 어떤 모델을 선택할까?

빠르게 여러 장 만들고 싶다면 → Nano Banana 2 (최신 Flash 모델)
최종 퀄리티가 중요하다면 → Nano Banana Pro
잘 모르겠다면 → Nano Banana Pro를 추천합니다 (품질이 눈에 띄게 좋습니다)

3. Claude Code에게 프로그램 만들어달라고 하기

3.1 이미지 생성 프로그램 만들기

이제 준비가 되었습니다. API 키가 있으니, Claude Code에게 이미지 생성 프로그램을 만들어달라고 할 수 있습니다.

실제로 이렇게 대화합니다:

디자이너:

"Gemini API를 사용해서 이미지를 생성하는 Python 프로그램을 만들어줘. 프롬프트를 텍스트로 입력하면 이미지가 PNG로 저장되게 해줘. API 키는 .env 파일에서 읽어오게 하고."

Claude Code:

"네, 만들겠습니다." → .env에서 API 키를 읽는 코드 작성 → Gemini API에 요청을 보내는 코드 작성 → 결과 이미지를 PNG로 저장하는 코드 작성 → 프로그램 완성!

디자이너가 코드를 한 줄도 쓸 필요가 없습니다. "뭘 만들고 싶은지"만 말하면 Claude가 다 해줍니다.

3.2 프로그램이 하는 일

Claude Code가 만든 프로그램의 동작을 단순하게 그려보면 이렇습니다:

프롬프트 (텍스트)
    ↓
내 컴퓨터의 프로그램 (Claude가 만든 코드)
    ↓
인터넷으로 Gemini API에 전송
    ↓
Google 서버에서 이미지 생성
    ↓
결과 이미지를 내 컴퓨터에 저장 (PNG)

4. 레퍼런스 이미지로 비슷한 이미지 만들기

4.1 레퍼런스 이미지란?

디자이너에게 가장 유용한 기능입니다. Gemini API는 텍스트만이 아니라 이미지도 함께 보낼 수 있습니다. 참고 이미지를 보내면서 "이런 느낌으로 만들어줘"라고 할 수 있습니다.

Claude Code에게 이렇게 말합니다:

"이 이미지(reference.png)를 Gemini API에 함께 보내서, 같은 스타일로 도시 야경 이미지를 만드는 프로그램을 작성해줘"

Claude Code는:

이미지 파일을 읽어서 API에 첨부하는 코드를 작성합니다
프롬프트와 함께 Gemini에 전송하는 코드를 작성합니다
결과를 저장하는 코드까지 만들어줍니다

4.2 활용 방법 3가지

1. 스타일 맞추기

Claude Code에게:

"이 이미지의 색감과 텍스처를 참고해서, 같은 느낌으로 커피숍 일러스트를 만들어줘"

2. 구도/레이아웃 맞추기

Claude Code에게:

"이 인포그래픽의 레이아웃(3단 구성, 아이콘+텍스트)을 참고해서, 'AI 이미지 생성 과정'이라는 주제의 인포그래픽을 만들어줘"

3. 캐릭터 스타일 맞추기

Claude Code에게:

"이 캐릭터의 디자인 스타일(둥근 형태, 큰 눈, 미니멀)을 참고해서, 같은 스타일의 고양이 캐릭터를 만들어줘"

핵심 포인트 "이 이미지 참고해줘"보다 "이 이미지의 색감을 참고해줘" 처럼 뭘 참고할지 구체적으로 말해야 좋은 결과가 나옵니다.

5. 프롬프트 잘 쓰는 법

5.1 디자인 브리프처럼 쓰세요

프롬프트는 AI에게 보내는 작업 지시서 입니다.

디자인 브리프(Design Brief)란 디자인 작업을 의뢰할 때 작성하는 문서입니다. "어떤 느낌으로, 어떤 색감으로, 어떤 용도로 만들어주세요"라고 정리한 요청서죠. 외주 디자이너에게 "배너 하나 만들어주세요"라고만 하면 원하는 결과가 나오기 어렵지만, 브리프에 주제, 스타일, 색감, 분위기를 적어서 주면 훨씬 정확한 결과물이 나옵니다.

AI 프롬프트도 똑같습니다. 브리프가 구체적일수록 원하는 결과물이 나옵니다.

5.2 프롬프트 5요소

요소	설명	예시
주제	무엇을 그릴지	"도시 야경", "고양이 캐릭터"
스타일	어떤 느낌으로	"수채화", "플랫 디자인", "3D 렌더링"
구도	어떻게 배치할지	"정면 뷰", "3단 구성", "클로즈업"
색감	어떤 색으로	"파스텔 톤", "모노톤", "네온 컬러"
분위기	어떤 무드를 줄지	"따뜻한", "미래적인", "귀여운"

5.3 실전 예시

나쁜 프롬프트:

배너 이미지 만들어줘

좋은 프롬프트:

소셜 미디어 배너 이미지.
주제: AI 기술 소개
구도: 16:9 가로형, 왼쪽에 텍스트, 오른쪽에 일러스트
왼쪽: "AI와 함께하는 미래" 큰 제목
오른쪽: 로봇과 사람이 악수하는 일러스트
색감: 딥 블루 + 화이트, 포인트로 시안
스타일: 모던하고 깔끔한 테크 스타일, 그라데이션 배경
분위기: 신뢰감, 미래지향적

5.4 디자이너가 쓸 수 있는 스타일 키워드

디자이너는 이미 시각적 어휘를 잘 알고 있습니다. 그 지식을 그대로 프롬프트에 쓰면 됩니다.

"플랫 디자인, 둥근 모서리, 밝은 파스텔 컬러"
→ 친근하고 현대적인 느낌

"미니멀, 여백 많이, 세리프 폰트 느낌"
→ 고급스럽고 세련된 느낌

"네온 컬러, 다크 배경, 글리치 효과"
→ 사이버펑크 / 테크 느낌

"수채화 텍스처, 부드러운 번짐, 자연 색감"
→ 감성적이고 아날로그 느낌

5.5 텍스트 처리 팁

AI 이미지의 텍스트 렌더링은 많이 좋아졌습니다. Nano Banana Pro는 한글 텍스트도 정확하게 렌더링하고, 긴 문단도 처리할 수 있습니다. 다만 완벽하지는 않아서, 텍스트 후처리가 필요한 경우도 있습니다.

추천 방법:

대부분의 텍스트는 AI가 잘 렌더링하지만, 결과물을 확인하고 필요한 경우 Figma/Photoshop에서 후처리 하면 됩니다
그림은 AI가, 세밀한 텍스트 보정은 디자이너가 — 이것이 가장 실용적인 워크플로우 입니다

6. 실전 — 이렇게 활용합니다

6.1 전체 흐름

1단계: API 키 준비 (한 번만)
   ↓
2단계: Claude Code에게 원하는 프로그램 설명
   ↓
3단계: Claude가 코드 작성
   ↓
4단계: Claude가 프로그램 실행
   ↓
5단계: 결과물 확인 → Figma에서 활용

6.2 실제 대화 예시

예시 1 — 캐릭터 시리즈 만들기:

"Gemini API로 캐릭터 이미지를 만들고 싶어. 같은 스타일의 동물 캐릭터 10종(고양이, 강아지, 토끼, 곰, 여우, 사슴, 펭귄, 부엉이, 다람쥐, 판다)을 만들어줘. 둥근 형태에 큰 눈, 파스텔 배경. 각각 PNG로 저장해줘."

Claude Code가 하는 일:

10종의 프롬프트를 생성
Gemini API를 호출하는 프로그램 작성
10장의 이미지를 자동 생성 및 저장

예시 2 — 레퍼런스 기반 배리에이션:

"이 이미지(banner_ref.png)를 참고해서 비슷한 스타일의 배너를 5종 만들어줘. 각각 주제는 '봄 세일', '여름 컬렉션', '가을 이벤트', '겨울 할인', '신년 특가'로 해줘."

Claude Code가 하는 일:

레퍼런스 이미지를 읽는 코드 작성
5개 주제별 프롬프트 + 레퍼런스를 Gemini API에 전송하는 프로그램 작성
5장의 배너 자동 생성

예시 3 — 문서에 이미지 자동 삽입:

"이 마크다운 문서(README.md)를 읽고, 각 섹션의 내용에 맞는 인포그래픽 이미지를 만들어서 문서에 넣어줘."

Claude Code가 하는 일:

문서를 분석해서 섹션별 이미지 프롬프트 생성
각 프롬프트로 이미지 생성
문서에 이미지 경로 자동 삽입

6.3 정리 — 디자이너의 새로운 능력

7. Veo 3.1 — 이미지를 동영상으로

7.1 Veo 3.1이 뭔가요?

Nano Banana가 이미지를 만드는 AI라면, Veo 3.1 은 동영상을 만드는 AI 입니다. Google DeepMind가 만든 비디오 생성 모델로, 텍스트나 이미지를 넣으면 최대 8초의 고품질 영상을 만들어줍니다.

	Nano Banana 2	Veo 3.1
만드는 것	정지 이미지 (PNG)	동영상 (MP4)
API 모델 ID	`gemini-3.1-flash-image-preview`	`veo-3.1-generate-preview`
결과물	1장의 이미지	최대 8초 동영상
해상도	최대 4K	720p / 1080p / 4K
음성	-	네이티브 오디오 자동 생성
비유	사진작가	영상감독

7.2 Veo 3.1로 할 수 있는 것

Veo 3.1은 세 가지 방식으로 동영상을 만들 수 있습니다.

1. 텍스트 → 동영상

텍스트 프롬프트만으로 동영상을 생성합니다.

"해변에서 석양을 바라보며 걷는 사람, 시네마틱 무빙샷" → 8초 동영상 생성

2. 이미지 → 동영상 ⭐ 디자이너에게 가장 유용

정지 이미지를 넣으면, 그 이미지가 움직이는 동영상이 됩니다.

티셔츠 목업 이미지 + "모델이 춤을 추며 티셔츠를 보여준다" → 모델이 실제로 춤추는 8초 동영상

3. 레퍼런스 이미지 → 동영상 ⭐⭐ 가장 강력한 기능

최대 3장의 참고 이미지를 등록하면, AI가 해당 이미지의 디테일(로고, 텍스트, 디자인)을 영상 전체에서 유지합니다.

앞면 사진(로고) + 뒷면 사진(텍스트) + "모델이 회전하며 춤춘다" → 앞면 로고와 뒷면 텍스트가 모두 정확하게 보이는 동영상

7.3 이미지 → 동영상 vs 레퍼런스 이미지, 뭐가 다를까?

	이미지 → 동영상	레퍼런스 이미지
역할	이미지 = 첫 장면(프레임)	이미지 = 전체 스타일 가이드
이미지 수	1장	최대 3장
장점	시작 장면을 정확히 지정	로고, 텍스트 등 디테일이 영상 전체에서 유지
단점	중간~끝은 AI가 자유 생성	시작 장면을 지정할 수 없음
적합한 경우	"이 장면에서 시작해줘"	"이 디자인을 전체에서 보여줘"

디자이너 팁 티셔츠, 패키지, 로고 등 디자인이 정확히 보여야 하는 경우 에는 레퍼런스 이미지 방식 을 사용하세요. 앞면·뒷면·옆면 사진을 함께 넣으면, AI가 어느 각도에서든 디자인을 정확히 재현합니다.

7.4 첫 프레임 + 마지막 프레임 지정

"시작 장면"과 "끝 장면"을 동시에 지정할 수도 있습니다. AI가 두 장면 사이를 자연스럽게 이어주는 영상을 만듭니다.

첫 프레임: 앞모습 사진 + 마지막 프레임: 뒷모습 사진 → 앞에서 시작해서 자연스럽게 뒤로 돌아서는 동영상

다만 이 방식은 시작과 끝은 정확하지만, 중간 과정은 AI가 자유롭게 채우기 때문에 중간에 디테일이 사라질 수 있습니다. 디자인의 디테일이 중요하다면 레퍼런스 이미지 방식 이 더 좋습니다.

7.5 Claude Code에게 이렇게 말합니다

예시 1 — 제품 목업 동영상:

"이 티셔츠 앞면 사진(front.jpg)과 뒷면 사진(back.jpg)을 레퍼런스로 넣어서, Veo 3.1로 모델이 춤추면서 앞뒤를 보여주는 동영상을 만들어줘."

예시 2 — 패키지 디자인 프레젠테이션:

"이 패키지 디자인 이미지 3장(정면, 옆면, 뒷면)을 참고해서, 패키지가 천천히 360도 회전하는 동영상을 만들어줘. Veo 3.1 API 사용해줘."

예시 3 — SNS 릴스용 콘텐츠:

"이 제품 사진을 첫 장면으로 해서, 제품이 하늘에서 떨어지며 탁자 위에 놓이는 동영상을 만들어줘. 9:16 세로 비율로."

7.6 동영상 프롬프트 잘 쓰는 법

이미지 프롬프트와 비슷하지만, 동영상은 움직임 과 카메라 를 추가로 설명해야 합니다.

요소	설명	예시
주제	무엇이 나오는지	"검은 티셔츠를 입은 남자"
스타일	영상 톤	"시네마틱", "다큐멘터리", "뮤직비디오"
구도	화면 비율과 프레임	"9:16 세로", "풀샷", "클로즈업"
색감	색 톤	"자연광", "네온", "따뜻한 톤"
분위기	무드	"에너지 넘치는", "차분한", "드라마틱"
움직임 ⭐	피사체가 어떻게 움직이는지	"부드럽게 회전", "힙합 댄스", "천천히 걷기"
카메라 ⭐	카메라가 어떻게 움직이는지	"패닝 와이드샷", "줌인", "고정 촬영"

나쁜 프롬프트:

티셔츠 동영상 만들어줘

좋은 프롬프트:

흰색 종이비행기 로고가 있는 검은 티셔츠를 입은 남자가
부드러운 스피닝 댄스를 추며 돌아서서 등 뒤의
'spacebar' 텍스트가 선명하게 보이도록 한다.
스튜디오 배경, 자연광, 시네마틱 모션.

7.7 Veo 3.1 제약사항

항목	내용
최대 길이	8초 (1080p/4K 또는 레퍼런스 이미지 사용 시 8초 필수), 4초/6초도 가능
해상도	720p, 1080p (8초만), 4K (8초만)
화면 비율	16:9 (가로), 9:16 (세로)
레퍼런스 이미지	최대 3장
오디오	네이티브 오디오 자동 생성 (배경음, 효과음)
영상 연장	추가 가능 (연장 시 720p만 지원)