인공지능게시판

클로드 코드로 유튜브 영상 100% 자동화하기 완전 초보자를 위한 스텝바이스텝 매뉴얼

작성자
김 경진
작성일
2026-04-04 15:49
조회
229


클로드 코드로 유튜브 영상 100% 자동화하기

완전 초보자를 위한 스텝바이스텝 매뉴얼

2026년 4월 기준 | 사례 기반 + 인터넷 종합 조사


클로드 코드(Claude Code)를 써서 유튜브 영상을 처음부터 끝까지 자동으로 만든 방법을 정리했습니다. 레퍼런스 수집, 대본 작성, 이미지 생성, 음성(TTS) 제작, 자막 싱크, 캡컷 편집, 유튜브 업로드까지 전 과정을 다룹니다. 영상 한 편당 비용은 약 5,000원입니다.

전체 흐름 한눈에 보기


1단계 레퍼런스 수집 (같은 주제 인기 영상 3~4개 URL 수집)

2단계 분석 + 패턴 파악 (에이전트가 대본, 댓글, 썸네일 분석)

3단계 팩트 체크 + 추가 데이터 검색

4단계 전략 수립 (타겟, 컨셉, 훅 인트로 설계)

5단계 기획서 작성 + 대본 초안 + 검수 + 최종 스크립트

6단계 TTS 음성 생성 (ElevenLabs API)

7단계 자막 생성 + 타이밍 싱크

8단계 신(Scene) 설계 / 스토리보드

9단계 이미지 생성 (Google Whisk AI)

10단계 동영상 생성 (Grok Imagine, 훅 인트로 부분)

11단계 캡컷(CapCut) JSON 프로젝트 자동 생성

12단계 캡컷에서 렌더링 (엑스포트 버튼 한 번)

13단계 유튜브 API로 업로드



준비물

하드웨어: 맥 또는 윈도우 컴퓨터 (맥 권장)

소프트웨어:

클로드 코드 (Claude Code) CLI 또는 데스크톱 앱

캡컷 (CapCut) 데스크톱 버전 (무료)

Python 3.10 이상

Node.js 18 이상

계정/API 키:

Anthropic 계정 (클로드 코드 구독, 월 $20 또는 API 사용량 기반)

ElevenLabs 계정 + API 키 (Creator 플랜 $11/월 권장, 10만 크레딧/월)

Google 계정 (Whisk AI / Flow 접근용)

xAI 계정 + API 키 (Grok Imagine 비디오 생성용)

Google Cloud Console 프로젝트 (YouTube Data API v3 활성화)



예상 비용 (영상 1편, 20분 기준)

ElevenLabs TTS: 약 2,500~3,000원 (8,000~10,000자)

클로드 코드: 약 500~1,000원

썸네일 이미지 생성: 약 500~1,000원

합계: 약 5,000원/편



1단계. 클로드 코드 설치와 프로젝트 세팅

터미널(명령어 창)에서 돌아가는 AI 코딩 도우미입니다. 채팅창에 "유튜브 영상 만들어 줘"라고 입력하면, AI가 알아서 파일을 만들고, 코드를 실행하고, API를 호출합니다.


# 설치
npm install -g @anthropic-ai/claude-code# 프로젝트 폴더 만들기
mkdir ~/youtube-automation
cd ~/youtube-automation
claude

클로드 코드가 열리면 이 폴더 안에서 모든 작업이 이뤄집니다. 프로젝트 안에는 9개의 스킬 파일(에이전트), 출력 폴더, 파이썬 스크립트 6개가 들어갑니다.


2단계. 클로드 코드 스킬(Skill) 만들기

"할 일 목록"이라고 생각하면 됩니다. "이 순서대로 해"라고 적어둔 설명서입니다. 클로드 코드한테 /youtube-pd 라고 명령하면 그 설명서를 읽고 단계별로 실행합니다. 스킬 파일은 마크다운(.md) 형식이고, .claude/skills/ 폴더 안에 넣습니다.

핵심 아이디어는 MD 파일로 맥락을 주고받는 것입니다. 유튜브 PD가 전체 순서를 관리하고, 각 단계의 결과를 MD 파일로 저장한 뒤, 다음 에이전트에게 그 파일을 읽으라고 지시합니다. 한 세션에서 긴 대본을 전부 쓰면 뒤로 갈수록 품질이 떨어지기 때문에, 기획서만 탄탄하게 쓰고 세부 파트는 각 에이전트에게 나눠주는 방식입니다.


3단계. 레퍼런스 수집

유튜브 영상의 자막(대본), 제목, 댓글, 썸네일을 자동으로 가져오는 파이썬 스크립트를 만듭니다. youtube-transcript-api로 자막을 가져오고, YouTube Data API v3로 제목, 설명, 조회수, 댓글을 가져옵니다.


pip install youtube-transcript-api google-api-python-client pytube requests

YouTube Data API 키는 console.cloud.google.com에서 새 프로젝트를 만들고, API 라이브러리에서 "YouTube Data API v3"를 활성화한 뒤, 사용자 인증 정보에서 API 키를 생성합니다. 생성된 키를 .env 파일에 넣습니다.


4단계. 대본 작성 파이프라인 (가장 중요한 단계)

가장 공을 들인 부분입니다. 에이전트 6개가 달라붙어서 대본 하나를 만듭니다. 한 AI 세션에서 긴 글을 처음부터 끝까지 쓰라고 하면, 글자수도 잘 못 채우고 뒤로 갈수록 품질이 떨어집니다. 회사에서 기획서를 잘 써놓으면 여러 직원이 각자 파트를 맡아도 일관성을 유지할 수 있는 것과 같은 원리입니다.



(1) 분석가 에이전트: 레퍼런스 영상들의 대본, 댓글, 조회수를 분석하여 "왜 이 영상이 성공했는가" 패턴을 추출합니다. 출력: analysis.md

(2) 팩트 체커 에이전트: 레퍼런스 대본에 나온 사실관계를 웹 검색으로 검증합니다. 허위 정보가 섞여 있을 수 있으니까요. 추가로 해당 주제에 대한 최신 데이터도 찾습니다. 출력: factcheck.md

(3) 전략가 에이전트: 분석 결과와 팩트 체크를 바탕으로 "누구에게, 어떤 톤으로, 어떤 각도로 이야기할 것인가"를 결정합니다. 컨셉 3가지를 추천하고 그 중 하나를 자동 선택합니다. 출력: strategy.md

(4) 기획자 에이전트: 훅 인트로(시청자를 끌어들이는 첫 15초)를 3개 만들고, 전체 구성 기획서를 작성합니다. 유튜브에서 가장 중요한 건 클릭률과 초반 이탈률이거든요. 출력: plan.md

(5) 대본 작성 에이전트: 기획서를 따라 대본 초안을 씁니다. 기획서가 탄탄하기 때문에 본문만 집중해서 쓸 수 있습니다. 출력: draft.md

(6) 검수 에이전트: 초안을 읽고 팩트 오류, 흐름 끊김, 훅 효과 부족 등을 체크합니다. 수정 사항을 반영하여 최종 스크립트를 만듭니다. 출력: final-script.md



5단계. ElevenLabs TTS 음성 생성

Text-to-Speech, 글자를 사람 목소리로 읽어주는 기술입니다. ElevenLabs는 현재 가장 자연스러운 AI 음성 서비스입니다. Creator 플랜($11/월)에 가입하고, API Keys에서 키를 복사하여 .env 파일에 넣습니다.


# 핵심 API 엔드포인트
POST /v1/text-to-speech/{voice_id}/with-timestamps# with-timestamps를 쓰면 음성 + 단어별 타이밍이 함께 돌아옵니다
# model_id: "eleven_multilingual_v2" (한국어 지원)

6단계. 자막 생성과 타이밍 싱크

ElevenLabs의 with-timestamps API가 돌려주는 alignment 데이터(각 글자의 시작/끝 시간)를 SRT 자막 파일로 변환합니다. 가장 애를 먹은 부분입니다. 대본을 문장 단위로 나눠서 보내면 정확도가 올라갑니다. 자막 한 줄은 15~20자, 한 신은 약 6~7초가 적당합니다.


7단계. 이미지 생성 (Google Whisk AI)

구글이 만든 이미지 생성 도구입니다. 텍스트 프롬프트 대신 이미지로 프롬프트하는 독특한 방식입니다. "주제" 이미지 + "장면" 이미지 + "스타일" 이미지를 넣으면 Gemini가 자동으로 캡션을 만들고, Imagen 3이 최종 이미지를 생성합니다. 무료이면서 품질이 충분합니다.


Whisk은 2026년 4월 30일에 종료되고, Google Flow로 통합됩니다. Flow는 Whisk + ImageFX(텍스트-이미지) + Veo 3.1(비디오)을 하나로 합친 플랫폼입니다. labs.google/fx/tools/flow 에서 접근합니다.

"가성비 라인"이라고 말했습니다. AI 이미지로 만든 정보성 롱폼 영상에서 이미지 품질은 생각보다 조회수에 큰 영향을 주지 않습니다. 대본과 음성과 썸네일이 훨씬 중요합니다.


8단계. 동영상 생성 (Grok Imagine)

xAI(일론 머스크의 AI 회사)가 만든 이미지/비디오 생성 모델입니다. 정지 이미지를 움직이는 비디오로 바꿔줍니다. 전체 영상의 모든 신을 비디오로 만들 필요는 없습니다. 훅 인트로 부분(처음 30초~1분)에만 비디오를 사용했습니다. 비용이 많이 들고, 시청자가 처음에 끌려서 들어오면 뒤는 이미지만으로도 충분히 봅니다.


9단계. 신(Scene) 설계 / 스토리보드

"이 자막이 나올 때 화면에 뭘 보여줄까"를 정하는 작업입니다. 한 신은 약 6~7초이고, 자막 3~4문장 정도가 한 신입니다. 에이전트가 기획서와 최종 대본을 읽고, 자막 타이밍을 참고하여 6~7초 단위로 신을 나눕니다. 각 신에 대해 이미지 프롬프트를 작성하고, 이미지 확대/축소 등 카메라 움직임도 지정합니다.


10단계. 캡컷(CapCut) JSON 프로젝트 자동 생성

이 단계가 마법이 일어나는 곳입니다. 캡컷은 프로젝트를 JSON 파일로 저장합니다. 편집 타임라인에서 "여기에 이 이미지를 넣고, 여기서 확대하고, 여기에 자막을 표시하라"는 모든 정보가 JSON 텍스트로 적혀 있습니다. 이 JSON을 직접 만들면, 캡컷을 열지 않고도 편집이 끝납니다.


# 캡컷 드래프트 폴더 위치
macOS: ~/Movies/CapCut/User Data/Projects/com.lveditor.draft/
Windows: C:\Users\[사용자]\AppData\Local\CapCut\...\com.lveditor.draft\# 시간 단위: 마이크로초 (1초 = 1,000,000)
# 7초 = 7,000,000

"이미지 확대하는 것도 가능하고 전환 효과도 다 JSON에 명시하면 되는 거거든요"라고 말한 부분이 이것입니다. 키프레임을 지정하면 줌인, 패닝, 디졸브 전환 등 모든 편집이 코드로 가능합니다.


주의: 2024년 4월부터 캡컷 최신 버전(7.x 이상)이 draft_content.json을 암호화하기 시작했습니다. 해결 방법: (1) VectCutAPI, CapCutAPI처럼 API로 새 드래프트를 직접 생성, (2) 암호화 이전 구버전 캡컷 사용, (3) pyCapCut(pip install pycapcut)으로 비암호화 드래프트 생성

11~13단계. 렌더링, 썸네일, 업로드

캡컷을 열면 프로젝트가 자동으로 목록에 나타납니다. Export 버튼 한 번이면 렌더링 끝. 이게 사람이 하는 유일한 작업입니다. 썸네일은 전략가 에이전트가 추천한 컨셉에 맞게 Gemini Pro 또는 나노바 프로로 5장 생성하고(500~1,000원), YouTube Data API v3로 영상을 프로그래밍 업로드합니다. 하루 5~6편 업로드 가능합니다.


실전 운영: 한 편이 만들어지는 과정


클로드 코드를 열고 /youtube-pd 입력. 벤치마킹할 유튜브 URL 3개를 넣으면:

0~5분 레퍼런스 수집 (자막, 제목, 댓글, 썸네일)

5~10분 분석 + 팩트 체크 + 추가 데이터 검색

10~15분 전략 + 기획 (컨셉 자동 선택, 훅 인트로 설계)

15~30분 대본 작성 + 검수 → 최종 스크립트

30~35분 TTS 음성 + SRT 자막 생성

35~45분 이미지 + 훅 인트로 비디오 생성

45~50분 캡컷 JSON 프로젝트 자동 생성

50~55분 사람: 캡컷 열기 → Export 버튼

55~60분 YouTube API로 업로드

소요 시간: 약 50분~1시간 (사람이 손대는 시간: 5분) | 비용: 약 5,000원



자주 묻는 질문

코딩을 전혀 몰라도 할 수 있나요?

클로드 코드에게 "이 매뉴얼대로 프로젝트를 세팅해 줘"라고 하면 파일과 스크립트를 만들어 줍니다. 코딩 자체는 AI가 합니다. 다만 API 키를 발급받고 .env 파일에 넣는 작업은 직접 해야 합니다.

AI가 만든 영상을 사람들이 진짜 보나요?

네. 경제, 과학, 심리학, 역사 같은 정보성 콘텐츠에서 AI 이미지로 만든 롱폼 영상이 10만, 20만, 30만 조회수를 기록하는 채널들이 있습니다. 이미지 품질보다 대본과 음성과 썸네일이 훨씬 중요합니다.

AI가 선택한 전략이 내가 고른 것보다 나은가요?

경험상, AI의 "오토 모드"가 본인이 직접 선택한 것보다 나았습니다. 썸네일이나 제목처럼 시장 반응을 예측해야 하는 영역에서 인간의 감은 90% 틀린다는 게 AB 테스트 결과입니다.

캡컷 말고 다른 편집 프로그램도 가능한가요?

네. DaVinci Resolve(무료 전문 편집), FFmpeg(완전 자동화 가능), MoviePy(파이썬 라이브러리) 등이 있습니다. FFmpeg로 하면 캡컷 없이 완전 자동화도 가능합니다.


도구별 가격 총정리 (2026년 4월)


도구 요금제 월 비용
클로드 코드 Max 플랜 $100
ElevenLabs Creator 플랜 (권장) $11
Google Whisk/Flow 무료 $0
Grok Imagine 종량제 ~$0.15/편
캡컷 무료 (데스크톱) $0
YouTube API 무료 (할당량 내) $0
월간 고정 비용 합계 약 $111 (약 15만원)

핵심

1.대본이 90%다. AI 이미지로 만든 롱폼 영상에서 이미지는 생각보다 중요하지 않습니다. 화면이 상황/음성과 정확히 맞지 않아도 조회수가 나옵니다. 대본의 구성, 정보의 밀도, 음성의 전달력이 핵심입니다.

2.훅 인트로가 생사를 가른다. 시청자는 처음 15초 안에 떠날지 말지를 결정합니다. 기획서를 쓰기 전에 클릭률 높은 훅 인트로를 먼저 설계하는 이유입니다.

3.썸네일은 간판이다. 아무리 좋은 음식점이라도 간판이 없으면 아무도 들어오지 않습니다.

4.도메인 지식이 먹여살린다. AI가 아무리 똑똑해도 "무엇을 만들어야 하는가"는 사람이 결정합니다.

5.AI에게 선택을 맡겨도 된다. 처음에는 "전략은 사람이 세워야지"라고 생각했지만, AI의 오토 모드가 더 나은 선택을 했습니다. 내가 더 낫다는 보장을 못 하겠다면, AI에게 맡기는 것도 방법입니다.



시작하는 가장 좋은 방법

1주차: 레퍼런스 수집 + 대본 파이프라인

2주차: TTS + 자막 생성

3주차: 이미지/비디오 생성

4주차: 캡컷 JSON 자동화 + 업로드

한 달이면 전체 시스템이 돌아갑니다.



작성: 2026년 4월 4일 | 출처: 하우와 팟캐스트 - 개발남노씨(노정원) 인터뷰 + 인터넷 종합 조사



KIMKJ.COM

#김경진 #김경진변호사 #김경진인공지능 #인공지능 #AI #AI전문가 #AI법률 #AI정책 #AI규제 #AI윤리 #생성형AI #ChatGPT #Claude #GPT #LLM #디지털전환 #스마트시티 #자율주행 #데이터규제 #GDPR #개인정보보호 #AI거버넌스 #국회의원김경진 #법률전문가 #테크정책 #AI교육 #AI행정혁명 #AI패권전쟁 #kimkj #kimkjcom



전체 0

위로 스크롤