템플릿 활용법

Object Speak 사물이 말하는 영상 만드는 법 완전 가이드

Object Speak 사물이 말하는 영상 만드는 법 완전 가이드

요즘 쇼츠 피드를 내리다 보면 꼭 하나씩 나온다. 냉장고가 말한다. 세탁기가 푸념한다. 치약이 뚜껑 닫아달라고 징징거린다. 조회수가 터지는 건 덤이다. 이 포맷, 이름이 있다. 사물이 말하는 영상이고, ShortsCraft에서는 Object Speak라는 이름으로 이걸 자동으로 만들어준다. 내부적으로 쓰는 AI는 Kling v3다. 구독자 1천 명대 채널이 이 포맷으로 갑자기 10만 구독 찍는 걸 이달에만 세 번 봤다.

왜 사물이 말하는 영상이 지금 터지는가

스마트폰으로 세로 쇼츠 영상을 촬영하는 크리에이터
쇼츠 피드는 3초가 전부다. 3초 안에 멈춰 세워야 한다.

이유는 간단하다. 3초 안에 시청자를 멈추게 만드는 포맷이거든요. 쇼츠 알고리즘이 측정하는 건 결국 평균 시청 시간이다. 움직이지 않는 사물이 갑자기 입을 벌리고 말을 하면, 사람은 0.5초 안에 판단한다. "이거 뭐지?" 그 한 번의 "뭐지"가 끝까지 보게 만든다.

두 번째는 제작 난이도. 기존에 이런 영상 만들려면 After Effects에 Rigify 붙이고, 입 싱크 키프레임 잡고, 목소리 녹음하고, 립싱크 맞추는 과정을 다 해야 했다. 혼자 하면 한 편에 최소 세 시간. 근데 지금은 AI 비디오 모델이 입 모양이랑 음성을 동시에 만들어낸다. 한 편 10분이면 뽑힌다.

Object Speak가 다른 TTS 쇼츠와 다른 이유

여기가 핵심이다. 시중에 나온 AI 쇼츠 도구 대부분은 이렇게 움직인다. 이미지 생성 한 번, TTS로 음성 따로 생성, 립싱크 모델로 붙이기. 세 단계다. 문제는 TTS 음성이 사물 캐릭터 성격이랑 안 맞는다는 거다. 냉장고가 말할 때 여성 성우 톤이 나오면 웃기긴 하지만 부자연스럽다.

Object Speak는 좀 다르거든요. Kling v3라는 AI 비디오 모델이 영상과 음성을 동시에 생성한다. TTS를 별도로 쓰지 않는다. 입 모양이 소리랑 완벽하게 맞고, 목소리 톤도 사물 성격에 맞춰 AI가 알아서 고른다. 국내 서비스 중에 이 방식을 쓰는 곳은 쇼츠크래프트가 사실상 유일하다.

제작 파이프라인은 세 단계다.

  1. 사물명 + 간단한 성격 설명 입력
  2. Claude가 해당 사물에 맞는 대사 스크립트 작성
  3. Replicate 이미지 생성 후, Kling v3가 영상 + 음성 동시 생성

내부 상태는 image_generating → video_generating → ready 순서로 흐른다. 사용자 화면에서는 그냥 진행 막대만 본다.

실제 제작 흐름 3단계

삼각대에 고정된 스마트폰이 세로 영상을 녹화하는 모습
입력 두 개만 넣으면 스크립트부터 영상 생성까지 자동으로 흐른다.

쇼츠크래프트 대시보드 들어가서 Object Speak 메뉴를 누른다. 입력 필드는 딱 두 개다. 사물명이랑 원하는 분위기. 예를 들면 이렇게.

다음은 영상 길이 선택이다. 5초 아니면 10초. 5초가 조회수는 더 잘 나온다. 10초는 스토리가 있을 때만 선택해라. 그 다음부터는 전부 자동이다. AI가 스크립트 뽑고, 이미지 만들고, 비디오를 생성한다.

완성된 카드 하나가 나오면 거기서 끝이 아니다. 쇼츠크래프트 타임라인에서 여러 카드를 이어 붙여 한 편의 영상으로 만든다. 상단에 타이틀 420px, 가운데 정사각 영상 1080px, 하단에 자막/로고 420px. 이게 기본 레이아웃이다. 총 1080x1920 세로 포맷, 유튜브 쇼츠/인스타 릴스/틱톡 전부 커버된다.

자막은 Faster Whisper로 단어 단위 타이밍이 잡힌다. 한 단어씩 터지는 자막 스타일, 요즘 알고리즘이 좋아하는 바로 그 스타일이다.

크레딧 비용 실제 수치

가격이 제일 궁금하겠지. 쇼츠크래프트 크레딧 기준으로 하나 정리한다.

항목크레딧비고
이미지 생성15Replicate 모델
5초 영상 생성300Kling v3 pro 모드
10초 영상 생성6505초보다 2배 이상
자막 삽입25Faster Whisper
렌더링(표준)501080p 30fps
렌더링(프리미엄)1001080p 60fps
렌더링(울트라)2004K 60fps

한 편 제대로 만들면 5초 기준으로 이미지 15 + 영상 300 + 자막 25 + 렌더 50 = 390크레딧이다. 프로 플랜(월 29,000원, 2,150크레딧)이면 한 달에 5초 영상 5편 정도 풀렌더로 뽑는 분량. 베이직 플랜(17,000원, 1,000크레딧)은 2~3편이 적정선이다.

참고로 이 숫자는 요금제 페이지에서 항상 최신 값으로 유지돼요. 정책 바뀌면 이 글도 갱신할 예정이에요.

자주 하는 실수 4가지

Object Speak로 영상 30편 정도 테스트해보고 정리한 실수들이다.

1. 사물명을 너무 추상적으로 쓴다

"컵" 말고 "깨진 도자기 머그컵". "의자" 말고 "다리 부러진 나무 의자". 구체적일수록 Kling v3가 표정을 더 잘 만든다. 추상적인 단어는 AI가 기본값에 가까운 무난한 이미지로 뽑는다. 재미없다.

2. 분위기 필드를 공란으로 둔다

이게 제일 아깝다. 분위기가 없으면 Claude가 무난한 대사를 쓴다. "나 많이 썼어" 같은. 근데 "20년 동안 굴러다닌 할머니 톤, 서운함이 섞인 말투"라고 구체적으로 적으면 스크립트 퀄리티가 한 단계 뛴다.

스마트폰 앱에서 5초와 10초 녹화 시간을 선택하는 화면
5초 vs 10초 선택은 쇼츠 완시청률을 가르는 지점이다.

3. 10초를 기본으로 쓴다

쇼츠 알고리즘은 완시청률로 평가한다. 10초짜리 완시청이 5초짜리 2회 시청보다 점수가 높긴 하다. 근데 그건 스토리가 있을 때 얘기다. 단순 한 줄 대사면 5초가 훨씬 잘 터져요. 10초는 스토리가 명확할 때만 쓰는 게 좋거든요.

4. 렌더 품질을 무조건 울트라로 올린다

4K 60fps는 쇼츠 플랫폼에서 1080p로 다운스케일된다. 눈에 띄는 차이 거의 없다. 크레딧 200 쓸 돈으로 영상 한 편 더 만드는 게 낫거든요. 쇼츠는 양이 곧 전략이죠.

지금 바로 시작하는 법

쇼츠크래프트는 3일 무료체험이 있다. 카드 등록해두고 3일 안에 감 잡으면 된다. 언제든 취소 가능하다. 7일이라고 어디 써있는 데가 있는데, 실제로는 3일이다.

순서는 이렇게 잡으면 된다. 오늘 가입 → 첫날 Object Speak 5초 영상 두세 편 뽑아보기 → 둘째 날 제일 잘 된 스타일로 3~5편 추가 → 셋째 날 판단. 만족스러우면 베이직 17,000원부터 시작. 크레딧 1,000이면 한 달 5초 영상 2~3편 풀렌더 가능한 분량이다. 일주일에 한 편씩 올리는 루틴이라면 이 정도가 맞는다.

사물이 말하는 포맷은 지금이 선점 타이밍이에요. 틱톡은 이미 포화 초입이고 유튜브 쇼츠는 아직 국내에선 시작 단계네요. Object Speak 바로 만들기에서 지금 시작하면 된다.