템플릿 활용법

Object Speak 사물이 말하는 영상 만드는 법 완전 가이드

2026-04-15 8분 읽기 조회수 314

요즘 쇼츠 피드를 내리다 보면 꼭 하나씩 나와요. 냉장고가 말하고, 세탁기가 푸념하고, 치약이 뚜껑 닫아달라고 징징거립니다. 조회수가 터지는 건 덤이죠. 이 포맷, 이름이 있습니다. 사물이 말하는 영상이고, ShortsCraft에서는 Object Speak라는 이름으로 이걸 자동으로 만들어줘요. 내부적으로는 최신 AI 비디오 모델이 돌아가거든요. 구독자 1천 명대 채널이 이 포맷으로 갑자기 10만 구독 찍는 걸 이달에만 세 번 봤어요.

왜 사물이 말하는 영상이 지금 터지는가

스마트폰으로 세로 쇼츠 영상을 촬영하는 크리에이터 — 쇼츠 피드는 3초가 전부예요. 3초 안에 멈춰 세워야 합니다.

이유는 간단해요. 3초 안에 시청자를 멈추게 만드는 포맷이거든요. 쇼츠 알고리즘이 측정하는 건 결국 평균 시청 시간입니다. 움직이지 않는 사물이 갑자기 입을 벌리고 말을 하면, 사람은 0.5초 안에 판단하죠. "이거 뭐지?" 그 한 번의 "뭐지"가 끝까지 보게 만들어요.

두 번째는 제작 난이도예요. 기존에 이런 영상 만들려면 After Effects에 Rigify 붙이고, 입 싱크 키프레임 잡고, 목소리 녹음하고, 립싱크 맞추는 과정을 다 해야 했어요. 혼자 하면 한 편에 최소 세 시간. 근데 지금은 AI 비디오 모델이 입 모양이랑 음성을 동시에 만들어냅니다. 한 편 10분이면 뽑혀요.

Object Speak가 다른 TTS 쇼츠와 다른 이유

여기가 핵심이에요. 시중에 나온 AI 쇼츠 도구 대부분은 이렇게 움직입니다. 이미지 생성 한 번, TTS로 음성 따로 생성, 립싱크 모델로 붙이기. 세 단계죠. 문제는 TTS 음성이 사물 캐릭터 성격이랑 안 맞는다는 거예요. 냉장고가 말할 때 여성 성우 톤이 나오면 웃기긴 하지만 부자연스럽거든요.

Object Speak는 좀 달라요. AI 비디오 모델이 영상과 음성을 동시에 생성합니다. TTS를 별도로 쓰지 않아요. 입 모양이 소리랑 완벽하게 맞고, 목소리 톤도 사물 성격에 맞춰 AI가 알아서 골라줍니다. 국내 서비스 중에 이 방식을 쓰는 곳은 쇼츠크래프트가 사실상 유일해요.

제작 파이프라인은 세 단계입니다.

사물명 + 간단한 성격 설명 입력
AI가 해당 사물에 맞는 대사 스크립트 작성
AI 이미지 생성 후, AI 비디오 모델이 영상 + 음성 동시 생성

내부 상태는 image_generating → video_generating → ready 순서로 흘러가요. 사용자 화면에서는 그냥 진행 막대만 보이죠.

실제 제작 흐름 3단계

삼각대에 고정된 스마트폰이 세로 영상을 녹화하는 모습 — 입력 두 개만 넣으면 스크립트부터 영상 생성까지 자동으로 흘러갑니다.

쇼츠크래프트 대시보드 들어가서 Object Speak 메뉴를 누릅니다. 입력 필드는 딱 두 개예요. 사물명이랑 원하는 분위기. 예를 들면 이렇게 쓰면 돼요.

사물: 깨진 머그컵
분위기: 원망 섞인, 툭 내뱉는 말투

다음은 영상 길이 선택이에요. 5초 아니면 10초. 5초가 조회수는 더 잘 나와요. 10초는 스토리가 있을 때만 선택하세요. 그 다음부터는 전부 자동입니다. AI가 스크립트 뽑고, 이미지 만들고, 비디오를 생성해요.

완성된 카드 하나가 나오면 거기서 끝이 아니에요. 쇼츠크래프트 타임라인에서 여러 카드를 이어 붙여 한 편의 영상으로 만듭니다. 상단에 타이틀 420px, 가운데 정사각 영상 1080px, 하단에 자막/로고 420px. 이게 기본 레이아웃이에요. 총 1080x1920 세로 포맷이라 유튜브 쇼츠/인스타 릴스/틱톡 전부 커버됩니다.

자막은 AI 자막 엔진이 단어 단위 타이밍을 자동으로 잡아줘요. 한 단어씩 터지는 자막 스타일, 요즘 알고리즘이 좋아하는 바로 그 스타일이죠.

크레딧 비용 실제 수치

가격이 제일 궁금하시죠. 쇼츠크래프트 크레딧 기준으로 정리해드릴게요.

항목	크레딧	비고
이미지 생성	15	AI 이미지 생성
5초 영상 생성	300	AI 비디오 고품질 모드
10초 영상 생성	650	5초보다 2배 이상
자막 삽입	25	AI 자막 엔진
렌더링(표준)	50	1080p 30fps
렌더링(프리미엄)	100	1080p 60fps
렌더링(울트라)	200	4K 60fps

한 편 제대로 만들면 5초 기준으로 이미지 15 + 영상 300 + 자막 25 + 렌더 50 = 390크레딧이에요. 프로 플랜(월 29,000원, 2,150크레딧)이면 한 달에 5초 영상 5편 정도 풀렌더로 뽑는 분량입니다. 베이직 플랜(17,000원, 1,000크레딧)은 2~3편이 적정선이에요.

참고로 이 숫자는 요금제 페이지에서 항상 최신 값으로 유지돼요. 정책 바뀌면 이 글도 갱신할 예정입니다.

자주 하는 실수 4가지

Object Speak로 영상 30편 정도 테스트해보고 정리한 실수들이에요.

1. 사물명을 너무 추상적으로 쓰는 실수

"컵" 말고 "깨진 도자기 머그컵". "의자" 말고 "다리 부러진 나무 의자". 구체적일수록 AI가 표정을 더 잘 만들어줘요. 추상적인 단어는 AI가 기본값에 가까운 무난한 이미지로 뽑아냅니다. 재미없어지죠.

2. 분위기 필드를 공란으로 두는 실수

이게 제일 아까워요. 분위기가 없으면 AI가 무난한 대사를 써요. "나 많이 썼어" 같은 식으로요. 근데 "20년 동안 굴러다닌 할머니 톤, 서운함이 섞인 말투"라고 구체적으로 적으면 스크립트 퀄리티가 한 단계 뛰어오릅니다.

스마트폰 앱에서 5초와 10초 녹화 시간을 선택하는 화면 — 5초 vs 10초 선택은 쇼츠 완시청률을 가르는 지점이에요.

3. 10초를 기본으로 쓰는 실수

쇼츠 알고리즘은 완시청률로 평가합니다. 10초짜리 완시청이 5초짜리 2회 시청보다 점수가 높긴 해요. 근데 그건 스토리가 있을 때 얘기죠. 단순 한 줄 대사면 5초가 훨씬 잘 터집니다. 10초는 스토리가 명확할 때만 쓰는 게 좋거든요.

4. 렌더 품질을 무조건 울트라로 올리는 실수

4K 60fps는 쇼츠 플랫폼에서 1080p로 다운스케일돼요. 눈에 띄는 차이 거의 없어요. 크레딧 200 쓸 돈으로 영상 한 편 더 만드는 게 낫습니다. 쇼츠는 양이 곧 전략이잖아요.

지금 바로 시작하는 법

쇼츠크래프트는 3일 무료체험이 있어요. 카드 등록해두고 3일 안에 감 잡으면 됩니다. 언제든 취소 가능하고요. 7일이라고 어디 써있는 데가 있는데, 실제로는 3일이에요.

순서는 이렇게 잡으시면 돼요. 오늘 가입 → 첫날 Object Speak 5초 영상 두세 편 뽑아보기 → 둘째 날 제일 잘 된 스타일로 3~5편 추가 → 셋째 날 판단. 만족스러우면 베이직 17,000원부터 시작하세요. 크레딧 1,000이면 한 달 5초 영상 2~3편 풀렌더 가능한 분량입니다. 일주일에 한 편씩 올리는 루틴이라면 이 정도가 맞아요.

사물이 말하는 포맷은 지금이 선점 타이밍이에요. 틱톡은 이미 포화 초입이고 유튜브 쇼츠는 아직 국내에선 시작 단계네요. Object Speak 바로 만들기에서 지금 시작해보세요.