在社群媒體上爆紅的AI奶奶,現在任何人都能輕鬆製作。本文將以 Filmora の圖片生成(Text-to-Image)と圖片轉影片生成-VEO3模式(Image-to-Video)為核心,解說如何量產在短影音平台爆紅的AI影片實戰技巧。本文的指令(提示詞)為了傳達身為 YouTuber/創作者的世界觀,全部採用英日對照的詳細場景描述+角色台詞格式統一呈現。
目錄
Part1:什麼是 AI 奶奶?魅力與爆紅關鍵
AI奶奶是結合日本慈祥奶奶的面容與超現實非日常情境的「爆紅」特化角色。 以部落客/創作者的第一人稱視角敘事,容易提升觀看完成率、留言率與收藏率,在短影音中發揮 滑動終結者的效果。
- 親切感 × 非日常對比,創造點擊與觀看黏著度
- 3〜6 秒單一創意完結,最適合社群平台
- 容易透過留言與觀眾共創「下一個 AI 奶奶」
@filmora_japan_official 用 Filmora 的『Veo3』試玩後發現真的超省剪輯時間! 從「企劃 → 影片完成」全由 AI 自動完成的時代來臨了! #Filmora #veo3 #ai奶奶 #影片剪輯 #AI影片 ♬ 原創音樂 - 官方 Filmora
Part2:用 Filmora 打造 AI 奶奶影片:圖片生成+圖片轉影片生成-VEO3 模式的創作者視角內容製作
Filmora最大的優勢在於結合圖片生成(Text-to-Image)と圖片轉影片生成(Image-to-Video),能在短時間內製作出高完成度影片。
特別是以AI奶奶為主角的 YouTuber・創作者視角內容,透過統一設計外觀、服裝、場景、光線、鏡頭,並指定自拍構圖や手持麥克風等共通元素,就能打造統一的品牌感。
圖片轉影片生成-VEO3模式則是為生成的靜態圖片加上動態,搭配日文一句台詞強化臨場感。留意字幕與嘴型同步,能自然延長觀眾停留時間。
AI 奶奶專用 Filmora 最快製作流程(3 步驟)
- 圖片生成(T2I)設計世界觀:從文字生成靜態圖片,細緻指定角色外觀、表情、場景背景、光源。特別是創作者視角建議固定
selfie POV、right-hand mic等元素以確保一致性。
指令範例:中近景,夕陽瓦礫地帶:飄散的粉塵被溫暖的輪廓光勾勒。穿著生存裝備的日本奶奶稍微靠近鏡頭,臉部占據畫面大部分,細緻的表情紋路與溫暖笑容清晰可見。左手指著簡易防彈背心,右手拿著小型麥克風。
Filmora|圖片生成(T2I)設計世界觀(風格:基本,長寬比:16:9) - 圖片轉影片生成-VEO3 模式加入動態與聲音:為生成的靜態圖片加入動態,以 3〜6 秒構成場景的開頭→中段→結尾。設定 8〜14 音節的台詞並與嘴型同步。加入環境音或鏡頭晃動可增加臨場感。
Filmora|圖片轉影片生成-VEO3 模式加入動態與聲音 指令範例:中景,正午沙漠生存教學:熱浪搖曳,強風捲起沙粒掠過鏡頭。日本奶奶將金屬水壺舉到鏡頭前,接著焦點轉向指南針,邊緣出現太陽閃光。手持自拍視角隨風晃動,麥克風傳來沙粒沙沙聲。角色:「大家我現在在拍喔!這個呼呼的風聲,聽到了嗎?沙子打在臉上啪啪的!首先是水,接著是方向。對著太陽讀指南針!留言『水和指南針』別忘記喔!」用 Filmora 生成的 AI 奶奶影片範例 - 影片剪輯:將生成的影片放到時間軸上,剪掉不需要的部分,加入音效、字幕、特效提升完成度。依場景選擇 BGM 與音效,強化觀眾沉浸感。
Filmora|加入音效、字幕、特效
Part3:提升完成度的影片剪輯技巧(AI 奶奶 × Filmora)
以下整理了以FilmoraでAI奶奶為主角的影片後製實用剪輯技巧。
在圖片生成(T2I)或圖片轉影片生成(Veo3 模式)製作的素材上加入這些步驟,能大幅提升完成度與觀眾沉浸感。
- 變更長寬比: 從「檔案」➤「專案設定」變更影片長寬比(16:9、9:16、1:1 等)。
針對社群平台或 YouTube Shorts 進行最佳化。
Filmora|變更長寬比 - 剪掉不需要的部分: 在時間軸上修剪不需要的場景或失誤片段。短影音講究節奏,多餘的空白要果斷刪除。
Filmora|剪掉不需要的部分 - 加入音效: 在音訊音效搜尋欄輸入「風」「沙」「點擊」等關鍵字加入音效。
也可使用 Filmora 內建的 AI 音效生成功能,自動製作符合場景的原創音效。
Filmora|加入音效 - 語音轉字幕・加入字幕: 使用 AI 語音轉字幕功能自動生成精準字幕。 再從「標題」選單選擇喜歡的字幕樣式提升辨識度。 創作者視角建議強調台詞中的關鍵字會更有效果。
Filmora|語音轉字幕・加入字幕 - 匯出: 在左上角編輯影片縮圖,提升觀眾點擊率。 匯出設定建議設為高畫質,以 4K 或高位元率儲存。
Filmora|匯出
Part4:AI 奶奶專用 Filmora 提示詞範本&範例(中文/英文對照)
本節整理了Filmora「圖片生成(T2I)」與「圖片轉影片生成(I2V)」都能使用的提示詞範本與範例,以英文日文對照表格呈現。
依照以下結構輸入,就能穩定生成以AI奶奶為主角、充滿臨場感的內容。
圖片生成(靜態圖片)範本
| 英文(Text-to-Image) | 中文(圖片生成) |
|---|---|
| A |
<ショットサイズ>、<舞台/ジャンル>:<照明・環境・小道具・動作・構図の詳細>。角色:「<短い日本語台詞>」 |
圖片轉影片生成-VEO3 模式(動態+台詞)範本
| 英文(Image-to-Video) | 中文(圖片轉影片生成) |
|---|---|
| A |
<ショットサイズ>、<舞台>,第一人稱創作者視角:<開始の動き> → <中盤の動き> → <締めの見せ場>。角色:「<短い日本語台詞>」(長度 3〜6 秒) |
使用上述提示詞範本,就能穩定製作以AI奶奶為主角的高精細靜態圖片(圖片生成)或充滿臨場感的短影音(圖片轉影片生成-Veo3 模式)。
接下來介紹的大量提示詞集(中文/英文・可複製貼上),依類型收錄了可直接使用的實戰範例。
參考場景建構方式,用Filmora Veo3打造專屬於你的創作者視角內容吧。
大量提示詞集(AI 奶奶 × Filmora 對應/中文・英文可複製)
① 生存冒險&動作場景(圖片生成/圖片轉影片生成-VEO3 模式)
|
生存場景:夕陽瓦礫地帶 / Survival: Sunset Rubble (T2I → I2V 延續) |
|
|---|---|
| 圖片生成-中文 | 中近景,夕陽瓦礫地帶(黃金時刻):從左側打來的柔和暖色主光,髮絲邊緣帶有細膩輪廓光。背景瓦礫柔和散焦。臉部占據畫面約 70%,眼睛直視鏡頭,細緻皺紋與肌理清晰可見。表情「慈祥、自信、帶點俏皮」。穿著生存裝備的日本奶奶左手指著簡易防彈背心標籤,右手拿著小型麥克風。自拍創作者第一人稱視角,手持微晃動。焦距45–50mm 相當,高精細,電影感 |
| 圖片生成-英文 | Medium close-up, sunset rubble zone (golden hour): soft warm key light from the left; subtle rim light on hair edges; background rubble softly blurred. Face fills ~70% of frame; eyes look directly into the lens; fine wrinkles and skin texture clearly visible; expression: "gentle, confident, slightly playful." A Japanese grandma in rugged survival gear points to the flak-vest tag (left hand) while holding a small mic (right). Selfie streamer POV with slight handheld wobble; 45–50mm natural perspective; high detail, cinematic. |
| 影片生成-中文 | 夕陽瓦礫地帶。環境音:遠處烏鴉叫聲,風捲起沙粒啪啪打在鏡頭上,偶爾傳來金屬碰撞聲。鏡頭動態:0.5 秒緩慢推進 → 轉焦至背心標籤拉焦 → 焦點回到她臉上,鏡頭光暈瞬間閃過。動作:用手指輕拍背心衝擊墊 → 將麥克風移到嘴邊。 角色:「嗨!黃金時刻超棒,看到光線怎麼打的嗎?(被沙打到)好痛!但這件背心的重點在『這裡』。標籤位置跟厚度,記好了!來,留言『最強背心』,接下來用實彈測試!」 |
| 影片生成-英文 | Same sunset rubble scene. Ambience: distant crow calls; wind lifts dust that tick-taps the lens; occasional metallic clink. Camera: gentle 0.5s push-in → rack focus to the vest tag → rack back to her face as a brief lens flare skims the frame. Action: she taps the impact pad with two fingers → brings the mic to her mouth. Character:「嘿!黃金時刻的光線完美吧——看這光線怎麼包覆的?噢——被沙子弄到了!總之,這件背心之所以有效是因為這個位置。記住標籤的位置和厚度。輸入『最強背心』,我們會用實測來證明!」 |
|
生存挑戰:雪稜線 / Survival: Snowy Ridge(T2I → I2V 延續) |
|
| 圖片生成-中文 | 中近景,正午的雪稜線:來自高空的冷色擴散光,左側臉頰有淡淡的反射光,背景雪面柔和模糊。臉部約佔畫面 70%,雙眼直視鏡頭,細微皺紋、膚質、臉頰紅潤都清晰可見。表情是「笑容中帶點認真」。70 多歲的日本奶奶展示三層防寒外套,用手指輕輕敲打。自拍直播視角,手持微晃動,呼出的氣息化成白霧擴散。焦距50mm 等效,高精細度。 |
| 圖片生成-英文 | Medium close-up, snowy ridge at noon: crisp overhead daylight; soft bounce on left cheek; background snow gently blurred. Face fills ~70% of frame; eyes locked to the lens; fine wrinkles, skin texture, and natural cheek flush clearly visible; expression "smiling with a hint of seriousness." The Japanese grandma demonstrates triple-layer jackets, tapping each layer. Selfie POV with slight handheld wobble; breath spreads white. 50mm look; high detail. |
| 影片生成-中文 | 正午的雪稜線。環境音:風聲呼呼的帶狀噪音,腳下的雪發出嘎吱聲,遠處傳來喜鵲叫聲。鏡頭動態:緩慢推進 → 聚焦胸前第一層拉焦 → 有節奏地移動焦點到第二、第三層 → 回到臉部。動作:她用手指輕敲各層,最後踩踏一下讓觀眾聽見雪的聲音。 角色:「哇~刺骨的冷!但有『三層』就沒問題。首先防止汗水變冷,接著空氣層,最後防風層。剛才那個嘎吱聲,聽到了嗎?認同的人請留言『暖呼呼又安全』!待會會實際示範走路技巧唷!」 |
| 影片生成-英文 | Same noon ridge. Ambience: a band of wind noise; crisp crunch of snow underfoot; distant magpie call. Camera: gentle push-in → rack focus to the first layer at the chest → hop focus to second and third layers in rhythm → back to her face. Action: she taps each layer with a fingertip, then stomps once to highlight the snow squeak. Character: "Whew—needle-cold! But 'three layers' stays cozy: anti-sweat base, air trap mid, wind-block shell. Hear that crunch? If it clicked, comment 'WARM & SAFE!' Walking-tech tips coming up next—don't miss it!" |
② 喜劇&搞笑(圖片生成/圖片轉影片-VEO3 模式)
|
喜劇:夜晚的雲霄飛車搭乘處 / Comedy: Roller Coaster Night(T2I → I2V 延續) |
|
|---|---|
| 圖片生成-中文 | 中近景,夜晚的雲霄飛車搭乘處(霓虹燈亮起):來自右上方的霓虹反射光柔和地照在臉頰上,髮絲邊緣有淡淡的輪廓光。背後的看板和人群柔和模糊。臉部約佔畫面 70%,雙眼直視鏡頭,露齒展現愉快笑容。日本奶奶用手指著急降的方向,左手輕握扶手。自拍直播第一人稱視角,手持微晃動,。焦距45–50mm,高精細度,電影感。 |
| 圖片生成-英文 | Medium close-up, roller coaster platform at night (neon lit): soft neon bounce lights her cheeks; subtle rim on hair edges; background signage and crowd softly blurred. Face fills ~70% of frame; eyes lock to lens; wide, playful smile. The Japanese grandma points toward the steep drop, lightly gripping the rail with her other hand. Selfie streamer POV with slight handheld wobble; faint stream UI at edges. 45–50mm perspective; high detail, cinematic. |
| 影片生成-中文 | 夜晚的搭乘處。環境音:安全桿喀嚓聲、鏈條升降機的嘎啦嘎啦聲、遠處的歡呼聲。鏡頭動態:她坐到座位上時輕微下沉,推進靠近臉部 → 接著朝向急降方向傾斜。背後的霓虹反射在她臉頰上閃爍。動作:用手指倒數「3・2・1」,將手放在腹部展示腹式呼吸。 角色:「呀呼~!聽到了嗎,這個嘎啦嘎啦聲!放低腰部~,從腹部吸氣…吐氣…要來囉,3、2、1,呼——!剛才笑出來的人,請按讚&留言『呼——!』!」 |
| 影片生成-英文 | Same neon platform. Ambience: safety bar click, chain-lift rattle, distant screams. Camera: seats compress as she sits; a gentle push-in to her face → tilt toward the glowing drop; neon reflections flicker across her cheeks. Action: finger counts "3-2-1," hand on belly to cue diaphragmatic breath. Character: "Hey hey! Hear that rattle? Sink your hips—inhale… exhale… ready? Three, two, FOOOOOOUR! If you laughed already, smash like and type 'FOOOO!' in chat!" |
|
喜劇:燈籠鯛魚燒攤位 / Comedy: Lantern Taiyaki Stall(T2I → I2V 延續) |
|
| 圖片生成-中文 | 中近景,燈籠照亮的攤位:暖色燈籠光柔和地包覆臉部,在鼻樑和臉頰上形成柔和的高光。背後的布簾和鐵板以淺景深模糊化。臉部約佔畫面 70%,雙眼直視鏡頭,嘴角上揚展現期待的笑容。日本奶奶將剛掰開的鯛魚燒舉到鏡頭前,熱氣輕輕上升。自拍直播第一人稱視角,手持微晃動。焦距45–50mm,高精細度。 |
| 圖片生成-英文 | Medium close-up, lantern-lit stall: warm lantern light wraps her face with gentle highlights on nose and cheeks; noren curtain and griddle softly blurred. Face fills ~70% of frame; eyes directly to lens; excited smile. The Japanese grandma lifts a freshly cracked taiyaki near the lens as steam billows. Selfie streamer POV with slight handheld wobble; 45–50mm; high detail. |
| 影片生成-中文 | 燈籠攤位。環境音:鐵板的劈啪聲、攤販的叫賣聲、遠處的蟬鳴聲。鏡頭動態:掰開鯛魚燒時熱氣朝鏡頭飄來,鏡頭橫移追蹤熱氣的漩渦,回到中央對準她的臉部推進。動作:她因為燙而縮起肩膀,呼呼地吹涼臉頰後咬一口。 角色:「啊,鏡頭抱歉!熱氣衝過來了!燙…但好香~!來決定一下,『紅豆派?還是奶油派?』立刻在留言區參戰!多數派的食譜,下支影片就來做給大家看!」 |
| 影片生成-英文 | Same lantern stall. Ambience: griddle crackle, vendor calls, faint cicadas. Camera: when she snaps the taiyaki, steam rolls toward the lens; the camera swipes to follow the swirl, then centers and pushes in to her face. Action: she shrugs at the heat, blows gently, then takes a playful bite. Character: "Oops—sorry lens! Steam blast! Hot… but toasty good! Time to decide—Team Red Bean or Team Custard? Drop your vote now! I'll cook the winning recipe in the next video!" |
③ 奇幻&神話(圖片生成/圖片轉影片-VEO3 模式)
|
奇幻:月光下的浮空島 / Fantasy: Moonlit Floating Island(T2I → I2V 延續) |
|
|---|---|
| 圖片生成-中文 | 中近景,月光照耀的浮空島(深夜・薄霧):冷色調月光從斜上方照亮臉部,髮絲邊緣有淡淡的輪廓光。背後有星霧和遠方的雲海,腳下有微微發光的魔法陣。臉部約佔畫面 70%,眼睛直視鏡頭,細微皺紋、膚質都清晰可見。表情是「沉穩中帶點俏皮」。70 多歲的日本奶奶(魔法師風格服裝)右手拿著法杖,左手展示圓形光環。自拍直播第一人稱視角,手持微晃動,畫面邊緣有淡淡的直播 UI。焦距45–50mm,高精細度,電影感。 |
| 圖片生成-英文 | Medium close-up, moonlit floating island (midnight, light mist): cool moonlight from above-left wraps her face; subtle rim along hair edges; star-mist and distant cloud sea behind; a faint glowing magic circle at her feet. Face fills ~70% of frame; eyes lock to lens; fine wrinkles and skin texture clearly visible; expression "calm with a playful hint." A Japanese grandma in sorceress attire holds a wand in her right hand and gestures to a circular glow with her left. Selfie streamer POV with slight handheld wobble; faint stream UI at edges; 45–50mm; high detail, cinematic. |
| 影片生成-中文 | 月光下的浮空島。環境音:高空的風沙沙吹過,魔法陣低聲嗡鳴,遠處傳來鐘聲般的閃爍音。鏡頭動態:0.6 秒緩慢推進推進到臉部 → 移到法杖頂端的光拉焦 → 再回到臉部,月光滑過臉頰。動作:她舉起法杖,將手掌放在胸前示範深呼吸。圓環光芒隨著呼吸脈動。 角色:「大家,吸氣…吐氣…現在的心跳,看到跟光芒同步了嗎?訣竅不是肩膀而是『下腹』。看,有種輕飄飄的感覺!感受到的人用『✨』向天空發出信號!接下來要一起放出小光球囉~。」 |
| 影片生成-英文 | Same moonlit isle. Ambience: high-altitude wind hush; low hum from the magic circle; faint bell-like twinkles afar. Camera: gentle 0.6s push-in to her face → rack focus to wand-tip glow → rack back to her face as moonlight glides across her cheek. Action: she raises the wand and places a palm on her chest to demo deep breathing; the ring of light pulses with her breath. Character: "Breathe in… and out… see the glow syncing with the heartbeat? Keep your shoulders soft—use the lower belly. Feel that lift? If you felt it, send '✨' to the sky! Next we'll launch a tiny light orb together." |
| 奇幻:龍背上盤旋城堡上空 / Fantasy: Dragon Over Castle(T2I → I2V 延續) | |
| 圖片生成-中文 | 中近景,火把照亮的古堡上空(破曉前的藍色時刻):雲間透出的冷色環境光,臉頰有微弱的輪廓光。下方是城堡的塔樓和火把光帶。臉部約佔畫面 70%,雙眼直視鏡頭,膚質、皺紋都高清呈現。表情是「興奮與英勇」。日本奶奶一隻手扶著龍鱗,另一隻手指著下方的塔樓。自拍直播第一人稱視角,手持微晃動。焦距45–50mm,電影感。 |
| 圖片生成-英文 | Medium close-up, above a torch-lit castle (pre-dawn blue hour): cool ambient glow from broken clouds; faint rim on her cheek; below, towers and torchlines. Face fills ~70% of frame; eyes to lens; skin texture and fine lines crisp; expression "excited and brave." The Japanese grandma braces a hand on dragon scales and points toward a tower. Selfie streamer POV with slight handheld wobble; 45–50mm; cinematic. |
| 影片生成-中文 | 同樣的城堡上空。環境音:龍的翅膀像心跳般發出咚…咚…聲響,風切聲撫過麥克風。遠處城門的火把劈啪作響。鏡頭動態:配合盤旋傾斜,掃過下方的火把列傾斜 → 緩慢回到臉部。動作:她一隻手握住龍鱗,展示核心肌群將手放在腹部,用呼吸穩定重心。 角色:「看看看,火把像條光帶一樣!風好強~~!但沒問題,用『手肘・膝蓋・腹部』三點鎖定。吸氣…吐氣…剛才的傾斜也撐過來了!想一起飛的人請用全大寫喊『DRAGON』!下一步要平穩降落在塔樓上,來試試看!」 |
| 影片生成-英文 | Same castle airspace. Ambience: dragon wingbeats thump like a heart; wind brushes the mic; torchlines crackle below. Camera: bank with the turn, tilt to skim the torchlit ramparts → drift back to her face. Action: she grips a scale with one hand, places the other on her core to show bracing; breath steadies her center of mass. Character: "Look—torchlight like a glowing ribbon! The wind is wild—but lock elbows, knees, and core. Breathe in… out… we held that bank! If you'd ride along, type 'DRAGON' in ALL CAPS! Next, a smooth landing on the tower—watch this!" |
圖片轉影片-VEO3 模式:動作+台詞配方(AI 阿嬤/博主視角・萬用)
| 語言 / Language | 居家工作室 / 開場眨眼 | 快速教學 / 結尾特寫 |
|---|---|---|
| EN(Image-to-Video) | A medium close-up, home studio desk, first-person streamer POV: Gentle handheld wobble → prop (mic) rises into frame as she nods → wink and thumb-up toward lens. Character: "Yahho〜、kyō wa ' |
A medium shot, quick tutorial layout: She points at on-screen captions → performs the action once → leans closer for the punchline. Character: "Channel tōroku, yoroshiku ne!" (3–5s) |
| JA(圖片轉影片) | 中近景,居家工作室桌前,第一人稱直播者視角:手持微晃 → 小型麥克風進入畫面並點頭 → 眨眼和豎起大拇指。角色:「呀呼~,今天要快速介紹『<テーマ>』!」(3~4 秒) | 中景,快速解說版面:指著畫面上的字幕 → 實際示範動作一次 → 靠近說出結語。角色:「請訂閱頻道唷!」(3~5 秒) |
Part5:品質提升技巧/NG 範例與注意事項
安全・權利相關注意事項
- 著作權・商標:避免特定設計,採用原創設計。
- 隱私權:不得擅自使用真實人物外貌。
- 平台規範:遵守各社群平台的社群守則。
Part6:常見問題(FAQ)
Q1. 用英文撰寫真的能提升精準度?
是的。將環境光・構圖・道具等用英文詳細描述會更穩定。日文台詞請明確標示為字幕・對嘴用途。
Q2. 最適合的長度是?
基本上 3~6 秒。0.5 秒呈現情境,2~4 秒展現重點,最後用不到 1 秒做眨眼或經典台詞。
Q3. 商業使用或授權?
請遵循 Filmora 的授權條款・各平台規定。注意不得侵害第三方權利。
Q4. 生成結果不穩定時的解決方法?
每次都加入固定用語(Japanese AI grandma/selfie POV/right-hand mic/subtle stream UI/natural skin/no caricature),用否定詞排除不需要的元素。
總結
身為 YouTuber 或 vlogger 的第一人稱直播視角來描繪AI奶奶最大的優勢在於結合Filmora の 圖片生成と圖片轉影片生成-VEO3模式結合後,任何人都能在短時間內AI影片大量產出。本文的中英對照詳細場景+台詞可以直接複製貼上,先試著發布一支影片吧。
