我這樣對 Gemini 下指令,快速 AI 影片轉字幕,專有名詞、時間軸都正確!
最近工作上完成了一系列的教學影片,到了最後階段,要準備加上字幕時,想說來試試看「 Gemini 」能不能正確的辨識影片並轉出字幕檔,尤其希望 Gemini 的 AI 處理能夠滿足下面幾個要求,語音辨識成文字是基本,更進一步還會希望有:「正確時間軸分段、正確標點符號、正確專有名詞」。尤其影片中常常講到特殊工具名、專案名、人名時,字幕錯一個字就很尷尬,後續修正還很耗時間。
實際嘗試後,針對我常常需要的「10分鐘內長度的影片」,結論是 Gemini 已經可以當作一個對大多數人來說最簡單易用,而且效果非常好的「影片轉字幕」工具,並且轉出字幕的速度往往就在一分鐘之內完成!(更長時間的影片效果如何,還需要我後續更多的測試才知道)
今天這篇文章,跟大家分享我目前透過 Gemini 轉10分鐘內影片字幕的具體作法,透過有效的指令, Gemini 可以做到:
- 一分鐘內,把十分鐘影片內容轉成繁體中文字幕
- 比各種單機軟體、雲端軟體可能都更快(Buzz 用 AI 一鍵影音轉文字:免費準確的語音轉字幕、逐字稿軟體)
- 自動幫你切好時間段(字幕斷點)
- 句子有標點、可讀性高
- 有正確的專有名詞,錯字率非常低
絕對是「可以直接派上用場」的程度,套在 YouTube 影片或影片剪輯工具的字幕檔(例如:Google Vids 免費線上影片編輯工具,輕鬆完成教學影片錄製、剪輯、特效、字幕)。
下面是影片版操作教學,更完整指令說明在文章後段:
Gemini 的延伸 AI 功能教學:
步驟一:打開 Google Gemini Pro 或思考型模型,上傳影片檔
如果要使用 Gemini 直接製作影片字幕,要切換到「 Gemini 3 Pro 」的進階模型,或是使用「 Gemini 3 思考型」模型。
若是使用「快捷」模型無法正確解析出字幕內容。
- 打開 Google Gemini,切換到 3 Pro 或思考型模型
- 在輸入框旁找到「+」
- 選擇上傳你剛錄製好的影片檔案
這邊如果選擇「 Gemini 3 快捷模型」,雖然看起來好像有辨識出更多正確的語音文字,但仔細檢查,裡面添加了很多影片裡沒有的幻覺內容,而且處理字幕的時間標記時都是錯的。
步驟二:用指令請 Gemini 產出正確繁體中文字幕(我會這樣下指令)
我希望 Gemini AI 產出字幕檔時,已經趨近於我可以直接套用的結果:
- 專有名詞正確
- 適當的分段
- 正確的時間軸標記
除了可以直接請 AI 把影片轉出字幕檔,也可以在指令中加上幾個關鍵命令,下面是我測試後覺得最有效的:
- 策略 1:要求「一步一步處理」
- 要求 AI 一步一步做,通常會更仔細,漏字、錯字會更少。
- 策略 2:不硬性規定「時間切點」,讓 AI 幫我判斷
- 我不會刻意限制它「每行一定要幾秒」或「一定要切幾段」,因為大多數時候讓 AI 自己判斷,整體字幕節奏反而比較自然。
- 策略 3:一定要先提示「關鍵字」
- 這是我覺得最值得做的一件事,在指令中先告訴它:影片可能會提到哪些人名、工具名、專有名詞,它在辨識時通常會更準,後面修正會少很多。
例如我的影片裡可能會出現:
- 電腦玩物站長 Esor
- Evernote
- Wispr Flow
這些我會先列出來。
下面是我用 Gemini 轉影片字幕時慣用的「 Prompt 指令範本」,你只要把「關鍵字」換成你這支影片可能出現的名詞即可:
請分析我上傳的影片,製作成「繁體中文」字幕內容,並使用 SRT 格式輸出。請一步一步處理:
1. 逐段聆聽並轉寫成繁體中文,加入自然的標點符號。
2. 依照語意與停頓,自動切分字幕段落並產生時間碼(我不需要你固定每段長度,請你自行判斷最佳切點)。
3. 盡可能修正同音錯字,並保持專有名詞正確。
影片中可能出現的關鍵字如下(請優先用這些詞彙辨識):
- 電腦玩物站長 Esor
- Evernote
- Wispr Flow
最後請直接輸出完整 SRT 內容,讓我可以複製貼上存檔。
如果你覺得這樣製作字幕前,還要自己整理關鍵字?會不會很麻煩?
那這時候你可以試試看下面這個方法,我不一定要提供整理後的關鍵字,我可以提供「影片大綱、腳本或筆記」,這些應該是「現成內容」,複製貼上就好,這時候裡面自然有需要的關鍵字,讓 AI 自己去辨識即可。
裡面的關鍵字為:
- Wispr Flow(Mac/iOS/Windows):跨 App 即時輸入、可客製字典、保留錄音;適合回信、短文、訊息。
- Windows 11 內建語音輸入:零門檻快捷鍵、逐句轉錄;不留錄音,適合 Windows 11 使用者的日常輸入。
- Google 即時轉錄(Android):手機隨錄隨轉、長講也不斷;需事後潤飾繁中選字。
- Evernote:5–30 分鐘錄音先存再轉,AI 自動分段潤飾、保留原始錄音;偶有轉為簡中的情況,可再交給 AI 修正。
- NotebookLM:一小時以上長錄音後製,AI 協助摘要、彙整、提問,不適合即時輸入。
- ChatGPT:臨時口述+即刻整理一氣呵成;網路不穩時上傳失敗且不留音檔需留意。
- Gemini:可上傳錄音檔並以指令輸出所需格式;免費帳戶長度有限,付費更實用。
步驟三:把 Gemini 的字幕內容存成 .srt 檔
目前 Gemini 不會直接產生「一個可下載的字幕檔」,但這完全不影響我們使用。
做法很簡單:
- 在 Gemini 回答中,把整段 SRT 字幕內容複製起來
- 打開純文字編輯器
- Windows:記事本(Notepad)
- macOS:文字編輯(用純文字模式)
- 把字幕內容貼上去
- 存檔時,檔名用:
你的影片名稱.srt - 檔案類型要是純文字
- 副檔名一定要是
.srt
完成後,你就得到一個標準字幕檔,這時候可以上傳到 YouTube ,或是用影片工具附加到影片中。
Gemini AI 辨識出的字幕檔,有時候時間軸不是百分之百精準,可能是我語速太快,或是講得時候分段不夠明顯,可能某幾段會有一秒左右的切換落差。
這時候也可以透過上傳到 YouTube 等工具時,利用方便的字幕時間調整工具,簡單的微調即可。
如果有製作教學影片需求的老師們,或是要做宣傳影片的行銷人員,都可以試試看 Gemini 這個簡單方便的影片轉字幕檔工作流程。
若是影片容量太大,可以試著轉成聲音檔案,體積變小後上傳(反正做成字幕的時間軸都一樣)。
大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:
- 2024/6 最新著作上市,歡迎支持:《高效人生工作法圖解》
- 大人學最新 AI 課程:用 AI 提升工作效率的實戰工作坊
- 「個人數位生產力」線上課程(可使用電腦玩物老讀者折扣碼 ESOR500 ,獲得 500 元折價喔!)。
- 時間管理、筆記系統、AI 工具相關課程:「課程介紹連結」
- 著作:《防彈筆記法》
- 訂閱追蹤 podcast 節目:「高效人生商學院」(Apple podcast 訂閱、 Google Podcast 訂閱)
- 訂閱「電腦玩物電子報」,不定期出刊。
我的電子郵件是 esorhjy@gmail.com ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。
(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:我這樣對 Gemini 下指令,快速 AI 影片轉字幕,專有名詞、時間軸都正確!)
留言
張貼留言
為了避免垃圾廣告留言過多,開始測試「留言管理」機制,讓我可以更容易回應讀者留言,並更簡單過濾掉廣告,但只要不是廣告留言都會通過審核。