我這樣對 Gemini 下指令,快速 AI 影片轉字幕,專有名詞、時間軸都正確!



最近工作上完成了一系列的教學影片,到了最後階段,要準備加上字幕時,想說來試試看「 Gemini 」能不能正確的辨識影片並轉出字幕檔,尤其希望 Gemini 的 AI 處理能夠滿足下面幾個要求,語音辨識成文字是基本,更進一步還會希望有:「正確時間軸分段、正確標點符號、正確專有名詞」。尤其影片中常常講到特殊工具名、專案名、人名時,字幕錯一個字就很尷尬,後續修正還很耗時間。

實際嘗試後,針對我常常需要的「10分鐘內長度的影片」,結論是 Gemini 已經可以當作一個對大多數人來說最簡單易用,而且效果非常好的「影片轉字幕」工具,並且轉出字幕的速度往往就在一分鐘之內完成!(更長時間的影片效果如何,還需要我後續更多的測試才知道)

今天這篇文章,跟大家分享我目前透過 Gemini 轉10分鐘內影片字幕的具體作法,透過有效的指令, Gemini 可以做到:


絕對是「可以直接派上用場」的程度,套在 YouTube 影片或影片剪輯工具的字幕檔(例如:Google Vids 免費線上影片編輯工具,輕鬆完成教學影片錄製、剪輯、特效、字幕)。

下面是影片版操作教學,更完整指令說明在文章後段




Gemini 的延伸 AI 功能教學:



步驟一:打開 Google Gemini Pro 或思考型模型,上傳影片檔

如果要使用 Gemini 直接製作影片字幕,要切換到「 Gemini 3 Pro 」的進階模型,或是使用「 Gemini 3 思考型」模型

若是使用「快捷」模型無法正確解析出字幕內容

  • 打開 Google Gemini,切換到 3 Pro 或思考型模型
  • 在輸入框旁找到「+」
  • 選擇上傳你剛錄製好的影片檔案




這邊如果選擇「 Gemini 3 快捷模型」,雖然看起來好像有辨識出更多正確的語音文字,但仔細檢查,裡面添加了很多影片裡沒有的幻覺內容,而且處理字幕的時間標記時都是錯的。




步驟二:用指令請 Gemini 產出正確繁體中文字幕(我會這樣下指令)

我希望 Gemini AI 產出字幕檔時,已經趨近於我可以直接套用的結果:

  • 專有名詞正確
  • 適當的分段
  • 正確的時間軸標記

除了可以直接請 AI 把影片轉出字幕檔,也可以在指令中加上幾個關鍵命令,下面是我測試後覺得最有效的:

  • 策略 1:要求「一步一步處理」
    • 要求 AI 一步一步做,通常會更仔細,漏字、錯字會更少。
  • 策略 2:不硬性規定「時間切點」,讓 AI 幫我判斷
    • 我不會刻意限制它「每行一定要幾秒」或「一定要切幾段」,因為大多數時候讓 AI 自己判斷,整體字幕節奏反而比較自然。
  • 策略 3:一定要先提示「關鍵字」
    • 這是我覺得最值得做的一件事,在指令中先告訴它:影片可能會提到哪些人名、工具名、專有名詞,它在辨識時通常會更準,後面修正會少很多。

例如我的影片裡可能會出現:

  • 電腦玩物站長 Esor
  • Evernote
  • Wispr Flow

這些我會先列出來。

下面是我用 Gemini 轉影片字幕時慣用的「 Prompt 指令範本」,你只要把「關鍵字」換成你這支影片可能出現的名詞即可:

請分析我上傳的影片,製作成「繁體中文」字幕內容,並使用 SRT 格式輸出。請一步一步處理:

1. 逐段聆聽並轉寫成繁體中文,加入自然的標點符號。
2. 依照語意與停頓,自動切分字幕段落並產生時間碼(我不需要你固定每段長度,請你自行判斷最佳切點)。
3. 盡可能修正同音錯字,並保持專有名詞正確。

影片中可能出現的關鍵字如下(請優先用這些詞彙辨識):
- 電腦玩物站長 Esor
- Evernote
- Wispr Flow

最後請直接輸出完整 SRT 內容,讓我可以複製貼上存檔。





如果你覺得這樣製作字幕前,還要自己整理關鍵字?會不會很麻煩?

那這時候你可以試試看下面這個方法,我不一定要提供整理後的關鍵字,我可以提供「影片大綱、腳本或筆記」,這些應該是「現成內容」,複製貼上就好,這時候裡面自然有需要的關鍵字,讓 AI 自己去辨識即可。

裡面的關鍵字為:
- Wispr Flow(Mac/iOS/Windows):跨 App 即時輸入、可客製字典、保留錄音;適合回信、短文、訊息。
- Windows 11 內建語音輸入:零門檻快捷鍵、逐句轉錄;不留錄音,適合 Windows 11 使用者的日常輸入。
- Google 即時轉錄(Android):手機隨錄隨轉、長講也不斷;需事後潤飾繁中選字。
- Evernote:5–30 分鐘錄音先存再轉,AI 自動分段潤飾、保留原始錄音;偶有轉為簡中的情況,可再交給 AI 修正。
- NotebookLM:一小時以上長錄音後製,AI 協助摘要、彙整、提問,不適合即時輸入。
- ChatGPT:臨時口述+即刻整理一氣呵成;網路不穩時上傳失敗且不留音檔需留意。
- Gemini:可上傳錄音檔並以指令輸出所需格式;免費帳戶長度有限,付費更實用。



步驟三:把 Gemini 的字幕內容存成 .srt 檔

目前 Gemini 不會直接產生「一個可下載的字幕檔」,但這完全不影響我們使用。

做法很簡單:

  • 在 Gemini 回答中,把整段 SRT 字幕內容複製起來
  • 打開純文字編輯器
    • Windows:記事本(Notepad)
    • macOS:文字編輯(用純文字模式)
  • 把字幕內容貼上去
  • 存檔時,檔名用:你的影片名稱.srt
    • 檔案類型要是純文字
    • 副檔名一定要是 .srt

完成後,你就得到一個標準字幕檔,這時候可以上傳到 YouTube ,或是用影片工具附加到影片中。




Gemini AI 辨識出的字幕檔,有時候時間軸不是百分之百精準,可能是我語速太快,或是講得時候分段不夠明顯,可能某幾段會有一秒左右的切換落差。

這時候也可以透過上傳到 YouTube 等工具時,利用方便的字幕時間調整工具,簡單的微調即可。




如果有製作教學影片需求的老師們,或是要做宣傳影片的行銷人員,都可以試試看 Gemini 這個簡單方便的影片轉字幕檔工作流程。

若是影片容量太大,可以試著轉成聲音檔案,體積變小後上傳(反正做成字幕的時間軸都一樣)。



大家好,我是電腦玩物站長 Esor ,歡迎參考我的系列課程與書籍:


我的電子郵件是 esorhjy@gmail.com ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:我這樣對 Gemini 下指令,快速 AI 影片轉字幕,專有名詞、時間軸都正確!

留言

這個網誌中的熱門文章

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

用 AI 寄送個性化聖誕老人祝福短影片,也可以說中文!

活用三大 Google AI 教學神器,把複雜知識變成手繪心智圖、遊戲網頁、圖解簡報

Quizlet 遊戲化背單字卡軟體教學,一億五千多萬學習集免費用

紙本筆記、會議白板也能變 AI 資料庫: NotebookLM 分析中文手寫、手繪圖實測

Google One 台灣開通測試,六位家人共用一個 Google 付費空間

Google 簡報加入 Nano Banana Pro: AI 一鍵美化舊簡報版面、圖片、圖表