免費!中文影片語音轉文字字幕,支援超大影片與長時間錄音



讀者推薦的最新軟體,更加厲害:pyTranscriber 影片自動上字幕免費軟體!10分鐘搞定1小時影片」。

不久前在電腦玩物測試了:「YouTube 影片、錄音檔語音自動轉 Google 文件、翻譯文字檔」,在該文底下,一位台灣開發者「布丁布丁吃什麼」留言分享自己設計的一個工具:「 Web Speech to Text 」,顧名思義,也是一個語音轉文字的線上工具,不過它的特色是:

  • 支援中文語音轉文字。
  • 可以將影片、錄音轉成有「時間軸」的「字幕檔案」。
  • 支援轉換電腦裡的影片檔、錄音檔,而且「不需上傳」。
  • 看起來對影片時間、檔案大小,都「沒限制」
  • 免費!

我實際測試了兩段影片:

  • 10分鐘左右影片,250MB大小,順利轉換出中文字幕檔。
  • 40多分鐘影片,超過2GB,也順利轉換出中文字幕檔。

影片、錄音轉換成字幕檔需要多久呢?他是一邊播放影片,一邊轉成文字檔,所以實際運作時間就是影片、錄音的播放時間。轉換速度很即時,我的測試中也都沒有出現卡住或中斷的情況。

簡而言之,如果你希望影片、錄音轉成文字檔內容,尤其需要製作影片字幕,「 Web Speech to Text 」是一個值得試試看的免費工具。




Web Speech to Text 」雖然是一個線上工具,不過並不需要註冊帳號,處理本機硬碟中的影片、錄音檔案時,甚至不需要上傳,是「直接在電腦本機中處理完成」。

因為這款工具,是利用 Google Chrome 內建的 Web Speech API ,用瀏覽器來處理語音轉文字,再加上自動轉成字幕檔的程式(加上每段文字的影片時間標記)。所以處理影片其實是用 Google Chrome 當作軟體,也就不需要上傳影片到雲端了。

使用上的幾個限制是:

  • 要使用 Google Chrome 瀏覽器處理,最好更新到最新版。
  • 需要另外安裝一個「 Virtual Audio Cable 」虛擬音源線軟體(後面會更深入介紹)。
  • 只能處理下面格式的本機影片或錄音檔案:
    • 影片格式:MP4,而且必須是以VP8、VP9、H.264編碼。
    • 聲音格式:WAV、OGG、MP3格式。
  • 當然,也可以處理線上 YouTube 的影片(直接提供網址即可處理)。

下面就讓我來試試看「 Web Speech to Text 」的操作流程吧!




首先,為了讓「同一台電腦中」可以同時播放影片,又把影片聲音輸入到麥克風。我們需要安裝一個叫做「 Virtual Audio Cable 」的虛擬音源線軟體,它在我們這個工具上的用途,簡單來說就是:「建立一個虛擬喇叭、一個虛擬麥克風,讓影片聲音直接輸入到虛擬麥克風,進行轉錄文字」。

我的前一篇文章「YouTube 影片、錄音檔語音自動轉 Google 文件、翻譯文字檔」中,也有介紹到「 Virtual Audio Cable 」。所以我這邊直接進行操作說明。

到「 Virtual Audio Cable 」網站下載軟體,完成安裝。




接著在電腦系列列的[喇叭]圖示上點擊右鍵,選擇[開啟音效設定]。

在[音效]設定頁面,將輸出裝置改成「 Virtual Audio Cable 」的「 Line 1」,將輸入裝置也改成「 Virtual Audio Cable 」的「 Line 1」。這樣就設定完成了。

要注意幾個細節:

  • 這樣設定是把自己的喇叭、麥克風改成虛擬裝置,所以轉錄影片時不會聽到任何聲音,這是正常的。
  • 完成語音轉文字後,記得改回來,要不然你的電腦就無法正常播放聲音,或是使用麥克風。
  • 這是一款試用軟體,連續使用一個小時後,會出現女性聲音說明試用提醒,




然後來到「 Web Speech to Text 」網站,左上方有幾個載入影片的方式:

  • 讀取本機檔案:
    • 從電腦硬碟直接載入影片、錄音檔案。
    • 不需上傳,所以可以立即載入。
    • 我測試超過 2 GB 的影片檔案,都能順利載入。
  • 讀取網址:
    • 貼上一段 YouTube 影片的網址。

 載入影片後,按下[開始辨識],就會開始一邊播放影片,一邊辨識出字幕。




一個很棒的地方是,因為透過「 Virtual Audio Cable 」虛擬音源線轉錄,所以在語音轉文字的過程中:

  • 只要不關掉這個網頁分頁即可。
  • 可以切換到瀏覽器其他分頁繼續工作。
  • 可以換到其他軟體視窗繼續工作。

轉錄時,可以即時在下方看到「字幕時間」、「字幕文字」,甚至要即時修改辨識錯誤的文字也沒問題。





最後辨識完成,在[輸出格式]選擇要下載成 srt 字幕檔案,或是有包含時間標記的 TXT 檔案,按下[下載]即可。




上圖可以看到,一段 40 分鐘的影片,從頭到尾順利辨識完成。

以文字辨識效果來說:

  • 正確率可以達到實用的等級,當然還是需要回頭潤稿、修正錯誤。
  • 不會自動加上標點符號,但如果是字幕,反而不算大問題。

如果是需要為影片、錄音檔案加上字幕的朋友,推薦可以試試看這個「 Web Speech to Text 」。

而如果是單純想要語音轉文字,那麼最近我推薦的這個「Google 即時轉錄:超準確中文語音轉文字可自動加上標點符號」,則是更厲害的選擇。



(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:免費!中文影片語音轉文字字幕,支援超大影片與長時間錄音

留言

  1. 作者已經移除這則留言。

    回覆刪除
  2. 站長, 推介試用這個開源程式:
    https://github.com/raryelcostasouza/pyTranscriber/releases/tag/v1.3-stable

    這程式可直接處理 mp3或mp4檔案, 不用安裝 Virtual Audio Cable, 速度比用 "Web Speech to Text" 快得多。

    回覆刪除
  3. 實際使用錯字率還是很高的 大概只有英文好一些

    回覆刪除
  4. 請問 為何影片放上去後
    卻無法點擊 開始辨識 呢

    回覆刪除
  5. 为什么今天下载安装以后显示连接错误的英特网?我分别用了韩国日本,美国台湾香港俄罗斯的vpn都显示连接错误的英特网,怎么回事

    回覆刪除
  6. 中文語音,轉出來都是英文@@

    回覆刪除
  7. 多謝作者,很棒的軟體! 此軟體因為是呼叫Web API 的語音辨識功能,所以除了可以在Chrome瀏覽器使用之外,也可以直接在微軟的Edge瀏覽器使用 (這樣用, 在中文的語音辨識上,往往還可以得到更好的正確率), 因為Edge瀏覽器的Web API 語音辨識功能是連到微軟自己的雲端語音辨識引擎。

    回覆刪除

張貼留言

為了避免垃圾廣告留言過多,開始測試「留言管理」機制,讓我可以更容易回應讀者留言,並更簡單過濾掉廣告,但只要不是廣告留言都會通過審核。

這個網誌中的熱門文章

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

微軟 Bing AI 繪圖工具 Image Creator 免費開放,30秒輕鬆生成圖片

Arc 瀏覽器 windows 版測試心得,用四大介面改造升級專注工作流

Google Maps 我的地圖完全教學!規劃自助旅行攻略

個人知識管理的時間平衡心法,忙碌中我如何維持高效率輸入輸出

5 條「這時候,不要做」清單打破無意識行動模式的低效率循環

Google 表單的 10 個專業問卷調查設計秘密教學

如何用 ChatGPT 加速生成一份有圖有文的簡報,實戰案例教學

ChatGPT DALL-E 3 的7個特殊 AI 繪圖應用教學,勝過 Midjourney