WhisperDesktop 語音轉文字免費單機軟體,AI 影片字幕實測比較



之前我介紹過 Windows 11 已經有不錯的「即時」語音轉文字工具,可以做即時的語音文字轉換,能支援繁體中文、自動加上標點符號。就算即時語音轉文字的效果不夠完美,這時候丟到 ChatGPT 請 AI 自動理順逐字稿,往往一篇正式的文章、會議紀錄也就快速誕生了。

就在前一陣子(2023年初),OpenAI 推出的 Whisper AI 語音轉文字技術,透過 AI 辨識各國語言讓成果的正確性、通順度有很大幅度的提升,也因此又誕生新一波利用 Whisper 「將影片、錄音檔案中的語音轉成文字、字幕」的工具。

例如這一款名為「 Whisper Desktop 」的免費、單機(可離線使用)、免安裝的「影音檔案轉文字、字幕」桌面端軟體,可以在 Windows 上簡單執行,他會利用電腦當中的顯示卡 GPU 當作運算資源,在離線的本機端完成語音轉文字的功能。




「 WhisperDesktop 」這樣的工具可以拿來利用在像是我們先錄了一段錄音,或是拍下一段影片的情況,這時候不用上傳雲端,可以直接在本機電腦利用「 WhisperDesktop 」這個軟體將錄音檔案或影片檔案轉成字幕檔、文字稿。

而且因為背後使用了 OpenAI 的 Whisper 技術,由 AI 辨識出來的文字和字幕準確性也非常高。同時,它也支援中文。

只要我們的電腦有基本的顯示卡(或者顯示晶片),就可以利用這個軟體在本機電腦中進行語音轉文字的運算。當然,顯示卡越好,運算的速度會越快。

今天這篇文章,就來試試看「 WhisperDesktop 」這款免費軟體如何操作,以及如何在本機電腦中進行影片轉字幕、錄音檔案轉文字的功能。同時,也比較看看 AI 轉出來的文字效果跟其他工具有沒有差別




「 WhisperDesktop 」操作教學:

首先,我們來到「 WhisperDesktop 」的 GitHub 頁面,你可以在右方的「 Releases 」區域,找到最新版軟體的下載位址。

點進去後,我們可以下載「WhisperDesktop.zip」這個 Windows 上的免安裝軟體版本。




下載後解壓縮,直接執行裡面的「WhisperDesktop」,這時候會要求你去下載一個 Whisper 運算模型檔案(下載 Whisper 模型,有很多選擇,但開發者建議可以下載「 ggml-medium.bin 」這個版本。我實際測試,可以有兩種選擇:

  • 「 ggml-medium.bin 」:建議有獨立顯示卡的電腦使用。檔案大約 1.53 GB ,運算時會比較花費 GPU 資源,如果你的電腦沒有獨立顯示卡,可能要運算比較久。
  • 「ggml-small.bin 」:建議沒有獨立顯示卡的輕薄筆電使用。檔案大約 488 MB ,相對來說適合沒有獨立顯示卡的輕薄筆電,運算時間會大幅縮短,但轉換出來的文字也依然不錯。




接著,讓「WhisperDesktop」載入我們選擇的運算模型,按下 OK 。




進入到正式準備語音轉文字的畫面,我們依序完成下面步驟,按下「 Transcribe 」即可:

  • 選擇要轉出的語言,中文可以輸出成繁體中文。
  • 選擇來源檔案。
  • 設定要輸出的檔案格式。
  • 設定要輸出的文字檔案名稱。




下面就是「WhisperDesktop」轉換一段大約 6 分多鐘 MP4 影片的結果。(使用「 ggml-medium.bin 」比較大型的運算模型)

當然裡面不是 100% 正確,但是出錯的地方都可以接受,例如他理所當然不知道我的「 esor 」這個特殊字是什麼意思。

而整體上無論時間戳記、分段方式、語句通順度都不錯,甚至一段話中也會加上適度的標點符號,讓我們手動微調的時間減到最少

如果你需要的不是字幕,而是逐字稿或正式報告,可以搭配這一篇文章的技巧一起使用:「用 ChatGPT 快速將會議語音逐字稿轉成完美文章表格的 5 個技巧」。





「 WhisperDesktop 」的運算時間快不快?

「WhisperDesktop」的效果無庸置疑, Whisper AI 語音轉文字技術確實厲害。但是,這是一個本機軟體,使用自己電腦中的 GPU 來運算,這樣會不會很慢呢?讓我實際測試幾種情況給大家看。

每次運算完成,「WhisperDesktop」會提供這次運算的時間給我們參考。下面這張圖,是我用一台有獨立顯示卡(GTX 1060)的筆電(6年前購買的,目前還在使用)來測試。

在擁有獨立顯示卡的電腦上,前述那段 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,轉成文字檔案的時間大約是 1 分鐘 25 秒,完全可以接受。而如果擁有更新、更好的獨立顯示卡的筆電、電腦的朋友,運算時間一定可以比我快上許多。




但是,如果你的筆電沒有內建獨立顯示卡呢?

例如我去年購買了 Surface Pro 9 (這幾年喜歡這樣的觸控螢幕輕薄筆電),沒有獨立顯示卡,但是當然還是有顯示晶片可以運算,這時候的效能如何呢?

結果如下圖,雖然是更新的筆電,平常跑其他文書、網頁更快,但一旦碰上需要顯示卡運算時,就有明顯的速度差距。

在沒有獨立顯示卡的新筆電上,如果我上述 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,跑了 28 分鐘才產出結果




所以我在 Surface 輕薄筆電上趕快換成「ggml-small.bin 」這個小型的運算模型,這時候,一段 6 分鐘的影片,在沒有獨立顯示卡的筆電上,也「只需要」 10 分鐘左右來完成。

雖然不夠快,但可以接受。




而且,粗看下來,用大型運算模型、小型運算模型,在這個 6 分鐘影片的例子上,看不出明顯差別。

下面是「ggml-small.bin 」算出來的結果。





「 WhisperDesktop 」與其他語音轉文字工具比較:

首先,我之前轉這類影片、錄音檔案的字幕,通常使用「pyTranscriber 影片自動上字幕免費軟體」,下面是和「 WhisperDesktop 」比較的結果。

圖左是「 WhisperDesktop 」的轉出結果,圖右是「 pyTranscriber 」的轉出結果,幾個可以比較的地方是:

  • 兩者的轉出文字效果都不差,但很明顯「 WhisperDesktop 」效果更好。
  • 「 WhisperDesktop 」一個的優點除了文字辨識、加上標點的效果更好外,還有一個關鍵是「懂得如何斷句」。
    • 你可以看到「 pyTranscriber 」因為太頻繁斷句,所以導致很多時候語意的轉換變成不夠正確。
    • 而「 WhisperDesktop 」會利用 AI 聰明斷句,每一段的時間長度其實都不一樣,但以保留完整語意為前提,所以他的轉換效果才更通順。
  • 不過如果在設備比較沒那麼好的電腦上,或是沒有獨立顯示卡的筆電上,「 pyTranscriber 」的速度絕對是非常快的,上述影片可能一兩分鐘內就轉換完畢。




接著,我們來比較看看,同樣是利用 Whisper 技術的「 Good Tape 」,和「 WhisperDesktop 」有沒有差別。

下圖是「 Good Tape 」轉出的結果,基本上效果差不多,甚至出錯的地方也很像。那麼他們的差別會在哪些地方呢?

  • 主要在於「 WhisperDesktop 」是單機軟體,影片、錄音檔案不用上傳雲端。而且也是免費沒有使用限制。
  • 相對的,「 Good Tape 」的「付費版本」可以讓沒有好設備的工作者,利用他們的雲端運算資源,來更快產出語音轉文字檔案。




最後,「 WhisperDesktop 」還有一個即時語音轉文字的功能,可以利用下方的「 Audio Capture 」切換。

即時語音轉文字,就是開啟麥克風,直接說話,直接轉入文字檔案。

不過我實際測試,可能要「有更好的獨立顯示卡」的電腦,才能把這個功能運作得很順暢,要不然在運算時就很容易漏掉很多內容。

因此,如果沒有前述條件,或許「用 Windows 11 語音輸入繁體中文,快速完成會議紀錄、思考筆記」是一個快速、不消耗效能、效果也非常好的解決方案。




以上,就是我對「 WhisperDesktop 」的測試心得,提供大家參考,也值得需要語音轉文字工作,無論是製作會議紀錄,還是製作影片、錄音檔案字幕的朋友試試看。

有興趣的朋友還可以進一步研究:


大家好,我是電腦玩物站長 Esor ,我在 2023 年推出的「個人數位生產力」線上課程中,從如何寫出有效的防彈筆記出發,觸及工作、生活與自我管理問題,解析如何打造一套執行起來更有效率,也更有成就感的生產力系統,歡迎參考(可使用電腦玩物老讀者折扣碼 ESOR500 ,獲得 500 元折價喔!)。

我的電子郵件是 esorhjy@gmail.com ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。或訂閱「電腦玩物電子報

我也開設了 podcast 節目,歡迎訂閱追蹤:高效人生商學院」(Apple podcast 訂閱、 Google Podcast 訂閱)。

也跟大家介紹我開設的一系列時間管理、筆記術、數位工具課程,歡迎報名:「課程介紹連結」。或參考我的最新書籍著作:《防彈筆記法》。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:WhisperDesktop 語音轉文字免費單機軟體,AI 影片字幕實測比較

留言

  1. 翻譯的那個好像僅限翻成英文,選其他語言沒有用處的樣子。

    回覆刪除
  2. 請問版主有遇到轉了幾次繁體中文字幕後,有時後自變成簡體中文,知道怎麼設定嗎?感謝🙏

    回覆刪除
    回覆
    1. 我目前尚未遇過

      不過確實他的設定中沒有區分繁體、簡體中文,可能只能關閉後重新試試看了

      刪除
    2. 你得把Translate那個給反勾選才可以

      刪除
  3. 站長您好,我照著這篇文章的方式做了,但是transcribe的進度條跑完後就卡住了,一直停在「transcribing the audio, please wait...」不會產出文件...
    請問您有遇過這個狀況嗎?

    回覆刪除
  4. 按照我今天實際作業發現,那個language 指的是影片裏面的語音,
    而不是翻譯成哪種文字。
    我的影片檔是日文語音,一開始我選擇中文,結果解析出來的完全不行,後來改成日文,就正確解析出日文,內容對不對我就不知道了。

    回覆刪除
  5. 模型的連結失效了
    我後來在這邊找到的
    https://huggingface.co/ggerganov/whisper.cpp/tree/main

    回覆刪除
  6. 站長,
    我剛買了新電腦並下載了WhisperDesktop,但是出現這句:「你必須為這項工作安裝應用程式」,然後叫我去Microsoft store 搜尋,但沒找到。請問如何解決 ?謝謝

    回覆刪除

張貼留言

為了避免垃圾廣告留言過多,開始測試「留言管理」機制,讓我可以更容易回應讀者留言,並更簡單過濾掉廣告,但只要不是廣告留言都會通過審核。

這個網誌中的熱門文章

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

微軟 Bing AI 繪圖工具 Image Creator 免費開放,30秒輕鬆生成圖片

Google Maps 我的地圖完全教學!規劃自助旅行攻略

3個 ChatGPT 輸入到輸出實驗,第二大腦筆記用 AI 生成文章報告

Arc 瀏覽器 windows 版測試心得,用四大介面改造升級專注工作流

Google 表單的 10 個專業問卷調查設計秘密教學

如何為筆記命名,建立搜尋規則?我的標題、分類、標籤命名法

Draw.io 中文線上製作流程圖首選!專業水準完全免費

如何用 ChatGPT 加速生成一份有圖有文的簡報,實戰案例教學

Google 表單自動關閉回覆教學:時間人數到達就過期