WhisperDesktop 語音轉文字免費單機軟體,AI 影片字幕實測比較



之前我介紹過 Windows 11 已經有不錯的「即時」語音轉文字工具,可以做即時的語音文字轉換,能支援繁體中文、自動加上標點符號。就算即時語音轉文字的效果不夠完美,這時候丟到 ChatGPT 請 AI 自動理順逐字稿,往往一篇正式的文章、會議紀錄也就快速誕生了。

就在前一陣子(2023年初),OpenAI 推出的 Whisper AI 語音轉文字技術,透過 AI 辨識各國語言讓成果的正確性、通順度有很大幅度的提升,也因此又誕生新一波利用 Whisper 「將影片、錄音檔案中的語音轉成文字、字幕」的工具。

例如這一款名為「 Whisper Desktop 」的免費、單機(可離線使用)、免安裝的「影音檔案轉文字、字幕」桌面端軟體,可以在 Windows 上簡單執行,他會利用電腦當中的顯示卡 GPU 當作運算資源,在離線的本機端完成語音轉文字的功能。




「 WhisperDesktop 」這樣的工具可以拿來利用在像是我們先錄了一段錄音,或是拍下一段影片的情況,這時候不用上傳雲端,可以直接在本機電腦利用「 WhisperDesktop 」這個軟體將錄音檔案或影片檔案轉成字幕檔、文字稿。

而且因為背後使用了 OpenAI 的 Whisper 技術,由 AI 辨識出來的文字和字幕準確性也非常高。同時,它也支援中文。

只要我們的電腦有基本的顯示卡(或者顯示晶片),就可以利用這個軟體在本機電腦中進行語音轉文字的運算。當然,顯示卡越好,運算的速度會越快。

今天這篇文章,就來試試看「 WhisperDesktop 」這款免費軟體如何操作,以及如何在本機電腦中進行影片轉字幕、錄音檔案轉文字的功能。同時,也比較看看 AI 轉出來的文字效果跟其他工具有沒有差別




「 WhisperDesktop 」操作教學:

首先,我們來到「 WhisperDesktop 」的 GitHub 頁面,你可以在右方的「 Releases 」區域,找到最新版軟體的下載位址。

點進去後,我們可以下載「WhisperDesktop.zip」這個 Windows 上的免安裝軟體版本。




下載後解壓縮,直接執行裡面的「WhisperDesktop」,這時候會要求你去下載一個 Whisper 運算模型檔案(下載 Whisper 模型,有很多選擇,但開發者建議可以下載「 ggml-medium.bin 」這個版本。我實際測試,可以有兩種選擇:

  • 「 ggml-medium.bin 」:建議有獨立顯示卡的電腦使用。檔案大約 1.53 GB ,運算時會比較花費 GPU 資源,如果你的電腦沒有獨立顯示卡,可能要運算比較久。
  • 「ggml-small.bin 」:建議沒有獨立顯示卡的輕薄筆電使用。檔案大約 488 MB ,相對來說適合沒有獨立顯示卡的輕薄筆電,運算時間會大幅縮短,但轉換出來的文字也依然不錯。




接著,讓「WhisperDesktop」載入我們選擇的運算模型,按下 OK 。




進入到正式準備語音轉文字的畫面,我們依序完成下面步驟,按下「 Transcribe 」即可:

  • 選擇要轉出的語言,中文可以輸出成繁體中文。
  • 選擇來源檔案。
  • 設定要輸出的檔案格式。
  • 設定要輸出的文字檔案名稱。




下面就是「WhisperDesktop」轉換一段大約 6 分多鐘 MP4 影片的結果。(使用「 ggml-medium.bin 」比較大型的運算模型)

當然裡面不是 100% 正確,但是出錯的地方都可以接受,例如他理所當然不知道我的「 esor 」這個特殊字是什麼意思。

而整體上無論時間戳記、分段方式、語句通順度都不錯,甚至一段話中也會加上適度的標點符號,讓我們手動微調的時間減到最少

如果你需要的不是字幕,而是逐字稿或正式報告,可以搭配這一篇文章的技巧一起使用:「用 ChatGPT 快速將會議語音逐字稿轉成完美文章表格的 5 個技巧」。





「 WhisperDesktop 」的運算時間快不快?

「WhisperDesktop」的效果無庸置疑, Whisper AI 語音轉文字技術確實厲害。但是,這是一個本機軟體,使用自己電腦中的 GPU 來運算,這樣會不會很慢呢?讓我實際測試幾種情況給大家看。

每次運算完成,「WhisperDesktop」會提供這次運算的時間給我們參考。下面這張圖,是我用一台有獨立顯示卡(GTX 1060)的筆電(6年前購買的,目前還在使用)來測試。

在擁有獨立顯示卡的電腦上,前述那段 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,轉成文字檔案的時間大約是 1 分鐘 25 秒,完全可以接受。而如果擁有更新、更好的獨立顯示卡的筆電、電腦的朋友,運算時間一定可以比我快上許多。




但是,如果你的筆電沒有內建獨立顯示卡呢?

例如我去年購買了 Surface Pro 9 (這幾年喜歡這樣的觸控螢幕輕薄筆電),沒有獨立顯示卡,但是當然還是有顯示晶片可以運算,這時候的效能如何呢?

結果如下圖,雖然是更新的筆電,平常跑其他文書、網頁更快,但一旦碰上需要顯示卡運算時,就有明顯的速度差距。

在沒有獨立顯示卡的新筆電上,如果我上述 6 分多鐘的影片,利用「 ggml-medium.bin 」這個比較大的運算模型,跑了 28 分鐘才產出結果




所以我在 Surface 輕薄筆電上趕快換成「ggml-small.bin 」這個小型的運算模型,這時候,一段 6 分鐘的影片,在沒有獨立顯示卡的筆電上,也「只需要」 10 分鐘左右來完成。

雖然不夠快,但可以接受。




而且,粗看下來,用大型運算模型、小型運算模型,在這個 6 分鐘影片的例子上,看不出明顯差別。

下面是「ggml-small.bin 」算出來的結果。





「 WhisperDesktop 」與其他語音轉文字工具比較:

首先,我之前轉這類影片、錄音檔案的字幕,通常使用「pyTranscriber 影片自動上字幕免費軟體」,下面是和「 WhisperDesktop 」比較的結果。

圖左是「 WhisperDesktop 」的轉出結果,圖右是「 pyTranscriber 」的轉出結果,幾個可以比較的地方是:

  • 兩者的轉出文字效果都不差,但很明顯「 WhisperDesktop 」效果更好。
  • 「 WhisperDesktop 」一個的優點除了文字辨識、加上標點的效果更好外,還有一個關鍵是「懂得如何斷句」。
    • 你可以看到「 pyTranscriber 」因為太頻繁斷句,所以導致很多時候語意的轉換變成不夠正確。
    • 而「 WhisperDesktop 」會利用 AI 聰明斷句,每一段的時間長度其實都不一樣,但以保留完整語意為前提,所以他的轉換效果才更通順。
  • 不過如果在設備比較沒那麼好的電腦上,或是沒有獨立顯示卡的筆電上,「 pyTranscriber 」的速度絕對是非常快的,上述影片可能一兩分鐘內就轉換完畢。




接著,我們來比較看看,同樣是利用 Whisper 技術的「 Good Tape 」,和「 WhisperDesktop 」有沒有差別。

下圖是「 Good Tape 」轉出的結果,基本上效果差不多,甚至出錯的地方也很像。那麼他們的差別會在哪些地方呢?

  • 主要在於「 WhisperDesktop 」是單機軟體,影片、錄音檔案不用上傳雲端。而且也是免費沒有使用限制。
  • 相對的,「 Good Tape 」的「付費版本」可以讓沒有好設備的工作者,利用他們的雲端運算資源,來更快產出語音轉文字檔案。




最後,「 WhisperDesktop 」還有一個即時語音轉文字的功能,可以利用下方的「 Audio Capture 」切換。

即時語音轉文字,就是開啟麥克風,直接說話,直接轉入文字檔案。

不過我實際測試,可能要「有更好的獨立顯示卡」的電腦,才能把這個功能運作得很順暢,要不然在運算時就很容易漏掉很多內容。

因此,如果沒有前述條件,或許「用 Windows 11 語音輸入繁體中文,快速完成會議紀錄、思考筆記」是一個快速、不消耗效能、效果也非常好的解決方案。




以上,就是我對「 WhisperDesktop 」的測試心得,提供大家參考,也值得需要語音轉文字工作,無論是製作會議紀錄,還是製作影片、錄音檔案字幕的朋友試試看。

有興趣的朋友還可以進一步研究:


大家好,我是電腦玩物站長 Esor ,我在 2023 年推出的「個人數位生產力」線上課程中,從如何寫出有效的防彈筆記出發,觸及工作、生活與自我管理問題,解析如何打造一套執行起來更有效率,也更有成就感的生產力系統,歡迎參考(可使用電腦玩物老讀者折扣碼 ESOR500 ,獲得 500 元折價喔!)。

我的電子郵件是 esorhjy@gmail.com ,如果你有任何關於筆記術、時間管理、提升工作效率的問題,歡迎寫信跟我討論。或訂閱「電腦玩物電子報

我也開設了 podcast 節目,歡迎訂閱追蹤:高效人生商學院」(Apple podcast 訂閱、 Google Podcast 訂閱)。

也跟大家介紹我開設的一系列時間管理、筆記術、數位工具課程,歡迎報名:「課程介紹連結」。或參考我的最新書籍著作:《防彈筆記法》。

(歡迎社群分享。但全文轉載請來信詢問,禁止修改上述內文,禁止商業使用,並且必須註明來自電腦玩物原創作者 esor huang 異塵行者,及附上原文連結:WhisperDesktop 語音轉文字免費單機軟體,AI 影片字幕實測比較

留言

  1. 翻譯的那個好像僅限翻成英文,選其他語言沒有用處的樣子。

    回覆刪除
  2. 請問版主有遇到轉了幾次繁體中文字幕後,有時後自變成簡體中文,知道怎麼設定嗎?感謝🙏

    回覆刪除
    回覆
    1. 我目前尚未遇過

      不過確實他的設定中沒有區分繁體、簡體中文,可能只能關閉後重新試試看了

      刪除
    2. 你得把Translate那個給反勾選才可以

      刪除
  3. 站長您好,我照著這篇文章的方式做了,但是transcribe的進度條跑完後就卡住了,一直停在「transcribing the audio, please wait...」不會產出文件...
    請問您有遇過這個狀況嗎?

    回覆刪除
  4. 按照我今天實際作業發現,那個language 指的是影片裏面的語音,
    而不是翻譯成哪種文字。
    我的影片檔是日文語音,一開始我選擇中文,結果解析出來的完全不行,後來改成日文,就正確解析出日文,內容對不對我就不知道了。

    回覆刪除
  5. 模型的連結失效了
    我後來在這邊找到的
    https://huggingface.co/ggerganov/whisper.cpp/tree/main

    回覆刪除
  6. 站長,
    我剛買了新電腦並下載了WhisperDesktop,但是出現這句:「你必須為這項工作安裝應用程式」,然後叫我去Microsoft store 搜尋,但沒找到。請問如何解決 ?謝謝

    回覆刪除

張貼留言

為了避免垃圾廣告留言過多,開始測試「留言管理」機制,讓我可以更容易回應讀者留言,並更簡單過濾掉廣告,但只要不是廣告留言都會通過審核。

這個網誌中的熱門文章

全家沖印、 7-11 列印照片誰好用?立可得與 ibon教學+比較表

Google Maps 我的地圖完全教學!規劃自助旅行攻略

待辦清單到底有用無用?避開完成焦慮,符合人性的使用待辦清單

微軟 Bing AI 繪圖工具 Image Creator 免費開放,30秒輕鬆生成圖片

Arc 瀏覽器 windows 版測試心得,用四大介面改造升級專注工作流

5 條「這時候,不要做」清單打破無意識行動模式的低效率循環

Readwise Reader 如何自訂 AI 中文摘要指令?我的 prompts 分享

Google 表單自動關閉回覆教學:時間人數到達就過期

跟分心和平共處,不一定要移除干擾也能專心致志的專注力策略

Google 表單的 10 個專業問卷調查設計秘密教學