2024 提高語音識別效率:探索Faster Whisper GUI的優勢

Faster Whisper

在2024 探索 Whisper AI:如何利用WhisperDesktop軟體,快速生成字幕與逐字稿這篇文章中透過WhisperDesktop來生成字幕與逐字稿使用一段時間之後發現了其他問題,例如在辨識過程中發生於不斷重複同一句話、或者將背景噪音為語言,或是將某些語音資料錯誤翻譯成不相關的文字等等。其中最困擾的是同一句話一直重複,重複比例太高了。




還好Faster Whisper GUI提供了模型參數調整介面,使用者介面相較於WhisperDesktop友善多了,大部分的時候參數維持預設值。另外版本持續更新中,截至目前2024年4月中最後版本為0.7.6。

閱讀全文: 2024 提高語音識別效率:探索Faster Whisper GUI的優勢

簡介


Faster Whisper GUI 是一款專門設計來提升語音識別效率的用戶介面。它基於 OpenAI 的 Whisper 模型,能提供快速、準確的語音轉文字服務而優化。此 GUI 版本讓用戶可以更直觀地操作語音識別功能,提供了多語言支持。透過簡潔的設計和強大的後端技術,Faster Whisper GUI 為企業和個人用戶提供了一個高效、易於使用的解決方案,對於日常的語音記錄需求。無論是會議記錄、線上會議、影片檔上字幕、國外影片翻譯字幕、日常對話轉成文字檔等等,Faster Whisper GUI 都能提供出色的服務,節省時間並提高工作效率。

下載

FasterWhisperGUI-0.7.6_installer.exe

Faster Whisper參數說明

安裝完畢後執行的主畫面,第一次使用建議先調整相關設定,再進行語音識別功能

Faster Whisper

加載模型:

Faster Whisper

可選擇在線下載模型,可以依據電腦硬體選擇適當的模型,個人較常使用large-v3,選擇好之後點選加載模型
處理設備:cuda(GPU)

Faster Whisper

模型加載成功

Faster Whisper

語系設定:
選擇需要的語言,使用一段時間之後發現,選擇來源的語言,通常會辨識的比較細緻。而不同語言的轉譯通常會有些程度的差異。

Faster Whisper

操作流程

設定好基本參數之後,我們就可以將檔案進行轉錄:
右手邊的+可以新增轉錄檔案到列表中,-可以刪除列表中的檔案。
一次可以拉好幾個檔案進來列表中,不用轉一個再加一個,可以節省許多時間。

Faster Whisper

檔案加入後,點選開始進行辨識

Faster Whisper

音頻處理中

Faster Whisper

下方可以即時顯示轉錄的文字

Faster Whisper

轉寫結束提示:是否到輸出目錄

Faster Whisper

轉錄的文字可以做編輯,輸出文件格式提供多種格式選擇。
字幕的話可以選擇SRT格式

Faster Whisper

最後點選保存字幕文件,完成存檔的動作。

Faster Whisper
Faster Whisper

測試結果

硬體資源:
CUP:i7-14700
記憶體:32GB
顯示卡:RTX 4070

測試3小時52分的會議檔案,實際轉出時間約9分多鐘。
由於處理設備:cuda(GPU),因此轉換時會吃GPU的資源

Faster Whisper
Faster Whisper

延伸閱讀

88 Views