Whisper AI 是一種由 OpenAI 開發的語音識別和翻譯工具。它的核心特點是利用深度學習技術來理解和翻譯多種語言的語音。Whisper AI 能夠在複雜的語音環境中準確識別語音,並且支援多種語言之間的即時翻譯。這種工具對於跨語言溝通、語音轉錄以及自動字幕生成等應用場景非常有用。
WhisperDesktop 簡介
在openai whisper GitHub中目前最後的版本為v20231117。
由於OpenAI使用 Python 3.9.9 和PyTorch 1.10.1 來訓練和測試模型
可以使用以下命令下載並安裝並使用最新版本的 Whisper。
但大部分使用的人不具備有Python程式的背景,
因此有高手研發出不用輸入程式碼、可離線轉譯語音的工具:WhisperDesktop。
適用的模型
有五種模型,不同模型的提供不同的速度與準確性。
因此可以依據自己的需求與硬體條件下選擇適用的模型。
強烈建議要有GPU,它可以提升字幕或文字生成的時間。
WhisperDesktop快速入門
開啟程式後,先選擇使用的模型。
接著選擇要來源檔案,語言與輸出格式與放置的位置。
在有GPU的情況下,一個3小時的線上會議轉字幕檔(.srt 格式),
其中包含了時間戳記和對應的文字,大約13分鐘。
如果沒有GPU的話時間會更久。
資源下載
使用WhisperDesktop主要分成兩大塊, 一個是程式的下載,一個是語言模型的下載
程式:
程式目前最後一個版本為1.12,2023 年 7 月 22 日發佈
Download WhisperDesktop V1.12
模型:
OpenAI 的 Whisper 模型下載:
作者建議下載ggml-medium.bin,如果電腦比較慢可以下載ggml-small.en.bin
應用
常用的應用如會議紀錄、線上會議、活動紀錄、youtube上字幕、DVD影片產生字幕檔等等都是可以利用WhisperDesktop來轉換。
AI時代的來臨,要好好利用AI相關工具,讓生活更快樂更美好。
延伸閱讀
https://github.com/Const-me/Whisper
Introducing Whisper