如何使用適用於Win的OpenAI的Whisper將語音轉換為文本

OpenAI 的 Whisper 是一種新的人工智能驅動的解決方案,可以將您的語音轉換為文本。最重要的是,它是零成本的。

然而,有一個問題:它的安裝和使用比一般的 Windows 實用程序更具挑戰性。特別是如果您想使用 Nvidia GPU 的 Tensor Core 來大幅提升性能。

不過別擔心。這就是我們在這裏的原因!請繼續閱讀,了解如何安裝和使用它,如果您擁有 Whisper,還可以讓 Whisper 利用您的 Nvidia GPU。

OpenAI 的 Whisper 是什麽?
ChatGPT 現在很流行,我們已經看到了如何使用 OpenAI 的 ChatGPT。然而,這並不是 OpenAI 唯一有趣的項目。

Whisper 由深度學習和神經網絡提供支持,是一種自然語言處理系統,可以「理解」語音並將其轉錄為文本。但它也是它自己的東西,在所有類似的解決方案中占據一席之地:

  • Whisper 是一種經過自然語言「訓練」的人工智能解決方案。因此,它比舊的解決方案更能理解「正常」人類語音。
  • Whisper 沒有接口,也不能錄製音頻。它只能獲取現有的音頻文件並輸出文本文件。
  • 由於擅長「理解語言」,Whisper還擁有一步自動翻譯的超能力。
  • Whisper 不是在線服務,可以完全離線工作。
  • 如果您有相對現代的 Nvidia GPU(GTX970 或更新版本),Whisper 可以在「硬件加速模式」下運行以提高其速度。
  • 無需註冊、購買許可證或購買訂閱。

為什麽不支持 AMD GPU?
為了讓 GPU 不僅僅用於圖形,它們必須充當完全可編程的處理器。這就是 Nvidia 創建 CUDA 的原因,官方將其視為「並行計算平臺和編程模型」。要了解有關 CUDA 和相關硬件(「CUDA 核心」)的更多信息,請閱讀我們關於什麽是 CUDA 核心以及它們如何改進 PC 遊戲的文章。

CUDA 是 Nvidia 專有技術,僅與 Nvidia GPU 兼容。AMD 硬件最接近的替代品是 OpenCL 和 Radeon 計算平臺。要了解有關各公司解決方案比較的更多信息,請查看我們有關AMD 計算單元與 Nvidia CUDA 核心的文章。

與替代方案相比,CUDA 被認為更成熟、性能更高且更易於使用。因此,大多數開發人員僅針對 CUDA,這反過來意味著他們的軟件僅利用 Nvidia GPU 上的硬件功能。其中包括耳語。

如何下載並安裝 Whisper
不幸的是,Whisper 不是一個可以下載、安裝和運行的獨立應用程序。它依賴於其他軟件,也必須安裝這些軟件。

對於 Windows,為了使本指南簡單,我們將廣泛使用 Chocolatey 來安裝大多數必要的軟件部分。請查看我們的有關安裝 Windows 軟件的最快方法的指南,了解有關 Chocolatey 的更多信息。

對於 Linux 和 Mac,安裝過程(不包括 Windows 路徑變量和我們將創建的易於使用的批處理文件)應該類似。

  1. 要安裝和使用 Whisper,您必須安裝Python及其PIP工具並將其添加到 Windows「Path」變量中。有關這方面的信息,請查看有關如何在 Windows、Mac 和 Linux 上安裝 Python PIP 的文章。
  2. 使用以下命令通過 Chocolatey安裝FFMPEG :
    choco install ffmpeg
    另外,安裝其 Python 版本:
    pip3 install python-ffmpeg
  3. 最後,從其 Github 頁面安裝 Whisper:
    pip3 install git+https://github.com/openai/whisper.git

獲取 Whisper 的 CUDA 版本
雖然 Whisper 不使用 Nvidia GPU,但它所依賴的torch軟件包提供了 CUDA 加速版本。使用此版本而不是「普通」版本可以幫助 Whisper 在 Nvidia GPU 的幫助下更快地完成轉錄。

要讓 Whisper 使用 Nvidia GPU 的 CUDA 核心:

  1. 如果您已經安裝了「vanilla」版本的 torch,請使用以下命令卸載並清除其殘留:
    pip3 uninstall torch
    完成後,請執行以下操作:
    pip cache purge
  2. 安裝 torch 的支持 CUDA 的版本:
    pip3 install torch torchvision torchaudio –extra-index-url https://download.pytorch.org/whl/cu117
  3. 要檢查 Whisper 是否可以使用您的 Nvidia GPU,請使用:
    whisper –help | findstr -i pytorch
    您應該看到(default: cuda)而不是(default: cpu)。

如果 Torch 安裝失敗怎麽辦
如果您在安裝 torch 時遇到「未找到版本」錯誤,您可能需要安裝與當前版本並行的較舊版本的 Python。

使用此命令來執行此操作:

choco install python –version OLDER_VERSION –side-by-side
將「OLDER_VERSION」替換為版本,例如 3.10。

然後,對所有「通用」Whisper 命令使用輔助版本的路徑(例如,「c:\Python310\Scripts\pip.exe」而不僅僅是「pip」)。

如何錄製你的聲音
您可以使用任何錄音應用程序將您的聲音轉換為 WAV 或 MP3 文件。Windows 包含這樣一個應用程序 – 有關詳細信息,請參閱如何使用 Windows 10 錄音機應用程序。

如需功能更全面的選項,請嘗試Audacity。通過我們有關如何使用 Audacity 在 Windows 和 Mac 上錄製音頻的指南了解如何操作。

如何開始使用 Whisper 進行轉錄
雖然 Whisper 沒有提供用戶友好的 GUI,但它的使用非常簡單。

假設我們在文件夾c:\MyAudioFiles中有包含希臘語語音的文件LatestNote.mp3,並且希望將其翻譯為英語並將其轉錄為文本文件。

  1. 我們首先運行命令提示符或PowerShell。
  2. 我們使用以下命令「更改存儲音頻文件的目錄」:
    cd C:\MyAudioFiles
  3. 我們通過以下方式對文件釋放 Whisper:
    whisper –model base –language gr –task translate LatestNote.mp3

處理後,文本文件(名為「LatestNote.mp3.txt」)將出現在同一文件夾中。在記事本等文本編輯器中打開它以查看翻譯的文本。

我們使用翻譯示例,因為英語轉錄更加簡單:您只需「丟失」「–language」和「-task」標誌即可。因此,對於簡單的轉錄,上面的命令將是:

whisper –model base LatestNote.mp3
「model」標誌是必需的,因為 Whisper 使用各種選項之一。讓我們對它們進行擴展,以幫助您選擇最適合您需求的選項。

選擇哪種型號?
Whisper 提供各種語言模型。模型越大,其精度提高得越多,但對硬件的要求也越高。他們是:

  1. 微小的。
  2. 根據。
  3. 小的。
  4. 中等的。
  5. 大的。

大多數以英語為母語的人應該可以接受小型或基本型號。非英語母語人士可能會使用較大的模型(例如小型和中型)看到更好的結果。

但請註意,中型和大型型號需要超過 8GB 的​​ VRAM(即「您的 GPU 內存」)。

要選擇其中之一,請在命令中的「–model」開關後指定模型:

whisper –model tiny/small/medium/large [file]
例如:

whisper –model small My_Voice_Note.mp3

如何簡化您的轉錄
每次想要轉錄一些音頻時都必須輸入整個 Whisper 命令很快就會變得無聊。讓我們創建一個全局可訪問的批處理文件來簡化該過程。

  1. 運行Windows 資源管理器並訪問您的 C: 驅動器。
  2. 為腳本創建一個文件夾,並將其路徑復製到剪貼板。
  3. 在 Windows「開始」菜單中,搜索「path」並選擇「編輯系統環境變量」。
  4. 在用戶變量下找到YOUR_USERNAME 的Path變量。雙擊它進行編輯。單擊「新建」,然後將路徑粘貼到腳本文件夾。單擊「確定」接受更改。
  5. 返回到 Windows 資源管理器中的腳本文件夾。在那裏創建一個名為「wht.bat」的新批處理文件。在它的「內部」,放置以下命令:
    whisper –model tiny –language en %1
  6. 再創建兩個批處理文件「whs」和「whm」。
  7. 將其放入第一個腳本中:
    whisper –model small –language en %1
  8. 將其放在第二個裏面:
    whisper –model medium –language en %1

恭喜,您現在擁有三個腳本,可以輕松地將 Whisper 的微型、小型和中型模型與您的音頻文件結合使用!要將任何音頻文件轉錄為文本:

  1. 使用Windows 文件資源管理器找到該文件。
  2. 右鍵單擊空白處並選擇Open in Terminal。
  3. 鍵入此命令,將「wht」替換為「whs」或「whm」以使用小型或中型語言模型:
    wht YOUR_AUDIO_FILE.mp3

使用 Whisper 以音速打字
即使是最快的盲打打字員也無法跟上我們說話的速度。然而,直到最近,用說話代替打字並不是創建文檔的最佳選擇。

大多數語音轉文本解決方案的效果平平。您可以找到一些值得嘗試的解決方案,但它們使用起來很復雜,或者成本很高。值得慶幸的是,Whisper 改變了這一切。

完成上述步驟後,您應該準備好僅使用一個命令即可高精度地轉錄或翻譯您的語音。

赞(0)
未经允许不得转载:技術解析 » 如何使用適用於Win的OpenAI的Whisper將語音轉換為文本

评论 抢沙发