如何使用適用於Win的OpenAI的Whisper將語音轉換為文本-技術解析

OpenAI 的 Whisper 是一種新的人工智能驅動的解決方案，可以將您的語音轉換為文本。最重要的是，它是零成本的。

然而，有一個問題：它的安裝和使用比一般的 Windows 實用程序更具挑戰性。特別是如果您想使用 Nvidia GPU 的 Tensor Core 來大幅提升性能。

不過別擔心。這就是我們在這裏的原因！請繼續閱讀，了解如何安裝和使用它，如果您擁有 Whisper，還可以讓 Whisper 利用您的 Nvidia GPU。

OpenAI 的 Whisper 是什麽？
ChatGPT 現在很流行，我們已經看到了如何使用 OpenAI 的 ChatGPT。然而，這並不是 OpenAI 唯一有趣的項目。

Whisper 由深度學習和神經網絡提供支持，是一種自然語言處理系統，可以「理解」語音並將其轉錄為文本。但它也是它自己的東西，在所有類似的解決方案中占據一席之地：

Whisper 是一種經過自然語言「訓練」的人工智能解決方案。因此，它比舊的解決方案更能理解「正常」人類語音。
Whisper 沒有接口，也不能錄製音頻。它只能獲取現有的音頻文件並輸出文本文件。
由於擅長「理解語言」，Whisper還擁有一步自動翻譯的超能力。
Whisper 不是在線服務，可以完全離線工作。
如果您有相對現代的 Nvidia GPU（GTX970 或更新版本），Whisper 可以在「硬件加速模式」下運行以提高其速度。
無需註冊、購買許可證或購買訂閱。

為什麽不支持 AMD GPU？
為了讓 GPU 不僅僅用於圖形，它們必須充當完全可編程的處理器。這就是 Nvidia 創建 CUDA 的原因，官方將其視為「並行計算平臺和編程模型」。要了解有關 CUDA 和相關硬件（「CUDA 核心」）的更多信息，請閱讀我們關於什麽是 CUDA 核心以及它們如何改進 PC 遊戲的文章。

CUDA 是 Nvidia 專有技術，僅與 Nvidia GPU 兼容。AMD 硬件最接近的替代品是 OpenCL 和 Radeon 計算平臺。要了解有關各公司解決方案比較的更多信息，請查看我們有關AMD 計算單元與 Nvidia CUDA 核心的文章。

與替代方案相比，CUDA 被認為更成熟、性能更高且更易於使用。因此，大多數開發人員僅針對 CUDA，這反過來意味著他們的軟件僅利用 Nvidia GPU 上的硬件功能。其中包括耳語。

如何下載並安裝 Whisper
不幸的是，Whisper 不是一個可以下載、安裝和運行的獨立應用程序。它依賴於其他軟件，也必須安裝這些軟件。

對於 Windows，為了使本指南簡單，我們將廣泛使用 Chocolatey 來安裝大多數必要的軟件部分。請查看我們的有關安裝 Windows 軟件的最快方法的指南，了解有關 Chocolatey 的更多信息。

對於 Linux 和 Mac，安裝過程（不包括 Windows 路徑變量和我們將創建的易於使用的批處理文件）應該類似。

要安裝和使用 Whisper，您必須安裝Python及其PIP工具並將其添加到 Windows「Path」變量中。有關這方面的信息，請查看有關如何在 Windows、Mac 和 Linux 上安裝 Python PIP 的文章。
使用以下命令通過 Chocolatey安裝FFMPEG ：
choco install ffmpeg
另外，安裝其 Python 版本：
pip3 install python-ffmpeg
最後，從其 Github 頁面安裝 Whisper：
pip3 install git+https://github.com/openai/whisper.git

獲取 Whisper 的 CUDA 版本
雖然 Whisper 不使用 Nvidia GPU，但它所依賴的torch軟件包提供了 CUDA 加速版本。使用此版本而不是「普通」版本可以幫助 Whisper 在 Nvidia GPU 的幫助下更快地完成轉錄。

要讓 Whisper 使用 Nvidia GPU 的 CUDA 核心：

如果您已經安裝了「vanilla」版本的 torch，請使用以下命令卸載並清除其殘留：
pip3 uninstall torch
完成後，請執行以下操作：
pip cache purge
安裝 torch 的支持 CUDA 的版本：
pip3 install torch torchvision torchaudio –extra-index-url https://download.pytorch.org/whl/cu117
要檢查 Whisper 是否可以使用您的 Nvidia GPU，請使用：
whisper –help | findstr -i pytorch
您應該看到(default: cuda)而不是(default: cpu)。

如果 Torch 安裝失敗怎麽辦
如果您在安裝 torch 時遇到「未找到版本」錯誤，您可能需要安裝與當前版本並行的較舊版本的 Python。

使用此命令來執行此操作：

choco install python –version OLDER_VERSION –side-by-side
將「OLDER_VERSION」替換為版本，例如 3.10。

然後，對所有「通用」Whisper 命令使用輔助版本的路徑（例如，「c:\Python310\Scripts\pip.exe」而不僅僅是「pip」）。

如何錄製你的聲音
您可以使用任何錄音應用程序將您的聲音轉換為 WAV 或 MP3 文件。Windows 包含這樣一個應用程序 – 有關詳細信息，請參閱如何使用 Windows 10 錄音機應用程序。

如需功能更全面的選項，請嘗試Audacity。通過我們有關如何使用 Audacity 在 Windows 和 Mac 上錄製音頻的指南了解如何操作。

如何開始使用 Whisper 進行轉錄
雖然 Whisper 沒有提供用戶友好的 GUI，但它的使用非常簡單。

假設我們在文件夾c:\MyAudioFiles中有包含希臘語語音的文件LatestNote.mp3，並且希望將其翻譯為英語並將其轉錄為文本文件。

我們首先運行命令提示符或PowerShell。
我們使用以下命令「更改存儲音頻文件的目錄」：
cd C:\MyAudioFiles
我們通過以下方式對文件釋放 Whisper：
whisper –model base –language gr –task translate LatestNote.mp3

處理後，文本文件（名為「LatestNote.mp3.txt」）將出現在同一文件夾中。在記事本等文本編輯器中打開它以查看翻譯的文本。

我們使用翻譯示例，因為英語轉錄更加簡單：您只需「丟失」「–language」和「-task」標誌即可。因此，對於簡單的轉錄，上面的命令將是：

whisper –model base LatestNote.mp3
「model」標誌是必需的，因為 Whisper 使用各種選項之一。讓我們對它們進行擴展，以幫助您選擇最適合您需求的選項。

選擇哪種型號？
Whisper 提供各種語言模型。模型越大，其精度提高得越多，但對硬件的要求也越高。他們是：

微小的。
根據。
小的。
中等的。
大的。

大多數以英語為母語的人應該可以接受小型或基本型號。非英語母語人士可能會使用較大的模型（例如小型和中型）看到更好的結果。

但請註意，中型和大型型號需要超過 8GB 的 VRAM（即「您的 GPU 內存」）。

要選擇其中之一，請在命令中的「–model」開關後指定模型：

whisper –model tiny/small/medium/large [file]
例如：

whisper –model small My_Voice_Note.mp3

如何簡化您的轉錄
每次想要轉錄一些音頻時都必須輸入整個 Whisper 命令很快就會變得無聊。讓我們創建一個全局可訪問的批處理文件來簡化該過程。

運行Windows 資源管理器並訪問您的 C: 驅動器。
為腳本創建一個文件夾，並將其路徑復製到剪貼板。
在 Windows「開始」菜單中，搜索「path」並選擇「編輯系統環境變量」。
在用戶變量下找到YOUR_USERNAME 的Path變量。雙擊它進行編輯。單擊「新建」，然後將路徑粘貼到腳本文件夾。單擊「確定」接受更改。
返回到 Windows 資源管理器中的腳本文件夾。在那裏創建一個名為「wht.bat」的新批處理文件。在它的「內部」，放置以下命令：
whisper –model tiny –language en %1
再創建兩個批處理文件「whs」和「whm」。
將其放入第一個腳本中：
whisper –model small –language en %1
將其放在第二個裏面：
whisper –model medium –language en %1

恭喜，您現在擁有三個腳本，可以輕松地將 Whisper 的微型、小型和中型模型與您的音頻文件結合使用！要將任何音頻文件轉錄為文本：

使用Windows 文件資源管理器找到該文件。
右鍵單擊空白處並選擇Open in Terminal。
鍵入此命令，將「wht」替換為「whs」或「whm」以使用小型或中型語言模型：
wht YOUR_AUDIO_FILE.mp3

使用 Whisper 以音速打字
即使是最快的盲打打字員也無法跟上我們說話的速度。然而，直到最近，用說話代替打字並不是創建文檔的最佳選擇。

大多數語音轉文本解決方案的效果平平。您可以找到一些值得嘗試的解決方案，但它們使用起來很復雜，或者成本很高。值得慶幸的是，Whisper 改變了這一切。

完成上述步驟後，您應該準備好僅使用一個命令即可高精度地轉錄或翻譯您的語音。

如何使用適用於Win的OpenAI的Whisper將語音轉換為文本

相关推荐

评论抢沙发

归档

分类

相关推荐

评论 抢沙发

归档

分类

评论抢沙发