Whisperで文字起こしをしてみた。 2025年01月18日

みなさん、文字起こしとかしてますか?
最近はめんどくさいこともあり、
ウェビナーのファイルをChatGPTに要約してもらうことが多いのですが、
動画ファイルはファイルサイズに制限があるし、
いろいろと文字起こしにはつらいこともあるので、
Whisperという音声認識ライブラリでテキスト化してみることにしました。
(今回はmp3を使いましたが、動画ファイルもいけるらしいです。)


1. 必要なアプリケーションとツール

Whisperを動作させるために必要なアプリケーション:

  • Python3.9〜3.12 のいずれかのバージョンが必要)

  • FFmpeg

  • Microsoft C++ Build Tools

  • Git

  • Whisper


2. 詳細な手順

ステップ1: Pythonのインストール

  1. Pythonのバージョン

    • Whisperは Python 3.9〜3.12 に対応しています。それ以外のバージョンでは動作しません。

  2. Python公式サイトからダウンロード

    • Python公式サイト にアクセス。

    • Python 3.12 をダウンロード(「Windows installer (64-bit)」をクリック)。

  3. インストール

    • インストーラーを実行。

    • 「Add Python to PATH」にチェックを入れた後、「Install Now」をクリック。

  4. 動作確認

    • コマンドプロンプトを開き、次のコマンドを実行:

  python --version
  • バージョンが表示されれば成功。


ステップ2: FFmpegのインストール

  1. FFmpegのダウンロード

    • FFmpeg公式サイト で「Get packages & executable files」をクリック。

    • Windows builds by gyan.dev を選択し、「ffmpeg-release-essentials.zip」をダウンロード。

  2. 解凍

    • ZIPファイルを解凍し、フォルダ内の bin ディレクトリに ffmpeg.exe があることを確認。

  3. 環境変数に追加

    • 「環境変数の編集」を開き、「Path」に解凍した bin フォルダのパス(例: C:\ffmpeg\bin)を追加。

  4. 動作確認

    • コマンドプロンプトで次を実行:

    ffmpeg -version
  • バージョン情報が表示されれば成功。


ステップ3: Microsoft C++ Build Toolsのインストール

  1. ダウンロード

  2. インストール

    • インストーラーを実行し、「C++ Build Tools」にチェックを入れてインストール。


ステップ4: Gitのインストール

  1. ダウンロード

  2. インストール

    • 「Git from the command line and also from 3rd-party software」を選択してインストール。

  3. 動作確認

    • コマンドプロンプトで次を実行:

git --version
  • バージョン情報が表示されれば成功。


ステップ5: Whisperのインストール

  1. pipのアップデート

 Pythonのパッケージマネージャ(pip)を最新にアップデート:

 python -m pip install --upgrade pip
  1. Whisperのインストール

pip install git+https://github.com/openai/whisper.git
  1. 動作確認

    • Whisperのオプション一覧を表示(これはあんまり必要なし):

 python -m whisper --help

3. 注意点とコマンド例

音声ファイルのパス指定

  • ファイルパスに空白や日本語が含まれる場合は、ダブルクォーテーション ” で囲む必要があります。

:

python -m whisper "C:\音声データ\会議録音.mp3" --language ja

出力方法と場所

  • 出力ディレクトリを指定するには –output_dir を使用します。

:

python -m whisper "C:\音声データ\会議録音.mp3" --language ja --output_dir "C:\出力フォルダ"
  • デフォルトでは以下のファイルが出力されます:

    • 会議録音.txt(文字起こしの結果)

    • 会議録音.srt(字幕ファイル)


4. トラブルシューティング

Pythonのバージョンエラー

  • Python 3.9〜3.12 のバージョンで動作します。それ以外のバージョンを使用している場合は、対応するバージョンをインストールしてください。

FFmpegが認識されない

  • 環境変数に正しいパスが設定されているか確認してください。

Gitがインストールされていないエラー

  • Gitがシステムにインストールされていない場合は、再インストールしてください。

依存ライブラリエラー

  • 次のコマンドを実行して必要なライブラリを更新してください:

 pip install setuptools wheel


いかがでしたか、うまくいきましたか?
だめな場合はChatGPT先生を問い詰めてください。
以上ありがとうございました。

コメント

タイトルとURLをコピーしました