久しぶりの投稿となってしまいましたが、タイトルにあるようにここ最近はずっと会議用の文字起こしソフト探しからの生成AIにはまっていました。
仕事でつきものなのが議事録。ぷくおが議事録作成担当だったのはかなり昔のことですが、とはいえ今も変わらず会議をやったら議事録が必要で、それに時間と大きな会議では文字起こしを外注するコストが気になっていました。
文字起こしサービスを試してみた
そんな訳で、文字起こしをしてくれるサービスを検索してみると、AIを利用して高精度に文字起こしができる!とうたわれたサービスがいくつも出てきます。
数ある製品の中で、次の条件で絞ってみました。
- 話している人の自動分離(話者分離・識別)
- 用語登録が可能かどうか
- 会議中にリアルタイムで文字起こしをした際に、タイムスタンプをつけられるか(発言が不明瞭で明らかに後で修正が必要なところとか)
- 「あー」とか「えー」といった不要な言葉の除去(フィラー処理というらしい)
- Teams等と連携して、できた議事録や議事概要をすぐに展開できるか
こうして見つけてきたのが「AI議事録取れる君」や「スマート書記」、「Notta」といったサービス。
どれも有料サービスで、AI議事録取れる君だけはスマホやタブレットからの利用は不可(様々なブラウザで設定を変えてもだめでした)以外はある意味似たり寄ったりで、ファイルをアップロードして文字起こしすることも可能。
個人的には大企業や東京都でも利用されているというスマート書記が、多少高価ではあるものの期待していたのですが、正直ICレコーダーで録音した会議の音声を文字起こしした感想はどれもイマイチ。
概要だとそれらしくまとまっていますが、発言を一つ一つ見てみると、逆によく概要をまとめたなと思えるような出来栄えで、断定で終わっているのに文字起こしでは「?」の疑問形で終わってたりしていて、まだまだ高いけど外注するしかないと思っていました。
なお、この3サービスのテストを終えた後に「SecureMemoCloud」というサービスを見つけたのですが、こちらはほぼ完成版の議事録を作成できる!と書かれていて、こちらも大手企業で使用されているのでかなりうまくいくのかもしれません。
大規模生成AI「Gemini」を試したら驚きの結果に
文字起こしソフトの利用を諦めかけていた頃に見つけたのが、Googleの大規模言語モデル(LLM)である「Gemini」。
Geminiは最近バージョン2が登場して、一番有名と思われるChatGPTの高性能版と同じぐらいの性能だと言われていますが、GeminiはGoogle AI Studioというサービスを利用すれば単独で音声ファイルや画像認識ができるのが特徴(2024年末現在、ChatGPTは同社のWhisperというモデルを使用しないと録音データの入力ができなかった)。
画面右上にあるモデルから利用したいAIモデルを選択し、画面下の+ボタンから文字起こししたい録音データをアップロード。そして下のチャット欄に「このデータを日本語で文字起こしして」なんて感じで命令するとどんどんと文字起こししてくれます。
最初、高性能なGemini 2.0で文字起こししたときはなぜか「うーんうーん」という意味不明な呟きだったり、「○○○○○○」というエラー?が大量生産されてしまいましたが、Gemini 1.5 Proで設定したら、外注しているテープ起こしサービスよりも高精度の文字起こしが出来てびっくり。
プロンプト
なお、冒頭で紹介した文字起こしサービスと違って、LLMでは文字起こしをするにしてもプロンプトでどのように音声データを処理してほしいかお願いする必要があります。
今回試したのは次のとおり。
なお、AIの制限上ある程度の文字起こしをすると止まってしまうので、「続きをやって」なんていうふうにするとどんどんと文字起こしをしてくれます。
この辺りはまたもっと良いプロンプトができたら残しておきたいと思います。
さっと手軽に使うのであれば、PLAUD Noteシリーズも良さそうだなと思いました。
PLAUD NOTE AI ボイスレコーダー ワンタッチ録音 文字起こし 先端LLMによる要約 ICレコーダー 携帯/PCアプ...
コメントを残す