今日も8時間睡眠
888文字のブログです

Geminiが昔できたことができなくなってしまった

🚋

チャット系の生成AIの中で、最近はGeminiをよく使っています。今の自分の使い方ではほとんど問題ないのですが、あるタスクの処理だけ、昔できていたことができなくなってしまいました。

ある音声の文字起こしを定期的にしているのですが、Gemini 1.5 Proを使っていたときは、ほぼ問題なくできていました。フォーマットを指定できるし、話者分離もできるし、タイムスタンプもつきます(ズレるのであまり信用できないけど)。誤変換もところどころありますが、ある程度の専門用語にも対応できているし、ほぼ満足できる品質でした。人間がやるよりも何倍も速いし。

ところが、Gemini 2.5 Proや2.0 Proを使うと、この文字起こしに問題が出始めました。頭がよくなってアウトプットを推敲するようになったからなのかはわかりませんが、発言内容の順番がまるっと移動してしまうことがあります。もとの音声では、話があっち行ったりこっち行ったりするのですが、話題が近いものを近くに置くように入れ替わってしまうことがあります。

また、もとの音声が長いからなのか、文字起こしの後半になると、同じ文章を何度も書き起こしたり、もとの音声よりも長いタイムスタンプがついたり、逆にまるっと発言を削除してしまったりと、質が落ちていきます。はじめの方は調子がいいのに。人間も長時間働くと疲れますが、AIも疲れてくるんですかね。

推敲が必要ないからといってProではなくFlashを使うと、今度はそもそもの文字起こしの精度がイマイチとなってしまいます。

以前はまだ1.5 Proが選べたのですが、今はもうリストから消えてしまいました。新しいバージョンと向き合わないといけません。2.5 Proを選択して、何度かプロンプトをいじって頑張ってはみましたが、あまり結果は改善しませんでした。今は何度か文字起こしをさせてみて、一番問題なさそうなのを選ぶ、という方法をとっています。

バージョンが上がるたびに頭がよくなってるとは思いますが、一周回ってできなくなることもあるんだなぁ。推敲せずに、ありのままを出してほしいだけなんですけど。

(888文字)