（音声文字起こしの検証用記事）AIを活用した音楽制作と言語モデルの進化

以下は、話す練習で録音したデータをGemini Pro 1.5で文字起こしして、再構成させた文章です。

元ネタはこちら。

マイクの音がえらくちいさくもそもそ話している素材で文字起こしさせました

はじめに
Sunoのステム機能：実際に使ってみた感想
1. 分離の精度
2. 従来のDAWツールとの違い
AI音楽制作ツールの今後
ローカルで動作するLLMの進化
1. メリット
2. 注意点
おわりに

はじめに

こんにちは。今日は、前回お話したAI音楽制作ツール「Suno」の続きと、最近のAI技術の進展について、個人的な経験と感想を交えてお話しします。

Sunoのステム機能：実際に使ってみた感想

先日、Sunoが新たに提供を開始したステム機能を試してみました。具体的には、自作の「たこ焼きでらいと」という曲を使って検証しました。

分離の精度

ボーカルとバックグラウンドの2トラックに分離
イントロや広がりのある部分は比較的きれいに分離
ボーカルが中心に来る部分の分離精度が高い

従来のDAWツールとの違い

ベースが抜けにくい
ボーカルの分離がやや弱い

総じて使えるレベルですが、さらなる精度向上や、作成時からのトラック分けなどの機能があればより良いと感じました。

AI音楽制作ツールの今後

現在、SunoとStudioなどが主要なプレイヤーとして競合しています。両者ともに機能の追加や改善を続けていますが、個人的にはモバイルアプリ展開などでSunoが一歩リードしているように感じます。

今後は以下のような点が重要になると考えています：

モバイル対応の充実度
サンプリング素材の提供
生成AI系サービスと従来の音楽制作ツールの融合

ローカルで動作するLLMの進化

最近、iPhone上で動作するLLM（大規模言語モデル）アプリを試してみました。「ローカルチャット」というアプリで、Llama 3やMistral、Phi-2、Gemmaなど複数のモデルを利用できます。

メリット

スマートフォン上でLLMを直接体験できる
App Storeで公開されているため、比較的安全

注意点

デバイスの発熱が激しい
バッテリー消費が大きい

このような進化は、AI技術がより身近になっていることを示しています。

おわりに

AI技術は音楽制作や言語処理など、様々な分野で急速に発展しています。これらのツールを使いこなし、創造性を高める手段として活用していくことが重要だと感じています。今後も新しい動向に注目し、積極的に試していきたいと思います。

ここまで。

感想としては、勝手に情報を補完してくれるのはありがたい反面、LLMで補完した情報を手作業出直すのがちょっと面倒くさいので、完全自動化の手放し運用は難しいという印象です。ただGemini Pro1.5の文字起こしの機能の精度は高いと感じましたので、書くよりも音声で考えを出していく手法は更に利用者が増える印象を持ちました。