曲名標準化プロジェクト(案)
[2024/08/05]
いきなりですが、あなたは動画サイトの「ユーチューブ」を正しく書くことができますか?
「ユーチューブ」の正しい表記は「YouTube」です。「Y」と「T」が大文字で「You」と「Tube」の間にスペースは入りません。
「そんな細かいこと…」と思うかもしれませんが、「Youtube」といった間違えた表記を見かけることがあります。
表記ゆらぎは似て非なるもの
音ゲーだと「MAX 300」は「MAX」と「300」の間にスペースが入ります。
こういう表記ゆらぎはどの曲でも起きる可能性があり、音ゲーサイトでも間違えているケースがあります。なんだったら同じ音ゲーサイト内で表記ゆれがあることも…。
「MAX300(スペースなし)って書かれてるからなんだっていうんだ」っていう話ではあるんですが、自分みたいにデータを再利用してツールを作っていると問題になることがあります。
プログラムだとスペースのあるなしどころか大文字・小文字も区別して文字列を比較します。この時に正しい曲が見つからなくなるという問題。
当然、スペースを削除したり、すべて小文字にすればそういう表記ゆれによる見つからない問題を減らすことができます。
ただそうなると、「Take Me Higher(Sota Fujimori feat.Sachi)」と「take me higher(KOTONOHOUSE)」や「SWITCH(RAM)」「switch(DAISUKE ASAKURA ex.TЁЯRA)」が正しく判断できなくなってしまう…。
IIDX公式サイトのように「ZEИITH(Ashrount vs polysha)」を「ZENITH」と表記していた場合、「Zenith(Snail's House)」とも区別がつかなくなりますね。
上のように曲名+アーティスト名やバージョンを付ければ区別はつくんですが、そもそも表記ゆれがなければちゃんと違う曲として判断できるんです。
曲名標準化プロジェクト
以前から「公式で曲リストをデータで公開してくれればいいのになー」って思っていました。
IIDXだとスコアデータをCSVでダウンロードできるサービスがあります。このデータの曲名が正しい曲名であればそれに統一できるのですが、CSVというフォーマットも関係して公式で作ってるデータですら曲名が正しくありません。
BEMANIwikiの曲リストが一番使われている人も多く、曲名もかなり正しい表記になっているので、これを基にプログラミングで読み込みやすいフォーマットにするのがいいのかもしれない。
ただ、BEMANIwikiのデータって「Evans [B][N][H] Evans -prototype- [A]Evans」のように正しく表記しようとするからこその独特の表記になっている部分があるので、そのままコピペでは使えないんだよな。
一番楽なのはBEMANIwikiのデータを修正して、JSON形式にすることなのかな。
あとは自分ひとりでやるのではなく、いろんなサイトで共有しないと結局曲名の統一(標準化)ができない。
さいごに

IIDXには全く同じ曲が別曲として違う譜面が収録されていたことがあります。†LEGGENDARIAもやHCN Ver.もこれにあたるけど、これらは厳密には曲名が違いました。
今は収録されていませんが、「20,November」が全く同じ曲名で1st Styleと6th Styleに収録されていました。
これを区別するとなるとバージョンを付ける以外には方法がない。