画像の譜面をMIDIファイルへ変換

写メとかスキャンした譜面の画像ファイルをMIDIに変換できたらと思って試しています。かつて使っていたfinaleにもその機能があったのですが、私が使用していた版が2012版と古かったのかあまり正確な変換はできなかったです。muse scoreにも変換機能ありますが、webサイトへ誘導されて、そこへ譜面をアップロードする形になります。画像をきれいに整えてからアップしても、大きく手直ししないとだめで、直接入力のほうが良いのではないかというくらい、私の目的に対しては非常に不正確な出力になります。

最近(2025年現在)はいろいろな有料版ソフトでその機能が追加されていますので、おとなしく課金するのが正解だろうとは思います。

今回は、無料で使えるpythonのスクリプトで実行することを目指しています。

Install the required libraries:

  • opencv-python for image processing.
  • midiutil for creating MIDI files.
  • numpy for numerical operations.

You can install these libraries using pip:

pip install opencv-python midiutil numpy

まずは、Pythonのライブラリであるopencv-pythonmidiutilnumpyがインストールされます。これらのライブラリは、画像処理やMIDIファイルの作成、数値計算に役立ちます。

1. ライブラリのインポート

import cv2
import numpy as np
from midiutil import MIDIFile
  • cv2: OpenCVというライブラリで、画像処理を行います。
  • numpy: 数値計算を効率的に行うためのライブラリです。
  • midiutil: MIDIファイルを作成するためのライブラリです。

2. 画像の読み込み

image_path = 'path_to_your_image.jpg'
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
  • image_path: 画像ファイルのパスを指定します。ウインドウズのパスのバックスラッシュ(¥で表示される場合もあります)はスラッシュ/に修正するか、\\のように2回バックスラッシュを含む記号にしゅうせいが必要。
  • cv2.imread: 画像を読み込みます。cv2.IMREAD_GRAYSCALEは画像をグレースケール(白黒)で読み込むオプションです。

3. 画像の前処理

blurred = cv2.GaussianBlur(image, (5, 5), 0)
_, binary_image = cv2.threshold(blurred, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
  • cv2.GaussianBlur: 画像をぼかしてノイズを減らします。
  • cv2.threshold: 画像を二値化(白と黒だけにする)します。cv2.THRESH_BINARY + cv2.THRESH_OTSUは自動的に適切な閾値を選びます。

4. 音符の輪郭を見つける

contours, _ = cv2.findContours(binary_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
  • cv2.findContours: 画像の中の輪郭を見つけます。cv2.RETR_EXTERNALは外側の輪郭だけを見つけ、cv2.CHAIN_APPROX_SIMPLEは輪郭の点を簡略化します。

5. 音符をMIDIノートに変換する関数

def note_to_midi(note):
    note_mapping = {
        'C': 60, 'C#': 61, 'D': 62, 'D#': 63, 'E': 64,
        'F': 65, 'F#': 66, 'G': 67, 'G#': 68, 'A': 69,
        'A#': 70, 'B': 71
    }
    return note_mapping.get(note, 60)  # Default to C4 if note not found
  • note_to_midi: 音符の名前をMIDIノート番号に変換する関数です。例えば、Cは60(C4)に対応します。

6. MIDIファイルの作成

midi_file = MIDIFile(1)
midi_file.addTempo(0, 0, 120)
  • MIDIFile(1): 1トラックのMIDIファイルを作成します。
  • addTempo: テンポ(速度)を設定します。ここでは120 BPMです。

7. 音符をMIDIファイルに追加

for contour in contours:
    x, y, w, h = cv2.boundingRect(contour)
    if h > 10:  # Filter out small contours that are not notes
        note = 'C'  # Placeholder for actual note detection logic
        midi_note = note_to_midi(note)
        midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)
  • cv2.boundingRect: 輪郭を囲む矩形を取得します。
  • addNote: MIDIファイルに音符を追加します。ここでは、音符の高さ(midi_note)、開始時間(x / 10.0)、長さ(1)、ベロシティ(100)を指定します。

8. MIDIファイルの保存

with open("output.mid", "wb") as output_file:
    midi_file.writeFile(output_file)
  • open: ファイルを開きます。"wb"は書き込みモード(バイナリ)です。
  • writeFile: MIDIファイルを書き込みます。

実行ファイルのほうをまとめました。これを「image2midi.py」のような名前で保存して実行します

python image2midi.py


import cv2
import numpy as np
from midiutil import MIDIFile

# Load the image
image_path = 'X:/****/****/****.jpg'
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)

# Preprocess the image for better OCR results
blurred = cv2.GaussianBlur(image, (5, 5), 0)
_, binary_image = cv2.threshold(blurred, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

# Use OpenCV to find contours of the notes
contours, _ = cv2.findContours(binary_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

# Function to map note positions to MIDI notes
def note_to_midi(note):
    note_mapping = {
        'C': 60, 'C#': 61, 'D': 62, 'D#': 63, 'E': 64,
        'F': 65, 'F#': 66, 'G': 67, 'G#': 68, 'A': 69,
        'A#': 70, 'B': 71
    }
    return note_mapping.get(note, 60)  # Default to C4 if note not found

# Create a MIDI file with one track
midi_file = MIDIFile(1)
midi_file.addTempo(0, 0, 120)

# Iterate through contours and add notes to the MIDI file
for contour in contours:
    x, y, w, h = cv2.boundingRect(contour)
    if h > 10:  # Filter out small contours that are not notes
        note = 'C'  # Placeholder for actual note detection logic
        midi_note = note_to_midi(note)
        midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)

# Save the MIDI file
with open("output.mid", "wb") as output_file:
    midi_file.writeFile(output_file)

print("MIDI file has been created successfully.")

インプットファイル↓

アウトプットファイル↓

残念でした。これじゃ話にならないので、もう少し悪あがき。

9. 音符の位置を正確に検出

音符の位置を正確に検出するために、音符の形状に基づいたフィルタリングを行います。以下のコードでは、音符の形状を考慮してフィルタリングを行っています。

# Iterate through contours and add notes to the MIDI file
for contour in contours:
    x, y, w, h = cv2.boundingRect(contour)
    aspect_ratio = w / float(h)
    if 0.2 < aspect_ratio < 0.8 and h > 10:  # Filter based on aspect ratio and height
        note = 'C'  # Placeholder for actual note detection logic
        midi_note = note_to_midi(note)
        midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)

10. 音符の形状を考慮したフィルタリング

音符の形状を考慮してフィルタリングを行うことで、音符の認識精度を向上させることができます。以下のコードでは、音符の形状に基づいたフィルタリングを行っています。

# Iterate through contours and add notes to the MIDI file
for contour in contours:
    x, y, w, h = cv2.boundingRect(contour)
    aspect_ratio = w / float(h)
    if 0.2 < aspect_ratio < 0.8 and h > 10:  # Filter based on aspect ratio and height
        note = 'C'  # Placeholder for actual note detection logic
        midi_note = note_to_midi(note)
        midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)

で、全体像 image2MIDI.pyは

import cv2
import numpy as np
from midiutil import MIDIFile

# Load the image
image_path = 'x:/****/***.jpg'
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)

# Enhance the image contrast
image = cv2.equalizeHist(image)

# Preprocess the image for better OCR results
blurred = cv2.GaussianBlur(image, (5, 5), 0)
edges = cv2.Canny(blurred, 50, 150)
_, binary_image = cv2.threshold(edges, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)

# Use OpenCV to find contours of the notes
contours, _ = cv2.findContours(binary_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

# Function to map note positions to MIDI notes
def note_to_midi(note):
    note_mapping = {
        'C': 60, 'C#': 61, 'D': 62, 'D#': 63, 'E': 64,
        'F': 65, 'F#': 66, 'G': 67, 'G#': 68, 'A': 69,
        'A#': 70, 'B': 71
    }
    return note_mapping.get(note, 60)  # Default to C4 if note not found

# Create a MIDI file with one track
midi_file = MIDIFile(1)
midi_file.addTempo(0, 0, 120)

# Iterate through contours and add notes to the MIDI file
for contour in contours:
    x, y, w, h = cv2.boundingRect(contour)
    aspect_ratio = w / float(h)
    if 0.2 < aspect_ratio < 0.8 and h > 10:  # Filter based on aspect ratio and height
        note = 'C'  # Placeholder for actual note detection logic
        midi_note = note_to_midi(note)
        midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)

# Save the MIDI file
with open("output.mid", "wb") as output_file:
    midi_file.writeFile(output_file)

print("MIDI file has been created successfully.")

で、この出力は

音符増えたけど、ダメダメでした

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です