写メとかスキャンした譜面の画像ファイルをMIDIに変換できたらと思って試しています。かつて使っていたfinaleにもその機能があったのですが、私が使用していた版が2012版と古かったのかあまり正確な変換はできなかったです。muse scoreにも変換機能ありますが、webサイトへ誘導されて、そこへ譜面をアップロードする形になります。画像をきれいに整えてからアップしても、大きく手直ししないとだめで、直接入力のほうが良いのではないかというくらい、私の目的に対しては非常に不正確な出力になります。
最近(2025年現在)はいろいろな有料版ソフトでその機能が追加されていますので、おとなしく課金するのが正解だろうとは思います。
今回は、無料で使えるpythonのスクリプトで実行することを目指しています。
Install the required libraries:
opencv-python
for image processing.midiutil
for creating MIDI files.numpy
for numerical operations.
You can install these libraries using pip:
pip install opencv-python midiutil numpy
まずは、Pythonのライブラリであるopencv-python
、midiutil
、numpy
がインストールされます。これらのライブラリは、画像処理やMIDIファイルの作成、数値計算に役立ちます。
1. ライブラリのインポート
import cv2
import numpy as np
from midiutil import MIDIFile
cv2
: OpenCVというライブラリで、画像処理を行います。numpy
: 数値計算を効率的に行うためのライブラリです。midiutil
: MIDIファイルを作成するためのライブラリです。
2. 画像の読み込み
image_path = 'path_to_your_image.jpg'
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
image_path
: 画像ファイルのパスを指定します。ウインドウズのパスのバックスラッシュ(¥で表示される場合もあります)はスラッシュ/に修正するか、\\のように2回バックスラッシュを含む記号にしゅうせいが必要。cv2.imread
: 画像を読み込みます。cv2.IMREAD_GRAYSCALE
は画像をグレースケール(白黒)で読み込むオプションです。
3. 画像の前処理
blurred = cv2.GaussianBlur(image, (5, 5), 0)
_, binary_image = cv2.threshold(blurred, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
cv2.GaussianBlur
: 画像をぼかしてノイズを減らします。cv2.threshold
: 画像を二値化(白と黒だけにする)します。cv2.THRESH_BINARY + cv2.THRESH_OTSU
は自動的に適切な閾値を選びます。
4. 音符の輪郭を見つける
contours, _ = cv2.findContours(binary_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
cv2.findContours
: 画像の中の輪郭を見つけます。cv2.RETR_EXTERNAL
は外側の輪郭だけを見つけ、cv2.CHAIN_APPROX_SIMPLE
は輪郭の点を簡略化します。
5. 音符をMIDIノートに変換する関数
def note_to_midi(note):
note_mapping = {
'C': 60, 'C#': 61, 'D': 62, 'D#': 63, 'E': 64,
'F': 65, 'F#': 66, 'G': 67, 'G#': 68, 'A': 69,
'A#': 70, 'B': 71
}
return note_mapping.get(note, 60) # Default to C4 if note not found
note_to_midi
: 音符の名前をMIDIノート番号に変換する関数です。例えば、C
は60(C4)に対応します。
6. MIDIファイルの作成
midi_file = MIDIFile(1)
midi_file.addTempo(0, 0, 120)
MIDIFile(1)
: 1トラックのMIDIファイルを作成します。addTempo
: テンポ(速度)を設定します。ここでは120 BPMです。
7. 音符をMIDIファイルに追加
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
if h > 10: # Filter out small contours that are not notes
note = 'C' # Placeholder for actual note detection logic
midi_note = note_to_midi(note)
midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)
cv2.boundingRect
: 輪郭を囲む矩形を取得します。addNote
: MIDIファイルに音符を追加します。ここでは、音符の高さ(midi_note
)、開始時間(x / 10.0
)、長さ(1)、ベロシティ(100)を指定します。
8. MIDIファイルの保存
with open("output.mid", "wb") as output_file:
midi_file.writeFile(output_file)
open
: ファイルを開きます。"wb"
は書き込みモード(バイナリ)です。writeFile
: MIDIファイルを書き込みます。
実行ファイルのほうをまとめました。これを「image2midi.py」のような名前で保存して実行します
python image2midi.py
import cv2
import numpy as np
from midiutil import MIDIFile
# Load the image
image_path = 'X:/****/****/****.jpg'
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
# Preprocess the image for better OCR results
blurred = cv2.GaussianBlur(image, (5, 5), 0)
_, binary_image = cv2.threshold(blurred, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
# Use OpenCV to find contours of the notes
contours, _ = cv2.findContours(binary_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
# Function to map note positions to MIDI notes
def note_to_midi(note):
note_mapping = {
'C': 60, 'C#': 61, 'D': 62, 'D#': 63, 'E': 64,
'F': 65, 'F#': 66, 'G': 67, 'G#': 68, 'A': 69,
'A#': 70, 'B': 71
}
return note_mapping.get(note, 60) # Default to C4 if note not found
# Create a MIDI file with one track
midi_file = MIDIFile(1)
midi_file.addTempo(0, 0, 120)
# Iterate through contours and add notes to the MIDI file
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
if h > 10: # Filter out small contours that are not notes
note = 'C' # Placeholder for actual note detection logic
midi_note = note_to_midi(note)
midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)
# Save the MIDI file
with open("output.mid", "wb") as output_file:
midi_file.writeFile(output_file)
print("MIDI file has been created successfully.")
インプットファイル↓

アウトプットファイル↓

残念でした。これじゃ話にならないので、もう少し悪あがき。
9. 音符の位置を正確に検出
音符の位置を正確に検出するために、音符の形状に基づいたフィルタリングを行います。以下のコードでは、音符の形状を考慮してフィルタリングを行っています。
# Iterate through contours and add notes to the MIDI file
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
aspect_ratio = w / float(h)
if 0.2 < aspect_ratio < 0.8 and h > 10: # Filter based on aspect ratio and height
note = 'C' # Placeholder for actual note detection logic
midi_note = note_to_midi(note)
midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)
10. 音符の形状を考慮したフィルタリング
音符の形状を考慮してフィルタリングを行うことで、音符の認識精度を向上させることができます。以下のコードでは、音符の形状に基づいたフィルタリングを行っています。
# Iterate through contours and add notes to the MIDI file
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
aspect_ratio = w / float(h)
if 0.2 < aspect_ratio < 0.8 and h > 10: # Filter based on aspect ratio and height
note = 'C' # Placeholder for actual note detection logic
midi_note = note_to_midi(note)
midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)
で、全体像 image2MIDI.pyは
import cv2
import numpy as np
from midiutil import MIDIFile
# Load the image
image_path = 'x:/****/***.jpg'
image = cv2.imread(image_path, cv2.IMREAD_GRAYSCALE)
# Enhance the image contrast
image = cv2.equalizeHist(image)
# Preprocess the image for better OCR results
blurred = cv2.GaussianBlur(image, (5, 5), 0)
edges = cv2.Canny(blurred, 50, 150)
_, binary_image = cv2.threshold(edges, 0, 255, cv2.THRESH_BINARY + cv2.THRESH_OTSU)
# Use OpenCV to find contours of the notes
contours, _ = cv2.findContours(binary_image, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
# Function to map note positions to MIDI notes
def note_to_midi(note):
note_mapping = {
'C': 60, 'C#': 61, 'D': 62, 'D#': 63, 'E': 64,
'F': 65, 'F#': 66, 'G': 67, 'G#': 68, 'A': 69,
'A#': 70, 'B': 71
}
return note_mapping.get(note, 60) # Default to C4 if note not found
# Create a MIDI file with one track
midi_file = MIDIFile(1)
midi_file.addTempo(0, 0, 120)
# Iterate through contours and add notes to the MIDI file
for contour in contours:
x, y, w, h = cv2.boundingRect(contour)
aspect_ratio = w / float(h)
if 0.2 < aspect_ratio < 0.8 and h > 10: # Filter based on aspect ratio and height
note = 'C' # Placeholder for actual note detection logic
midi_note = note_to_midi(note)
midi_file.addNote(0, 0, midi_note, x / 10.0, 1, 100)
# Save the MIDI file
with open("output.mid", "wb") as output_file:
midi_file.writeFile(output_file)
print("MIDI file has been created successfully.")
で、この出力は

音符増えたけど、ダメダメでした