Feb 4, 2026

음악 튜닝의 수학: 우리는 왜 12음계를 쓸까? (엔지니어의 시선)

음악은 ‘감성’이 아니라 ‘최적화 문제’였다

라이프니츠는 “음악은 영혼이 자신이 수를 세고 있다는 사실을 모른 채 수를 세는 기쁨이다”라고 했습니다. 개발자로서 이 문장을 처음 접했을 때는 그냥 멋진 비유라고만 생각했습니다. 하지만 존 바에즈(John Baez) 교수의 “The Mathematics of Tuning Systems” 아티클을 정독하고 나니 생각이 완전히 바뀌었습니다.

우리가 당연하게 받아들이는 ‘도레미파솔라시도’와 피아노 건반의 12음계 시스템은, 사실 수천 년에 걸친 ‘제약 충족 문제(Constraint Satisfaction Problem)’ 의 결과물이었습니다. 그것도 완벽한 해답이 아니라, 엔지니어링에서 흔히 마주치는 ‘가장 덜 나쁜 트레이드오프(Trade-off)’ 의 산물이라는 점이 흥미롭습니다.

오늘은 이 아티클을 바탕으로, 음악 튜닝 시스템 뒤에 숨겨진 수학적 원리와 엔지니어링적 타협의 역사를 깊게 파보려 합니다. Hacker News에서도 “끝난 줄 알았는데 계속 읽게 되는 토끼굴 같은 글”이라며 화제가 된 내용입니다.

1. 12음계는 자의적인가? (Why 12?)

피아노를 보면 한 옥타브 안에 7개의 흰 건반과 5개의 검은 건반, 총 12개의 노트가 있습니다. 왜 하필 12개일까요? 10진법을 쓰니 10개면 편하지 않았을까요?

이것은 주파수 비율(Frequency Ratio) 의 근사치 찾기 게임입니다.

가장 듣기 좋은 소리는 주파수가 정수비를 이룰 때 납니다.

옥타브(Octave): 2:1 비율. (예: 440Hz와 880Hz)
완전 5도(Perfect Fifth): 3:2 비율. (가장 안정적이고 아름다운 화음)

문제는 여기서 발생합니다. 옥타브를 $N$개의 등간격으로 나눈다고 가정해봅시다(Equal Temperament). 이때 $N$번째 노트가 2배가 되려면, 각 단계의 비율은 $2^{1/N}$이 됩니다.

우리는 이 시스템 안에서 3:2 비율(1.5)을 최대한 가깝게 구현하고 싶습니다. 즉, $(2^{1/N})^k \approx 1.5$가 되는 정수 $k$와 $N$을 찾아야 합니다.

바에즈 교수의 분석에 따르면, $N$을 1부터 늘려가며 시뮬레이션했을 때:

$N=5$: 꽤 괜찮음.
$N=7$: 더 괜찮음.
$N=12$: 압도적으로 훌륭함. 오차가 매우 적음.
$N=12$를 이기려면 $N=29$까지 가야 함.

결국 12음계는 인간이 정한 게 아니라, $2^{x}$ 공간에서 1.5에 가장 효율적으로 근사(Approximation)할 수 있는 해상도 를 찾다 보니 수렴한 결과입니다. 엔지니어링으로 치면, 메모리 효율과 해상도 사이의 최적 지점을 찾은 셈입니다.

2. 피타고라스 튜닝: 정수론의 함정

고대 그리스의 피타고라스 학파는 “만물은 수”라고 믿었고, 무리수를 혐오했습니다. 그래서 그들은 $3/2$ 비율을 계속 쌓아올리는 방식을 택했습니다. (C -> G -> D -> …)

하지만 여기에 치명적인 버그가 있습니다. $3/2$를 12번 곱하면 옥타브($2/1$)로 깔끔하게 떨어질까요?

$$ (3/2)^{12} \approx 129.746 $$ $$ 2^7 = 128 $$

약 1.0136배의 오차가 발생합니다. 이 오차를 ‘피타고라스 콤마(Pythagorean Comma)’ 라고 부릅니다. 개발자로 치면 부동소수점 연산을 반복하다가 생긴 0.0000001의 오차가 쌓여서 시스템 전체를 뒤틀어버린 상황입니다.

이 오차를 어딘가에는 숨겨야 합니다. 피타고라스 튜닝에서는 특정 구간(주로 늑대 5도, Wolf Fifth)에 이 오차를 몰아넣었습니다. 그래서 그 구간의 화음을 연주하면 늑대 울음소리 같은 불협화음이 납니다. 즉, “특정 키(Key)에서는 연주가 불가능한” 시스템이었습니다.

3. 순정률(Just Intonation): 로컬 최적화의 한계

1300년대 이후, 3도 화음(5:4 비율)이 중요해지면서 순정률 이 등장합니다. 이것은 2차원 격자(Lattice) 모델로 설명할 수 있습니다. 한 축은 3의 거듭제곱, 다른 축은 5의 거듭제곱으로 공간을 구성합니다.

이 방식의 장점은 특정 조(Key)에서 화음이 완벽하게 깨끗하다는 것입니다. 유리수 비율이 딱딱 맞아떨어집니다.

하지만 엔지니어링 관점에서 순정률은 ‘하드코딩된 시스템’ 입니다. C장조(C Major)에 맞춰 튜닝하면 C장조는 천상의 소리가 나지만, 키를 바꾸는 순간(Modulation) 모든 비율이 어그러집니다. 유연성(Flexibility)이 제로에 가깝습니다.

바에즈 교수는 이를 “카펫 밑의 혹(Lump in the carpet)“이라고 표현합니다. 혹을 밟아서 평평하게 만들면 다른 곳이 튀어옵니다. 수학적으로 완벽한 튜닝은 불가능하다는 것이 증명된 셈입니다.

4. 평균율(Equal Temperament): 엔터프라이즈급 타협

결국 현대 음악(1850년 이후)은 12평균율(12-TET) 로 정착했습니다. 옥타브를 정확히 12등분 하는 것입니다.

각 반음의 비율: $2^{1/12} \approx 1.05946…$ (무리수)

이 시스템의 특징은 “모든 화음이 약간씩 틀려 있다” 는 점입니다. 3:2 비율도 정확히는 1.4983…으로 미세하게 낮고, 5:4 비율도 꽤 많이 틀어져 있습니다.

하지만 이 시스템의 강력한 장점은 ‘이식성(Portability)’ 입니다. 어떤 키로 연주하든 “똑같이 나쁜” 소리가 납니다. 즉, 오차가 균등하게 분산되어 있어서, 자유롭게 조바꿈(Modulation)을 할 수 있습니다.

저는 이것을 보며 Docker 컨테이너 가 떠올랐습니다. 네이티브 성능(순정률)을 약간 희생하는 대신, 어디서든 돌아가는 호환성(평균율)을 얻은 것입니다. 바에즈 교수는 이를 “수학적으로 가장 지루한 시스템”이라고 평했지만, 결국 표준이 된 건 이 범용성 때문입니다.

5. 결론 및 개인적인 생각

이 글을 읽으며 가장 인상 깊었던 점은, 우리가 ‘예술’의 영역이라고 생각했던 음악적 조화가 사실은 무리수(Irrational Number)를 유리수(Rational Number)로 근사하려는 처절한 수학적 사투 였다는 사실입니다.

피타고라스: 정수론에 집착하다가 오차 누적으로 실패.
순정률: 로컬 최적화에는 성공했으나 스케일링(조바꿈) 실패.
평균율: 정확도를 포기하고 일관성(Consistency)을 선택하여 표준화 성공.

현대 기술 스택에서도 이런 패턴은 반복됩니다. CAP 이론에서 모든 것을 가질 수 없듯, 튜닝 시스템에서도 완벽한 옥타브, 완벽한 5도, 그리고 자유로운 조바꿈을 동시에 가질 수는 없습니다.

Hacker News의 반응 중 공감 가는 코멘트가 있었습니다.

“음악 이론을 배울 때마다 ‘이건 그냥 외워’라고 했는데, 수학적으로 이유를 설명해주니 이제야 이해가 간다.”

앞으로 음악을 들을 때, 그 완벽해 보이는 화음 뒤에 숨겨진 미세한 ‘진동’과, 그것을 제어하기 위해 2천 년간 고군분투한 수학자들의 노력을 떠올리게 될 것 같습니다. 어쩌면 디지털 신디사이저의 발전으로, 실시간으로 키에 맞춰 튜닝을 바꾸는 ‘동적 튜닝(Dynamic Tuning)’ 이 대중화되어 평균율의 지루함을 깰 날이 올지도 모르겠습니다.

참고 자료: