動画編集におけるオーディオミキシングの基本

2025-12-25

はじめに：なぜ音声が映像の「生命線」なのか

映像制作の現場で45年以上、数え切れないほどの作品に携わってきた経験から断言できることがある。視聴者は映像の粗さには意外と寛容だが、音声の不備には極めて敏感だ。
大昔、大事なインタビュー撮影で、ミキサーアウトをモニターしたまま収録してしまったんです。現場では全く気づかず、お客様が帰ってレコーディング素材を確認した瞬間に血の気が引きました。レベルオーバーして歪んでます。あの時の絶望感は、今思い出しても震えます。プロとして最低のミスでした。
本来ならミキサーアウトでマイクの状態を、レコーダーのEEアウトで収録レベルの確認をするべきところです。
でも、あの痛すぎる経験があったからこそ、今では音声確認のフローを二重三重に設定し、バックアップ体制も完璧にする癖がつきました。「もう二度とあんな思いはしたくない」という恐怖心が、僕をプロにしてくれたんです。
今では「尾上さんの現場は音声トラブルがないね」って言われることも増えました。あの日の冷や汗が、今の僕の自信を支えてくれています。失敗って、本当に最高の教師なんだと思います。だから、今悩んでいるあなたも大丈夫。その経験は必ず未来の糧になりますよ。

4K映像、最新のカラーグレーディング、凝ったモーショングラフィックス——これらに時間と予算を注ぎ込んでも、音声処理がおざなりであれば、その作品は「素人っぽい」という烙印を押される。逆に、映像がそこそこでも音声がしっかりしていれば、視聴者は最後まで見てくれる。

実際、動画の離脱理由を調査すると「音質の悪さ」は常に上位に挙がる。声が聞き取りにくい、BGMがうるさい、ノイズが耳障り——これらは視聴者の没入感を一瞬で破壊する。

本記事では、動画編集におけるオーディオミキシングの基本を体系的に解説していく。BGM、効果音、ナレーションの適切なバランス調整から、現場で即使えるテクニックまで、実践的な内容を詰め込んだ。

映像制作のクオリティを本当の意味で上げたいなら、まず音声から見直すべきだ。

音量バランスの基本原則：階層構造を理解せよ

オーディオミキシングで最も重要なのは「音量の階層構造」を理解することだ。すべての音を同じレベルで鳴らせば、ただの騒音になる。各要素には明確な役割があり、それに応じた音量設定が必要になる。

基本的な音量階層

現場で私が指導している基準値を示そう。

要素	推奨レベル	役割
ナレーション/会話	-6dB〜-3dB	主役。最も明瞭に聞こえるべき
主要な効果音	-12dB〜-9dB	アクセント。映像を補強する
BGM	-18dB〜-15dB	サポート役。雰囲気を作る
環境音/アンビエンス	-24dB〜-20dB	空気感。世界観を構築する

この数値はあくまで出発点であり、コンテンツの性質によって調整が必要だ。ただし、ナレーションが最上位に来るという原則は絶対に崩してはならない。

ダッキング：プロとアマを分ける技術

「ダッキング」という言葉を聞いたことがあるだろうか。ナレーションや会話が入った瞬間、BGMの音量を自動的に下げる処理のことだ。

放送局では当たり前に使われているこの技術が、YouTubeやSNS動画ではなぜか軽視されている。結果として「BGMがうるさくて何を言っているか分からない」という致命的な問題が発生する。

DaVinci Resolve、Premiere Pro、Final Cut Pro——いずれの編集ソフトにもダッキング機能は搭載されている。設定に5分もかからない。この5分を惜しんで、視聴者を逃すのは愚かな選択だ。

具体的な設定値としては、ナレーション検出時にBGMを-6dB〜-10dB程度下げるのが目安。アタックタイムは速めに、リリースタイムはやや遅めに設定すると自然な仕上がりになる。

ノーマライズとラウドネス管理：配信時代の必須知識

「音量を上げれば聞きやすくなる」——この素朴な誤解が、どれほど多くの動画を台無しにしてきたことか。現代の動画配信において、ラウドネス管理は避けて通れない技術要素だ。

ノーマライズの3つのアプローチ

ノーマライズとは、音声の音量を一定の基準に揃える処理のこと。ただし、その方法には3種類あり、それぞれ特性が異なる。

ピークノーマライズ 音声波形の最大値（ピーク）を基準に調整する。一般的には-3dB〜-1dBに設定する。処理は単純だが、聴感上の音量感は考慮されない。突発的な大きな音があると、全体が小さくなってしまう欠点がある。

RMSノーマライズ 音声全体の平均的なエネルギー量を基準にする。ピークノーマライズより聴感に近い結果が得られるが、まだ完璧ではない。

ラウドネスノーマライズ 人間の聴覚特性を考慮した、最も洗練された方法だ。単位はLUFS（Loudness Units Full Scale）を使用する。現代の動画制作では、これが標準となっている。

各プラットフォームの推奨ラウドネス値

ここが実務上極めて重要なポイントになる。主要プラットフォームの推奨値を把握しておこう。

プラットフォーム	推奨ラウドネス
YouTube	-14 LUFS
Spotify（ポッドキャスト）	-14 LUFS
Netflix	-27 LUFS（ダイアログ基準）
放送規格（日本）	-24 LKFS
Instagram/TikTok	-14 LUFS前後

なぜこれが重要か。YouTubeをはじめとする多くのプラットフォームは、アップロードされた動画に対して自動的にラウドネス補正をかける。つまり、こちらで音量を上げすぎても、強制的に下げられてしまうのだ。

逆に言えば、最初から適正なラウドネスで書き出しておけば、意図した通りの音量で再生される。-14 LUFSを基準に仕上げておけば、ほとんどのWeb配信で問題は起きない。

測定ツールを必ず使え

「耳で聞いて調整している」という人がいるが、これは危険だ。作業環境のスピーカー、部屋の音響特性、その日の体調——変動要素が多すぎる。

ラウドネスメーターは必須ツールだ。DaVinci ResolveのFairlightには標準搭載されているし、無料プラグインも多数存在する。Youlean Loudness Meterは無料版でも十分な機能を持っており、私も現場でよく推奨している。

数値で管理する習慣をつければ、作品ごとのクオリティのばらつきも抑えられる。

ノイズリダクション：やりすぎは禁物

「ノイズを完全に消したい」——この気持ちは理解できる。しかし、ノイズリダクションは諸刃の剣だ。やりすぎれば、肝心の音声まで劣化させてしまう。

ノイズの種類を見極めろ

まず、対処すべきノイズの種類を正確に把握することが先決だ。

定常ノイズ エアコンの駆動音、蛍光灯のハム音、機材のホワイトノイズなど。周波数が一定で、スペクトル分析型のノイズリダクションが効果的。

突発ノイズ 咳払い、物を落とした音、外から聞こえるサイレンなど。波形を直接編集するか、該当部分をカットするのが最善。

環境ノイズ 街の喧騒、風の音、人混みの声など。完全除去は難しく、むしろ「どこまで残すか」の判断が求められる。

現場で使える4つのアプローチ

1. 録音環境の改善（最優先） 当たり前のことを言うようだが、これが最も効果的だ。後処理でできることには限界がある。防音対策、適切なマイク選択、マイクと音源の距離——録音段階で90%は決まる。

2. ノイズゲート 設定したしきい値以下の音をカットする処理。ナレーションの合間に入る小さなノイズを消すのに有効。ただし、しきい値の設定を誤ると、言葉の語尾が不自然に切れる。

3. スペクトル分析型ノイズリダクション iZotope RXやAdobe Auditionに搭載されている高度な処理。ノイズのプロファイルを取得し、そのパターンに一致する成分だけを除去する。私が最も頼りにしている方法だ。

4. AIノイズリダクション 近年急速に進化している分野。NVIDIA Broadcast、Adobe Podcast、Davinci Resolveの音声分離機能など。驚くほど自然な結果が得られることもあるが、万能ではない。

「自然さ」と「クリアさ」のバランス

ここで重要な警告をしておく。ノイズリダクションを強くかけすぎると、音声が「水中で話しているような」不自然な質感になる。専門用語では「アーティファクト」と呼ばれる副作用だ。

特にスペクトル分析型の処理では、ノイズと一緒に倍音成分まで削ってしまうことがある。結果として、声の温かみや存在感が失われる。

私の経験則として、ノイズリダクションは「気になる」を「許容できる」に変える程度に留めるのがベストだ。完璧を目指すあまり、音声全体を破壊しては本末転倒である。

まずは弱めの設定から始め、少しずつ強度を上げながら、副作用が出る手前で止める。この「引き際」の見極めが、オーディオミキシングの腕の見せ所だ。

BGM選びとレベル調整のコツ

BGMは動画の「空気」を作る。選曲を間違えれば、どれほど優れた映像もナレーションも台無しになる。逆に、適切なBGMは視聴者の感情を自在に操る強力な武器となる。

選曲の3原則

1. コンテンツとの調和 これは当然のことに思えるかもしれないが、意外と軽視されている。企業のプレゼン動画にEDMは合わない。感動的なドキュメンタリーにコミカルな曲も論外だ。

テンポ、楽器構成、曲調——これらがコンテンツのメッセージと調和しているか、客観的に判断する必要がある。迷ったら、シンプルなピアノやアコースティックギターのインストゥルメンタルを選べ。主張が強すぎず、汎用性が高い。

2. ボーカルの有無 原則として、ナレーションがある動画にはボーカル入りの楽曲を避けるべきだ。人間の脳は複数の声を同時に処理することが苦手で、視聴者は無意識のうちに疲弊する。

どうしてもボーカル曲を使いたい場合は、ナレーションのないシーン（オープニングやエンディング）に限定しろ。

3. 著作権の確認 これを怠ると、動画が削除されるどころか、法的責任を問われる可能性もある。「知らなかった」は言い訳にならない。

ロイヤリティフリー音源、クリエイティブ・コモンズライセンス、正規の音楽配信サービス——必ず権利関係をクリアにしてから使用すること。Epidemic Sound、Artlist、AudioJungleなど、信頼できるサービスは多数存在する。

EQ処理：ナレーションとの棲み分け

ここからが技術的な核心部分だ。BGMとナレーションは、しばしば同じ周波数帯域で衝突する。特に問題になるのが**中域（300Hz〜3kHz）**だ。人間の声の基音と倍音がこの帯域に集中しているためだ。

解決策は「EQによる周波数の棲み分け」である。

BGMの中域、具体的には500Hz〜2kHz付近を2〜4dB程度カットする。これだけで、ナレーションの明瞭度が劇的に向上する。BGM自体の印象はほとんど変わらないのに、声が前に出てくる。

逆に、ナレーションがない場面ではこのカットを解除するオートメーションを書いておくと、BGMの存在感を取り戻せる。

音量変化で感情を操る

一定の音量でBGMを流し続けるのは、素人の仕事だ。プロは音量変化を使って、ストーリーの起伏を演出する。

重要なメッセージの前：BGMをフェードダウン、あるいは完全に消す
クライマックス：BGMを持ち上げて感情を高める
シーン転換：瞬間的に音量を上げてアクセントを付ける
エンディング：徐々に音量を上げ、余韻を残してフェードアウト

これらの変化は微細であるべきだ。視聴者が「あ、今BGMが変わった」と意識するようでは、やりすぎである。無意識のうちに感情が動く——それが理想だ。

ナレーションと効果音の最適な配置

ナレーションは動画の「骨格」であり、効果音は「スパイス」だ。骨格がしっかりしていなければ全体が崩れるし、スパイスは効かせすぎれば料理を台無しにする。

ナレーション：明瞭さが全てに優先する

どれほど優れた原稿でも、聞き取れなければ意味がない。ナレーションの処理で私が重視するポイントを整理しておく。

録音品質の確保 後処理でできることには限界がある。収録段階で以下を徹底しろ。

反響の少ない環境（デッドな空間）
適切なマイク距離（こぶし1〜2個分が目安）
ポップガードの使用（破裂音対策）
録音レベルは-12dB〜-6dBでピークを管理

EQ処理の基本 ナレーションを前に出すための定番処理がある。

80Hz以下：ハイパスフィルターでカット（不要な低域ノイズ除去）
200〜500Hz：必要に応じて軽くカット（こもり感の軽減）
2〜5kHz：わずかにブースト（明瞭度の向上）
10kHz以上：空気感を出したい場合のみ軽くブースト

ただし、これはあくまで出発点だ。声質は人それぞれ異なる。低い声の男性と高い声の女性では、処理すべき帯域が変わってくる。自分の耳で確認しながら調整する習慣をつけろ。

コンプレッサーの適用 ナレーションの音量を均一化するためにコンプレッサーは必須だ。ただし、設定を間違えると不自然な「潰れた」音になる。

レシオ：2:1〜4:1（控えめに）
アタック：10〜30ms（言葉の頭を潰さない）
リリース：100〜300ms（自然な減衰を維持）
ゲインリダクション：最大でも-6dB程度に抑える

効果音：「足し算」ではなく「引き算」で考える

効果音は初心者が最も失敗しやすい要素だ。「入れれば入れるほど良くなる」という誤解が根強いが、現実は逆である。

効果音の3つの役割

情報の補強：画面に映っていないものを音で伝える（ドアの開閉、足音など）
感情の強調：衝撃、驚き、緊張感などを増幅する
リズムの創出：トランジションや場面転換にアクセントを付ける

この3つのいずれにも該当しない効果音は、基本的に不要だ。

やってはいけないこと

すべてのテロップに「シュッ」「ポン」と音を付ける
カット変わりのたびにトランジション音を入れる
「なんとなく寂しいから」という理由で効果音を追加する

視聴者の注意力は有限だ。不必要な効果音は、本当に重要な音を埋もれさせる。入れるかどうか迷ったら、入れない。これが鉄則だ。

効果音のレベル調整

効果音は「気づかせる」ものと「感じさせる」ものに分かれる。

気づかせる効果音（通知音、アラートなど）は、ナレーションと同等かやや小さめの-9dB〜-6dB程度。感じさせる効果音（環境音、雰囲気音など）は、BGMと同等かそれ以下の-18dB〜-12dB程度に設定する。

主役はあくまでナレーションだ。効果音がそれを邪魔するようでは、本末転倒である。

よくある問題と解決策

現場では教科書通りにいかないことの方が多い。ここでは、私が実際に遭遇してきた問題とその解決策を共有する。同じ轍を踏まないための参考にしてほしい。

問題1：ナレーションがBGMに埋もれる

症状声は聞こえるが、何を言っているか分からない。視聴者から「字幕がないと理解できない」と言われる。

原因ほとんどの場合、BGMの音量が大きすぎるか、周波数帯域が衝突している。

解決策 まずBGMを-18dB以下まで下げてみろ。それでも改善しないなら、EQでBGMの500Hz〜2kHz帯域を3〜4dBカット。さらにダッキングを設定し、ナレーション検出時に-6dB〜-10dB自動で下げる。

この3つを組み合わせれば、99%のケースで解決する。

問題2：音声がこもって聞こえる

症状ナレーションに明瞭さがなく、布を被せたような印象を与える。

原因低中域（200Hz〜500Hz）の過剰な蓄積。録音環境の反響、マイクの近接効果、または不適切なEQ設定が原因であることが多い。

解決策 EQで200Hz〜500Hz帯域を2〜4dB程度カットする。同時に2kHz〜5kHz帯域を1〜3dBブーストすると、声の輪郭がはっきりする。

ただし、これは対症療法に過ぎない。根本的には録音環境を見直すべきだ。部屋の反響が原因なら、吸音材の設置や収録場所の変更を検討しろ。

問題3：音量が場面ごとにバラバラ

症状あるシーンでは適正だった音量が、次のシーンでは急に大きくなったり小さくなったりする。視聴者はボリュームを頻繁に調整することになる。

原因複数の素材を組み合わせる際に、個別のレベル調整を怠っている。また、書き出し前の最終チェックが不十分。

解決策 まず全ての素材を個別にノーマライズする。次に、マスタートラックにリミッターを挿入し、ピークを-1dB以下に抑える。最後にラウドネスメーターで全体を-14 LUFS前後に調整。

この手順を標準化すれば、作品ごとのばらつきも解消される。

問題4：ノイズ除去で声が不自然になった

症状ノイズは消えたが、声が機械的になり、「水中で話している」ような違和感がある。

原因ノイズリダクションの強度が高すぎる。ノイズと一緒に声の倍音成分まで削ってしまっている。

解決策 ノイズリダクションの強度を50%以下に下げる。完全除去を諦め、「目立たなくなる」レベルで妥協しろ。

どうしても強いノイズリダクションが必要な場合は、処理後にEQで2kHz〜8kHz帯域を軽くブーストすると、多少は自然さを取り戻せる。ただし、限界はある。やはり録音段階での対策が最優先だ。

問題5：書き出した動画の音量が小さい

症状編集ソフト上では問題なかったのに、YouTubeにアップロードしたら他の動画より明らかに音が小さい。

原因ラウドネス管理をしていない。ピークレベルだけを見ていて、聴感上の音量を考慮していない。

解決策 書き出し前にラウドネスメーターで確認し、-14 LUFS前後に調整する。必要に応じてリミッターやマキシマイザーで音圧を稼ぐ。ただし、過度な音圧稼ぎはダイナミクスを殺すので注意。

問題解決の心得

最後に一つ。問題が発生したとき、一度に全てを修正しようとするな。

一つの処理を加えたら、必ず再生して確認する。次の処理を加えたら、また確認する。この地道な作業を飛ばすと、どこで問題が悪化したのか分からなくなる。

急がば回れ——オーディオミキシングにおいて、これは真理だ。

まとめ：プロフェッショナルな音声を実現するために

ここまで読んできた読者には、オーディオミキシングが単なる「音量調整」ではないことが理解できたはずだ。最後に、本記事の要点を整理し、明日から実践すべきアクションを提示しておく。

5つの基本原則

1. 音量の階層構造を守れ ナレーション→効果音→BGM→環境音。この優先順位は絶対だ。迷ったときは、ナレーションの明瞭さを最優先しろ。

2. 数値で管理しろ 耳だけに頼るな。ラウドネスメーターを使い、-14 LUFSを基準に仕上げる。主観と客観の両方で品質を担保するのがプロの仕事だ。

3. ノイズ処理は控えめに 完璧を目指すあまり、音声を破壊するな。「気になる」を「許容できる」に変える程度で十分だ。録音段階での対策が、後処理の10倍効果的であることを忘れるな。

4. 効果音は引き算で考えろ 入れるかどうか迷ったら、入れない。視聴者の注意力は有限だ。本当に必要な音だけを残すことで、その効果は何倍にもなる。

5. 最終確認を怠るな 複数の再生環境でチェックしろ。スタジオモニター、イヤホン、スマートフォンのスピーカー——視聴者がどんな環境で見るか分からない以上、様々な条件で確認するのは義務だ。

明日から実践すべき3つのアクション

アクション1：ラウドネスメーターを導入する 持っていないなら、今すぐYoulean Loudness Meterをダウンロードしろ。無料で十分な機能を持っている。数値で管理する習慣を身につけることが、最初の一歩だ。

アクション2：ダッキングを設定する 使っている編集ソフトでダッキングの設定方法を調べ、次の案件から必ず適用しろ。設定に5分、効果は絶大だ。

アクション3：書き出し前のチェックリストを作る 本記事の内容をもとに、自分用のチェックリストを作成しろ。確認すべき項目を言語化しておくことで、見落としを防げる。

最後に

「映像は目で見るもの、音声は心で感じるもの」

この言葉を、私は常に胸に刻んでいる。

視聴者は音声の良し悪しを言語化できないことが多い。しかし、無意識のレベルでは確実に感じ取っている。「なんかこの動画、見やすいな」「最後まで集中できた」——その印象の裏には、必ず適切な音声処理がある。

オーディオミキシングは、一朝一夕でマスターできる技術ではない。しかし、本記事で解説した基本を押さえるだけで、あなたの動画のクオリティは確実に一段上がる。

まずは手を動かせ。失敗しろ。その積み重ねが、プロへの道だ。

この記事が気に入ったら
フォローしてね！

Follow @onoring Follow Me

よかったらシェアしてね！

URLをコピーしました！

URLをコピーしました！

この記事を書いた人

dreamcraft

動画編集におけるオーディオミキシングの基本

はじめに：なぜ音声が映像の「生命線」なのか