Embedded Software Manufactory: 音声のプロフェッショナル

2006-06-10

音声のプロフェッショナル

いま、SESSAMEのタスクとして、組込みソフト初級技術者向けの e-Learning コンテンツを作っている。

組込みソフトの各分野の第一線で活躍するエンジニアが講義を行うSESSAMEのセミナーにスタッフとして参加し、レポート作成しているときに「このセミナーを聞きたいと思っている潜在的なユーザーはたくさんいるだろうな」と思ったのがきっかけで検討しはじめた企画だ。

SESSAMEのセミナーは講師となる技術者がスライドを作るだけではなく、作ったスライドをメーリングリストで提示して意見を出し合ったり、リハーサルを行って「あそこはこう表現した方がいい」とか「あの言葉はわからないから、解説した方がいい」とかいったディスカッションを行いコンテンツを洗練する。

一般のセミナーの場合、講義の内容は講師が用意したものをそのまま使うので、有識者たちで内容をディスカッションして修正することはほとんどない。偉い先生達はプライドがあるので、他人に自分の資料にあーだこーだ言われるのがきらいなのだ。

SESSAMEのセミナー講師はほとんどが現場のエンジニアで商品開発の中でチームで議論しながら、ものを作り上げていくので自分の資料をレビューされることは慣れている。

だからこそSESSAMEのセミナー講義は内容が濃く、現場で使える確率が高い。このような講義が一日ないし、二日で何人もの講師によって実施される。この講義をたかだか60人とか、100人の受講者だけが享受するのはもったいないと、セミナーを聞きながら感じた。

だから、この講義をビデオに撮って e-Learning コンテンツにできないかと思った。そこで、いろいろ調べたところ、Microsoft が PowerPoint の関連ソフトとして、PowerPoint のスライドと映像を同期させてコンテンツ化するソフトウェアを提供していることがわかった。これが、Microsoft Producer for Power Point 2003である。

手順はこうだ。

Microsoft Power Point で講義スライドを作る。
セミナーを開催したときに、家庭用ビデオで講師の映像を取る。
音声はビデオに記録されるが別途音声だけ録音する。（後で解説）
セミナー終了後、ビデオ映像をパソコンに取り込みながら、スライドを同期させていく。
取り込みが終わったら、スライド同期を微調整し、タイトルなどを付けて整える。
できあがったコンテンツを発行（音声と映像を指定した圧縮率で圧縮）する。
html でコンテンツメニューのページを作り、動画コンテンツにリンクを張る。
CD-ROMに焼き込み、ラベルを印刷して完成。

使用する機材は、最低限、家庭用ビデオと三脚、パソコンがあればいい。ひと昔前は一コンテンツ作るのに何百万円もかけていたのに、今は家庭用のビデオレコーダとパソコンがあれば e-Learning コンテンツができてしまうのだ。（もちろん、人の手は昔同様、今でもそれなりにかかる）

商用のe-Learning コンテンツは映像も音声もプロが加工している。今回取り組んでいる e-Learning コンテンツの映像部分は素人の仕事でもよしとしている。なぜなら、Microsoft Producer で再生する映像はコンピュータの画面の左上にちっちゃい窓で出ているだけで、そのときの講師の身振り手振りや表情の雰囲気を伝えるために使っているからだ。だから、画像の解像度も高精細なものは求められておらず、枠の中に講演者が収まっていればいいのだ。

問題は音声だ。家庭用ビデオに内蔵されているマイクは指向性が強く、レンズの向こうの音源をねらっているので会議用のICレコーダなどよりはクリアに録音できる。

しかし、どうしても会場の雑音もいっしょに録音されてしまう。 e-Learning コンテンツはパソコンのスピーカやイヤホンで聴くことが多いので、音声データが会場のノイズに埋もれてしまう危険性がある。

そこで、SESSAME の e-Learning コンテンツは、SESSAMEメンバーで音声のプロフェッショナルである TEAC の國方さんが講演者の音声の録音と加工を担当してくれている。國方さんは『組込みソフトウェア開発のための構造化モデリング』の著者のひとりでもある。

TEACというと自分は録音機器メーカーという印象が強いのだが、今はパソコンの周辺機器も手がけているとのこと。

國方さんは音声編集用の機器の開発をされており、e-Learning コンテンツの制作には、自分で開発したハードディスク内蔵の音声編集機器を使っている。

音声は幅広い周波数帯域を持っているが、安いスピーカやイヤホンが再生できる周波数帯域はそれほど広くないので、その範囲に録音した音声データが十分なダイナミックレンジと周波数帯域に入るようにする必要がある。

ということで、e-Learning コンテンツで大事なのは実は音声だ。家庭用のビデオのマイクは指向性が強く、ビデオの向いている方向の音を拾うようになっているのでそれなりに聞けるのだが、どうしても会場の雑音が入ってしまう。SESSAMEのコンテンツは聞きやすいように國方さんが加工してくれている。

國方さんのプロフェッショナルぶりは以下のようなメールのやりとりでわかる。

【國方さんから酒井へのメールより引用】

> Ｎさん声をボリューム上げるとビビリ音が聞こえるのはイヤホンの周波数特性
> が悪いからでしょうか？

確かに、Ｎさんの声は声量（パンチ）があるので、そのように聞こえる可能性はありますね。

今のところ、データ自体にビビリの原因となる歪みはなさそうですが、周波数特性の良いヘッドホンでボリュームを上げていくと、圧縮データ特有の、高音域の変調ノイズが耳につきます。シュワシュワした感じの音に、多少チリチリ音が混じって聞こえます。

【引用終わり】

この、「シュワシュワした感じの音に、多少チリチリ音が混じって聞こえる。」という表現がそのとおりだからすごいのだ。

マイクはダイナミックレンジが限られているので、講師の声が入力の範囲にうまく入るようにマイクの感度を調整してあげないといけないし、大きな声を出す講師の場合は入力がサチらないようにする必要がある。

だから、SESSAMEではミュージシャン用のそれなりに高級なヘッドセットマイクを購入し、TEACの音声編集用機器で音声を聞きやすいように加工している。

商用音楽の世界では、かなりの部分がパソコンを使った「音の打ち込み」という作業で作られているという。CDはデジタルデータで音声が格納されているため、音をパソコン上で作り込むこともできるのだ。

ただ、そうはいうもののコンピュータで作った寸分の狂いもないリズムは聞いていると疲れるらしい。しかし、これを聞きやすくするために微妙にリズムをずらす調整を「クウォンタイズをかける」というそうだ。

この話は、プロの音楽家がアマチュアの作品を評価するポッドキャスト番組ハイパーミュージックゲートで知った。音は映像より目立たないが、実はメディアの中で重要な役目を果たしている。レコーディングのスタッフで音の加工・調整を担当する技術者のことを「エンジニア」というそうだ。音楽業界にもエンジニアがいるというのがおもしろい。

組込みソフトエンジニアはその道のプロでなければ、プロ用の組込み機器を作ることはできないのだ。

0 件のコメント:

コメントを投稿