音声

交通騒音も路上と室内では違う…3D空間内の複雑な音響編集を助けるResonance AudioをGoogleが発表

拡張現実(augumented reality, AR)は、コンピューターとの対話を三次元化するという展望により、徐々に伸びつつあるが、すでにいろんなプラットホームを提供しているGoogleは、その三次元空間に視覚だけでなく五感のすべてを持たせたいようだ。

今日(米国時間11/6)Googleは、同社のVR Audio SDKをベースとして、より総合的な空間オーディオプロダクトResonance Audioをモバイルとデスクトップ両用に作っていることを発表した。

Googleの説明によるこのSDKの用途は、“本物の音が人間の耳や環境と対話する”様相を再現することだ。たとえば、現実の音が物や環境によって歪むという現象も、ARの仮想的シナリオにおいて再現する。

たとえばあなたが大型ラジカセを持って歩いている仮想キャラクターだとすると、何かの曲を鳴らしながら開放的な空間を歩いているときと、吹き抜け階段を降りているときとでは、音はどう違うのか? Resonance Audioが対応しているこのような多様な状況により、ユーザー(デベロッパー)もそんな状況を三次元の奥行きの中で音で再現できるようになる。

またResonanceはデベロッパーがシーン中の音源を指定できるだけでなく、音源が動く方向も音質の変化で表すので、たとえばあなたがデジタルのキャラクターのうしろを通るときと、顔の前を通るときでは、反響音を変えられる。

上で例を述べたようなさまざまな状況の変化は、ゲームのデベロッパーにとってはおなじみのものだが、しかし複数の(数十の)音源が同時にいろんな状況で対話的に鳴るといった複雑な設定では、その対応も難しい。CPUはビジュアルにかかりっきりで忙しいことが多いから、音の表現のこのような複雑性は予想外の困難性をもたらし、結局ベーシックなオーディオだけで発売してしまうこともありえる。Resonanceはたとえば、一部の音のリバーブを、いろんな環境ごとに事前に作っておくといったトリックにより、音のリアルであるべき対話性が時間的にずれる、といった問題を解消する。

ResonanceはUnityやUnrealのようなゲームエンジンとも併用でき、またいろんな音響編集作業のためのプラグインも用意しているから、既存のワークフローとの相性も良いだろう。

GoogleはVRやARの基盤的技術への関心をベースとして、さらにそれらをゲームの開発に応用しようとしているようだ。先週Googleが見せたPolyは、3Dのアセットや環境のためのホームだ。そしてResonance Audioが空間的オーディオを提供し、よりリアルな音の開発を容易にする。

[原文へ] (翻訳:iwatani(a.k.a. hiwa

AmazonのAlexaデバイスが声で個人を識別できるようになった…Echoの各人利用が可能

Amazon Echoの最大の盲点のひとつが解決した。ついに、やっと、今日(米国時間10/11)から、声を聞き分ける機能が加わったのだ。家族のいる家庭では、声を認識してEchoの利用を個人化できる。ショッピングリストや音楽の選択などを、個人別にできるのだ。

この機能は、Googleより何年も前に音声アシスタントの提供を始めたAmazonが、Googleに後れていた部分だ。Googleはこの機能を4月に発表し、製品は大家族にとって魅力的になった。

今のところ、この機能が使えるのはFlash Briefings(ニュース速報)、ショッピング、Amazon Musicのファミリープラン、AlexaとAlexaの通話、入呼の名前呼び出しだ。今後もっと増えるようだが、まだ具体的ではない。そして今後は、もっと多くの人の声を識別できるように“お利口になる”そうだ。

この機能は今後数日間で全面的に展開される。始め方は、スマートフォン上のGoogle AssistantやSiriのセットアップと同じだ。モバイルアプリのセッティングで“Your Voice”をセレクトし、一連のデモコマンドで、ソフトウェアにあなたの声をおぼえさせる。詳しい使い方は、AmazonのHelpページにある。

対応デバイスは、Echoのほかに、AmazonのアカウントのあるそのほかのAlexaデバイスだ。

[原文へ] (翻訳:iwatani(a.k.a. hiwa))

Deepgramがディープラーニングを利用する機械書き起こしサービスを無料で公開、データの獲得をねらう

オーディオデータを機械学習で処理するDeepgramが今日(米国時間10/10)、同社の機械書き起こしサービスを無料で公開した。これからはTrintのようなサービスにお金を払って自動化書き起こしという汚い仕事をやらせなくてもすむわけだ。無料化の秘密は、“データの取得”にある。

機械書き起こしは、完成された技術ではない。というか、機械何々はどれも未完成だ。それでも最近は、機械何々を完成させるためのデータを得ようと、各社が競っている。Deepgramのやり方は、書き起こしサービスを無料にして多くの人にオーディオデータをアップロードしてもらい、そのお礼に検索可能なテキストを渡すことだ。

前述のように、このやり方はそれほどユニークではない。誰もが、データを求めている。Image Captchasも、ラベルをつけた画像データを一般消費者に送ってもらって機械学習のモデルに利用することが目的だ。

Deepgramの書き起こしツールは、ディープラーニングを利用している(驚き!)…今やおなじみの、畳み込み型/再帰型のニューラルネットワークだ。無料バージョンでは何もかも一般化されるが、有料バージョンでは企業名や製品名、業界の専門用語などで訓練をカスタム化できる。

一週間前にやった1時間のインタビューで、このサービスをテストしてみた。レストランの騒音の中で二人の人間が対話をしている。書き起こしの質は、完全にはほど遠い。でも、今市場に出回っているサービスに比べて、極端に悪いというわけではない。

記憶している語句で検索することもできたし、三回目の結果の中に、探していた特定の箇所が見つかった。それをここに引用すると相手が怒りそうだからやめるが、記事を書くためには十分なコンテキストが得られた、と言えよう。音声による検索には5分ほどかかったが、テキストと違って音声による“語”には、似たような音(おん)が多いので、必要以上のマッチを見つけるのだろう。それでも、人間がやってくれる書き起こしサービスに比べると安い(無料!)し、今後少しずつ良くなっていくだろう。

Deepgramの協同ファウンダーでCEOのScott Stephensonはこう説明する: “音声認識の自動化は、まだ完成された技術ではない。特定のデータセットに対しては有能だが、ノイズが多いとだめだ。うちのサービスの結果も、良くないね”。

Deepgramは、機械書き起こしのAPIも無料で提供している。でも、有料サイトに100万分(ふん)の音声データをアップロードしたら、目の玉の飛び出る料金になるだろうから、その500テラバイトのファイルはDeepgramにトロルした方がよいかもね。

書き起こしはまだまだ人力には勝てないが、人工的に合成した音声なら機械学習にも勝つチャンスがあるかもしれない。テキストから音声を生成するWaveNetLyrebirdのようなプロジェクトを利用して、Deepgramのような機械翻訳システムを、機械が間違えやすい語で訓練すれば、その能力もアップするだろう。

[原文へ] (翻訳:iwatani(a.k.a. hiwa))

Googleの機械学習式音声生成システムWaveNetが、Google Assistantに導入される

Googleは昨年、新しい音声生成の方法であるWaveNetを発表した。これは大量の単語ライブラリや、堅苦しくなりがちな簡易手段に頼らない手法だ。WaveNetは、機械学習を使いサンプル毎に音声を生成する。その結果は私に言わせれば「気味が悪いほど良くできた」ものだ。これまではラボの中で提供されていたが、この技術が、最新版のGoogle Assistantに導入される

この技術の背後にある基本的なアイデアは、文法や音調のルールを手でコーディングして単語や文を生成するのではなく、機械学習システムを使ってスピーチのパターンを見出し、それをサンプル毎に生成するようにしたことだ。この場合のサンプルとは、1/16000秒単位で生成される音だ。最初のリリース時点ではWaveNetは非常に計算コストが高く、0.02秒の音声を生成するのに1秒を要していた。つまり “turn right at Cedar street”(Cesar通りを右折)といった2秒のクリップを生成するのにほぼ2分近い時間がかかっていたのだ。そのため、実際の用途には適していなかった(そんなに時間がかかったら、交差点を通り過ぎてしまう)。それがGoogleのエンジニアたちが改善を図った理由だ。

新しく改良されたWaveNetは、実時間に比べて20倍の速さで音声を生成する。すなわち同じ2秒のクリップを1/10秒で生成するのだ。そしてさらに、8ビットではなく16ビットで、1秒あたり2万4000回という高いレートでサンプリングを行なうことも可能だ。スマートフォンのスピーカーでは、そうした忠実度の高いサウンドが本当に高く評価されることはないだろうが、本日(米国時間10月4日)のアナウンスによれば、Assistantはほどなくより多くの場所に登場するようだ。

WaveNetによって生成された音声は、従来使用されていた最先端の単語連結式システムよりもかなり良好なものだ。

改良前: https://tctechcrunch2011.files.wordpress.com/2017/10/hol_before.wav 改良後: https://tctechcrunch2011.files.wordpress.com/2017/10/hol_after.wav (Assistantもすぐにこのような音声になるだろうが、さらに多くの例はDeep Mindのブログ記事でも聞くことができる)。

WaveNetはまた、他の言語やアクセントに対して拡張していくことが非常に容易であるというとても優れた性質を持っている。ウェールズ語のアクセントで話させたいときに、手を入れて自分の声の母音を足したりする必要はない。ウェールズ人の声を数十時間入力として与えるだけで、システム自身がニュアンスを抽出する。とは言え、この新しい声は、現在米国英語と日本語でのみ利用可能で、他の言語についてはまだ発表されていない。

「大手のハイテク企業たちは、他の大手ハイテク企業がやっていることをやる」という流れに乗って、最近Appleも、機械学習スピーチモデルを使ってそのアシスタント(Siri)を改良した。しかしこれは、Googleのものとは違い、サンプリングレベルでの再生成を行っているわけではなく、音素レベルでの再生成に留まっている。

WaveNetのチームはその成果をほどなく公開する予定だが、今のところは、これまでよりも遥かに効率よく働くという、彼らの約束で満足しておくしかない。

日本版:Deep Mind ブログに掲載された日本語のサンプル 改良前: https://techcrunchjp.files.wordpress.com/2017/10/japanese_before.wav 改良後: https://techcrunchjp.files.wordpress.com/2017/10/japanese_after.wav

[ 原文へ ] (翻訳:Sako)

XMOSのマイクロフォン配列技術でAlexaをどんなデバイスにも、リビングの壁にも、実装できる

音声でコマンドを入力するサービスシステムAmazon Alexaは、その専用実装デバイス(Amazon Echoなど)が、ユーザーの声をはっきり聞き取れる位置、たとえばコーヒーテーブルの上やカウチのそばなどにないといけない。テレビの近くにあったりすると、アニメのキャラクターが “Alexa!”と言っただけで、おかしなものがAmazonに注文されたりする。

ノイズを無視して、ご主人である人間の声だけを聞き分ける高度な技術が必要だが、それは意外と難しい。

でも、今やイギリスの企業が、世界で初めてそんな技術を作り出し、Amazon Alexaの音声サービスに導入しようとしている。

1か月前にInfineonがリードするラウンドで1500万ドルを調達したイギリスのチップメーカーXMOSは、ヨーロッパで初めて、Amazonが公式に認定したAlexa Voice Service(AVS)開発キットを近くリリースする。同社は世界初の、AVS認定“遠方界線形マイクロフォン配列”(far-field linear mic array)”のメーカーでもある。

この技術は、車で使われるレーダーとマイクロフォンを組み合わせている。そうするとEchoのようなAlexa専用のデバイスは要らなくなり、スピーカーとのセットを壁に埋め込んだり、ほかの製品のキットに組み込んだりできる。つまりAlexaが、専用機でなく、何かほかのものに統合される。

社員50名のXMOSは、AVS認定企業としては最小で、競合他社のSynapticsは時価総額12億7000ドルで1800名の社員がいるし、57億ドルのMicrosemiは4400名、32億8000万ドルのCirrus Logicは社員数1100名だ。

さまざまな競合ソリューションがある中で、XMOSはAlexaをサポートする初の遠方界線形配列を提供し、Alexaの機能を生活の背景の中へ溶融してしまう。

この線形配列によってAlexaは初めて、他の多くの家電製品と同様、壁に接するフラットパネルにもなる。

そして未来の音声サービスは、どんなデバイスにも搭載できる、存在を意識しない目立たないものになる。

[原文へ] (翻訳:iwatani(a.k.a. hiwa))

今やAmazon Echoは8機種もある!、便利な比較一覧表を作ってみた

どのAmazon Echoを買うべきだろう? 今日(米国時間9/27)新しく発表されたEcho 2, Plus, Spot, Connect, それともButtonsか?

前からあるDot, Show, あるいはLookか?

下図の便利な一覧表を見ると、今日(米国時間9/27)のビッグなイベントで紹介された、いくつかの新機種も含めて、お値段や機能を比較できる。

AmazonはAlexaデバイスEchoに関して、単純性よりは多様性を選んだが、でもAmazon Echo一族のゴージャスな(?)勢揃いを見るかぎり、単純性を選んだGoogle Homeがひ弱に見えてくる。

[原文へ] (翻訳:iwatani(a.k.a. hiwa))

Amazon MusicがAlexaの機能を搭載

Amazonが、Amazon MusicにAlexaの機能を組み込んだ。iOS版およびAndroid版の双方に実装され、音声コントロールが行えるようになったのだ。Amazonの発表によれば、使えるのはアメリカ、イギリス、ドイツ、およびオーストラリアだとのこと。音声コマンドで実施できるのは、再生する曲、アーティストの指示であったり、あるいはドライブ、ランニングなどといったシチュエーションに応じた曲をリクエストすることだ。EchoスピーカーでAlexaを利用していた人にとっては馴染み深い機能だろう。

やはりEchoで利用できる機能だが、歌詞はわかるが曲名がわからないといった曲をリクエストすることもできる。

Echoスピーカーでは、天気予報やニュースの問い合わせだとか、あるいはタイマーやリマインダーの設定に並んで、音楽再生も代表的ユースケースとなっている。そのような状況の中、音楽アプリケーションにAlexaを導入するのは当然の選択といえるだろう。

今回のAlexa導入により、SpotifyやApple Musicとの差別化を行なって、第3位のポジションからの脱却を目指す意味もある。なるほどApple MusicはSiri対応ではある。ただしそれはAppleユーザーに対してのみの話だ。Siriと連携したApple Musicを楽しめるのは、iPhone利用者に限られているのだ。

Amazonは、Alexaのモバイルアプリケーション対応を徐々に進めつつあるようだ。

今年になって、まずはiOS版のショッピングアプリケーションにAlexaを導入し、夏にはAndroid版でも対応した。

Amazonとしては、Echoデバイスを使っていない人々にもAlexaおよび音声アシスタントの便利さを感じてもらい、そして自らの商機を広げようとする意図があるのだろう。Echoの購入を考えている利用者に対して、さまざまなアプリケーションを通じてAlexaの魅力を伝えようとしているわけだ。Amazon Musicの利用者がAlexaの便利さを感じてくれれば、Google HomeやAppleのHomePodではなくてEchoを選択する可能性も高まることになる。

Alexaと連携するのはAmazon Musicの最新版での話だ。旧版を持っている場合には最新版にアップデートする必要がある(訳注:日本では未対応です)。

原文へ

(翻訳:Maeda, H

テレビに映ってるアニメのキャラがAmazon Echoに命令して大量のランダムな買い物を

Amazon Echoを持ってると、こんなやばいこともある、という例。起動する言葉さえ分かってればだれでもEchoに命令できるから、テレビに映ってるアニメのキャラクターでも、あなたの家のEchoを操作できる。20年の長寿を誇るアニメ番組South Parkで、まさにそれが起きた。

これが、それだ:

South Park messing with Alexa #SouthPark #Alexa pic.twitter.com/4qtJkwQJ6R

— Moritz Wittmann (@MoritzWittmann) September 14, 2017

[AlexaにいたずらをするSouth Park]

このアニメを見ている部屋にEchoがあったら、Amazonのあなたのショッピングカートが、ランダムに選ばれたがらくたでいっぱいになってしまうだろう。

音声で操作するアシスタントには、このような危険性がある。悪質な広告が音声でAlexaに命令して、あなたに製品を買わせてしまうかもしれない。South Parkのボックスセット、とか。

[原文へ] (翻訳:iwatani(a.k.a. hiwa))

Walmart、Googleと音声ショッピングで提携――Amazon Alexaの独走に“待った”

本日(現地時間8/23)WalmartとGoogleは、音声アシスタント「Google Assistant」を通じた音声ショッピングに関するパートナーシップを結んだと発表した。今後消費者は、WalmartのEasy ReorderサービスとGoogle Express(Googleの宅配サービス)を併用し、何十万種類もの商品をスマートスピーカーに話しかけるだけで購入できるようになる。

さらにこのパートナーシップを受け、GoogleはGoogle Expressの会費を廃止し、サイトに登録されている各小売店の最低購入金額さえ満たせば、商品を1〜3日間で無料配送すると決めた。

これまでは月額10ドル(年額95ドル)の会費が設定されていたGoogle Expressにとって、これはかなり大きな変化だ。現在のところ同サービスでは、TargetやCostco、Kohl’s、Bed Bath & Beyond、PetSmart、Staples、Toys R Us、Walgreensなど大手小売店から、ファッション、家庭用品、ハードウェア、パーソナル・ヘルスケア用品、スポーツ用品、化粧品といった幅広いカテゴリーの商品を購入できる。

しかしGoogleは、会費のせいでGoogle Expressのユーザー数が伸び悩んでおり、特に音声ショッピング普及の障害になっていると考えたのだ。

「メンバーシップ制がだんだんとサービスの障害になってきていた」とGoogle Express担当GMのBrian Elliottは語る。「モバイルユーザーに対して、4.99ドルの配送料を支払うかメンバーになるかというオプションを説明するのは簡単だが、それでもユーザーにはいくばくかの負担がかかってしまう。しかし、さらにそれを音声だけで伝えるとなると、かなり難しいということがわかった」

なおGoogle Expressの利用者数や、同サービスを通じた売上額について、Googleはコメントを控えている。

これまでWalmartはGoogle Expressには参加せず、自分たちでオンラインの注文を処理していた。今年に入ってからは、(Amazon Primeとは違い)35ドル以上の商品を購入した全顧客に対して、無料の2日間配送さえ行っていた。

しかしGooge Assistantとの連携で、Walmartは音声操作という自社にはないテクノロジーを利用できるようになった。

音声ショピングこそが小売業界の未来だと考える専門家もいる。例えばRBC Capital Marketsは、音声ショッピングからの売上やプラットフォーム収益によって、Alexaは2020年までに100億ドルもの収益をもたらすことになるだろうと予測している。

もしもそうだとすれば、Walmartもその波に乗らないわけにはいかない。

そしてスマートスピーカーの分野でAmazonと肩を並べる主要プレイヤーといえば、Googleしかいないのだ(AppleのHomePodはまだ出荷が始まっておらず、サードパーティーアプリのサポートに関する計画も発表されていない。またMicrosfotのCortanaを搭載したスピーカー有力な対抗馬とは言えない)。

WalmartでEC部門のトップを務めるMarc Loreは、「(音声ショッピングは)未だ黎明期にある。しかし過去2年間でAI技術が発達し、今後の方向性が見え始めてきた」と音声ショッピングの野望について語った。

「将来的には音声認識テクノロジーの精度が桁違いに向上し、消費者のニーズを理解してそれに応えられるようにさえなるだろう。これによりショッピング・エクスペリエンスは大きな変化を遂げることになる」と彼は付け加えた。

Google ExpressとGoogle Homeの連携は今年の2月から既にスタートしており、Walmart以外の小売店も音声ショッピングに対応している。

しかしEasy Reorderサービスのおかげで、Walmartでは他社よりも簡単に音声ショッピングを楽しめるようになっている。というのも、Easy Reorderはオンライン・オフライン両方の購入履歴をベースに、個々の利用者の好みを理解しているのだ。例えば、いつも使っているブランドや商品のサイズ、さらには直近の購入日や頻度までEasy Reorderには記録されている。

そのため、実際に商品を注文するときは、「OK、Google」からスタートし、「ピーナッツバターを注文して」や「ピーナッツバターを再度購入」「ピーナッツバターを買って」「Walmartからピーナッツバターを買って」といった感じでGoogle Homeに話しかけるだけで済む。

購入しようとしている商品が35ドル(無料配送のための最低金額)以上であれば、2日以内の配送を希望するかどうか聞かれ、35ドル未満であればWalmartのカートにその商品が自動的に追加される(カートへはGoogle HomeとGoogle Expressのアプリからアクセス可能)。そしてカート内の商品の合計額が35ドルを超えた時点で支払いを促されるという仕組みだ。

まずはEasy Reorderにフォーカスしたサービスが提供される予定だが、音声ショッピングの分野で今後Googleとさらに協力関係を深めていこうとしているWalmartは、Googleとのパートナーシップという側面を強調している。

来年からは生鮮食品の音声注文も受け付ける予定で、ユーザーは予め袋詰された商品を実店舗で受け取ったり、家まで配達してもらったりできるようになる(受け取りオプションはユーザーの居住地域によって異なる)とのこと。さらに、顧客の好みや購買習慣に関するデータが集まるにつれて、システムがさらにスマート化していく可能性もあるとWalmartのLoreは言う。

Walmartのモバイルアプリ内にあるEasy Reorderの画面

「音声サービスが普及するにつれて、更なるパーソナライゼーションが要求されるようになり、結果的に各消費者の求めるものがそのままオススメ商品として表示されるようになるだろう」と彼は話す。「まだまだ実現には時間がかかるが、その可能性には大いに期待している」

Google ExpressおよびGoogle HomeとWalmartの連携は9月末からスタート予定だ。

まずはGoogle Homeだけが対象になるが、Elliottはその他のGoogle Assistant搭載デバイスも順次Walmartでの買い物に使えるようになると語った。

しかし、スマートスピーカー市場におけるAmazon優位の現状を考慮すると、WalmartはAlexaとも連携しないと、かなり大きなのチャンスを逃すことになりそうだ。ある予測によれば、今年中にはAmazonがスマートスピーカー市場の70%を占め、2020年までに1億2800万台ものAlexaデバイスが稼働することになるとさえ言われている。

そこでLoreに、WalmartがAlexaとも連携する可能性があるか尋ねたところ、彼はただ「No」とだけ答えた。

原文へ

(翻訳:Atsushi Yukutake

Microsoftの音声認識システムが人間と肩を並べ始めた

米国時間8月20日、MIcrosoftはその会話型音声認識システムが、これまでで最も低い5.1%のエラーレートに達したことを発表した。この記録は、Microsoft Artificial Intelligence and Researchの研究者グループが昨年達成した5.9%のエラー率を下回るもので、テキストを数回聞き返すことができるプロのトランスクライバーたちと同等の正確さだ。

両研究は、Switchboardコーパスの録音を認識することで行われた。これは1990年代初頭から、音声認識システムをテストするために研究者たちが使用してきた、約2400件の通話のコレクションだ。今回の新しい研究は、Microsoft AI and Researchの研究者グループによって、人間のトランスクライバーのグループと同程度の正確性を達成することを目標として行われた。人間のグループは自身が聞いているものを複数回聞き直すことができ、会話の文脈を知った上で、他のトランスクライバーたちと協力することも可能だった。

全体として、今回の研究では昨年のものに比べて、ニューラルネットベースの音響モデルと言語モデルを改善することにより、エラーレートを約12%下げることに成功した。特に、その音声認識ソフトに会話全体を利用させ、そのことによってトランスクリプションを文脈に適合させ、次にどのような言葉やフレーズが来るかを、人間がするように予測させるようにした。

Microsoftの音声認識システムは、Cortana、Presentation Translator、そしてMicrosoft Cognitive Servicesなどのサービスで使用されている。

[ 原文へ ] (翻訳:Sako)

FEATURED IMAGE: BLOOMBERG/CONTRIBUTOR/GETTY IMAGES