【Google検索】Google AI(人工知能)で動画の中身も検索可能に

こんにちは、WEBマーケティング事業部の難波です。

次々とIT(情報技術)の最前線を開拓している巨人Googleが、「動画内の検索」という新しい技術を公開しました。

2017(平成29)年3月8日(現地時間)、米国サンフランシスコ開催の「Google Cloud Next ‘17」の基調講演において、動画内のオブジェクト(対象)を検索できるAPI(アプリケーション・プログラム・インターフェイス)のプライベートβ版が発表されたのです。

その名称は、「Cloud Video Intelligence(クラウド・ビデオ・インテリジェンス)」です。

今回は、「Google AI(人工知能)で動画の中身も検索可能に」というテーマで述べてまいります。

Google AI(人工知能)で動画の中身も検索可能に

検索カテゴリの遍歴(テキスト検索、画像検索等)

皆様は、「Google」という言葉を見たり聞いたりして、真っ先にどういうイメージを持つでしょうか?

恐らく、下記のような検索ボックスを思い浮かべる方が多いのではないかと思います。

この検索ボックスに、調べたいキーワードを入力して検索をかけます。

そうすると、次のような検索結果が表示されますね。

赤枠部分は、「検索ボックスに入力されたテキストに対応するテキスト」を含むWEBサイトです。

例えば、「プログラミング 勉強」等の一般的なキーワードを入力した場合には、同テキストを含む、優良なコンテンツが上位に表示されます。

これは、SEO(検索エンジン最適化)対策の領域です。

上記のような「テキスト検索」を主たる機能に据えつつ、Googleは様々な検索方式を発展させてきました。

これらは、検索ボックスのすぐ下にも位置づけられています。

その中でも、2015(平成27)年12月に発表された画像認識機能「Cloud Vision(クラウド・ビジョン)」は、センセーショナルな話題となりました。

例えば、Googleの「画像検索」で「魚」と検索すると、次のような検索結果が表示されます。

画像を見るとわかりますが、「魚」「fish」「サンマ」のような魚に関連するキーワードは含まれておりません。

それでもきちんと求める画像候補が表示されるのは、Googleの画像検索アルゴリズム(処理手順)が、あらかじめ

画像A → 魚

画像B → 魚

画像C → 魚

・・・

といった画像認識の訓練を積み重ねて記憶しているからです。

近年、耳にすることが多くなった、「AI(人工知能)」「ディープラーニング」「ニューラルネットワーク」等の技術がこれらの機能の背後に存在しています。

しかし、これらはあくまでも「静止画」で実現していたに過ぎませんでした。

止まった的を射るよりも、空を舞う鳥を射る方がはるかに難しいのと同じように、「静止画」から「動画」へのシフトは、別個の技術が要求されるのです。

動画検索の実現

今回発表された「Cloud Video Intelligence」は、動画内の対象物や、特定の動作をキーワードとして認識し、検索を可能にする技術です。

先の「魚」の例で言えば、

・そもそも動画内に魚が映っているのか

・どの位置(3分の動画の1分あたり等)に映っているのか

・コンテンツ内部に「魚」を含む動画の一覧

等の情報を瞬時に取得できるのです。

今までも、Youtubeなどの動画サイトの検索ボックスに「魚」と入力して検索すれば、ある程度、目的の動画にたどり着くことはできました。

しかし、この場合は、動画のタイトルや説明文等に「魚」「さかな」といったキーワードをもとに表示したものに過ぎません。

Google Cloud Platformの「Cloud Video Intelligence」紹介ページでは、どのようなことが実現可能かのデモ体験が可能になっています(以下 出典:Google)。

「TRY THE API」の「Select a Sample Video Annotate」を選択します。

「私はロボットではありません」のチェックボックスをクリックします。

簡単なすでに設置されている動画のどちらかを選択します(今回は下の「GBikes and Dinosaur(自転車と恐竜)」を選択)。

下記は実際のデモ画面ですが、タブが下記の3つに分かれております。

Labels: 動画の概要を表示

Shots: 「Shot」という単位に動画を分割し、どういったものが含まれるかを表示

API: APIのリクエスト・レスポンス

自転車が映っている動画が再生し始めます。

Tree(木)、Vehicle(自転車)、Sports(スポーツ)という動画内に映っている対象物をもとにテーマとなるキーワードを抽出しています。

デフォルトの「Labels」から「Shots」タブに切り替えると、動画の流れに沿って表示されるキーワードが変化していきます。

最初は、Bicycle(自転車)、Cycling(サイクリング)、Bicycle wheel(自転車の車輪)、Road bicycle(ロードバイク)というキーワードを抽出しています。

動画再生が進むに従って、右下のキーワードが切り替わっていきます。

shot4では、Tree(木)、Tourism(ツアー)、Plant(植物)、Tourist destination(ツアーの目的地)というキーワードを抽出しています。

恐竜のオブジェが映っており、動画タイトルの「恐竜」の意味がわかりましたね。

上記のような名詞だけではなく、「走る」「飛ぶ」といった動詞の表記も可能とされております。

タブを「API」に切り替えると、次のようにAPIを取得できます。

「Cloud Video Intelligence」紹介ページでは、このAPIによってどういったことが可能になるかについても、簡単に説明されています。

特定のビデオの中身を解析できます。

上述の「動画の中に表示される対象物の名称を次々にリスト化する」といったことが考えられます。

複数の動画の中から、目的の動画を即座に検索できます。

「Cloud Video Intelligence」は、今の「テキスト検索」や「画像検索」と同じような感覚で、探したい動画コンテンツの検索やアーカイブ化を可能にするものです。

これにより、Youtubeの検索機能なども、大きくその精度を向上させることでしょう。

特にビジネスの現場で、ノイズ(雑音)に埋もれてしまっている探したい情報のみを分別することができます。

今までは動画の中身は実際に再生してみないと判別が難しく、自分が撮影した動画でも、「これ、何を映したんだっけ・・・???」といったことが起こりがちです。

他人が映した動画であれば、まさに中身はブラックボックスであり、数千〜数万単位の動画コンテンツを保有する大規模な企業にとっては、それらの管理はまさに死活問題ともいえました。

「Cloud Video Intelligence」はいわば「スクリーニング(ふるい分け)」を可能にするもので、フェイフェイ・リー氏(Google Cloudのチーフサイエンティスト)は「動画という非構造データから企業的価値を創出できる」と述べております。

まとめ

いかがでしたでしょうか?

今回は、「Google AI(人工知能)で動画の中身も検索可能に」というテーマで述べてまいりました。

「Cloud Video Intelligence」は海外のテック記事では大いに取り上げられておりますが、日本ではまだそれほど盛り上がっていないようです。

今後、飛躍が期待できる技術だけに是非注目してみてください。

参考になったらシェアをお願いします!

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です