ARの技術は生活の中にとけ込み始めています
あなたの疑問にカメラが答えを探してくれる
VPS[Visual Positioning System]
スマートフォンのカメラは、周りの世界と私たちを 瞬時に繋げてくれます。大切な瞬間や思い出を保存し 意思疎通の手助けをします。人工知能とコンピュータービジョンの 進化はサンダーが説明しましたが、カメラのさらなる可能性を 私たちは自問しました。質問に答えるのに カメラが助けてくれるとしたら?「どこに向かってるの?」とか 「目の前にあるのは何?」とか、身近な例で説明します。地下鉄の駅を出ると 約束の時間に遅れています。テック企業のカンファレンスでも ありそうな話ですよね。そこで携帯が 「マーケットストリートを南下」と言います。どうしますか?第一にどちらが南か分かりません。そこで携帯に目をやります。地図上の青い点を見ながら歩き始め、青い点が目的の方向に 向かっているか確認します。逆に動いていたら 引き返します。身に覚えがありますね。それで私たちは自問しました 。
「カメラが助けてくれたら?」と私たちのチームは全力を尽くし、コンピュータービジョンであるカメラと、ストリートビュー、マップで、歩行中のナビゲーションを作り直しました。
Googleマップでは こんな感じです 確認しましょう。
カメラを立ち上げると、現在位置が瞬時に分かります。操作は必要ありません。道路の名前や道順など 地図上の情報が 全て目の前に表示されます。
位置の確認用に 地図も常に表示されます。周辺情報も表示されるので 周りに何があるかも分かります。
また おまけとして便利なガイドを追加することも 検討しています。
こんな感じです。
道順を教えてくれます。
このような体験を提供するにはGPSだけでは足りません。だから VPS(視覚的な位置づけシステム) を開発しました。
視覚的な位置付けシステムを使えば、正確な位置や方角が推測できます。
このアイディアの鍵となったのは、よくあることですが 見知らぬ場所では 視覚的な目印を探すという点です。道路に面したお店や ビルの見た目などです。それと同じです。VPSは周りの視覚的要素を利用して同じことをします。それによって 現在地を正確に把握し、確実に目的地へ到達するお手伝いをします。これがカメラを活用して マップを便利にした事例です。でもカメラはもっと 目に見えるものを活用できるのです。そこで Googleレンズを開発したのです。Googleレンズを使って 答えを探すのはもう実現しています。言葉での説明が難しい質問の場合は 特にそうです。例えば「公園のあの可愛い犬は?」、「ラブラドゥードルです」とか、
「このシカゴの建物は リグレービルで 高さ130mです」とか、9歳の息子が最近言うように「それって ケビン・デュラント 60人分以上だ!」とか。
すでにこのレンズは Googleフォトや アシスタントで使われていますが、嬉しいことに来週よりGoogle Pixelと新型LG G7 その他もろもろのデバイスで、レンズはカメラアプリの中に そのまま統合されます。これにより カメラのレンズを そのまま目の前のものにお使いいただけます。とても楽しみです。音声と同じく 視覚は 新しいコンピューティングの領域です。数年かかることですが、すでにかなりの進歩が見られます。
Googleレンズの 3つの新機能を使い、より多くの種類の質問に対し、より多くの答えをより素早く出せることを お見せしていきます。
Smart Text Selection
まず最初にレンズは 言葉が理解できるようになりました。
言葉はどこにでもあります。考えてみてください 道路標識やポスター、レストランのメニューや 名刺などがありますね。Smart Text Selectionを使えば、目に見える言葉を必要とする答えや行動につなげられます。例えば コピー&ペーストの作業を実際のものから携帯に直接 したりできるのです。こんな感じです。
あるいは あなたが見ているページ一面の文字を ページ一面の答えに変えられます。例えば レストランの メニューを見ている時、いろいろな料理をタップするだけで、料理の見た目や材料などを調べられます。
私はベジタリアンなので ラタトゥイユの原材料がズッキーニとトマトだけで 安心しました。これらの例ではレンズは視覚的に 文字の形を認識するだけでなく、言葉の裏にある意味と 文脈を探そうとしています。ここでスコットが説明した 言語認識が活用されているのです。
Style Match
次にご説明する機能は Style Matchです。コンセプトはこうです。
時に質問は 特定のものを求めるのではなく、「それに似たものってどんな感じ?」 という場合もあります。
友達の家にこんな素敵なランプが あったとして、似たスタイルのものを探すような場合です。そんな時にレンズを使えます。
あるいは目にとまった洋服があれば、カメラを立ち上げてどのアイテムをタップしても、
もちろん 特定の情報が見つかり、レビューなどを読むことができます。
全ての候補から似たスタイルを 見て回ることもできます。
これには2つの段階があります。
レンズは何百万ものアイテムから 検索をしますが、でも検索の仕方は 皆さん もうご存知ですよね。でも次の段階は 結構複雑です。なぜなら 手触り、形、サイズ 角度、明るさなどが異なるからです。技術的に難しい問題ですが、嬉しいことに ここでも 大きな改善が見られます。そこで最後にご説明するのはレンズをリアルタイムで活用する方法です。Style Matchの例でお見せした通りカメラを立ち上げると、レンズが物体を写し 瞬時に全ての情報を把握します。あなたが見ているものに 情報を繋げてくれます。このような作業、すなわち何十億という 言葉、言い回し、場所、物をリアルタイムで検索し 必要なものを提示するには、機械学習なくしては不可能です。
そこで オンデバイスの人工知能と クラウド上のTPUの力を活用しています。これは昨年のI/Oで お伝えしたことでもあります。とても楽しみです。
将来的に実現を考えているのは ライブの検索結果を表示させ店の看板、道標 コンサートのポスターの上に直接重なるようにさせることです。チャーリー・プースのコンサートポスターに 携帯を向けるだけでPVの再生ができるようになります。簡単ですね。
これは 質問に答えさせる以上のことに カメラを使う一例ですが、質問がある場所に 答えを置いてくれる例でもあります。とても楽しみです。つまり Smart Text Selection、Style Matchやリアルタイム検索、いずれも今後数週間で レンズに搭載されます。使ってみてください。
この記事へのコメントはありません。