リアル世界の中にお店への道案内が表示される（ビジネスオーナーになろう））

リアル世界の中にお店への道案内が表示される（ビジネスオーナーになろう））

ARの技術は生活の中にとけ込み始めています

あなたの疑問にカメラが答えを探してくれる

VPS[Visual Positioning System]

スマートフォンのカメラは、周りの世界と私たちを瞬時に繋げてくれます。大切な瞬間や思い出を保存し意思疎通の手助けをします。人工知能とコンピュータービジョンの進化はサンダーが説明しましたが、カメラのさらなる可能性を私たちは自問しました。質問に答えるのにカメラが助けてくれるとしたら？「どこに向かってるの？」とか「目の前にあるのは何？」とか、身近な例で説明します。地下鉄の駅を出ると約束の時間に遅れています。テック企業のカンファレンスでもありそうな話ですよね。そこで携帯が「マーケットストリートを南下」と言います。どうしますか？第一にどちらが南か分かりません。そこで携帯に目をやります。地図上の青い点を見ながら歩き始め、青い点が目的の方向に向かっているか確認します。逆に動いていたら引き返します。身に覚えがありますね。それで私たちは自問しました。

「カメラが助けてくれたら？」と私たちのチームは全力を尽くし、コンピュータービジョンであるカメラと、ストリートビュー、マップで、歩行中のナビゲーションを作り直しました。

Googleマップではこんな感じです確認しましょう。

カメラを立ち上げると、現在位置が瞬時に分かります。操作は必要ありません。道路の名前や道順など地図上の情報が全て目の前に表示されます。

位置の確認用に地図も常に表示されます。周辺情報も表示されるので周りに何があるかも分かります。

またおまけとして便利なガイドを追加することも検討しています。

こんな感じです。

道順を教えてくれます。

このような体験を提供するにはGPSだけでは足りません。だから VPS（視覚的な位置づけシステム）を開発しました。

視覚的な位置付けシステムを使えば、正確な位置や方角が推測できます。

このアイディアの鍵となったのは、よくあることですが見知らぬ場所では視覚的な目印を探すという点です。道路に面したお店やビルの見た目などです。それと同じです。VPSは周りの視覚的要素を利用して同じことをします。それによって現在地を正確に把握し、確実に目的地へ到達するお手伝いをします。これがカメラを活用してマップを便利にした事例です。でもカメラはもっと目に見えるものを活用できるのです。そこで Googleレンズを開発したのです。Googleレンズを使って答えを探すのはもう実現しています。言葉での説明が難しい質問の場合は特にそうです。例えば「公園のあの可愛い犬は？」、「ラブラドゥードルです」とか、

「このシカゴの建物はリグレービルで高さ130mです」とか、９歳の息子が最近言うように「それってケビン・デュラント 60人分以上だ！」とか。

すでにこのレンズは Googleフォトやアシスタントで使われていますが、嬉しいことに来週よりGoogle Pixelと新型LG G7 その他もろもろのデバイスで、レンズはカメラアプリの中にそのまま統合されます。これによりカメラのレンズをそのまま目の前のものにお使いいただけます。とても楽しみです。音声と同じく視覚は新しいコンピューティングの領域です。数年かかることですが、すでにかなりの進歩が見られます。

Googleレンズの３つの新機能を使い、より多くの種類の質問に対し、より多くの答えをより素早く出せることをお見せしていきます。

Smart Text Selection

まず最初にレンズは言葉が理解できるようになりました。

言葉はどこにでもあります。考えてみてください道路標識やポスター、レストランのメニューや名刺などがありますね。Smart Text Selectionを使えば、目に見える言葉を必要とする答えや行動につなげられます。例えばコピー＆ペーストの作業を実際のものから携帯に直接したりできるのです。こんな感じです。

あるいはあなたが見ているページ一面の文字をページ一面の答えに変えられます。例えばレストランのメニューを見ている時、いろいろな料理をタップするだけで、料理の見た目や材料などを調べられます。

私はベジタリアンなのでラタトゥイユの原材料がズッキーニとトマトだけで安心しました。これらの例ではレンズは視覚的に文字の形を認識するだけでなく、言葉の裏にある意味と文脈を探そうとしています。ここでスコットが説明した言語認識が活用されているのです。

Style Match

次にご説明する機能は Style Matchです。コンセプトはこうです。

時に質問は特定のものを求めるのではなく、「それに似たものってどんな感じ？」という場合もあります。

友達の家にこんな素敵なランプがあったとして、似たスタイルのものを探すような場合です。そんな時にレンズを使えます。

あるいは目にとまった洋服があれば、カメラを立ち上げてどのアイテムをタップしても、

もちろん特定の情報が見つかり、レビューなどを読むことができます。

全ての候補から似たスタイルを見て回ることもできます。

これには２つの段階があります。

レンズは何百万ものアイテムから検索をしますが、でも検索の仕方は皆さんもうご存知ですよね。でも次の段階は結構複雑です。なぜなら手触り、形、サイズ角度、明るさなどが異なるからです。技術的に難しい問題ですが、嬉しいことにここでも大きな改善が見られます。そこで最後にご説明するのはレンズをリアルタイムで活用する方法です。Style Matchの例でお見せした通りカメラを立ち上げると、レンズが物体を写し瞬時に全ての情報を把握します。あなたが見ているものに情報を繋げてくれます。このような作業、すなわち何十億という言葉、言い回し、場所、物をリアルタイムで検索し必要なものを提示するには、機械学習なくしては不可能です。

そこでオンデバイスの人工知能とクラウド上のTPUの力を活用しています。これは昨年のI/Oでお伝えしたことでもあります。とても楽しみです。