前編では、視覚障がい者支援アプリ「Be My Eyes」について解説しました。「Be My Eyes」は、ビデオ通話でボランティアが直接サポートしてくれることもあり、プライベートなことで利用しづらいのが問題でした。
その解決策となるのがChatGPTです。
「Be My Eyes」にChatGPTが搭載されることによって、どのようなメリットが受けられるのでしょうか。本記事で詳しく解説します。
そもそもChatGPTとは
そもそもChatGPTとは、OpenAIによって開発されたチャットボット型AIサービスです。自然言語処理を使用してテキストを生成します。
GPT-3 およびGPT-4言語モデルに基づいており、膨大な量のテキストデータでトレーニングすることで、質問に対して人間が書いたような文章で回答してくれるのが特徴です。
詳細は「AIサービスChatGPTでロービジョンの方にも役立つ機能を紹介」をご覧ください。
「Be My Eyes」にChatGPTの技術が搭載されると紹介しました。厳密に言うと、「Be My Eyes」に搭載されるのはChatGPTではなく、ChatGPTで利用されている言語モデルGPT-4です。
GPT-4の画像認識のすごさ
GPT-4のすごさは、マルチモーダルに対応していること。マルチモーダルとは、簡単に言うと、テキスト生成だけでなく画像の読み取りや説明ができる技術です。どれくらいすごいかは、以下の画像の通り。
ユーザーは、画像とその画像に対する質問を送っただけです。GPT-4はその意図を汲み取り、送られてきた画像はなにを意味しているのか解説してくれます。
この技術を「Be My Eyes」に搭載することで、動画に映し出されている状況をGPT-4がリアルタイムで説明してくれるようになるわけですね。
GPT-4を搭載することで得られるメリット
「Be My Eyes」にGPT-4(ChatGPT)を搭載することで得られるメリットは、なんといってもプライベートな質問を気兼ねなくできること。
相手はAIなので、人と会話するよりも気軽に相談や質問ができます。何回質問しても気を悪くされることはありませんし、曖昧な質問をしても精度が高い回答を返してくれます。
今までもAI技術を利用した視覚障がい者支援アプリはあったのですが、GPT-4が搭載される「Be My Eyes」は上記の画像を見る限り、さらに精度の高いサービスを期待できますね。
AI技術の向上によってロービジョンの方や全盲の方も快適な生活が送れるようになることは、筆者も非常に楽しみにしています。
参照元
Be My Eyes
Be My Eyes GPT-4
テクノロジーの力と助けあいの気持ちで視覚障がい者の「目」になる―Be My Eyes―
OpenAI GPT-4
OpenAI Be My Eyes