AIを活用した視覚障害者向けアプリを紹介 | VigNETプロジェクトをご紹介します！

Find AI Tools

No difficulty

No complicated process

Find ai tools

Home AI News JP AIを活用した視覚障害者向けアプリを紹介 | VigNETプロジェクトをご紹介します！

AIを活用した視覚障害者向けアプリを紹介 | VigNETプロジェクトをご紹介します！

🔆はじめに

こんにちは皆さん！私たちはマニーシャ、ジャンビ、ハシタと申します。今回は、視覚障害者のためのアプリについてプレゼンテーションを行います。視覚障害を抱える人々が生活する上での具体的な問題について考え、その問題を解決するためのアプリを開発しました。このアプリは、スマートフォンのカメラアプリを使用して、ユーザーの周りの状況や物体について情報を提供するものです。私たちの目的は、視覚障害者の方々がより独立した生活を送るための手助けをすることです。それでは、さっそくプロジェクトの概要について話していきましょう。

💡目的と背景

このアプリの開発目的は、視覚障害を抱える人々が日常生活において直面する様々な問題を解決することです。私たちの目指すものは、視覚障害者が友人に質問するように、気軽にスマートフォンアプリを利用して身の回りの物体や環境について情報を得ることができることです。例えば、物体を識別したり、人物の情報を取得したりといった、日常生活で必要な情報を提供することができます。このアプリは、画像認識と自然言語処理の技術を組み合わせて開発されており、視覚障害者の方々に役立つツールとなっています。

🌍アプリの概要

このアプリは、スマートフォンのカメラ機能を利用して、ユーザーの周りの状況や物体について情報を提供します。ユーザーはアプリを起動し、カメラで物体や環境を撮影したり、画像をアップロードしたりすることができます。その後、質問を入力するか音声で質問することができます。アプリは画像認識と自然言語処理の技術を使用して、対象物の識別や質問への回答を行います。回答はテキストと音声の形式で提供され、視覚障害者の方々が状況や物体について情報を得る手助けとなります。

🎯VQAとは

VQA（Visual Question Answering）とは、画像に関する自然言語での質問に対して、正確な回答を提供するシステムのことを指します。この問題の難しさは、画像認識と自然言語処理のモデルを統合して、互いを補完しながら処理する必要があることです。私たちのアプリはVQAの問題に取り組んでおり、画像と質問を入力として、適切な回答を生成します。

テキストの抜粋

アプリの概要

私たちのアプリのテクニカルアーキテクチャーは、アプリの機能をブループリントとして提供しています。アプリにはフロントエンドコンポーネント、APIサービス、データトラッカーサービスの3つの主要なマイクロサービスがあります。これらのサービスはそれぞれDockerを使用してコンテナ化されています。ローカル開発中にはソースコントロールのためにGitHubにプッシュされ、開発が完了した後にはGoogle Cloud Registryにコンテナイメージがプッシュされます。最終的に、単純なコンピューティングインスタンスが作成され、フロントエンドおよびAPIサービスコンテナがVMに設定されます。このVMはGCSと通信し、モデルの重みをロードするために使用されます。また、ウェブアプリを提供するためにNginxコンテナも使用されます。

デモ

私たちのアプリのデモでは、ユーザーが画像をアップロードし、質問をするという一連の流れを紹介しています。デモでは、画像認識と自然言語処理の技術を使用して、質問に適切な回答を生成するアプリの機能を実演しています。デモでは、様々な画像に対して質問をし、回答を確認することができます。また、アプリは音声入出力もサポートしており、視覚障害者の方々がより簡単に利用できるようになっています。

結果と考察

私たちは3つの異なるVQAモデルをトレーニングし、それぞれの性能を評価しました。最初のモデルはCNNとLSTMを組み合わせたものでしたが、精度が十分ではなく、推論にかかる時間も非常に長かったです。次に、BERTとMobileNetを使用したモデルを試しました。このモデルは精度を改善し、十分に満足いく結果を得ることができましたが、処理速度が遅いという課題がありました。最終的に、VILTモデルを導入することで、精度を向上させると同時に処理速度も改善しました。VILTモデルは、他のVLPモデルに比べて最大10倍速く、性能も競合またはそれ以上でした。結果として、VILTモデルが私たちのベストな選択肢となりました。

FAQ

Q: このアプリはどのように利用できますか？ A: ユーザーはスマートフォンのカメラ機能を使用して物体や環境を撮影するか、画像をアップロードすることができます。その後、質問を入力するか音声で質問することができます。アプリは画像認識と自然言語処理の技術を使用して、質問に対する回答を生成します。

Q: このアプリは視覚障害者にどのような利益をもたらしますか？ A: このアプリは視覚障害を抱える人々が日常生活において直面する様々な問題に対して解決策を提供します。物体を識別したり、環境について情報を得たりすることで、より独立した生活を送る手助けとなります。

Q: このアプリは複数の言語に対応していますか？ A: はい、このアプリは複数の言語に対応しています。ユーザーはテキスト入力だけでなく、音声入力による質問も行うことができます。

Q: このアプリのモデルはどのようにトレーニングされましたか？ A: 私たちは、公開されているVQAデータセットを使用してモデルをトレーニングしました。モデルは画像認識にはCNNを、自然言語処理にはLSTMを使用し、これらのモデルを組み合わせて最終的な回答を生成しています。

Q: 今後の展望はありますか？ A: 今後は、よりリアルなデータセットを使用してモデルをトレーニングし、アプリのパフォーマンスをさらに向上させたいと考えています。また、ドキュメントの読み上げなど、さまざまなタスクへの対応を強化する予定です。

チャットGPTとMixo.ioで1日500ドル稼ぐ手順

AIによるウェブデザイン | ウェブデザイナーは無用になるのか？