医療データエンジニアリングの課題と未来について
《データの旅:ヘルスケアAIスタートアップにおけるデータエンジニアリングと課題》
目次
- 🎯 イントロダクション
- 🏥 アドックとは?
- 🎓 担当者紹介
- 📊 データの種類と利用者
- 💻 テクノロジーとの日常的な取り組み
- 🚀 未来の技術の評価
- 🔍 データオーディティングの挑戦
- 📈 データオーディティングの重要性
- ❓ よくある質問と回答
🎯 イントロダクション
いらっしゃいませ!Radio Dataへようこそ。ここでは、データクラウド、アナリティクス、AIについて、さまざまなゲストと共にトークし、ポディキングラジオ形式で皆様にお届けします。このセグメントでは「データの旅」と題し、ゲストの方々が自社内でのデータの動き、使用しているテクノロジー、データが製品にもたらす価値について語っていただきます。Radio Dataは、元Spotifyのデータエンジニアが立ち上げたデータ管理会社「Getting Data」が情熱を込めて収録しています。
🏥 アドックとは?
さて、今日のゲストはシモナ・ミリアムさんです。シモナさんはイスラエルのテルアビブに住み、アドックでシニアデータエンジニアとして働いています。アドックはイスラエルのヘルスケアスタートアップで、AIを使用して医療画像を分析し、医師の意思決定をサポートしています。
アドックでの業務やそこで直面する課題、8年間のデータエンジニアとしての経験について話を聞いていきたいと思います。
🎓 担当者紹介
シモナさん、まずは自己紹介をお願いします。ご自身のこと、アドックについて、日々の業務について教えてください。
はい、ありがとうございます。私の名前はシモナです。30歳で、これには驚きですが、新しい10年に乾杯です!
音楽、旅行、そしてデータが大好きです。この3つが私をよく表しています。アドックではシニアビッグデータエンジニアとして働いています。アドックは医療AIベースの企業で、常にAIに取り組んでいます。
具体的には、医療画像の分析を行っています。CTスキャンなどの医療画像を直ちに処理し、画像のワークフロー内で医師に通知し、アクティベートすることができます。
私たちは、パスオロジーのフラグ付けやタイムセンシティブな病状の優先順位付けのためのアルゴリズム、多学科チームのためのケアコーディネーションツールなど、幅広い機能を提供しています。さらに、FDAの承認も取得しています。
私がアドックに参加した理由は、このアイデアが非常に素晴らしいと思ったからです。実際には、アドックで6か月以上の実務経験があります。
私の役割は、重要な点の一つである「ビッグデータ」エンジニアです。具体的には、既存のデータに対処することと、新たなデータのフローに対処することの2つに挑戦しています。
📊 データの種類と利用者
アドックが扱うデータの種類や利用者、それが製品にもたらす価値について教えてください。
私たちのエンドユーザーは放射線科医です。彼らが私たちの顧客です。
私たちが扱うデータはDICOM(ディコム)です。DICOMは非常に興味深く、特異なデータです。医療画像向けのKaggleのチャレンジなどで見つけることができます。
データの世界を考えると、ほとんどのデータ企業はメディア企業またはフィンテック企業です。そして、彼らはメディアデータを扱っています。この場合、データはほとんどが構造化されており、いくつかの集計を行うだけで済みます。メディア業界の課題は主にスケールです。私が以前に勤務していたNielsenでは、1日あたり50テラバイト以上のデータを処理していましたが、データ自体の処理は非常にシンプルでした。
アドックでは、そのボリュームはそこまで大きくありません。なぜなら、メディアデータではないからです。
しかし、DICOMデータは非常に興味深く、独特な特徴があります。DICOMファイルを見ると、実際にどのようなデータが得られるのかがわからないため、画像パートとメタデータパートの処理方法を理解する必要があります。
メタデータは非常に構造化されていないため、データを処理する際には多くのカスタム処理が必要です。さまざまな調査や情報収集を行いながら、データの構造や形式を理解していく必要があります。
💻 テクノロジーとの日常的な取り組み
続いて、日常的に使用しているテクノロジーについて教えてください。
私はZeppelinを使用してデータの調査を行っています。Nielsenでの経験から、Zeppelinを愛しています。また、アドックではAmazon AWSを使用しており、Amazon EMRを使用してSparkクラスタを簡単に起動できるため、ZeppelinをEMR上で使用しています。
将来的には、DBTの調査やデータ変換に関する調査も行いたいと考えています。また、データワークフロー管理に関しては、AirflowやPrestoについても調査して比較したいと思っています。
さらに、データレイクの構築に関しても、Delta LakeやIcebergを評価・比較したいと考えています。特にIcebergには注目しており、そのプロジェクトにはコミュニティからも注目が集まっているようです。
アドックでの評価やベンチマークを実施し、最適なテクノロジーを選択したいと思っています。
🚀 未来の技術の評価
今後使用する可能性のある新しい技術について教えてください。
Apache Icebergは、試してみたい技術です。Netflixが開発したApache Icebergは、分析データセットを効率的に保存・クエリするための特殊なフォーマットです。
将来的には、Apache Icebergを使用してデータセットをS3に保存し、SparkやPrestoを使用してクエリを実行したいと考えています。
また、Delta LakeやIcebergと比較してみたいと思っています。いくつかのプロジェクトやコミュニティからの評価が非常に高いため、効果的なデータ管理や処理について学ぶことができると期待しています。
さらに、データレイクを構築する際のツール選定も重要です。データの更新や削除、異なるタイプの消費者へのデータアクセスなど、さまざまな要件を考慮する必要があります。
🔍 データオーディティングの挑戦
先程、アドックや他のスタートアップが良いデータインフラストラクチャを構築する前に大量のデータを蓄積してしまう悪い事例についてお話ししましたが、その問題についてもう少し詳しくお聞かせください。データオーディティング、データ品質、データの完全性、データの重複やクラッシュ後のデータロスなど、いくつかの課題があると思います。
データオーディティングの重要性についても教えていただけますか?
データオーディティングのために特別なソリューションを適用する必要がある場合もありますが、アドックのようなスタートアップでは、カスタムなデータオーディティングシステムを構築することが最適な場合もあります。
一般的には、オープンソースのソリューションで済ませることができる場合もありますが、すべての状況に合うわけではありません。データの信頼性が非常に重要であり、データ駆動型のプロダクトや企業文化を構築する場合には、データオーディティングは極めて重要です。
アドックは、データの完全性や品質を確保するために、データオーディティングに大きな価値を見出しています。データが適切に処理され、信頼性の高いアラートが得られることで、問題やデータの損失を早期に発見し、対応することができるようになります。
データオーディティングができることで、より信頼性の高いデータの使用や解析が可能になります。
📈 データオーディティングの重要性
データオーディティングが重要であるということを改めてお伝えいただけますか?他の企業もデータオーディティングに関する課題を抱えていると思いますが、具体的な利点やメリットについて教えてください。
データオーディティングの重要性は非常に高いです。信頼性のあるデータを持つことは、データ駆動型のプロダクトや企業文化を築く上で不可欠な要素です。
データオーディティングを行うことで、データの品質や完全性を確保できます。データの重複や損失を早期に検知し、データの信頼性を高めることができます。
また、データオーディティングによって、データの品質向上や問題解決に繋がるアラートを得ることができます。これにより、ビジネス上の意思決定や改善策の立案に役立てることができます。
信頼性のあるデータを持つことは、企業の成長や競争力を向上させるために非常に重要です。
❓ よくある質問と回答
最後に、よくある質問とその回答について教えてください。
Q1: データオーディティングを行うためには、どのようなスキルが必要ですか?
A1: データオーディティングには、データパイプラインの知識、データの調査と分析のスキル、データ品質の評価方法などが必要です。また、SQLやPythonなどのプログラミング言語の知識も重要です。
Q2: データオーディティングのために、どのようなツールやテクノロジーを使用していますか?
A2: 私たちはZeppelinやSpark、Amazon EMRなどのツールを日常的に使用しています。また、データレイクの構築には、Apache IcebergやDelta Lakeといったテクノロジーを評価しています。
Q3: データオーディティングを行うと、具体的にどのようなメリットがありますか?
A3: データオーディティングによって、データの品質や完全性の向上、データの重複や損失の早期検知、信頼性の高いデータの使用が可能となります。これにより、ビジネス上の意思決定や改善策の立案に役立てることができます。
以上がよくある質問と回答です。データオーディティングはデータ駆動型の企業において非常に重要な要素ですので、ぜひ実施してみてください。
以上で今回の記事は終わりです。Radio Dataをご視聴いただきありがとうございました。次回のエピソードもお楽しみに!
リソース: