前回の記事では、Viedocの2人のエキスパートが業界の主要な課題について議論し、それを克服するための方法を提案しました。
今回は、ViedocのChief Innovation OfficerであるMajd Mirza氏とTechnical FellowであるBinish Peter氏に、現在の課題に対する具体的な解決策についてお話を伺います。
臨床試験プロトコルはますます複雑化し、収集されるデータ量も大幅に増加しています(Tufts Center for the Study of Drug Development, vol 23 and vol 25)。現在では、電子データキャプチャ(EDC)や電子患者報告アウトカム(ePRO)システムに加え、臨床検査値、画像システム、電子カルテ(EHR)、ウェアラブルデバイスなど、数多くのデータソースが存在しています。この変化により、孤立したデータポイントの収集ではなく、継続的なデータストリームの捕捉が求められるようになっています。
さらに、データは異なるシステムから取得され、異なるシステムで処理されるため、システム間のデータ移動を合理化することが不可欠です。最終的な課題は、これらすべてのデータを単一のリポジトリに統合し、1つの統一されたシステム内で包括的な集計と分析を可能にすることです。
従来のEDCシステムから包括的な臨床データプラットフォームへの移行は、今後の臨床試験の成功にとって極めて重要です。EDCシステムは、多様なソースからデータを収集し、この情報を集約、標準化して効率的に保存するために再設計される必要があります。また、下流システムとのシームレスな連携を保ちながら、様々なフォーマットや増大するデータ量を効率的に処理することも求められます
この移行を支えるのが、データパイプラインとデータレイクという2つのクラウド技術です。データパイプラインは、データの収集、処理、統合を効率化し、スムーズな情報の流れを確保します。一方、データレイクはスケーラブルなストレージソリューションを提供することで、臨床試験データの量、多様性、そして集約に伴う課題に対応します。
データパイプライン
ETL(抽出、変換、ロード)パイプラインとしても知られるデータパイプラインは、さまざまなソースからデータを抽出し、標準化されたフォーマットに変換して、保存や分析のために目的のシステムへロードするように設計されています。クラウドインフラストラクチャを活用することで、これらのパイプラインはタスク間の依存関係を管理し、システム間でのデータの抽出、変換、ロード、そして保存のプロセスを簡素化します。
Majd氏は次のように説明します。「Azureは、Viedocにカスタマイズ可能なデータパイプラインを提供しています。このパイプラインには、さまざまなアクティビティを組み込むことができ、オンデマンドでスケジュールしたり、トリガーしたりすることが可能です。パイプラインは、システムに対する一連の命令やアクティビティの集合体と考えてください。どこからデータを取得するのか?データをどのように変換するのか?そして、その結果として何をするのか?といったプロセスを定義します。」
Binish氏はさらに詳しく説明します。「データパイプラインは、連続して実行される一連のアクティビティで構成されています。ETLパイプラインといっても、Viedoc臨床データプラットフォームでは、抽出、変換、ロードのすべてを同じパイプラインに組み込む必要はありません。このプラットフォームは、さまざまな要件に柔軟に対応できるよう設計されています。例えば、あるシステムから別のシステムへデータを抽出、変換、ロードする必要があるケースもありますし、APIを介して他のシステムからアクセスできるように、データの抽出と変換のみが必要なケースもあります。」
データレイク
データレイクは、構造化データや非構造化データを問わず、あらゆる形式のデータを無制限に単一のリポジトリに保存できるスケーラブルなソリューションです。これにより、パフォーマンスを損なうことなく、ペタバイト級のデータを効率的に扱うことが可能です。
各データやETLパイプラインのアクティビティはデータレイクにアクセスでき、生データや変換済みデータの抽出、変換、保存が可能です。この機能により、すべてのオリジナルデータへのアクセスを維持しつつ、再分析、再集計、過去の分析の再適用が可能になります。
Viedocは、複数のシステムからデータを収集する必要性を認識し、柔軟なソリューションを提供しています。これを実現するために、一般的なウェアラブルなど特定のシステムからデータを抽出するためのカスタムコネクターを導入しており、システムは時間の経過とともに他のコネクターを簡単に追加できるように設計されています。
さらに、カスタムアクティビティを利用することで、データサイエンティストはPythonやRといったプログラミング言語を使用してデータパイプラインと統合することが可能です。これにより、データパイプライン内でスクリプトを用いてリアルタイムのデータにアクセスし、分析やAIモデリングを実行したり、データクリーニングをリアルタイムで行ったりすることができます。
ETLパイプライン、データレイク、カスタムコネクタ、カスタムアクティビティといったこれらのコンポーネントが、従来のEDCシステムとは大きく異なるViedocの新しい臨床データプラットフォームの基盤を形成しています。従来のEDCシステムが明確なデータポイントや決められた訪問時の手動データ入力に重点を置いているのに対し、当社の最新の臨床データプラットフォームは、複数のソースからリアルタイムで自動化されたデータ収集に重点を置き、包括的な分析のために単一のリポジトリに統合します。
Majd氏は補足します。「私たちは、このカスタマイズ可能なプラットフォームを常にリーズナブルな価格にすることを目指しています。私たちの重点は、データの移動と分析をノーコードまたはローコードで簡単に構成できるようにすることにあり、必要に応じて高度なコーディング機能も提供しています。」
次回は、EDCにおけるCTMSとの統合の活用についてご紹介します。また、Viedocのデモをご予約いただき、Viedocがどのように臨床試験を支援できるかをご確認ください。