あなたの組織はデータを集約・分析して傾向を知りたい、しかしプライバシーは保護された方法で、と考えていませんか? あるいは、すでに差分プライバシー ツールを使用しているが、知識を増やしたい (または共有したい) とお考えでしょうか。 どちらの場合でも、このブログ シリーズはあなたのためにあります。
なぜこのシリーズを行うのか? 昨年、NISTはプライバシーエンジニアリングおよびリスク管理をサポートするオープンソースのツール、ソリューション、およびプロセスを集約するために、プライバシーエンジニアリングコラボレーションスペースを立ち上げました。 コラボレーション スペースのモデレーターとして、私たちは NIST が識別解除というトピック領域の下に差分プライバシー ツールを集める手助けをしてきました。 NISTはまた、プライバシーフレームワークを発表しました。 A Tool for Improving Privacy through Enterprise Risk Management)」と、それに付随するロードマップを発表し、非識別化のトピックを含む、プライバシーに関する多くの課題領域を認識させました。 今回、私たちはコラボレーションスペースを活用し、ロードマップにある非識別化に関するギャップを埋める手助けをしたいと考えています。
各記事は、ビジネス プロセスのオーナーやプライバシー プログラムの担当者などの専門家が、危険なほど十分に学べるように、概念の基礎と実用的な使用例から始まります (これは冗談です)。 基本をカバーした後、実装の詳細に関心のあるプライバシー エンジニアや IT 専門家のために、利用可能なツールやその技術的アプローチについて見ていきます。 すべての人がスピードアップできるように、この最初の投稿では、差分プライバシーに関する背景を説明し、このシリーズの残りの部分で使用するいくつかの重要な概念について説明します。
- “How many people live in Vermont?”
- “How many people named Joe Near live in Vermont?”
最初の質問は集団全体の特性を明らかにし、2番目は1人の情報を明らかにしている。 特定の個人について何か新しいことを知ることができないようにしながら、母集団の傾向について知ることができるようにする必要があります。 これは、米国国勢調査局が発表する統計など、多くのデータの統計解析や、より広範な機械学習の目標である。 これらの設定のそれぞれにおいて、モデルは集団の傾向を明らかにすることを目的としており、特定の個人に関する情報を反映するものではありません。
しかし、最初の質問 “バーモント州には何人住んでいますか?” にどのように答えることができるのでしょうか。 – という 2 番目の質問に答えられないようにしながら、クエリとして参照することができます。 最も広く使われている解決策は、データセットから識別情報を取り除く、非識別化(または匿名化)と呼ばれるものである。 (一般に、データセットには多数の個人から収集した情報が含まれていると仮定する)。 もうひとつの方法は、データの平均値など、総計的なクエリのみを許可することです。 しかし残念ながら、どちらの方法もプライバシーを強く保護するものではないことが分かってきた。 個人を特定できないデータセットは、データベース・リンケージ攻撃の対象になる。 集計は、集計されるグループが十分に大きい場合にのみプライバシーを保護するが、その場合でも、プライバシー攻撃は可能である。
Differential Privacy
Differential Privacyは、プライバシーを持つということが何を意味するのかを数学的に定義したものである。 これは非識別化のような特定のプロセスではなく、あるプロセスが持ち得る特性です。 例えば、特定のアルゴリズムが差分プライバシーを「満たす」ことを証明することができます。
非公式には、差分プライバシーは分析のためにデータを提供する各個人に対して次のことを保証しています:あなたがデータを提供するかどうかにかかわらず、差分プライバシーの分析の出力はほぼ同じになります。 差延的プライバシーの解析はしばしばメカニズムと呼ばれ、ℳと表記する。