🕵️♀️ 機械学習を使って児童性的虐待に対抗する
児童性的虐待は、世界中の何百万人もの子供たちに影響を与える卑劣な犯罪です。インターネットの普及により、加害者は自分たちの犯罪の画像や動画を共有しやすくなり、法執行機関が追跡するのが困難になっています。しかし、この問題に対抗するために技術を活用することができます。本記事では、機械学習を使用して児童性的虐待物資を検出、審査、報告する方法について説明します。
📚 目次
- 導入
- 私たちの仕事の重要性
- 児童性的虐待の発見と阻止の課題
- 児童性的虐待に対抗する機械学習の役割
- クラシファイアの構築
- データの準備
- モデルのトレーニング
- パフォーマンスの監視と再トレーニング
- モデルの展開
- 機械学習が児童性的虐待に与える影響
- Safer Essential:既知の児童性的虐待物資の迅速な検出のためのAPIベースのソリューション
- 児童性的虐待に対抗する使命への参加
- 結論
導入
児童性的虐待は、世界中の何百万人もの子供たちに影響を与える深刻な問題です。インターネットの普及により、加害者は自分たちの犯罪の画像や動画を共有しやすくなり、法執行機関が追跡するのが困難になっています。しかし、この問題に対抗するために技術を活用することができます。本記事では、機械学習を使用して児童性的虐待物資を検出、審査、報告する方法について説明します。
私たちの仕事の重要性
マリアという子供が性的虐待を受けていたという実話は、私たちの仕事の重要性を浮き彫りにしています。マリアの加害者は彼女を虐待する間に写真を撮り、それらの画像や動画を何億もの他の画像や動画の中に紛れ込ませたコンテンツホスティングプラットフォームで共有していました。しかし、この特定のプラットフォームは児童性的虐待物資を受け入れません。代わりに、ThornのSafer製品を使用しており、セーファー児童性的虐待物資またはcesamクラシファイアを使用して、児童が実際に虐待を受けている可能性のある画像や動画を見つけます。
ある日、クラシファイアがヒットを検知したため、彼らは調査を開始します。ユーザーが2,000以上の新しい虐待ファイルを共有していることが明らかになりました。明らかに子供が虐待されているので、彼らはこの事件を法執行機関に通報します。そのコンテンツの中の子供、マリアが見つかります。逮捕が行われ、回復が完了し、マリアにはより明るい未来が訪れます。
児童性的虐待の発見と阻止の課題
私たち技術者には、子供の現実の悪夢を終わらせる力があります。私たちの課題は、彼らを見つけてトラウマの連鎖を止める方法です。これらの質問の答えは、膨大なデータの中に埋もれています。では、そのヘイスタックの中のニードルを見つけるための適切な磁石は何でしょうか?その答えは複雑であり、その一部は機械学習にあります。
National Center for Missing and Exploited Childrenによると、2022年にはオンラインプラットフォームから報告された疑わしい児童性的虐待のファイルが8800万件以上寄せられました。これは単なるファイルではありません。これは助けを必要とする子供たちです。8800万件のファイルに対してたった1秒の審査を行うだけでも、ほぼ3年間の審査が必要になります。私たちは、どの子供も助けを待つためにそんなに長く待たせたくありません。
児童性的虐待に対抗する機械学習の役割
機械学習は、児童性的虐待に対抗する上で重要な役割を果たすことができます。私たちの非営利団体であるThornでは、児童性的虐待に対抗するための技術を大規模に構築しています。AWSは私たちの選択するクラウドプロバイダであり、この取り組みではAWSのサービスを活用して機械学習ツールを提供しています。
私たちは、児童性的虐待物資を検出、審査、報告するためのオールインワンツールであるSaferを開発しました。Saferはハッシングとmatを使用して既知の虐待物資を見つけ、アナリストによって検証された新しい虐待物資を見つけるためのクラシファイアを使用しています。私たちは、クラシファイアを大規模に新しい児童性的虐待物資を見つけるための強力な磁石として構築しました。
クラシファイアの構築
2019年にクラシファイアの構築を始めた当初、児童性的虐待を検出するための畳み込みニューラルネットワークの活用に関する研究が既に進行中でした。しかし、私たちは研究を超えた、実稼働規模で動作するクラシファイアが必要でした。
クラシファイアを構築する際には、クリスプDMプロセスに従います。しかし、この広範なフレームワークの中で、私たちは重要なハードルを乗り越える必要がありました。このデータは違法です。児童性的虐待物資は違法です。このデータを他のコンテンツと同じ場所や同じ方法で保存することはできません。そのための解決策は、協力することでした。私たちは、このデータを保管する法的権限を持つ組織に現地でハードウェアを設置し、クラシファイアを現地でトレーニングし、AmazonのECRを使用してトレーニング済みモデルをエンドユーザーに配布することに投資しました。
データの準備
データの準備は、クラシファイアの構築における重要なステップです。パーセプチュアルハッシングなどの技術を使用してデータセットを複製し、トレーニング、テスト、検証セットの間に重複がないようにします。非虐待物資を保存するためにAmazon S3を使用し、このデータはクラシファイアのトレーニングにおいて虐待物資と同じくらい重要です。
モデルのトレーニング
オンプレミスソリューションへのリモートアクセスを介したモデルのトレーニングには課題があります。遅くて透明性に欠けることがあります。そのため、トレーニングパイプラインで問題が発生した場合には、まずは無害なデータでAmazon EC2とEKSを使用してR&Dを行い、デバッグや修正を行います。
パフォーマンスの監視と再トレーニング
機械学習AIのライフサイクルであ