AWS re:Invent 2023 - Discours d'ouverture du client Thorn

AWS re:Invent 2023 - Discours d'ouverture du client Thorn

April 16, 2024
Partager
Auteur: Big Y

🕵️‍♀️ Comment l'apprentissage automatique aide à lutter contre l'abus sexuel des enfants

L'abus sexuel des enfants est un crime odieux qui touche des millions d'enfants dans le monde. Internet a facilité la diffusion d'images et de vidéos par les abuseurs, rendant plus difficile le suivi par les forces de l'ordre. Cependant, la technologie est également utilisée pour lutter contre ce problème. Dans cet article, nous explorerons comment l'apprentissage automatique est utilisé pour détecter, examiner et signaler à grande échelle le matériel d'abus sexuel sur les enfants (CSAM).

📚 Table des matières

- Introduction

- La gravité de notre travail

- Le défi de trouver et d'arrêter le CSAM

- Le rôle de l'apprentissage automatique dans la lutte contre le CSAM

- Construction du classificateur

- Préparation et formation des données

- Déploiement et maintenance du modèle

- Impact de l'apprentissage automatique sur la détection du CSAM

- Avantages et inconvénients de l'utilisation de l'apprentissage automatique pour la détection du CSAM

- Avenir de l'apprentissage automatique dans la lutte contre le CSAM

- Conclusion

🌟 Points forts

- L'apprentissage automatique est utilisé pour détecter, examiner et signaler à grande échelle le matériel d'abus sexuel sur les enfants (CSAM).

- Le National Center for Missing and Exploited Children a reçu plus de 88 millions de fichiers de CSAM suspects en 2022.

- L'apprentissage automatique peut aider à trouver de nouveaux CSAM et réduire le temps nécessaire pour examiner les fichiers.

- La construction d'un classificateur pour la détection du CSAM nécessite une collaboration et une manipulation prudente des données.

- Le déploiement efficace du modèle est essentiel pour garantir la confidentialité et la surveillance humaine.

- L'apprentissage automatique n'est pas une solution miracle, et l'intervention humaine est toujours nécessaire.

🕵️‍♀️ La gravité de notre travail

L'histoire de Maria, une enfant victime d'abus sexuels et photographiée par son abuseur, n'est malheureusement pas rare. Les abuseurs partagent souvent des images et des vidéos de leurs crimes sur des plateformes d'hébergement de contenu, se cachant parmi des millions d'autres fichiers. Cependant, certaines plateformes prennent des mesures pour lutter contre ce problème. Thorn, une organisation à but non lucratif qui développe une technologie pour lutter contre l'abus sexuel des enfants à grande échelle, a développé un outil appelé Safer qui utilise l'apprentissage automatique pour détecter, examiner et signaler le CSAM.

Le travail d'organisations comme Thorn est essentiel pour mettre fin au cauchemar réel d'un enfant. Les technologues ont le pouvoir de trouver et d'arrêter le cycle du traumatisme, mais le défi consiste à trouver le CSAM parmi les montagnes de données.

🕵️‍♀️ Le défi de trouver et d'arrêter le CSAM

Le National Center for Missing and Exploited Children a reçu plus de 88 millions de fichiers de CSAM suspects en 2022. Examiner ne serait-ce qu'une seconde de chaque fichier prendrait près de trois ans de travail continu. L'apprentissage automatique peut aider à réduire le temps nécessaire pour examiner les fichiers et trouver de nouveaux CSAM.

Cependant, trouver du CSAM n'est pas aussi simple que de rechercher des mots-clés ou des phrases spécifiques. Les abuseurs utilisent souvent des mots codés ou des fautes d'orthographe pour éviter la détection. La réponse pour trouver du CSAM réside dans l'apprentissage automatique.

🕵️‍♀️ Le rôle de l'apprentissage automatique dans la lutte contre le CSAM

L'apprentissage automatique est un outil puissant pour détecter le CSAM. L'outil Safer de Thorn utilise le hachage et la correspondance pour trouver du matériel d'abus connu et un classificateur pour trouver du nouveau matériel d'abus. Le classificateur agit comme un aimant puissant pour trouver de nouveaux CSAM à grande échelle.

La construction d'un classificateur pour la détection du CSAM nécessite une collaboration et une manipulation prudente des données. Le CSAM étant illégal, il ne peut pas être stocké aux mêmes endroits ni de la même manière que d'autres contenus. Thorn a investi dans du matériel installé sur place dans des organisations ayant le droit légal d'héberger ces données. Le classificateur a été entraîné sur place, et ECR d'Amazon a été utilisé pour distribuer le modèle entraîné aux utilisateurs finaux.

🕵️‍♀️ Préparation et formation des données

La préparation des données est une étape critique dans la construction d'un classificateur pour la détection du CSAM. Des techniques telles que le hachage perceptuel sont utilisées pour dupliquer l'ensemble de données, en veillant à ce qu'il n'y ait pas de chevauchement entre les ensembles d'entraînement, de test et de validation. Amazon S3 est utilisé pour stocker le matériel non abusif, qui est tout aussi important que le matériel d'abus pour former le classificateur.

La formation du modèle via un accès distant à une solution sur site peut être lente et opaque. Amazon EC2 et EKS sont utilisés pour effectuer des travaux de recherche et développement avec des données bénignes d'abord, déboguer et résoudre les problèmes éventuels trouvés dans le pipeline de formation avant de passer à la formation sur site.

🕵️‍♀️ Déploiement et maintenance du modèle

Le déploiement efficace du modèle est essentiel pour garantir la confidentialité et la surveillance humaine. Le classificateur agit comme un aimant puissant, mais il doit être signalé par des humains. Les ingénieurs de Thorn déploient le classificateur de manière à ce que le client ait un contrôle total sur le moment et la manière dont le contenu est examiné et signalé.

Les modèles deviennent obsolètes et peuvent présenter des biais. Surveiller les performances et effectuer une formation régulière est essentiel pour maintenir les performances. Les faux positifs sont souvent les exemples négatifs les plus précieux, permettant des réentraînements ciblés et une amélioration des performances sur les données réelles. Les commentaires des utilisateurs de Thorn sont alimentés par une API dans leurs services Safer hébergés sur AWS, où les utilisateurs peuvent soumettre de faux positifs pour les incorporer dans leur formation.

🕵️‍♀️ Impact de l'apprentissage automatique sur la détection du CSAM

L'apprentissage automatique a eu un impact significatif sur la détection du CSAM. Safer a trouvé plus de 2,8 millions de fichiers potentiels de CSAM. Ce mois-ci, Thorn a lancé Safer Essential, une solution basée sur une API pour la détection rapide du CSAM connu.

Cependant, l'apprentissage automatique n'est pas une solution miracle. L'intervention humaine est toujours nécessaire pour s'assurer que le classificateur fonctionne correctement et que les faux positifs ne sont pas signalés. De plus, l'apprentissage automatique peut perpétuer les biais s'il n'est pas surveillé et ajusté régulièrement.

🕵️‍♀️ Avantages et inconvénients de l'utilisation de l'apprentissage automatique pour la détection du CSAM

Avantages :

- L'apprentissage automatique peut réduire le temps nécessaire pour examiner les fichiers et trouver de nouveaux CSAM.

- L'apprentissage automatique peut aider à trouver du CSAM qui passerait autrement inaperçu.

- L'apprentissage automatique peut aider à réduire la charge de travail des forces de l'ordre et d'autres organisations.

Inconvénients :

- L'apprentissage automatique peut perpétuer les biais s'il n'est pas surveillé et ajusté régulièrement.

- L'apprentissage automatique n'est pas une solution miracle et nécessite une intervention humaine pour assurer l'exactitude.

- End -
VOC AI Inc. 8 The Green,Ste A, in the City of Dover County of Kent, Delaware Zip Code: 19901 Copyright © 2024 VOC AI Inc.All Rights Reserved. Termes et conditions Politique de confidentialité
Ce site web utilise des cookies
VOC AI utilise des cookies pour garantir le bon fonctionnement du site web et pour stocker des informations sur vos préférences, vos appareils et vos actions passées. Ces données sont agrégées ou statistiques, ce qui signifie que nous ne pourrons pas vous identifier individuellement. Vous trouverez plus de détails sur les cookies que nous utilisons et sur la manière de retirer votre consentement dans notre page Politique de confidentialité.
Nous utilisons Google Analytics pour améliorer l'expérience des utilisateurs de notre site web. En continuant à utiliser notre site, vous consentez à l'utilisation de cookies et à la collecte de données par Google Analytics.
Acceptez-vous ces cookies ?
Accepter tous les cookies
Refuser tous les cookies