Serendipity Workshop
Recommandation
Amazon, Google Search, Facebook, etc…
Recommandation “propre” / non biaisée
- principe de popularité (ex: PageRank)
- personnalisation (ex: Facebook ⟶ photos aimées par amis, etc… / temps: information récente a plus de valeur)
Recommandation biaisée:
Exs:
- pour faire de l’argent ⟶ Google oriente vers ses propres services plutôt que ses concurrents
- Quant Junior: protéger les jeunes
- Interdiction de sites faisant la promotion du nazime en France (vs: autorisation aux USA, par le 1er amendement)
- Wikipédia: interdit en Turquie car disait qu’Erdogan est un dictateur
Introduction à l’Ethique
Problème ⟶ algos transforment notre société, vie personnelle/sociale/professionnelle
Ex: associations ⟶ convocations par mail
- Ethique:
-
se poser la question de savoir si les outils/logiciels/algos qu’on utilise facilitent ou dégradent la vie en commun?
⟹ on peut demander aux algos d’avoir un comportement éthique
Exs de choses qui améliorent:
-
recherche scientifique “boostée” par l’informatique ⟹ façons de penser transformées par l’informatique
- ex: géographie: évolution des populations ⟶ simulations
- idem pour industrie, business, etc…
- intérêt: plus de justice, de transparence, quand le code est publié…
Problèmes:
- algos qui remplacent les actionnaires ⟹ grosses dérives non maîtrisées
- vie privée: danger venant de Facebook, Google, Amazon, etc… / des gouvernements: NSA, état d’urgence, etc…
- sites web terroristes, racistes, pédophiles, criminels (vol d’identité, etc…), etc…
- pricing: prix qui évoluent, etc…
Ex:
- Anecdote des prix d’agrafeuses:
Prix d’agrafeuses ⟶ inversement proportionnels au niveau de vie (quartiers plus riches plus proches du magasin en question)
⟹ légal, mais pas éthique, difficile à détecter
- Pubs sur Google: avec le même profil, un homme recevait des offres d’emplois beaucoup mieux payés que femmes
⟹ comment vérifier ces propriétés?
Google Ads report ⟶ Google donne critères sur lesquels ils se basent pour proposer de la pub
- Loyauté:
-
propriété: est-ce que le site fait bien ce qu’il dit qu’il fait?
- Discrimination éthique dans la justice aux USA: logiciel Compass aide les juges dans la libération sous condition ⟶ évaluation du risque de récidive avant éventuelle libération ⟹ logiciel biaisié en défaveur des noirs!
Logiciel de machine learning entraîné sur 10 ans de données ⟹ problème: juges avaient des biais ethniques (dans les données d’entraînement)
De même, 40% moins de chance d’être libéré en fin de journée plutôt qu’après l’heure du déjeuner!
Bubble filtering
Idée: rétrécir zone de comfort pour suggérer à l’utilisateur que ce qu’il aime (en politique, etc…)
But: faire une étude sérieuse ⟶ considérer une application qui échappe à ce “bubble filtering”
-
avoir une idée précise d’application (recherche matrimoniale, moteur de recherches, etc…)
-
modèle mathématique:
- ex: glouton pour “booster” la diversité
- fonctionnalités nouvelles:
- ex: colonne de gauche: démocrates, colonne de droite: républicains
- “distance” par rapport à quelque chose de non-biaisé
Diversité: vous écoutez du rock ⟶ de temps en temps, on vous suggère du jazz pour vous sortir de votre zone de comfort.
- Diversité au niveau du client: le faire sortir de sa zdc
- Diversité du service: faire varier les offres
- ex: vente de télévisions ⟶ le fournisseur n’a pas intérêt à toujours donner le produit le plus populaire, pour éviter les ruptures de stock
- ex: rediriger les gens vers des stations plus éloignées, pour avoir des “flots” moins chargés
Maintenant:
- Sérendipité:
-
découverte de quelque chose de génial par hasard ⟶ proposer quelque chose hors de notre zone de comfort, mais qu’on va adorer
Ex: libraire: “je sais que tu n’aimes pas l’histoire d’habitude, mais celui-là tu vas aimer”
- ex: Sapiens ⟶ explique histoire de l’humanité
Ce qui est demandé:
- Trouver une/plusieurs recommandations: ex: recommandation de mangas
- Trouver un modèle adapté
- Biaiser:
- de manière éthique
- pour apporter de la diversité
- comment éviter des biais qui ne sont pas bons?
Ex: en ML, on contrôle assez peu les résultats ⟶ on tune des paramètres pour avoir des résultats
Techniques pour biaiser les résultats a posteriori (ex: mon algo doit sélectionner autant d’hommes que de femmes), indépendamment des données d’entraînement.
Ex: $β$: proportion des utilisateurs à avoir en dehors de leur zone de comfort.
Commencer à travailler tout de suite, ne pas regarder les solutions des autres tout de suite pour éviter la “pensée mouton”.
Mais ne pas réinventer la roue pour autant!
⟹ faire les deux en parallèle: recherche ET état de l’art
A chaque cours:
- Choisir un article (chacun le sien: pas deux fois le même!) dans le domaine, et faire un état de l’art entre 15 et 20 ligne (recommandation, diversité, sérendipité)
- ex: système de recommandation de Jil-jênn Vie: Mangaki
En parallèle:
- organiser la bibliographie
Leave a comment