Youtube
Plateforme de contenus vidéos rachetée par → Google qui est leader sur le marché de contenus vidéos et des publicités afférentes. Les algorithmes de Youtube sont basées sur l'→ économie de l'attention.
Plateforme de contenus vidéos rachetée par → Google qui est leader sur le marché de contenus vidéos et des publicités afférentes. Les algorithmes de Youtube sont basées sur l'→ économie de l'attention.
Transhumanisme : usage des sciences et techniques en vue d’augmenter les capacités humaines et naturelles. Par exemple, la pose d’un pacemaker - cette pile que l’on insère près du cœur - est un acte de transhumanisme. Cela met en lumière des questions éthiques : peut-on accepter de développer des humains “augmentés” grâce aux machines ?
Les théories de ce type sont fortement présentes dans la Silicon Valley et chez les ingénieurs et entrepreneurs des → GAFAM. Ray Kurzweil considéré comme un des gourous du transhumanisme occupe d'ailleurs un poste stratégique chez → Google.
Apprentissage par transfert, ou transfer learning : consiste à résoudre un problème donné à partir des méthodes de résolution d’autres problèmes. Il s’agit de réexploiter des connaissances pour régler un problème “cible”. Le transfer learning est une des variables d’approche du → Deep learning.
URL (Uniform Resource Locator) : désigne l'adresse web d'un site → Internet. L’URL se présente sous la forme d'une série de caractères permettant l'identification d'un site Internet et/ou d'une page web.
L'url est type spécifique d'URI (uniform Ressource Identificator)
Web (World Wide Web) : application spécifique d' → Internet, permettant de consulter à distance des pages multimédias. Il utilise le protocole de transfert de données http (hyper text transfer protocol) → et le langage → HTML (hyper text markup language).
Plateforme de rencontres en ligne basée sur des algorithmes de proximité liée à la géolocalisation et à des algorithmes de popularité liées aux → Like notamment ainsi qu'à l' → économie de l'attention.
Judith Duportail [@duportailAmourSousAlgorithme2019] relate son expérience sur la plateforme et les frustrations qu'elle génère ainsi que les interrogations quant à son opacité en ce qui concerne son fonctionnement;
Webmestre : personne responsable de l'administration technique et éditoriale d'un site → Web
Réseaux, théorie des trois couches : En fonction de la localisation, la distance et le débit, les réseaux sont classés en trois types :
LAN (Local Area Network) : un réseau local, interne à une organisation. Permet le partage de ressources. Par exemple, une salle informatique, le réseau d’une résidence.
MAN (Metropolitan Area Network) : réseau qui permet la connexion de plusieurs sites à l’échelle d’une ville. Par exemple, l’intranet d’une université.
WAN (Wide Area Network) : réseau à l’échelle d’un pays. Internet est un réseau WAN, comme la couverture nationale des opérateurs télécom.
Concept créé par Sun Ha-Hong dans son ouvrage éponyme [@hongTechnologiesSpeculationLimits2020a] sur les technologies et dispositifs notamment algorithmiques qui tendent à encadrer nos systèmes informationnels et nos existences au sein d'une société conduite par les données
Principes en ce qui concerne la gestion et la modération des contenus notamment avec des traitements algorithmiques.
Mis en place dans une première version en 2018 signée par de gros acteurs dont des GAFAM, une nouvelle version est en cours.
L'objectif est d'édicter des règles de transparence et de → responsabilité (accountability)
Disponibles sur https://santaclaraprinciples.org/
Technologie de traitement automatique de la langue (TAL) : technologie mêlant la linguistique, l’informatique et l’intelligence artificielle qui permet de créer des outils de traitement de la langue sur le numérique. Les TAL apportent du sens à un contenu. Par exemple, la retranscription informatique d’un texte à partir d’un enregistrement vocal est l’une de ces technologies.
Le tal permet de réaliser de l'→ indexation automatique en s'appuyant sur les mots d'un document ou d'un texte. Cela permet des masses de documents et de pouvoir grace à un → robot d'indexation qui va ensuite créer les index des → moteurs de recherche comme celui de → Google.
Statistique : science et technique d'interprétation mathématique de données complexes et nombreuses, permettant de faire des prévisions. On peut associer la statistique à un instrument de connaissances, mais aussi politique :
En « photographiant » le monde, elles donnent aux hommes le pouvoir des outils pour évaluer, choisir et faire agir. [@cardonQuoiReventAlgorithmes2015a]
Le besoin de → statisticiens spécialisés dans l'analyse des → données est grandissant.
LeStatisticien : est à la base un spécialiste des →]] statistique, capable de les formaliser et de les analyser. L'accroissement des données disponibles notamment via les instruments de captation accroît le besoin de professionnels dédiés comme les ou les → data analysts.
Sousveillance : la sousveillance désigne l’acte de s’emparer de données (publiques, privées) pour surveiller les puissants. Elle s’inscrit dans une action citoyenne, au titre du droit à l’information et du bien commun . Internet est un outil de sousveillance primordial : ses origines sont associées à une branche du mouvement libertaire, incarnée par Richard Stallman, en plus de ses capacités à outrepasser les frontières de diffusions d’autres canaux. C’est le cas des fuites d’informations →]] , comme celles provoquées par Edward Snowden ou encore Chelsea Manning. Il s’agit de surveiller et radicaliser l’exigence démocratique (de Lagasnerie, 2015).
fiche à revoir
Terme qui désigne le fait de voir ses publications, ses statuts et son profil dissimulées et non mises en avant au profit d'autres publications jugées plus légitimes ou correspondant mieux aux velléités de l'application.
L'expression est fréquemment mentionnée par des utilisateurs de → Tik Tok qui déplore le peu de vues ou de likes qu'ils obtiennent voire une baisse soudaine de l'engagement autour de leur publication.
Le shadowbanning correspond donc à la fois à des effets des algorithmes des plateformes mais également à la frustration des usagers.
Le Financial Times a développé un algorithme de presse spécifique « She Said He Said, "un bot détecte automatiquement le genre de source mentionnée dan un article. L'IA repose sur un outil de détection des prénoms pour déterminer le genre. Les journalistes sont alertés lorsque le ratio H/F est trop déséquilibré.
Serveur informatique : un serveur est un système informatique utilisé pour accéder à une base de données, mais aussi Internet. Il permet par exemple de consulter ses mails ou de stocker des fichiers.
SERP (Search Engine Result Page) : désigne la page de résultats affichée par un →]] moteur de recherche. La hiérarchisation des informations dépend des mots-clés renseignés par l’internaute dans la barre de recherche. Celle-ci est dirigée par l’ →algorithme du moteur de recherche, ainsi que par les stratégies → SEO adoptées par chaque site web pour optimiser leur visibilité.
SEO (Search Engine Optimization) : le SEO, ou “optimisation pour les → moteur de recherche, renvoient aux techniques qui permettent à un site web d’être mieux → référencé, c’est à dire classé haut dans la hiérarchie des sites sur un moteur de recherche (Google, Yandex, Yahoo! etc.). Cela permet d’augmenter la visibilité d’un site web.
Sémantique : étude du sens, de la signification et des signes. Sur le numérique, certains outils comme le → TAL permettent d’extraire le sens d’une image, d’un texte ou d’une vidéo.
Spirale de recommandations : effet faisant référence à la boucle sans fin de visualisation de contenus fournis par un algorithme de recommandation. L’internaute passe d’un contenu à un autre en les faisant défiler, tout en perdant la notion du temps : cette spirale, construite pour satisfaire l’utilisateur, le pousse à rester actif et scroller. L’application Tik Tok est un bon exemple ; il n’y a pas de fin au fil d’actualité → et le format de ce réseau social pousse à la curiosité : “que se cache-t-il derrière cette énième publication ?” Les plateformes jouent sur l’attention des internautes en proposant des contenus toujours plus personnalisés et cognitivement addictifs.
fiche à faire sur Tik Tok
Robot cliqueur : désigne un programme logiciel dont la vocation est de créer des → clics artificiels sur des publicités. Ces algorithmes peuvent prendre plusieurs formes : le plus courant consiste en une “fraude aux clics”, lorsqu’un support rémunéré à la performance utilise un robot pour générer artificiellement des clics et donc des revenus publicitaires. Ces programmes sont utilisés sur les réseaux sociaux pour générer des →likes, ou encore augmenter le nombre d’abonnés → d’une page.
Robot d’indexation : robot logiciel utilisé par les moteurs de recherche pour parcourir le réseau et les sites web afin d'archiver les pages web au sein des index de → Référencement. Le robot d'→ Indexation de → Google est le Googlebot.
Méthode qui consiste à opérer un processus inversé notamment pour reproduire un dispositif technique.
Ici, il s'agit de comprendre surtout comment fonctionne les algorithmes d'une plateforme.
Ce type de méthode a été utilisé pour comprendre les mécanismes publicitaires et de recommandation politique notamment sur → Facebook
Judith Duportail avait cherché à comprendre l'algorithme de Tinder à cet effet en demandant conseil à Nicolas Kaiser-Brill qui produit ce type de recherche.
Un travail a été effectué également autour des algorithmes de → Netflix . Netflix a donné quelques explications sur les principaux algorithmes que la plateforme utilise.
Plateforme de musique en ligne qui fonctionne avec des systèmes algorithmiques qui permettent de générer des playlists avec des suggestions.
Révolution numérique : la “révolution numérique” désigne plusieurs choses : non seulement le bouleversement global de nos sociétés vers le numérique depuis la fin des années 1990, mais aussi, plus techniquement, l’interconnexion des outils informatiques. Le déploiement du réseau → Internet est l’un des marqueurs phares de cette évolution sociétale. On parle aujourd’hui de la “quatrième révolution industrielle”, fondée sur une “personnalisation de masse” grâce aux → données numériques.
Réseau : un réseau (network) est un ensemble d'objets interconnectés les uns avec les autres. Il permet de faire circuler des informations numériques entre chacun de ces objets. On peut le distinguer de la mise en réseau (networking), qui désigne la mise en œuvre des outils et des tâches permettant de relier des objets afin qu’ils puissent partager des ressources.
Recherche personnalisée : processus par lequel un →moteur de recherche propose, à partir d'une même requête par mot clé, des résultats qui sont personnalisés en fonction des informations connues sur l’ →utilisateur. Ce processus s’appuie sur les → Cookies et prélèvements de données des internautes pour que la machine “_anticipe les désirs que nous ne connaissons pas encore” [@cardonQuoiReventAlgorithmes2015a]
Josh Chin and Liza Lin, “China’s All-Seeing Surveillance State Is Reading Its
Citizens’ Faces,” Wall Street Journal, June 26, 2017,
www.wsj.com/articles/the-all-seeing-surveillance-state-feared-in-the-west-isa-
reality-in-china-1498493020.
Pratique qui consiste à refuser des prêts à partir des données compilées et des → algorithmes de → prédiction et qui peut être source de → biais.
Saisie semi-automatique : → algorithme qui propose à l’utilisateur des suggestions de fin de mot ou de phrase lorsque celui-ci rédige un texte (sur un document, un SMS, un → moteur de recherche etc). Cette fonctionnalité s’inspire des phrases des autres internautes et de l’utilisateur lui-même.
Pratique de mesure de soi (quantified self) : mouvement qui permet à chacun, par le biais d’outils et de méthodes, d’avoir un regard sur ses → données personnelles en vue de les diffuser, les analyser, les partager. Pour cela, des capteurs numériques peuvent être employés pour chiffrer ces activités : par exemple, le temps et l’intensité des activités sportives, les heures de sommeil, les battements de cœur etc.
Référencement : enregistrement et classement d'un site web sur un → moteur de recherche. Les sites web utilisent des techniques du → SEO pour gagner en visibilité.
Quantificateur : au tournant des années 1980, les quantificateurs sont apparus comme des outils → statistiques pour mesurer la vie sociale.
Baromètres, indices et palmarès entreprennent de chiffrer des activités qui, jusqu’alors, n’étaient pas mesurées ou dont la quantification ne faisait pas l’objet d’une attention constante et inquiète. [@cardonQuoiReventAlgorithmes2015a]
Publicité ciblée : La publicité ciblée (ou personnalisée) est une technique publicitaire qui vise à identifier les personnes individuellement afin de leur diffuser des messages publicitaires spécifiques en fonction de caractéristiques individuelles (CNIL) notamment des →données personnelles qui permettent d'établir un→ profilage.
Publicité comportementale : technique marketing visant à collecter les informations de navigation des utilisateurs en vue de cibler la publicité en fonction de leurs goûts. Pour cela, des →algorithmes de tri et de recommandation s’inspirent des “besoins” de chaque → Internaute. Ainsi, sur une même page web, les internautes ne visionnent pas la même →publicité, adaptée en fonction de leurs affinités. Certaines plateformes - comme Twitter - attribuent des étiquettes à chaque utilisateur, pour déterminer ses préférences : “thé”, “rock”, “fight club”, “Joe Biden” etc.
Concept issu du marxisme qui marque la déperdition des savoirs et savoir-faire de l'ouvrier et de l'artisan au bénéfice de la machine. Bernard Stiegler avait donné une nouvelle portée au concept en montrant son renouvellement avec les dispositifs numériques.
La prolétarisation liée aux algorithmes est marquée par le fait que le travail de sélection de l'information, de veille d'information est de plus réduit pour l'usager qui perd à la fois des compétences acquises précédemment et qui se voit de plus en contraint par des dispositifs qui lui laissent au final peu de libertés en terme de manipulation informationnelle.
C'est particulièrement le cas en ce qui concerne la disparition progressive des → Flux Rss dont la part était essentielle au début du Web 2.0 mais dont la logique décentralisée déplaisait à des acteurs comme → Apple et même → Google qui a préféré fermé son service dédié Google Reader pour privilégier d'autres solutions de traitement automatisé.
Action qui consiste à rassembler des traces dispersées pour constituer un profil d'utilisateur → Internaute qui sera ensuite comparé à l'ensemble des autres profils pour faciliter sa catégorisation et son → indexation.
Prédiction : estimation → statistiques d’un événement futur : les résultats d’une élection, la réussite d’un film, la valeur d’une entreprise en bourse etc. La prédiction statistique compare deux corpus de → données : l' → algorithme apprend un modèle et l’applique dans un sous-corpus pour prédire un événement.
Les → technologies de spéculation reposent sur ces mécanismes prédictifs.
Le Page Rank désigne l’ → algorithme de classement de l’information du → moteur de recherche de → Google, en référence à Larry Page, son fondateur. Ce système mesure la qualité et la quantité de liens reçus par une page sur un site internet, afin d’affiner son classement et → l'autorité des sites web. Dominique Cardon [@cardonQuoiReventAlgorithmes2015a] place cette mesure “au-dessus” du web et la considère comme “méritocratique” puisqu’elle prétend départager les “meilleurs” sites des moins bons, en fonction du jugement des autres.
UnePage indexée (par → Google par exemple)** est une page web stockée dans les bases de données d'un → Moteur de recherche après avoir été analysée par des robots → Robot d'indexation. Cette → Indexation permet à la page de s'afficher dans les résultats de recherche suite à une requête des internautes.
Open Source Intelligence (OSINT) : les journalistes et les internautes [@tredanJournalismeCitoyenLigne2007] ont à leur disposition une multitude d’outils informationnels : médias en ligne, documents accessibles en → Open Data, réseaux sociaux, forums de discussion, données de géo-localisation etc. Les utilisateurs peuvent faire des recherches ou encore vérifier des sources d’informations par le biais de logiciels ou de l’analyse des métadonnées de fichiers téléchargés. A partir de ces sources dites “ouvertes”, en libre-accès, ou “OSINT” (Open source intelligence), des journalistes enquêtent sur des sujets jusqu’alors inaccessibles ou nécessitant d’autres moyens pour obtenir une information
Par exemple, le média d’investigation Disclose a, pour sa première enquête, suivi un convoi maritime d’armes vendues par la France à l’Arabie Saoudite grâce aux données ouvertes de navigation maritime.
Outil de recommandation : permet de produire auprès d’un utilisateur → (visiteur, potentiel client) une liste personnalisée de suggestions en lien avec les attentes que l’→ algorithme a identifiées. Par exemple, si on achète un smartphone sur →]] Amazon, la plateforme nous recommandera d’acheter une coque de protection. Idem pour l’achat d’un livre : d’autres ouvrages du même auteur sont souvent associés aux suggestions. Ces outils sont construits à partir de la technique du filtrage collaboratif.
Open data, ou les “données ouvertes” : l’open data désigne une politique d’ouverture des données au grand public initiée par un organisme (entreprise, collectivité, institution et/ou ONG etc). Le monde de la recherche scientifique s’est emparé de ce mouvement, né et déployé avec l’essor d’internet, dès le début des années 2000. L’open data était d’abord perçue comme un modèle militant, pour une diffusion des savoirs en accès libre, pour toutes et tous. Le terme d’ → Open Access (le libre accès) en découle. Il se caractérise par la création de plateformes de diffusion libres et gratuites des articles scientifiques, comme Hal.
La société en IA Open AI a développé un générateur d'articles de presse basé sur quelques mots-clés. Cependant, les chercheurs du programme ont considéré qu'il pourrait facilement se prêter à de fausses nouvelles entre les mains de mauvais acteurs, et il a donc été décidé que le programme ne serait pas rendu de suite public. [@marconiNewsmakersArtificialIntelligence2020] Le modèle fonctionne sur le GPT-2 désormais fréquemment utilisé pour générer justement des textes à partir de modélisations.
Open access, au sens de “libre accès” : en documentation, le terme est apparu dès la création de meubles de bibliothèques adaptés à des espaces ouverts au grand public, au début du XXème siècle. On parlait alors de rayonnage en “libre accès” pour qualifier un espace de connaissance ouvert, accessible, où les savoirs sont facilement disponibles. Le déploiement du World Wide → Web, dans les années 1990, a fait émerger le mouvement open access sur l’espace internet et au sein de la communauté scientifique, en réponse au monopole des revues de recherche [@serresFORMADOCTQuEstce2010]
Désormais, l’open access [@cohenOpenAccessVu2014] au sens scientifique qualifie la mise à disposition du savoir universitaire sur une plateforme en ligne gratuite et dédiée, à condition que le droit d’auteur soit respecté. C’est le cas de la bibliothèque numérique Open Edition, ou encore de l’archive ouverte Hal.
Absence de transparence dans les processus de traitement algorithmique qui aboutit à des incompréhensions, des résultats discordants ou discriminants et des doutes quant aux méthodes employées pour éviter les problèmes de désinformation comme ce fut le cas dans l'affaire des → Facebook Files
L'expression vient de l'ouvrage de Francesco Marconi qui décrit une hybridation entre le journalisme et les potentialités de l' → Intelligence artificielle.
The main message in Newsmakers is that AI can augment—not automate—the industry, allowing journalists to break more news more quickly while simultaneously freeing up their time for deeper analysis. [@marconiNewsmakersArtificialIntelligence2020]
Le newsmaker est alors un professionnel qui cherche à améliorer les dispositifs, à expérimenter sans craindre les échecs pour en tirer toutes les leçons.
Marconi entreprend d'emblée de marquer le changement de statut par une féminisation assumée :
She makes news using new tools at her disposal. She is a journalist, but right now, she’s also being asked to be a technologist. She represents what the media industry is becoming: an arena for story-enabling, not just storytelling. She is every journalist and every newsroom who wants not only to survive but to thrive in this current era of digital change.
Marconi montre la tension entre deux types de positions :
For the Newsmaker, this feels like a decision between popularity and journalistic necessity.
Fil d’actualité (newsfeed) : ensemble des nouvelles publications sur les réseaux sociaux en temps réel, à la suite les unes des autres.
Le fil est notamment utilisé sur les réseaux sociaux comme → Facebook et Twitter. L'algorithme qui préside à l'affichage influe fortement sur les informations dispensées au point de privilégier certains flux à d'autres.
Numérisation de l’information : phénomène de transformation d'un signal analogique en un signal numérique. La numérisation des médias et de nos modes de consommation de l’information suit la → Révolution numérique : les premiers pure players (médias en ligne) se développent dans les années 2000 avec un modèle d’abord publicitaire, puis par abonnement (Mediapart, Rue89). En parallèle, les connaissances et savoirs sont numérisés et stockés(Piègay, 2014).
Dès 1979, le philosophe Jean-François Lyotard notait que
L’Encyclopédie de demain, ce sont les banques de données. Elles excèdent la capacité < de chaque utilisateur. Elles sont la "nature" pour l’homme post-moderne. [@lyotardConditionPostmoderneRapport1979, p.84-85]
Selon l’IDC (cabinet de recherche international dans le domaine des technologies), le volume mondial de données stockées atteindrait 175 zettaoctets en 2025, soit cinq fois plus qu’en 2018.
Reuters a utilisé la plate-forme News Tracer pour analyser less sujets émergents sur les réseaux sociaux afin de détecter le plus pertinents, ce qui facilite le travail de repérage et de détection des journalistes. L'outil s'est avéré particulièrement efficient pour les évènements de dernière minutes. En 2015, il a permis de révéler l'existence d'une fusillade à San Bernardino en, Californie, avant tout autre organisme de presse. En 2016, News Tracer a averti ses journalistes d'un tremblement de terre en Equateur dix-huit minutes avant tout autre média.
plateforme de contenus qui utilise plusieurs →algorithmes
A compléter.
Moteur de recherche : logiciel qui permet d’exécuter une recherche d’information sur le →Web. Son ou ses→ algorithmes permettent, lorsque les informations s’affichent, de classifier et hiérarchiser les pages web. En cela, Dominique Cardon l’associe à la→ mesure d'autorité [@cardonQuoiReventAlgorithmes2015a]
ajouter ici le projet de Florian Reynaud, ref sur search engine literacy
L'expression de monstre est fréquemment employée pour décrire les effets observés ou supposés des algorithmes et les risques qu'ils font encourir aux usagers. Nourri par un fort → imaginaire algorithmique, l'expression permet d'évacuer de fait le discours scientifique.
Il demeure que parfois les créateurs des dispositifs algorithmiques sont tentés d'employés l'expression quand ils ne parviennent plus à mesurer et comprendre précisément les effets du traitement algorithmique.
Nous proposons dans ce cas de figure de considérer que se produit un "effet Jabberwokie" tant le dispositif devient difficile à catégoriser et à la classifier, et qu'il devient donc monstrueux en étant hors du spectre habituel d'observation
Il reste un paradoxe à cette monstruosité néanmoins. La monstruosité suppose une monstration. Si elle peut s'effectuer par des → leaks ou par de la → rétroingénierie, le trop fréquent emploi de l'expression de monstre produit à l'inverse un effet de dissimulation et donc de repoussoir.
Le vocabulaire de monstre est ainsi un obstacle à une réelle maîtrise du sujet. La prise de conscience → devient alors une forme d'angoisse qui ne permet pas l'accès à la connaissance →.
Publicité native : publicité publiée sous la forme d’un publi-rédactionnel, intégrée à un média en ligne. Elle s’harmonise avec la charte graphique du média, ce qui peut porter à confusion entre publicité et contenu médiatique.
Métadonnée : donnée qui définit ou décrit une autre donnée. Elle confère une information à un contenu, dont elle est extraite. Par exemple, une photographie peut contenir différentes métadonnées : l’heure de prise de la photo, le nom de l’appareil utilisé, la vitesse d'obturation employée etc. Tous ces éléments peuvent, le cas échéant, constituer une information, voire une preuve.
Elles sont utilisées à des fins documentaires, à des fins marketing mais également en matière d' → OSINT notamment par certains → journalistes d'investigation.
Entreprise d'informatique créée par Bill Gates, elle est considérée comme faisant partie des leaders du web et du numérique, les → GAFAM
Mesure prédictive : mesure qui se positionne “sous le web” [@cardonQuoiReventAlgorithmes2015a] et qui permet de calculer des → traces de navigation des → internautes. L’objectif est d’établir une → prédiction en vue d’anticiper un comportement, un acte d’achat.
Mesure d’audience : mesure qui permet de dénombrer les → clics des → internautes et d’ordonner la popularité des sites. Dominique Cardon la définit comme « à côté du web » :
La mesure d’audience mime le vote démocratique : chaque internaute qui clique dispose d’une voix et d’une seule, et ceux qui dominent le classement sont ceux qui ont < attiré l’attention du plus grand nombre. [@cardonQuoiReventAlgorithmes2015a]
Mesure de réputation : cette mesure se positionne “à l’intérieur du web” [@cardonQuoiReventAlgorithmes2015a], puisqu’elle confie aux internautes des outils pour valoriser leur → réputation, ainsi que celle de leurs produits (dans un cadre marketing). La réputation mesure le pouvoir qu’a l’internaute de voir les autres relayer les messages qu’il émet sur le réseau. Cette métrique se mesure grâce à une série d’indicateurs chiffrés, comme le → Like de →]] Facebook, mais aussi le nombre d’amis, le nombre de publications relayées, likées et commentées etc. Ces → calculateur sont aussi employés pour mesurer la réputation d'une activité. Par exemple, les livreurs indépendants en partenariat avec → Uber Eats sont notés par les clients : leur → E-réputation en dépend, ainsi que leur contrat avec la plateforme.
Mesure d’autorité : permet de hiérarchiser les sites au moyen des liens hypertextes qu’ils s’échangent. Dominique Cardon place cette mesure “au-dessus du web”:
La hiérarchisation, et donc la visibilité, est déterminée par la stratégie de référencement des sites internet. L’autorité provient d'une famille de mesures issue du PageRank, L’algorithme de Google qui hiérarchise l’information. [@cardonQuoiReventAlgorithmes2015a]
à compléter
→ Intelligence artificielle
Logiciel libre : il s’agit d’un logiciel informatique que l’on peut copier, utiliser, modifier, transformer ou encore distribuer librement (Chevet, 2002). Apparu dans les années 1980, aux prémices du mouvement Open Source, le logiciel libre est issu de l’idée d’un internet où la connaissance serait accessible à tous et sans contrainte, en réponse à la sécurisation et la protection croissante des logiciels. L’informaticien Richard Stallman, créateur du projet GNU, lança la licence GPL “copyleft” (en contradiction avec le “copyright”) permettant à tous les utilisateurs d’employer les logiciels - et par ailleurs, les connaissances - qui y sont associés [@chevetNumerisationRevuesScientifiques2002].
Loi de Goodhart : cette théorie, initiée par Charles Goodhart en 1975, souligne la difficulté de mesurer des indicateurs faisant l’objet d’enjeux politiques, sociaux et/ou financiers. Celle-ci indique que “toute régularité → Statistique tend à s’effondrer dès lors qu’une pression lui est appliquée pour la contrôler”.
Like : sur les réseaux sociaux, un like (ou “j’aime”) est une expression qui vise à afficher son approbation, son acclamation ou son contentement sur la publication d'un autre membre. Les likes sont l'objet de stratégie → réputationnelle et de marchandisation notamment sur → Facebook
Logging, ou “log” : on parle de log (diminutif de logging) pour désigner un fichier (généralement textuel) permettant de stocker un historique des événements attachés à un processus. Ces évènements sont horodatés et ordonnés en fonction du temps. On peut le traduire comme étant un “journal” de toutes les actions effectuées. Le plus connu reste l'historique des requêtes effectuées sur un → moteur de recherche car cela permet ensuite d'individualiser les résultats en constituant un → profil de l'utilisateur.
Un “leak” est un fichier confidentiel diffusé au grand public. Il est obtenu par le biais de lanceurs d’alerte ou d’enquêteurs (journalistes comme citoyens).
Il s'agit souvent d'une fuite de document ou de → données.
Lien hypertexte : élément placé dans le contenu d'une page Web et qui permet, en cliquant dessus, d'accéder à un autre contenu sur le même site web (lien interne) ou sur un site web différent (lien externe). On le nomme également hyperlien. Ces liens sont utilisés par l’algorithme PageRank de Google, qui considère qu’ils enferment la reconnaissance de l’autorité → d'autorité [@cardonQuoiReventAlgorithmes2015a]. Par exemple, lorsqu’un site A mentionne dans ses pages un site B via un lien hypertexte, celui-ci sera mieux → référencé.
Le journaliste d'investigation mène des enquêtes approfondies sur des temporalités longues.
Il est de plus en plus investi en matière de techniques → OSINT
Bot développé par le Financial Times pour détecter le genre des personnes présentes sur les photos de la homepage.
Internet : ensemble des réseaux informatiques internationaux et interconnectés. Né en 1969 avec le →réseau ARPANET, l’Internet permet désormais à des serveurs de communiquer sur la base d’un protocole commun. Cette technologie permet aux informations de circuler dans un espace et une temporalité inédits, propice au pluralisme des informations. Le → Web constitue une de ses plus célèbres applications.
Key Performance Indicators (KPI), ou Indicateurs de performance (IDP) : indicateur qui permet d’orienter les actions et décisions d’une organisation, ainsi que son accomplissement stratégique. Les KPI mettent en œuvre trois formes d’action : l’équilibration (tenir les objectifs, boussole), l’anticipation (grâce à des mesures → prédictives) ou encore l’alerte (en cas de crise).
Concept qui vise à rendre compréhensible un algorithme et sa systémique pour le grand public.
L'intelligibilité peut être produite par un travail de → rétroingénierie ou bien être réalisée grace à un travail de documentation du code.
Elle peut être aussi exigée dans les relations "code-public" en ce qui concerne les codes et algorithmes produits par les administrations comme ce qui est expliqué ici. Dans ce cas, la démarche s'approche des logique de l' → accountability)
Instrument statistique : dont l'objectif est de mesurer des → statistiques.
à compléter
Décrit dans son ouvrage [@marconiNewsmakersArtificialIntelligence2020] ce type de journalisme désigne :
Iterative journalism is empathetic journalism: It uses audience interviews, surveys, analysis of comments, and observation to learn what readers care about, not just how many of them there are. https://www.niemanlab.org/2019/01/the-year-of-iterative-journalism/
Il s'agit d'une approche qui consiste à mieux comprendre les publics de lecteurs et ce qu'ils sont susceptibles d'apprécier. Un travail de → profilage est alors requis.
Iterative journalism is the idea of adjusting coverage in real time to serve the rapidly changing information needs of readers. This is possible by mixing editorial insights with audience feedback. Knowing which issues readers care about helps journalists to be accountable to them. The iterative process starts with defining opportunities for news experimentation and identifying both the editorial resources needed and technical requirements. After launching a story prototype and measuring its audience impact, journalists evaluate whether the effort warrants additional commitment. If so, they can develop a scaling strategy, handing off the project to the proper group for the day-today management. Implementing “minimally viable” stories, pursuing augmented audience understanding, and setting up research and development labs are three distinct strategies of iterative journalism that allow newsrooms to understand what variables of a story are most relevant to news consumers. [@marconiNewsmakersArtificialIntelligence2020]
High-frequency trading : traduit comme une “transaction à haute fréquence”, le high-frequency trading désigne l’exécution à grande vitesse d’une transaction financière faite par des → algorithmes informatiques. Ces → calculateurs sont employés dans le monde de la finance pour ajuster, sans intervention humaine, les variables d’action en temps réel (de l’ordre de la microseconde), à la moindre fluctuation.
Internaute : utilisateur d’internet. L’individu, en tant qu’internaute, peut interagir avec les autres utilisateurs d’internet, consulter et créer du contenu en ligne. L’espace médiatique en ligne est un lieu d’expression où l’internaute dispose du pouvoir de création et d’alimentation de la connaissance d’après le mouvement libertaire incarné par Richard Stallman. La mathématicienne Cathy O’Neil [@oneilAlgorithmesBombeRetardement2018]alerte, quant à elle, sur le risque de reproduction des inégalités sociales (genre, origine sociale, handicap, couleur de peau etc.) Des effets exposés par le journaliste canadien Nicolas Carr dans son article “Is Google making us stupid ?”, paru en 2008 dans la revue The Atlantic. L’auteur y illustre les enjeux sociaux, cognitifs et culturels du monde digital pour l’internaute en tant qu’individu et citoyen.
Heliograph est un 'outil de génération de langage naturel du Washington Post qui a été utilisé durant les Jeux olympiques d'été de 2016, en utilisant un ensemble de données (données organisées par lignes et colonnes) telles que les résultats, le nombre de médailles et les calendriers des événements.
Les mises à jour ont été transmises via les médias sociaux sous forme d'alertes textuelles sur les médias sociaux ainsi que sous la forme d'annonce vocales via Alexa d' → Amazon.
Le concept s'appuie sur l'étude des représentations fantasmées ou mythifiées en ce qui concerne les algorithmes ou leurs effets.
L'imaginaire algorithmique ne doit pas être compris comme une fausse croyance ou une sorte de fétiche, mais >plutôt comme la manière dont les gens imaginent, perçoivent et expérimentent les algorithmes et ce que ces >imaginations rendent possible. En utilisant le prisme théorique de l'affect, compris comme l'humeur et l'intensité >correspondant aux « forces de rencontre » (Gregg & Seigworth, 2010), l'objectif est de comprendre comment les >algorithmes ont la capacité « d'affecter et d'être affecté ». [@bucherAlgorithmicImaginaryExploring2017, p.31]
Processus destiné à représenter, au moyen des termes ou indices d'un langage documentaire ou au moyen des éléments d'un langage libre, les notions caractéristiques du contenu d'un document (ressource, collection) ou d'une question, en vue d'en faciliter la recherche, après les avoir identifiées par l'analyse.
(Glossaire adbs)
Ron Day [@dayIndexingItAll2014a] effectue un lien entre l'indexation et les actuels processus algorithmiques → :
Comme dans un passé lointain, mais de plus en plus et de façon exponentielle au cours du XXe siècle et jusqu'à aujourd'hui, ces "faits" se produisent grâce à l'infrastructure des techniques et technologies documentaires, non seulement dans les activités scientifiques et professionnelles, mais aussi en tant que dispositifs de médiation dans la vie quotidienne. Avec la récursivité, l'échelle et l'ubiquité croissantes des infrastructures sociotechniques, les algorithmes et les index sont devenus à la fois plus opaques et plus mobiles, dissimulant les hypothèses logiques et psychologiques qui étaient autrefois très claires dans les classifications et les structures taxonomiques traditionnelles, descendantes et universelles, ainsi que dans d'autres objets et sujets professionnels des technologies de l'information. [@dayIndexingItAll2014a, P.16]
Les → métadonnées présentes dans les fichiers et les profils constituent un important volet actuel de l'indexation.
Hacker : désigne un spécialiste qui détourne et pirate des systèmes de sécurité informatiques pour des raisons multiples : détecter les failles d’un système en vue de le renforcer, relever un défi technique, menacer, ou encore révéler des informations. Ce volet intéresse les journalistes. Le hacker, par ses compétences informatiques, soutient les recherches du → journaliste d'investigation : déceler des → traces, des connexions, trouver une identité ou révéler des documents confidentiels. Cette relation symbiotique permet aux deux parties de s’entraider au service de l’information. Le mouvement hacktiviste est aussi l’une des branches militantes et citoyennes du hacking. Il est notamment incarné par le groupe Anonymous, créé en 2003 et qui pirate les systèmes informatiques des organismes les plus puissants en vue de rendre public des informations classées. Des sites de publications de →]] leaks, à l’instar de Wikileaks, prennent le relai en permettant de diffuser des documents à grande échelle sur → Internet
HTML ou HyperText Markup Language : langage de balisage utilisé pour la création de pages → Web, permettant notamment de définir des → liens hypertexte
Application de → Google qui va émerger en 2001 lors du 11 septembre.
Un → algorithme spécifique →]] Story Rank est créé à l'occasion
https://larevuedesmedias.ina.fr/google-news-actualites-origine-11-septembre-attentats
Le journal espagnol El País a utilisé l'outil Graphext pour cartographier les relations entre les politiques et les médias, en analysant des centaines de comptes sur médias sociaux.
https://www.graphext.com/post/3-mapas-de-poder-politico-en-espana
GAFAM : cet acronyme fait référence aux géants américains du numérique, → Google, → Amazon, → Facebook, → Amazon, → Microsoft . Ces multinationales ont construit leur fortune sur l’espace numérique → et internet : nouvelles technologies, télécommunications et commerce en ligne. Désormais, ils sont concurrencés par leurs équivalents chinois : les BATX (Baidu, Alibaba, Tencent, Xiaomi). Les GAFAM font l'objet de critiques et de tentatives de législation. L’union européenne s’attelle, depuis peu, à rééquilibrer le jeu de la concurrence en matière de numérique.
Gloriomètre : théorisé par Gabriel Tarde comme étant un “moyen de mesurer la gloire” (Psychologie économique, 1902), ce concept s’étend aujourd’hui aux mesures de → réputation en ligne ou → E-réputation. L’objet est d’évaluer, chiffrer et quantifier l’influence et la notoriété numérique au travers de chiffres, compteurs et algorithmes. Selon Dominique Cardon : “Ils dessinent un paysage hérissé de monticules et de vallées creuses, une topologie signalant les réputés, les influents et les notoires à ceux qui traversent la carte en utilisant les reliefs pour s’orienter” [@cardonQuoiReventAlgorithmes2015a]
Gatekeeper : désigne un “portier” - journaliste, citoyen sur le web - qui sélectionne les entrées informationnelles. Ces gatekeepers critiquent l’hégémonie des → algorithmes, accusés de déformer, voire de censurer les messages et de produire des → biais. Le gatekeeper peut être associé au mouvement de la → sousveillance.
Son efficacité dépend également de la → littératie algorithmique dont il dispose et qu'il parvient à transmettre aux autres.
Le flux rss est le flux qui permet de s'abonner à un média pour le consulter sur un dispositif personnel comme un agrégateur de flux.
Il permet d'être au courant des mises à jour et des dernières publications du site ou média sélectionné.
Le système tend à être de plus en plus contraint par des médias qui les suppriment voire qui les restreignent car le système décentralisé qu'il suppose s'oppose au final à des logiques de monétisation et de → profilage des usagers.
Comme le dit Lorusso :
De nos jours, le processus de collecte des URL de fil RSS semble extraordinairement pénible en comparaison avec la >fluidité des "suggestions pour vous" de Twitter." [@lorussoLiquiderUtilisateur2022a]
Forensic Architecture, ou architecture légale : Forensic Architecture est un collectif de recherche multidisciplinaire qui enquête sur des sujets liés aux droits de l’homme, aux forces de police, aux armées et à l’Etat. Dirigée par l’architecte Eyal Weizman, à Londres, l’agence a publié une soixantaine de contre-enquêtes disponibles en accès libre. La dernière concerne la mort de Ahmad Erekat, un jeune palestinien tué le 23 juin 2020 par des troupes isréliennes.
Les travaux sont basés sur une approche spécifique de l' → OSINT qui repose sur une analyse des → traces.
Feed-back : action d’opérer un retour d’information. Lorsqu’un public reçoit un message, il peut répondre à l’émetteur. Ce processus permet le contrôle d’un système (social, informatique, psychologique) en l’informant de son action. Les systèmes →statistiques ont besoin de feedback pour les alerter lorsqu’ils s’égarent (O’Neil, 2018). La considération des algorithmes pour cette remontée d’information est appelée un feedback loop, ou une “boucle de rétroaction”.
L'étude des effets des algorithmes et la possibilité de faire remonter des observations et des critiques fait partie des recommandations pour lutter contre les impacts négatifs et notamment les → biais.
Amana Kaskazi. Impact assessment
Cas dans lequel le dispositif a mal interprété les résultats et à classer un élément ou un document dans la catégorie recherchée alors qu'il s'agit d'une erreur manifeste.
C'est un → biais classique qui oblige à renforcer le dispositif en améliorant le → Machine learning
Filtrage collaboratif : propose à l’utilisateur d’étendre son champ de recommandations en comparant son profil →profil et ses données avec celles d’autres utilisateurs ayant acheté les mêmes produits.
Concept qui désigne les stratégies en matière de design de l'information qui privilégie des logiques de flux ininterrompu qui s'observent notamment dans les → Newsfeed des réseaux sociaux où les contenus sont générés automatiquement et qui s'opposent à des flux construits à partir de traitements informationnels reposant sur le travail de l'usager qui sélectionne ses → Flux Rss
L'hyperlinéarité tel que le décrit Silvio Lorusso est une → prolétarisation :
L’hyperlinéarité est la linéarisation en réseau de contenus, de sources et d’activités disparates dans des listes : photos >personnelles, articles, discussions, sondages, publicités, etc. Bien sûr, un utilisateur peut toujours cliquer pour >sortir, mais cela ressemble plus à du zapping sédentaire qu’à une exploration active de l’espace organisé en réseau. >De Facebook à Instagram à Reddit, et on recommence. Voilà le zapping hyperlinéaire, particulièrement visible >dans la structure compartimentée des ordinateurs mobiles" [@lorussoLiquiderUtilisateur2022a]
le réseau social créé par Zuckerberg est considéré comme faisant partie des fameux → GAFAM
Le New York Times a testé les technologies de reconnaissance faciale en utilisant les technologies → Amazon dédiées qui sont disponibles facilement. Le but était de montrer les risques de la → reconnaissance faciale. L'équipe de journalistes est parvenue à identifier une centaine de visages de personnes filmées par les caméras alors qu'ils marchaient à New York dans le Bryant Park. Un article interactif a été publié pour présenter les résultats et lancer une discussion sur les risques de l'utilisation de ce genre de technologies par les gouvernements et sur la → Responsabilité (accountability) que cela entraîne.
Une erreur dans une base de données ou un problème d'interprétation de la donnée peut entraîner par la suite des erreurs d'interprétation notamment par des intelligence artificielle. C'est le cas d'une programme de production de news de façon automatique qui a publié en juillet 2015 une annonce comme quoi l'action → Netflix avait chuté de 71% alors qu'elle avait en réalité plus que doubler, du fait d'une erreur d'analyse de la → qui avait été remontée.
Ces erreurs montrent l'importance de la → documentation des dispositifs et la nécessité de personnels qui veillent à la cohérence et la conformité des sets de données utilisées.
In fact, journalists should always be on the lookout for potential errors. For instance, a Los Angeles Times’s bot in 2017 mistakenly published an automated news update about a 6.8 magnitude earthquake off the coast of California—that actually happened in 1925.16 The inaccuracy was linked to an error in the United States
Geological Survey data and is an important reminder that automated systems require human oversight, such as review from automation editors in the newsroom. [@marconiNewsmakersArtificialIntelligence2020]
Cas dans lequel le dispositif n'est pas pas parvenu à identifier un cas pourtant avéré. Il a été mal classé par le dispositif.
Par exemple, dans le cas où on chercherait à détecter automatiquement dans un corpus de document les affaires liées par exemple à des leaks mettant en évidence une malversation concernant la France, un document peut-être non classé par l'algorithme car il n'a pas trouvé des éléments textuels lui permettant de le rapporter à la France soit du fait d'un problème d'océrisation, soit du fait d'une déficience de la base de données.
C'est un → biais classique qui oblige à renforcer le dispositif en améliorant le → Machine learning
Le mot fun est ici à comprendre dans un sens quasiment culturel dans une approche qui rappelle Alan Liu lorsqu'il évoque une culture de l'information qui est essentiellement "cool".
Ici, il s'agit de décrire un phénomène dans lequel le "fun" est un prérequis de la → Culture algorithmique comme l'explique bien :
Le « fun » évoque souvent les formes de plaisir caractérisées par « l’économie de l’expérience », dans laquelle la vente >est associée au tourisme, saturée d’une « authenticité » qui se déconstruit elle-même. Il comprend aussi des >« expériences » vécues par l’utilisateur – du divertissement sur écran, souvent présenté en série sous forme de feed >(zapper ou scroller à l’infini sont les cousins contrariés du « fun »). Le « fun » fait du plaisir une marchandise, une >fin en soi qui peut s’abstraire de ses moyens. Il suppose – ou plutôt prescrit – de ressentir le temps comme un vide >uniforme, un espace vierge qui doit être rempli par différentes phases d’attention préfabriquées. Le « fun » advient >lorsque nous terrassons l’ennui ; l’idée que par défaut l’on s’ennuie est le prérequis du « fun ».
[@horningPolitiqueScroll2022]
Enchère en temps réel, ou real-time bidding : une technologie marketing qui consiste à vendre en temps réel un → profil d’utilisateur en vue de cibler la publicité. Pendant que l’internaute charge la page web qu’il désire consulter, ses données sont mises aux enchères afin que des → algorithmes programmés par des annonceurs déroulent des bandeaux publicitaires adaptés.
L'effet Jabberwocky est un phénomène qui se produit lorsque l'on utilise l'apprentissage automatique (→ Machine learning] pour traiter de grandes quantités de données. Le terme fait référence au poème de Lewis Carroll "Jabberwocky", dans lequel des mots inventés sont utilisés pour créer une impression de sens sans pour autant avoir de signification précise.
Lorsqu'un algorithme de machine learning est utilisé pour traiter des données massives, il peut devenir très complexe et difficile à comprendre. Les données entrées dans le modèle peuvent également contenir des erreurs ou des biais, ce qui peut conduire à des résultats inattendus. Les chercheurs peuvent alors avoir du mal à comprendre comment le modèle fonctionne exactement et comment il a produit ses résultats.
L'effet Jabberwocky peut également se produire lorsque le modèle est utilisé pour des tâches pour lesquelles il n'a pas été spécifiquement conçu. Par exemple, un modèle conçu pour la reconnaissance d'images peut être utilisé pour générer des descriptions de ces images. Les résultats peuvent sembler corrects à première vue, mais sans une compréhension précise de la façon dont le modèle fonctionne, il peut être difficile de dire avec certitude si les résultats sont fiables ou non.
En résumé, l'effet Jabberwocky souligne la difficulté à comprendre les résultats produits par des algorithmes de machine learning très complexes et à grande échelle, en raison de la masse de données traitées et de la difficulté à comprendre le cheminement effectué et l'impossibilité de le comprendre et de le reproduire.
Le concept a été créé par Olivier Le Deuff en 2020 dans un de ces cours sur les enjeux algorithmiques autour des données.
Economie de l’attention : concept théorisé en 1971 par Herbert Simon qui oppose la société actuelle aux sociétés passées en matière d’information. Aujourd’hui, les contenus sont bien plus nombreux ; l’attention s’est raréfiée : nous avons tous accès à une quantité gigantesque de données, supérieure à nos capacités attentionnelles. De fait, notre attention se porte vers une sélection d’informations déterminée en fonction de critères personnels : valeurs, goûts, temps. [@cittonEconomieAttention2014]
cette rareté se situe du côté de la réception des biens culturels, et non plus seulement du côté de leur production
Les sociétés numériques ont construit leur économie sur la monétisation de ce temps attentionnel : les réseaux sociaux sont à prime abord gratuits, mais leur économie est fondée sur l’attention qu’un utilisateur porte à une publicité ou encore un contenu commercial. L’attention dirige l’acte d’achat et semble plus “rentable” qu’un abonnement traditionnel.
Échantillonnage : panel d’individus sélectionnés en fonction de critères de proportionnalité. Sur le →Web, les échantillons font appel à d’autres critères de sélection, comme le fait d’être usager ou consommateur, ou par l’appartenance à des communautés ethniques, religieuses ou culturelles.
Pricing Dynamique, ou dynamic pricing : technique marketing qui vise à adapter un prix en fonction des variables de la demande. Par exemple, certains → profis n’ont pas les mêmes tarifs ou prêts à la consommation parce qu’ils ont des données et informations différentes.
Processus qui consiste à documenter et expliciter les algorithmes utilisés au sein d'une plateforme soit de la part des protagonistes soit par des usagers extérieurs.
Le processus extérieur nécessite souvent un travail de → rétroingénierie.
Au niveau des rédactions, Marconi recommande d'effectuer ce travail de documentation :
Journalists can streamline the process of assessing the reliability of algorithms by developing documentation to be used as a reference for future projects. [@marconiNewsmakersArtificialIntelligence2020]
Il décrit ensuite les éléments qui doivent figurer dans ce travail :
OVERVIEW: What AI system is being used and what are its
attributes?
• METHODOLOGY: Why was this particular algorithm used and how
was the data sourced?
• PROCESS: What steps were taken to ensure editorial quality and
accurate results?
• EDGE CASES: What potential errors were flagged with the data and
algorithm?
• DISCLOSURE: How was the audience informed of the use of AI?
• NEWSROOM IMPACT: What were the success metrics in terms of
story engagement, differentiation, time savings, etc.?
Données calculables : les données calculables sont des informations qui peuvent être prises en compte par un système informatique.
Le savoir et les connaissances, les photographies et les vidéos, nos mails et ce que nous racontons sur Internet, mais aussi nos clics, nos conversations, nos achats, notre corps, nos finances ou notre sommeil deviennent des données calculables. [@cardonQuoiReventAlgorithmes2015a]
L'Associated Press a montré comment elle avait développé un système de tracking de navires qui exploitent des esclaves. Ce travail a reçu le Prix Pulitzer 2016. Consacrée aux pratiques abusives de l'industrie de la pêche en Asie du Sud-Est, AP avait collaboré avec la société de satellites commerciaux Digital Globe. Les dispositifs utilisent des algorithmes de type → Deep learning et de détection d'objets ce qui a permis de repérer et de suivre des bateaux transportant des esclaves. Le reportage a permis la la libération de plus de deux milliers d'individus qui avaient été retenus en captivité et contraints au travail forcé.
Digital labor : concept apparu dans les années 2000 et qui désigne toutes les activités liées au numérique qui produisent de la valeur, encadrent la participation et mesurent des statistiques. Le digital labor décrit les activités numériques quotidiennes des usages des réseaux sociaux et objets connectés. Il s’agit de la réduction de nos liaisons numériques à un moment de production [@cardonQuEstceQue2015]
Beaucoup d'expériences basées sur l'intelligence artificielle utilisent massivement le digital labor pour alimenter les algorithmes de machine learning mais également pour vérifier les informations voire pour suppléer à l'inefficacité du dispositif.
Il est ainsi possible par exemple d'acheter des → Likes à faible coût pour accroître de façon superficielle son → E-réputation.
Spécialiste de l'analyse des données, notamment des →
Journalisme de données - data journalism : Le journalisme de données, ou journalisme de bases de données, est une manière d’exercer le journalisme via l'exploitation de données → statistiques et la mise à la disposition de celles-ci au public (data visualisation, graphique, article etc). La donnée peut être exploitée par plusieurs prismes : l’investigation, la vérification d’une information ou d’un postulat, mais aussi la visualisation. Il n’existe pas une manière de pratiquer le Data Journalisme bien qu’elle soit liée à des outils statistiques : dans certains cas, elle dépend de l’ouverture des bases de données pourtant dites “open source”, mais aussi de la maîtrise de leur traitement sur un tableur. Le data journaliste peut aussi faire appel à des hackeurs et spécialistes du monde numérique pour les accompagner dans la recherche d’informations en ligne [@grayGuideDatajournalismeCollecter2013a]
L'importance des données en → Open Data est régulièrement rappelée pour réaliser un travail avec des données à jour et précises afin de dépasser les seules impressions.
La culture algorithmique est un concept qui désigne l'influence des algorithmes sur la culture et la manière dont on perçoit le monde qui nous entoure. Le concept est notamment décrit par [@striphasAlgorithmicCulture2015]
Rob Horning montre cet effet de "façonnage" des perceptions que produit notamment les → Newsfeed des réseaux sociaux sur les individus :
La culture algorithmique nous laisse généralement éprouver notre identité en tant que « forme pure » atomisée
que pour vous ; vous êtes la seule raison pour laquelle il apparaît sous cette forme, et il n’accomplit rien d’autre que >de vous autoriser à apprécier votre place au cœur de cette boucle fermée. [@horningPolitiqueScroll2022]
Data Mining, ou “fouille des données” : cette méthode établit des liens entre les données → données et les transforme en informations. Elle consiste à ranger et hiérarchiser des profils selon des catégories établies par le propriétaire des données. Par exemple, des clients jugés “intéressants” sont dissociés des autres. De même, de nouveaux utilisateurs sont orientés et catégorisés. L’algorithme de l’application de rencontres → Tinder correspond à cette méthode de calcul [@duportailAmourSousAlgorithme2019]
Le Daily Wire est un site de contenu qui a optimisé ses résultats de diffusion sur → Facebook en cherchant à mieux comprendre son mode de fonctionnement. Une opportunité pour ce média qui propose des contenus de type sensationnel.
Ben Shapiro son fondateur possède une maîtrise avancée de l' → algorithme d Facebook et est parvenu à placer régulièrement des séries de contenus parmi les dix meilleures audiences de la plateforme avec une stratégie fondée notamment sur la → publicité ciblée
The markup a analysé les raisons de ce succès après un premier travail de *https://www.npr.org/2021/07/19/1013793067/outrage-as-a-business-model-how-ben-shapiro-is-using-facebook-to-build-an-empire?t=1628664284408NPR*
Copyleft : lorsqu’un auteur donne l’autorisation d’utiliser, étudier, copier, modifier et diffuser son œuvre, en dépit de son droit d’auteur, dans la mesure où cette même autorisation est perpétuée. [@chevetNumerisationRevuesScientifiques2002]
Le terme de copyleft, aussi “gauche d’auteur”, est une forme de licence de propriété intellectuelle créée et défendue par l’informaticien militant Richard Stallman. Pour lui, l’espace web se situe en dehors du champ de la propriété intellectuelle : le copyleft, en opposition au terme de "copyright”, permet à tous les internautes d’accéder à la connaissance du logiciel. Au moment de l’apparition d’internet dans l’espace public, de nombreux programmeurs se sont appropriés le copyleft pour diffuser des savoirs et des connaissances à tous.
Le Coût par → clic désigne un mode de facturation de la publicité qui permet aux annonceurs de payer uniquement quand un utilisateur clique sur une publicité en ligne.
Cookie : Un cookie est un petit fichier stocké par un serveur dans le terminal (ordinateur, téléphone, etc.) d’un utilisateur et associé à un domaine web (c'est-à-dire, dans la majorité des cas, à l’ensemble des pages d’un même site web). Ce stockage de données lui permet d’identifier l’internaute lors d’une prochaine connexion, avec une visée généralement marketing. Il existe plusieurs types de cookies : nécessaires, statistiques, internes ou encore tiers. Tous ont des usages différents.
Les cookies tiers vont disparaître des navigateurs d'ici 2023. D'autres stratégies de suivi vont les remplacer.
voir cet article https://flint.media/posts/81-refuser-les-cookies-aussi-facilement-quon-les-mange?utm_campaign=bot-38&utm_content=newskitlink&utm_medium=email&utm_source=flint
LeData-analyste est la personne chargée de recueillir des données sur différents canaux médiatiques (entre autres numériques) en vue de produire des informations utiles aux prises de décision des dirigeants.
Son travail précède souvent celui du → data scientist.
Conseil national du numérique (CNNum) : commission consultative indépendante créée en 2011 par la présidence de la République, chargée d’étudier nos relations au → numérique. L’un de ses rapports fait état d’une “obligation de loyauté” des plateformes envers leurs utilisateurs, c’est-à-dire de “l’objectivité” des services qu’elle propose.
« Attrape-clics » (pratique qualifiée de clickbait) : le terme de clickbait, qui signifie littéralement "appât à → clics", désigne une technique de création ou de rédaction publicitaire qui vise à maximiser "abusivement" le nombre de clics enregistrés sur une annonce publicitaire ou une publication sociale quitte à ce que l'annonce ou la publication ait un caractère "déceptif".
Le capitalisme de surveillance : revendique l’expérience humaine → comme une matière première gratuite destinée à être traduite en donnée comportementale (Zuboff, 2018). Ces données sont transformées en produit de → prédiction et négociées sur un nouveau marché économique, celui des prédictions comportementales, appelé “marché de comportements futurs”.
Le système repose pour beaucoup sur la captation de données ou captologie.
Mécanismes qui permettent de récupérer un maximum de données notamment de type données personnelles à des fins de → profilage.
Calculateur : un calculateur est un ordinateur, logiciel ou → algorithme spécialisé dans les calculs→. Les calculateurs sont guidés par des choix : selon la nature des données enregistrées, la manière de les catégoriser, les techniques statistiques ou la visualisation employées, le résultat sera différent.
Selon Dominique Cardon
Les calculateurs fabriquent notre réel, l’organisent et l’orientent. Ils produisent des
conventions et des systèmes d’équivalence qui sélectionnent certains objets au
détriment d’autres, imposent une hiérarchisation des valeurs qui en vient
progressivement à dessiner les cadres cognitifs et culturels de nos sociétés →. (Cardon, 2015, p.13)
.
« Bruits » informatiques : interférences communicationnelles dans un espace numérique entre un émetteur (A) et un récepteur (B) →. Voir le schéma de Shannon et Weaver (1948).
Bit : le bit, de l’anglais binary digit, est la plus petite unité de données d’un ordinateur →. Un bit a une seule valeur binaire, 0 ou 1, et est conçu pour stocker des données et exécuter des instructions en multiples de bits, nommés octets. Un octet est formé de huit bits et permet de mesurer les capacités de mémoire et de stockage de données.
Masse de données ou “big data” : aussi appelées “mégadonnées”, ou "données massives”, les big data désignent la quantité gigantesque de données produites chaque jour par les utilisateurs d’internet. Ce terme, défini en 1997, soulève des problématiques liées au stockage, à la gestion et la protection de cet ensemble très volumineux de données qu’aucun outil classique de gestion de base de l’information ne peut contenir et travailler. Elles sont stockées dans des centres de données (“data centers”) qui regroupent des équipements techniques de traitement et de stockage de données et des logiques de → calcul algorithmique. La mathématicienne et militante Cathy O’Neil [@oneilAlgorithmesBombeRetardement2018] souligne que les processus qui reposent sur le big data "n’inventent pas le futur, ils codifient le passé.""
Les algorithmes de gestion de ce flux d’informations perpétuant des inégalités sociétales. La chercheuse milite pour une révolution des valeurs et prône un modèle de gestion plus éthique, au-delà des logiques capitalistes et commerciales qui forment, par exemple, l’économie de l’attention.
la boîte noire désigne l'opacité qui demeure dans les processus algorithmiques en ce qui concerne les données des usagers.
Le principe consiste donc à comprendre ce qui s'y déroule soit par des processus de → rétroingénierie ou des pressions pour obliger les plateformes à rendre des comptes → Responsabilité (accountability).
Nicholas Diakopoulos : “algorithms sit in opaque black boxes, their inner workings, their inner ‘thoughts’ hidden behind layers of complexity" www.nickdiakopoulos.com/projects/algorithmic-accountability-reporting/.
Biais : un biais met en évidence un algorithme dont le résultat est défectueux ou erroné. Les causes sont plurielles : elles peuvent provenir d'hypothèses inexactes, d'une mauvaise décision du concepteur ou de prises en considération de représentations stéréotypées, que dénonce Cathy O'Neil [@oneilAlgorithmesBombeRetardement2018]. La chercheuse donne l’exemple d’un algorithme permettant de prédire les résultats aux examens d’élèves qui n’ont pas pu terminer leur semestre. En partant de l’hypothèse que les écoles de quartiers à faibles revenus ont de moins bons résultats aux examens que les autres, l’algorithme abaisse la notation des élèves qui y sont issus. Le calculateur répète ainsi un biais en associant le niveau de vie (et, en l'occurrence, la pauvreté) à la notation (O’Neil, 2018). Ces biais algorithmiques engendrent des pratiques, comme celle du → redlining, lorsque des prêts bancaires sont refusés à certaines populations en raison de leur zone géographique de vie, déterminées par leur données personnelles.
Du fait du risque de biais parfois massifs, les traitements algorithmiques peuvent être considérés comme des → Armes de destruction mathématique (ADM).
Les biais renforcent parfois les préjugés ou décisions → racistes.
Benchmarking : évaluation marketing de la concurrence face à un même produit ou service. Cette étude comparative vise à traduire des actes en résultats chiffrés (Blanchard, 2018) grâce à plusieurs outils : des indicateurs → associés à des objectifs ou encore des mesures de performances.
Clic : pression du doigt sur une souris d’ordinateur, cette action déclenche l’exécution d’un programme. Le clic est assimilé à une action rapide et spontanée (Blay, 2016). Il peut aussi être considéré comme un indicateur d’→ audience [@cardonQuoiReventAlgorithmes2015a]
Programme back door, ou “porte dérobée” : programme malveillant utilisé afin d’accéder sans autorisation aux informations et à la gestion d’un système informatique. Il n’apparaît pas dans les programmes en cours d’exécution et n’est pas visible de l’utilisateur ; son identification n’est pas évidente. Les back doors peuvent capter des informations, extraire des données de navigation et d’utilisation du système informatique, mais aussi installer des logiciels et, plus globalement, surveiller toutes les actions de l’utilisateur.
Automatisation : l'automatisation fait référence à l’utilisation de logiciels et de systèmes pour exécuter des processus afin de remplacer le travail manuel des informaticiens. Cela signifie que la machine fait des choix autonomes, en dehors du clic et de la main humaine. Par exemple, certains fichiers peuvent s’auto-enregistrer sur un ordinateur, ou des mises à jour peuvent se lancer automatiquement, sans demande de l’utilisateur.
Les craintes concernant l'automatisation portent sur le marché de l'emploi avec le remplacement de personnes par des systèmes capables d'effectuer des tâches administratives répétitives.
Toutefois, l'automatisation permet aussi d'envisager des pistes d'hybridation notamment en matière de → data journalisme.
L'Artificial Intelligence Act (AIA) est un cadre législatif proposé par la Commission européenne en avril 2021 pour réglementer et superviser les applications de l'intelligence artificielle (IA) au sein de l'Union européenne (UE). Voici une fiche explicative des éléments clés de l'AIA :
Objectif : L'AIA vise à garantir un niveau élevé de protection de la vie privée, des consommateurs, des droits de l'homme et des libertés fondamentales pour les citoyens de l'UE. Il encourage également l'innovation et la compétitivité des entreprises européennes en fournissant un cadre réglementaire clair et harmonisé pour le développement et l'application de l'IA.
Champ d'application : L'AIA s'applique aux fournisseurs, utilisateurs et importateurs d'IA au sein de l'UE, ainsi qu'aux fournisseurs et importateurs situés en dehors de l'UE, dont les systèmes d'IA sont utilisés dans l'UE.
Catégories de risques : L'AIA établit une classification des applications d'IA en fonction des risques potentiels qu'elles présentent pour les droits fondamentaux et la sécurité :
Risque inacceptable : Les applications d'IA présentant un risque inacceptable pour les droits fondamentaux et la sécurité publique sont interdites. Cela inclut les systèmes de manipulation du comportement humain, les systèmes de notation sociale généralisée et les applications de surveillance en temps réel, entre autres.
Risque élevé : Les applications d'IA présentant un risque élevé sont soumises à des exigences réglementaires strictes en matière de transparence, de responsabilité, de sécurité et de protection des données.
Risque limité : Les applications d'IA présentant un risque limité, telles que les chatbots, doivent respecter certaines obligations en matière de transparence.
Risque minimal : Les applications d'IA présentant un risque minimal ne sont pas soumises à des exigences spécifiques.
Qualité des données : Les fournisseurs d'IA doivent s'assurer que les données utilisées pour entraîner, valider et tester les systèmes d'IA sont de haute qualité, sans biais discriminatoires.
Documentation : Les fournisseurs d'IA doivent documenter et fournir des informations détaillées sur les systèmes d'IA, leur fonctionnement, leurs objectifs, leurs limites et leur impact sur les droits fondamentaux.
Transparence : Les utilisateurs d'IA doivent être informés lorsqu'ils interagissent avec un système d'IA, et les informations sur la logique et les paramètres de fonctionnement de l'IA doivent être accessibles.
Responsabilité humaine : Les décisions prises par les systèmes d'IA à haut risque doivent être supervisées et vérifiées par des humains.
Sécurité et robustesse : Les systèmes d'IA doivent être sécurisés et résistants aux attaques et aux erreurs, et les fournisseurs d'IA doivent mettre en place des mécanismes de contrôle et de surveillance appropriés.
#GPT4
Arme de destruction mathématique (ADM) : défini par Cathy O'Neil [@oneilAlgorithmesBombeRetardement2018], cet acronyme fait référence aux outils algorithmiques employés pour servir les technologies d'intelligence artificielle. Certains d'entre eux, lors de leur application, répètent des schémas sociaux discriminatoires : face à l'embauche, par exemple, certains algorithmes de sélection associent des caractéristiques (qualité, défaut, notation etc) à des groupes ethniques, sociaux ou de genre en s’inspirant des représentations sociétales. Ils adoptent, pour certains, une attitude différenciée face aux candidats à l’embauche, sur des critères ethniques : les personnes de couleur sont moins bien considérées que les candidats associés - au moins socialement - à la couleur de peau blanche. On parle alors de → biais algorithmique (O’Neil, 2018).
Entreprise considérée comme étant un → GAFAM, elle s'inscrit dans l'histoire de la micro-informatique avec plusieurs innovations marquantes.
Niveau supérieur de la connaissance des algorithmes qui reposent sur des savoirs et une maîtrise qui permet de les utiliser, de les contourner ou mettre à distance.
Constitue de fait le second niveau de la → littératie algorithmique qui fait suite au premier niveau de l'→ algorithm awareness.
Concept qui désigne la prise de conscience des algorithmes et de leurs effets dans les dispositifs utilisés.
Ce stade est souvent le premier niveau d'une → littératie algorithmique.
Plusieurs études mentionnent cette importance et envisage le fait d'évaluer cette prise de conscience par une échelle de littératie algorithmique dédiée [@dogruelDevelopmentValidationAlgorithm2021]
Concept alternatif à celui d'→ algorithme qui a parfois été confondu en terme de portée et de définition.
Striphas tente d'ailleurs d'utiliser le concept d'une façon qui le distingue de celui d'algorithme :
D'une part, nous avons des algorithmes - un ensemble de procédures mathématiques dont le but est d'exposer une >vérité ou une tendance sur le monde. D'un autre côté, nous avons des algorismes, des systèmes de codage qui ont >la capacité de révéler, mais qui sont tout aussi sinon plus susceptibles de cacher. [@striphasAlgorithmicCulture2015, p. 404-405]
User-centric et site-centric : deux approches complémentaires de la → mesure d'audience sur des sites internet, dans une même logique marketing. L’étude site-centric désigne l’observation du trafic d’internautes sur une page web, tandis que l’approche user-centric se concentre sur le parcours de l’utilisateur, visible grâce au traçage de ses données (par le biais de → Cookies, par exemple).
Projet de loi qui n'a jamais abouti déposé en 2019 par les sénateurs américains Ron Wyden et Cory Booker, et la représentante Yvette Clarke. Le projet de loi prévoyait que les entreprises ayant plus de 50 millions de dollars de revenus (ou possédant plus de 100 millions de données de personnes) devraient rendre compte → des effets algorithmiques de leur technologie.
Data broker, ou “courtier de données” : individu ou organisme qui se spécialise dans la collecte de → données personnelles en ligne. Les data brokers achètent, agrègent, affinent et revendent les données qu’ils obtiennent avec le consentement des utilisateurs à travers l’acceptation de Conditions générales d’utilisation (CGU). Ils spéculent sur la valeur de ces données avant de les revendre à un prix avantageux. Les organismes Epsilon, Ecxiom, Experian, Datalogix ou encore Cambridge Analytica sont des data brokers.
Théoricien de l' → algorithme
Plateforme
Considérée comme faisant partie des → GAFAM, la plateforme créée par Jeff Buzos utilise de nombreux algorithmes.
Data labeler : personne rémunérée pour effectuer des travaux de nettoyage de données à bas prix. Ces travaux sont postés sur des interfaces de micro-travail en ligne comme la plateforme d’Amazon : Mechanical Turk.
Ces travaux à bas coût font partie du phénomène plus général du → digital Labor [@cardonQuEstceQue2015 ; @casilliAttendantRobots2019]
Algorithme qui permet de recommander à un usager à un produit en fonction de ses requêtes mais également en fonction des achats ou des habitudes d'autres usagers.
Par exemple,→ suggère des pistes d'achats de cette manière.
La plateforme True Anthem utilisée notamment par Reuter, the Chicago Tribune permet de déterminer quelles "histoires" peuvent être remises en circulation et rediffusées sur les médias sociaux. Le système détecte les signaux afin de →prédire les performances, le taux potentiel d'engagement et les moments opportuns où relancer l'information.
Une indexation automatique à partir des métadonnées permet la génération automatique des contenus en respectant la charte éditoriale du média.
A/B testing, ou test A/B : technique marketing d'échantillonnage en double-aveugle qui consiste à proposer à un panel d’internautes un même objet qui diffère selon un seul critère (la couleur, le logo, le matériau etc.). Par exemple, on peut proposer aux sondés de choisir quelle brique de lait ils préfèrent entre une bleue, une verte et une rouge.
Cette technique (...) conçoit désormais la société comme un laboratoire à grande échelle. Nous sommes leurs cobayes. [@cardonQuoiReventAlgorithmes2015a, p.64]
Les → internautes sont donc utilisés pour améliorer le produit.
Le concept renvoie aux capacités de résistance aux effets des → Algorithmes et aux possibilités de contournement et de détournement voire de braconnage.
Ces effets ont été étudiés dans certaines études notamment auprès des jeunes publics.
Cette résistance algorithmique peut être considérée comme faisant partie des compétences de la → Littératie algorithmique.