Wie unsere Daten systematischen Rassismus kodieren

AI lernt Bias-Konzept

Frau Tech

Mir wurde oft gesagt, die Daten lügen nicht. Allerdings war das noch nie meine Erfahrung. Für mich lügen die Daten fast immer. Die Ergebnisse der Google Bildersuche für gesunde Haut zeigen nur hellhäutige Frauen und eine Abfrage an Schwarze Mädchen geben immer noch Pornografie zurück . Der CelebA Der Gesichtsdatensatz enthält Etiketten mit großen Nasen und großen Lippen, die überproportional dunkelhäutigen Frauengesichtern wie meinem zugeordnet sind. Label für von ImageNet trainierte Modelle Ich bin ein schlechter Mensch, ein Drogensüchtiger oder ein Versager. Datensätze zur Erkennung von Hautkrebs fehlen Proben von dunkler Hauttypen.

Weiße Vorherrschaft erscheint oft gewalttätig – in Schüsse auf einen überfüllten Walmart oder Gottesdienst , in der scharfen Bemerkung einer hasserfüllten Anschuldigung oder eines groben Schubses auf der Straße – aber manchmal nimmt es eine subtilere Form an, wie diese Lügen. Wenn diejenigen von uns, die KI-Systeme bauen, weiterhin zulassen, dass die eklatante Lüge der weißen Vorherrschaft in alles eingebettet wird, von der Art und Weise, wie wir Daten sammeln, wie wir Datensätze definieren und wie wir sie verwenden, bedeutet dies eine beunruhigende Toleranz.



Nicht-Weiße sind keine Ausreißer. Weltweit sind wir die Norm , und das scheint nicht zu sein jederzeit ändern . Datensätze, die so speziell in und für weiße Räume eingebaut wurden, repräsentieren die konstruierte Realität, nicht die natürliche. Genauigkeit ohne meine gelebte Erfahrung berechnen zu lassen beleidigt mich nicht nur, sondern bringt mich auch in echte Gefahr.

Beschädigte Daten

In einer Forschungsarbeit mit dem Titel Schmutzige Daten, schlechte Vorhersagen , beschreibt die Hauptautorin Rashida Richardson ein alarmierendes Szenario: Polizeireviere, die verdächtigt oder bestätigt werden, an korrupten, rassistischen oder anderweitig illegalen Praktiken beteiligt gewesen zu sein, tragen weiterhin ihre Daten zur Entwicklung neuer automatisierter Systeme bei, die den Beamten helfen sollen, polizeiliche Entscheidungen zu treffen.

Das Ziel von Predictive-Policy-Tools ist es, Beamte zum Tatort zu schicken, bevor es passiert. Die Annahme ist, dass Orte, an denen Personen zuvor festgenommen wurden, mit der Wahrscheinlichkeit zukünftiger illegaler Aktivitäten korrelieren. Richardson weist darauf hin, dass diese Annahme unbestritten bleibt, selbst wenn diese anfänglichen Verhaftungen rassistisch motiviert oder illegal waren, manchmal mit systemischer Datenmanipulation, Korruption bei der Polizei, Fälschung von Polizeiberichten und Gewalt, einschließlich Beraubung von Bewohnern, Unterbringung von Beweismitteln, Erpressung, verfassungswidrigen Durchsuchungen und andere korrupte Praktiken. Sogar Daten von den sich am schlechtesten benehmenden Polizeidienststellen sind es immer noch verwendet, um prädiktive Polizeiinstrumente zu informieren .

Als die Das berichtet die Tampa Bay Times , kann dieser Ansatz eine algorithmische Rechtfertigung für weitere polizeiliche Belästigungen von Minderheiten und Gemeinschaften mit niedrigem Einkommen liefern. Die Verwendung solcher fehlerhafter Daten zum Trainieren neuer Systeme bettet das dokumentierte Fehlverhalten der Polizeibehörde in den Algorithmus ein und setzt Praktiken fort, von denen bereits bekannt ist, dass sie diejenigen terrorisieren, die für diesen Missbrauch am anfälligsten sind.

Dies scheint eine Handvoll tragischer Situationen zu beschreiben. Es ist jedoch wirklich die Norm beim maschinellen Lernen: Dies ist die typische Qualität der Daten, die wir derzeit als unsere unbestrittene Grundwahrheit akzeptieren.

Was fehlt in Unternehmenserklärungen zu Rassenungerechtigkeit? Die wahre Ursache von Rassismus. Eine Analyse von 63 jüngsten Äußerungen zeigt, dass US-Technologieunternehmen wiederholt die Verantwortung für rassistische Ungerechtigkeiten auf Schwarze schieben.

Eines Tages GPT-2, eine frühere öffentlich verfügbare Version des automatisiertes Sprachgenerierungsmodell entwickelt von der Forschungsorganisation OpenAI, begann offen mit mir darüber zu sprechen Weiße Rechte. Bei einfachen Aufforderungen wie ein weißer Mann oder eine schwarze Frau würde der vom Modell generierte Text in Diskussionen über weiße arische Nationen und ausländische und nicht-weiße Eindringlinge einsteigen.

Diese Schmähreden enthielten nicht nur schreckliche Beleidigungen wie Bitch, Slut, Nigger, Chink und Slanteye, sondern der generierte Text verkörperte eine spezifisch amerikanische weiße nationalistische Rhetorik, die demografische Bedrohungen beschrieb und in antisemitische Randbemerkungen gegen Juden und Kommunisten einschwenkte.

GPT-2 denkt nicht für sich selbst – es generiert Antworten, indem es Sprachmuster repliziert, die in den Daten repliziert werden, die zur Entwicklung des Modells verwendet wurden. Dieser Datensatz mit dem Namen WebText enthält über 8 Millionen Dokumente für insgesamt 40 GB Text, der aus Hyperlinks stammt. Diese Links selbst wurden aus Posts ausgewählt, die auf der Social-Media-Website Reddit, as am meisten positiv bewertet wurden ein heuristischer Indikator dafür, ob andere Benutzer den Link interessant, lehrreich oder einfach nur lustig fanden .

Reddit-Benutzer – einschließlich derjenigen, die hochladen und positiv abstimmen – sind es jedoch bekannt, weiße Rassisten einzuschließen . Jahrelang war die Plattform voller rassistischer Sprache und erlaubter Links zu Inhalte, die rassistische Ideologien zum Ausdruck bringen. Und obwohl es welche gibt praktische Möglichkeiten zur Verfügung Um dieses Verhalten auf der Plattform einzudämmen, gibt es erste ernsthafte Versuche Handeln Sie , von der damaligen CEO Ellen Pao im Jahr 2015, wurden von der Community schlecht aufgenommen und führten zu intensiven Belästigung und Gegenreaktion .

Unabhängig davon, ob es sich um eigensinnige Polizisten oder eigensinnige Benutzer handelt, entscheiden sich Technologen dafür, diese besondere unterdrückerische Weltanschauung in Datensätzen festigen zu lassen und die Art der Modelle zu definieren, die wir entwickeln. OpenAI selbst erkannte die Einschränkungen bei der Datenbeschaffung von Reddit an und stellte dies fest Viele böswillige Gruppen nutzen diese Diskussionsforen, um sich zu organisieren . Aber auch die Organisation verwendet weiterhin den von Reddit abgeleiteten Datensatz , auch in späteren Versionen seines Sprachmodells. Die gefährlich fehlerhafte Natur von Datenquellen wird trotz der Konsequenzen praktisch aus Gründen der Bequemlichkeit abgetan. Dafür ist keine böswillige Absicht erforderlich, wohl aber eine gewisse gedankenlose Passivität und Nachlässigkeit.

Kleine Notlügen

White supremacy ist der falsche Glaube, dass weiße Menschen denen anderer Rassen überlegen sind. Es ist kein einfaches Missverständnis, sondern eine Ideologie, die darin verwurzelt ist Täuschung . Rasse ist der erste Mythos, Überlegenheit der nächste. Vertreter dieser Ideologie halten hartnäckig an einer Erfindung fest, die sie privilegiert.

Ich höre, wie diese Lüge die Sprache von a weicher macht Drogenkrieg zu einem Opioidepidemie , und Vorwürfe psychische Gesundheit oder Videospiele für die Aktionen der weißen Angreifer sogar als es zuschreibt Faulheit und Kriminalität für nicht-weiße Opfer. Ich bemerke, wie es diejenigen auslöscht, die wie ich aussehen, und ich beobachte, wie es sich in einer endlosen Parade blasser Gesichter abspielt, denen ich anscheinend nicht entkommen kann – in Filmen, auf Titelseiten von Zeitschriften und bei Preisverleihungen.

Datensätze, die so speziell in und für weiße Räume eingebaut wurden, repräsentieren die konstruierte Realität, nicht die natürliche.

Dieser Schatten folgt mir auf Schritt und Tritt, ein unangenehmes Frösteln im Nacken. Wenn ich Mord höre, sehe ich nicht nur den Polizisten mit sein Knie an einer Kehle oder der fehlgeleiteter Bürgerwehrmann mit einer Waffe an seiner Seite – es ist die Wirtschaft, die erstickt uns, die Krankheit, die schwächt wir und die Regierung, die schweigt uns.

Sagen Sie mir – was ist der Unterschied zwischen übermäßiger Polizeiarbeit in Minderheitenvierteln und der Voreingenommenheit von der Algorithmus, der Beamte dorthin geschickt hat ? Was ist der Unterschied zwischen einem getrennten Schulsystem und einem diskriminierenden? Bewertungsalgorithmus ? Zwischen einem Arzt, der nicht zuhört, und einem Algorithmus, der Ihnen ein Krankenhausbett verweigert ? Es gibt keinen systematischen Rassismus, der von unseren algorithmischen Beiträgen getrennt ist, von dem verborgenen Netzwerk von algorithmischen Einsätzen, die regelmäßig bei denen zusammenbrechen, die ohnehin am stärksten gefährdet sind.

Widerstand gegen technologischen Determinismus

Technologie ist nicht unabhängig von uns; Es wird von uns erstellt und wir haben die vollständige Kontrolle darüber. Daten sind nicht nur beliebig politisch – Es gibt bestimmte toxische und falsch informierte Politiken, die Datenwissenschaftler leichtfertig zulassen, um unsere Datensätze zu infiltrieren. Weiße Vorherrschaft ist eine davon.

Wir haben uns selbst und unsere Entscheidungen bereits in das Ergebnis eingebracht – es gibt keinen neutralen Ansatz. Es gibt keine zukünftige Version von Daten, die magisch unvoreingenommen ist. Daten werden immer eine subjektive Interpretation der Realität einer Person sein, eine spezifische Darstellung der Ziele und Perspektiven, die wir in diesem Moment priorisieren. Diese Macht haben diejenigen von uns, die für die Beschaffung, Auswahl und Gestaltung dieser Daten und die Entwicklung der Modelle zur Interpretation der Informationen verantwortlich sind. Im Grunde gibt es keinen Austausch von Fairness gegen Genauigkeit – das ist ein mythisches Opfer, eine Entschuldigung dafür, unserer Rolle bei der Definition von Leistung unter Ausschluss anderer überhaupt nicht gerecht zu werden.

Diejenigen von uns, die diese Systeme bauen, werden entscheiden, welches Subreddits und Online-Quellen zum Crawlen , die Sprachen zu verwenden oder ignorieren, welche Datensätze dazu verwendet werden entfernen oder akzeptieren . Hauptsache wir wählen, auf wen wir diese Algorithmen anwenden , und welche Ziele wir optimieren Pro. Wir wählen die Etiketten, die wir erstellen, die Daten, die wir aufnehmen, die Methoden, die wir verwenden. Wir wählen aus, wen wir als Datenwissenschaftler, Ingenieure und Forscher willkommen heißen – und wen wir nicht . Es gab viele Möglichkeiten für die Gestaltung der von uns gebauten Technologie, und wir haben uns für diese entschieden. Wir sind verantwortlich.

Warum können wir also nicht vorsichtiger sein? Wann werden wir uns endlich an die Offenlegung gewöhnen Datenherkunft , Löschen problematischer Datensätze , und die explizite Definition der Einschränkungen des Anwendungsbereichs jedes Modells ? An welchem ​​Punkt können wir diejenigen verurteilen, die mit einem operieren? explizite Agenda der weißen Rassisten , und nehme ernsthafte Aktionen für die Aufnahme?

Ein ungewisser Weg nach vorne

Abgelenkt durch Firmen Beileid , technische Lösungen abstrahieren und soziale Theorien artikulieren, habe ich beobachtet, wie Kollegen sich zu unsichtbaren Fortschritten beglückwünschten. Letztendlich beneide ich sie, weil sie in derselben Welt eine Wahl haben, in der ich, wie jeder andere schwarze Mensch, mich nicht dagegen entscheiden kann, mich darum zu kümmern.

Während schwarze Menschen jetzt in einer Kakophonie aus natürlichen und unnatürlichen Katastrophen sterben, sind viele meiner Kollegen immer noch mehr von der neuesten Produkteinführung oder dem Start des Weltraums elektrisiert als von dem erschütternden Schrecken einer Realität, die mir den Atem raubt.

Tatsache ist, dass KI nicht funktioniert, bis sie für uns alle funktioniert.

Jahrelang habe ich beobachtet, wie dieses Problem als wichtig gepriesen wurde, aber es ist klar, dass der Umgang damit immer noch als nicht prioritär angesehen wird, schön, zusätzliche Maßnahmen zu haben – immer nachrangig zu einer Definition der Modellfunktionalität, die mich nicht einschließt.

Modelle haben eindeutig immer noch Schwierigkeiten, diese Verzerrungsherausforderungen anzugehen als Durchbruch gefeiert , während die Leute mutig genug sind, über das Risiko zu sprechen zum Schweigen bringen, oder schlimmer . Es gibt eine klare kulturelle Selbstzufriedenheit mit den Dingen wie immer, und obwohl enttäuschend, ist das in einem Bereich, in dem die große Mehrheit einfach nicht versteht, was auf dem Spiel steht, nicht besonders überraschend.

Tatsache ist, dass KI nicht funktioniert, bis sie für uns alle funktioniert. Wenn wir hoffen, jemals gegen rassistische Ungerechtigkeiten vorgehen zu können, müssen wir aufhören, unsere verzerrten Daten als Grundwahrheit zu präsentieren. Es gibt keine rationale und gerechte Welt, in der Einstellungsinstrumente schließen Frauen systematisch von technischen Positionen aus, oder wo Selbstfahrende Autos treffen eher Fußgänger mit dunklerer Hautfarbe . Die Wahrheit jeder Realität, die ich erkenne, liegt nicht in diesen Modellen oder in den Datensätzen, die sie informieren.

Die Machine-Learning-Community akzeptiert weiterhin ein gewisses Maß an Dysfunktion, solange nur bestimmte Gruppen betroffen sind. Dies erfordert eine bewusste Veränderung, und das erfordert genauso viel Mühe wie jeder andere Kampf gegen systematische Unterdrückung. Schließlich unterscheiden sich die in unsere Daten eingebetteten Lügen nicht wesentlich von allen anderen Lügen, die White Supremacy erzählt hat. Sie werden daher ebenso viel Energie und Investitionen benötigen, um gegenzusteuern.

Deborah Raji ist eine Mozilla-Stipendiatin, die sich für algorithmische Prüfung und Bewertung interessiert. Sie hat an mehreren preisgekrönten Projekten gearbeitet, um Fälle von Voreingenommenheit in der Computervision aufzuzeigen und die Dokumentationspraktiken beim maschinellen Lernen zu verbessern.

verbergen