Kapitel 1 Ein Zeitungskorpus für die Migrations- und Integrationsforschung

1.1 Zielstellung

Korpora der Medienberichterstattung sind eine wichtige Datengrundlage der Migrations- und Integrationsforschung. Die Einsatzmöglichkeiten sind vielfältig. So werden etwa über Verfahren der Inhaltsanalyse systematisch Informationen aus den Berichten extrahiert, oder man beschäftigt sich mit Diskursen und deren Effekten (z. B. Baker (2010), Baker et al. (2013), Carol und Koopmans (2013), Johnson et al. (2003), Johnson und Suhr (2003), Koopmans und Statham (2010), Morley und Taylor (2012), Tabbert (2015)). In dieser Forschung korrespondiert die Bandbreite der Erkenntnisinteressen, der theoretischen Zugänge und der methodologischen Verfahren mit der Vielfalt sprachorientierter Ansätze.

Doch alle Forschungsarbeiten, die Sprach- bzw. Textdaten als Grundlage haben, stehen vor der geteilten Herausforderung, dass ihre analytischen Möglichkeiten durch die beschränkte Verfügbarkeit entsprechender Korpora (im Sinne digital verfügbarer Textsammlungen) limitiert sind, und dies zum Teil massiv. Durch die Weiterentwicklung algorithmischer Analyseverfahren mit Ansätzen der eHumanities bzw. der Computational Social Sciences hat sich das skizzierte Spannungsverhältnis sogar noch verschärft. Diese bringen gesteigerte Anforderungen an den Umfang von Korpora mit sich. Insbesondere der Aufbau großer Zeitkorpora ist durch die Lizenzbedingen der Verlage bzw. teils prohibitive Lizenzgebühren für einzelne Projekte oftmals nicht realisierbar.

Einschränkende Lizenzbedingen stehen im Widerspruch zu den Prinzipien der Nachvollziehbarkeit und Replizierbarkeit wissenschaftlicher Analysen. Das im ersten Verbundvorhaben der Forschungsgemeinschaft des Deutschen Zentrums für Integrations- und Migrationsforschung (DeZIM) angesiedelte Strukturprojekt “MigTex – Textressourcen für die Migrations- und Integrationsforschung” (Projektleitung: Prof. Dr. Andreas Blätte und Prof. Dr. Ruud Koopmans) hat vor diesem Hintergrund als eines seiner Kernziele, migrations- und integrationspolitisch relevante Textdaten systematisch aufzubereiten und nachhaltig bereitzustellen. Hierdurch soll der Fortschritt einschlägiger Forschung gefördert und der Einsatz textanalytischer Verfahren erleichtert werden (Blätte et al. 2018). Ein zentrales Produkt des MigTex-Projekts ist, neben einem Korpus der migrations- und integrationsbezogenen Plenardebatten der deutschen Landtage und des Deutschen Bundestags (MigParl), mit Stoßrichtung auf die eingangs skizzierte Herausforderung, der Aufbau eines Zeitungskorpus für die Migrations- und Integrationsforschung (MigPress). Das Einsatzspektrum des Korpus soll dabei breit sein: Das MigPress-Korpus soll – als DeZIM-Zeitungskorpus – ein multifunktionales Korpus sein und verschiedenen Forschungsinteressen von Migrationsforscher_innen dienen können.

MigPress soll mithin als DeZIM-Zeitungskorpus die migrations- und integrationsbezogene Berichterstattung in überregionalen Medien beinhalten. Konkret werden die Süddeutsche Zeitung (SZ) sowie die Frankfurter Allgemeine Zeitung (FAZ) herangezogen. Die Entscheidung für diese beiden Zeitungen folgt zwei Kriterien der Datenauswahl, (a) dem Grad der Verbreitung sowie (b) der programmatischen Differenz (McGregor 2002). Ausgewählt werden also deutsche überregionale Tageszeitungen mit hinreichend großem Leser_innenkreis, die der Kategorie der Qualitätspresse zugeordnet werden können (Roggeband und Vliegenthart 2007, S. 526; siehe auch Römer 2017, S. 137; Lück et al. 2018, S. 1640). Sowohl an Auflagenstärke (Statista 2019b) als auch an Reichweite (Statista 2019a) gemessen, erfüllen Süddeutsche Zeitung und Frankfurter Allgemeine Zeitung diese Kriterien. In programmatischer Hinsicht decken beide Zeitungen das Spektrum von liberal-progressiv (SZ) und konservativ (FAZ) ab (Merkle 2019, S. 128). Diese beiden führenden überregionalen Zeitungen sind zugleich Leitmedien (Merkle 2019, S. 127). Analysen anhand dieser Zeitungen sind daher geeignet, eine Analyse von Diskursverläufen und politischer Prozesse für das eher progressive bzw. für das eher konservative politische Spektrum zu ermöglichen.

Die im Rahmen des MigTex-Projekts mit den Zeitungsverlagen geschlossenen Verträge sehen die Nutzung von Artikeln für einen vertraglich definierten Analysezeitraum und eine vertraglich definierte Maximalzahl von Artikeln vor. Im Fall der FAZ können aus dem Zeitraum 2000-2018 bis zu 100.000 Zeitungsartikeln in das Korpus eingehen. Die Lizenzvereinbarung sieht dabei vor, dass das Archiv der Zeitung anhand einer Liste von Suchbegriffen getroffene Artikel in digitaler Form bereit stellt. Im Falle der SZ verhält sich die Lizenzvereinbarung anders: Zur Verfügung gestellt wurden dem MigTex-Projekt zwar alle Artikel jener Zeitung zwischen 2000 und 2019 – insgesamt 1.216.735 Artikel – jedoch unter der Maßgabe, das Nutzer_innen jeweils nur 20 % der Gesamtmenge aller Artikel als Korpus zur Verfügung gestellt werden dürfen. Diese Differenzierung der vertraglichen Rahmenbedingungen ist eine wesentliche Herausforderung für das im Folgenden zu definierende Verfahren für den Korpusaufbau.

Grundsätzlich ist damit eine Ziel- bzw. Problemstellung definiert, für welche die an der Schnittstelle von Informatik und Computerlinguistik angesiedelte Disziplin des Information Retrieval (d. h. die computergestützte Suche nach komplexen Inhalten) eigentlich ein beachtliches Repertoire an etablierten und sich stets weiter entwickelnder Verfahren anbietet. Doch eine Voraussetzung nahezu aller dieser Verfahren, der technisch unbeschränkte Zugriff auf alle Ausgangsdokumente, ist im Fall des bei der FAZ durchführbaren Samplings der für die Migrations- und Integrationsforschung relevanten Artikel nicht gegeben. Wenn aber die Möglichkeit, für SZ und FAZ vergleichbare Analysen durchführen zu können, eine wichtige Anforderung an MigPress als DeZIM-Zeitungskorpus ist, sollte für die SZ kein anderes Sampling-Verfahren angewendet werden als für die FAZ. Der Einsatz aufwändigerer Algorithmen war also aufgrund eines eingeschränkten Zugriffs auf die Grundgesamtheit der Daten zumindest bei der FAZ ausgeschlossen.

Die zentrale Randbedingung für ein Sampling-Verfahren, das im Ergebnis den Zielsetzungen des Projekts so gut wie möglich entsprechen sollte, ist die Bestimmung relevanter Artikel anhand eines Sets von Suchbegriffen, das an folgender Fragestellung orientiert zu entwickeln ist: “Was ist migrations- und integrationspolitisch relevant?”. Was aber diese Relevanz ausmacht, ist theoretisch zu begründen. Die zentrale Annahme, die dem Sampling migrations- und integrationspolitisch relevanter Themen zugrunde liegt, ist die Theorie der Konstruktion von Zielpopulationen (Schneider und Ingram 1993). Migrations- und Integrationspolitik kommt nicht umhin, diese zu definieren. Auf Basis der Zielpopulationen wird ein Repertoire von Suchtermen entwickelt, das als Kernsuchtermliste die systematische Erweiterung und Kürzung von weiteren Begriffen, die als Kandidatensuchterme verstanden werden, anleitet.

Zwar bleibt ein Sampling über eine Suchwortliste unterhalb der Grenze des methodisch und technisch Möglichen. Es ist ein Verfahren des kleinsten gemeinsamen Nenners. Doch auch dieses kann methodisch kontrolliert und begründbar durchgeführt werden. Sowohl konzeptionell als auch technisch besteht die Herausforderung darin, aus der Grundgesamtheit aller in den Datenbanken von FAZ und SZ gespeicherten Artikel jene zu beziehen, die für die Migrations- und Integrationsforschung tatsächlich relevant sind. Die spezifische Problemstellung ist, einerseits so wenig Lücken des Datenbestandes wie möglich zu haben (fehlende Artikel) als auch das Rauschen in den Daten (irrelevante Artikel) gering zu halten (Gabrielatos 2007). Für das geschilderte Szenario ist das Verfahren der Query Term Relevance (QTR) einschlägig. Dieses wurde sehr passgenau für eine Situation entwickelt, wie sie beim Sampling der für Fragen der Migrations- und Integrationsforschung relevanten Artikel in FAZ und SZ über Listen von Suchtermen auftritt (Gabrielatos 2007).

1.2 Kernsuchbegriffe für ein Zeitungskorpus zu Migration und Integration

Ein zielgerichtetes Sampling von Artikeln über Suchterme setzt theoretische Überlegungen zwingend voraus, die Entwicklung eines Sets von Suchtermen für den Korpusaufbau kann nicht ohne die Klärung des theoretischen Zugangs erfolgen (Kutter und Kantner 2012). Denn für die Textdatenanalyse besteht der Bedarf, „neue Operationalisierungen komplexer fachwissenschaftlicher Begriffe vorzunehmen (…)“ (Blessing et al. 2015 – Hervorhebung im Original; siehe auch: Kantner und Overbeck 2018, S. 165). Eine dem QTR-Verfahren vorzuschaltende konzeptionell-inhaltliche Vorfrage lautet daher: Was genau ist eigentlich relevant für die migrations- und integrationspolitische Forschung? Das Ziel ist damit, das Feld der Migrations- und Integrationspolitik zu systematisieren und diejenigen Suchbegriffe zu identifizieren, über die Vorgänge in diesem Feld angesprochen werden.

Weil es alternative theoretische Sichtweisen gibt, kann der Korpusaufbau unterschiedlichen Erwägungen und daraus folgenden Operationalisierungen erfolgen. Das Ergebnis wäre dann jedenfalls in Teilen absehbar ein anderes (statt vieler: Hans (2016)). Dem Ziel eines in der Migrations- und Integrationsforschung breit einsetzbaren Korpus wollten wir gleichwohl nahekommen. Als Lösung legen wir dem Korpusaufbau eine weit gefasste, feldtheoretisch begründete Sicht auf das Handlungsfeld Migration und Integration zugrunde. Die Entwicklung von Suchtermen erfolgt dabei in einem zweistufigen Verfahren. In einem ersten Schritt erfolgt auf der Konzeptebene eine Bestimmung der konstituierenden Elemente des Handlungsfeldes, ohne dass dies schon einer Sampling-Strategie im eigentlichen Sinne entspricht. In einem zweiten Schritt findet eine Übersetzung dieser Konzepte in konkreten Suchtermen statt. Entsprechend der gängigen Differenzierung unternehmen wir diese Schritte jeweils für die Bereiche Migration und Integration separat.

“Migration” und “Integration” sind – wie viele Begriffe in den Geistes-, Kultur- und Sozialwissenschaften – umkämpfe Begriffe. Dies gilt für den Begriff der “Integration” in besonderer Weise (Esser 2006, S. 23; Koopmans 2017; Sackmann 2004, S. 45). Aber auch die Unterscheidung zwischen Migration und Integration ist nicht trennscharf. Zwar gehen nach gängiger Vorstellung Migrationsprozesse Integrationsprozessen voraus. Doch weist die Perspektive des Transnationalismus darauf hin, dass diese Differenzierung durch eine von transnationalen Bezügen geprägte Empirie artifiziell ist und den Blick auf Wesentliches verstellt (Faist 2000, S. 340; siehe auch Bommes 2003; Wimmer und Schiller 2002). Das hier zu lösende Problem besteht jedoch nicht darin, grundlegende theoretische Fragen zu klären, sondern eine konzeptionell begründete Liste von Suchbegriffen zum Aufbau eines Korpus für die Migrations- und Integrationsforschung zu ermitteln. Hierfür erscheint die Differenzierung nach Migration und Integration weiterhin vertretbar.

Gleichwohl: Die Marker “Migration” und “Integration” eignen sich, aus je unterschiedlichen Gründen, als solche nicht als Suchterme, die als Grundstock einer Liste von Suchtermen dienen könnten. Migration ist “eine längerfristige Verlagerung des Lebensmittelpunktes von Individuen [, Familien] oder Gruppen [verstanden], unabhängig davon ob dieser Wechsel freiwillig oder erzwungen erfolgte” (Seifert 2013b, S. 68; siehe dazu auch: Fussell 2012; Rosenblum und Tichenor 2012). Bei einer gängigen Kategorisierung wird zwischen Binnenmigration (Wohnortwechsel innerhalb eines Nationalstaates) und internationaler Migration (grenzüberschreiender Wohnortwechsel) unterschieden. Migrations- und integrationspolitische Relevanz erfährt dabei letzteres (Seifert 2013b, S. 68). Die zu entwickelnden Suchbegriffe sollten dementsprechend auf internationale Migration ausgerichtet sein. Migration bezieht sich hier auf Vorgänge, welche die Wanderung von Menschen aus und zwischen Staaten betreffen (Fussell 2012; Geddes 2012; Stephen 2012; Waldinger 2012). Doch firmieren in Alltagssprache und Medienberichterstattung diese Vorgänge allzu oft nicht unter dem Schlagwort der “Migration”. Mit diesem auf der Konzeptebene tragfähigen Begriff als Kernsuchterm würde nur ein Bruchteil der relevanten Dokumente gefunden und gleichzeitig eine Menge an irrelevanten Dokumenten ermittelt, die sich beispielsweise mit der Migration von Daten beschäftigen.

Eine Eignung des Markers “Integration” als Suchterm für den Korpusaufbau ist aus anderen Gründen nicht gegeben. Auch wenn Integration – mehr oder weniger konsensual – als ein “Prozess, zu dessen Gelingen Aufnahme- wie Zuwanderergesellschaft wechselseitig beitragen” (UKZu 2001, S. 200) verstanden wird, bleiben Integrationsprozesse in ihrer Deutung und Ausgestaltung umkämpft. Folglich kann “the process of becoming an accepted part of society” (Penninx 2004, S. 12; zitiert nach Schulte und Treichler 2010, S. 45) mit sehr unterschiedlichen Vorstellungen verbunden sein. Die gleichzeitige Allgegenwärtigkeit des Begriffes “Integration”, sowohl in der Alltagssprache als auch in unterschiedlichen wissenschaftlichen Disziplinen, führt dazu, dass er mit sehr unterschiedlichen Vorstellungen assoziiert wird. Im alltagssprachlichen Gebrauch ist die Forderung von “Integration” teil identisch mit Forderungen nach Assimilation, als eine einseitige Angleichung der Einwanderer_innen an die Mehrheits- oder Zuwanderungsgesellschaft gleichgesetzt. Dieses Verständnis herrschte lange auch in der Integrations- und Migrationsforschung vor, in der der Integrationsbegriff von zentraler Bedeutung ist. Vor diesem Hintergrund wird zum Teil eine Abwendung vom Integrationsbegriff gefordert. Trotzdem bleibt der Begriff prägend: War zuvor die Rede von Ausländer-, Flüchtlings- oder Vertriebenenforschung, wandelten sich dieses Forschungsfeld in den 1980er-Jahren zur Migrations- und Integrationsforschung (Bommes 2001, S. 51). Für den Aufbau des Korpus besteht aber das Problem letztlich nicht darin, dass der Marker “Integration” in seinem Gehalt umstritten ist. Die korpusbasierte Forschung kann ja gerade darauf ausgerichtet sein, die Variation der Deutungen herauszuarbeiten. Eine praktische Schwierigkeit ist vielmehr die weitreichende Ambivalenz des Wortes, d. h. dass über den Suchterm “Integration” auch Berichte zur europäischen Integration, zur Integration von Arbeitssuchenden in den Arbeitsmarkt etc. gefunden werden.

Für den Korpusaufbau ist es daher erforderlich, Suchterme zu finden, die eine konzeptionelle Ebene unterhalb der Marker “Migration” und “Integration” operationalisieren. Die Ausgangsannahme des hier skizzierten Weges ist, dass jene Marker die Bezugspunkte der Konstruktion des Handlungsfeldes Migration und Integration sind. Einer gängigen Differenzierung folgend, können Prozesse in Handlungsfeldern über eine Differenzierung von Akteuren, Institutionen, Deutungen und Themen (Issues/Streitfragen) erfasst werden. Der Vorteil, diese Elemente in den Blick zu nehmen ist, dass sie sich nicht nur bei einem ausdifferenzierten Politikfeld (also Politikfeld im engeren Sinne) finden, sondern auch bei dezentrierten (querschnittsförmigen) und teilzentrierten Politikfeldern (Blätte 2015). Diese Kategorien lassen sich auch auf das Handlungsfeld Migration und Integration anwenden und können so die Herleitung von Suchtermen strukturieren. Diese Annahme wird flankiert mit der Überlegung, dass sich in aller Regel die Themen und Deutungen von Handlungsfeldern durch einen Bezug auf bestimmte gesellschaftliche Zielpopulationen (target populations) auszeichnen (Schneider und Ingram 1993). Für die Erstellung der Kernsuchterme ist daher vor allen Dingen die Konstruktion gesellschaftlicher Gruppen relevant, während die Erarbeitung der Kandidatensuchterme sich an der Konstruktion politischer Handlungsfelder orientiert.

Im Sinne der medialen Berichterstattung werden Themen berichtenswert durch eine Problematisierung, und hier ist es das (positive oder negative) Verhalten von wandernden oder gewanderten, aber auch migrantisierten Gruppen und Populationen, das thematisiert und problematisiert wird (Dahinden 2016). Wenn etwa eine “Kopftuchdebatte” geführt wird, so wird mit dem Thema des “Kopftuchs” stets auch die Zielpopulation der Kopftuchtragenden, zumindest jedoch Muslim_innen, thematisiert. Weil die Definition und Konstruktion von Zielpopulationen ein wesentlicher Aspekt von Migrations- und Integrationsdebatten ist, wird gerade hierfür eine ausführliche Liste von Suchtermen vorgelegt, die als Ausgangspunkt des weiteren Verfahrens dient. Wir werden diese in den Mittelpunkt der ersten Stufe der Suchtermentwicklung rücken. Dabei wird nicht übersehen, dass in Integrationsdebatten Bemühungen zu verzeichnen sind, einen Fokus auf – wie auch immer bezeichnete – Personen mit Migrationsgeschichte zu überwinden (Dahinden 2016; Foroutan 2018), weil dem eine perpetuierte Defizitperspektive unterstellt wird. Das heißt, es wird – in unterschiedlichen Formulierungen – die Aufnahmegesellschaft oder die Gesellschaft als Ganzes zur Zielpopulation, d. h. zum thematisierten, problematisierten, und auch zu verändernden Objekt des politischen Handelns. Die Liste der Suchterme umfasst daher auch Formulierungen, welche die weitere Gesellschaft als Zielpopulation bestimmen.

Eine Konzentration auf Zielpopulationen ist vor allem im Hinblick auf medienanalytische Fragestellungen nicht neu. Jung et al. entwickelten so ein “diskurshistorisches Wörterbuch zur Einwanderung seit 1945” mit zahlreichen Bezügen auf Gruppen und Populationen in verschiedenen Perspektiven (2000; siehe zum parlamentarischen Sprachgebrauch Blätte und Wüst 2017). Dies wurde unter Rückgriff auf ergänzende Literatur erweitert, nicht zuletzt um eine zeitliche Aktualisierung zu erreichen (siehe unter anderem Allievi 2005 zu „Moslem“; Beger 2000 zu „Asyl“, „Gastarbeiter“, „Spätaussiedler“ und „Zuwanderung“; Carol und Koopmans 2013 zu Begriffen religiöser Rechte von „Muslim_Innen“; Galtung 2009 zu „Flucht“; Geiling et al. 2011 zu „Spätaussiedler“; Margalit und Matras 2007 zu „Sinti“; Lünenborg et al. 2011 zu „Kopftuch“; Spielhaus 2013 zu „Muslim“; allgemein Hradil 2013; Seifert 2013b, 2013a). Die Zielpopulationslogik wird äquivalent für beide Handlungsfelder angewendet.

Weitere Suchterme werden entlang der angesprochenen Heuristik zur Analyse politischer Handlungsfelder entwickelt. Der Begriff der Akteure verweist nicht auf Einzelpersonen, sondern auf komplexe Akteure. Im Regelfall handelt es sich um Organisationen, aber auch Bewegungsakteure können zu berücksichtigen sein. Der Begriff der (internationalen) Akteure ist breit angelegt und umfasst Akteure, deren Handlungen mehr als nur einen Nationalstaat berühren (Akram 2014; Loescher 2014). Im Bereich der Nichtregierungsorganisationen werden Organisationen, Vereinigungen und Verbände erfasst, die zwischen dem politisch-administrativen System sowie der Gesellschaft eine vermittelnde (intermediäre) Funktion wahrnehmen.

Institutionen werden einem sozialwissenschaftlichen Begriffsverständnis entsprechend als Regelwerke verstanden und so von Organisationen (und auch Akteuren) unterschieden. Somit sind Abkommen wie auch Rechtsakte ein Teil dieser strukturgebenden Dimension. Darunter fallen bilaterale Abkommen (z. B. EU-Türkei-Abkommen) oder multilaterale Abkommen (z. B. UN-Migrationspakt). In den Bereich des internationalen Rechts fallen – als strukturelles Konstrukt zur Verhaltensregulierung im (inter)nationalen Raum (Betts 2014; Goodwin-Gill 2014) – die rechtlichen Vorgänge auf der EU-Ebene, insofern diese noch zwischenstaatlichen Charakter haben. Abkommen und Recht gelten als handlungsbezogene und konstitutive Akte zur institutionellen Strukturierung und Regulierung von Migration (Geddes 2012; Hollifield 2012; Rosenblum und Tichenor 2012; Hammerstad 2014).

Im Sinne der Definition sind auch Migrationsregime Institutionen, sie verweisen auf etablierte Gesetze und Praktiken. Gerade diese werden jedoch regelmäßig zum Gegenstand der politischen Auseinandersetzung, so dass wir diese der Rubrik der Themen/Issues zurechnen. Dabei folgen wir einer Typisierung von vier Migrationsregimen (Freeman 2006): (1) Visa für Daueraufenthalte (2) temporäre Visa für andere Zwecke als Arbeit, (3) temporäre Visa mit Arbeitserlaubnis sowie (4) Asyl- und Flüchtlingsangelegenheiten. Eine Ergänzung erfolgt dabei: “Irreguläre Migration” meint die Einreise oder der Verbleib ohne gültige Aufenthaltspapiere.

Tabelle 1.1 setzt die angeführten Überlegungen für den Teilbereich der Migration um. Zu beachten ist bei der Ausgestaltung der Suchterme, wie diese in technischer Hinsicht entwickelt werden konnten. Für die Suchterme wurde eine Trunkierung gewählt, die sowohl für die SZ als auch für die FAZ anwendbar ist. Da das Datenbanksystem der FAZ derzeit keine gleichzeitige Trunkierung sowohl des Wortanfangs als auch des Wortendes erlaubt, ist eine Abfrage wie “*Flüchtling*” nicht möglich, da hierbei die erste Trunkierung ignoriert wird. Aus diesem Grund sind sowohl “Flüchtling*” (Trunkierung am Wortende) als auch “*Flüchtling” (Trunkierung am Wortanfang) sowie häufig vorkommende Varianten und Komposita, die wir aus Testläufen mit der SZ gewonnen haben, explizt aufgeführt.

Tabelle 1.1: Initiale Verschlagwortung Migration
Kategorie Suchterm
Akteure
Internationale Organisationen UNHCR, Flüchtlingskommissar, UNHCR-Flüchtling., Unicef-Flüchtling., Uno-Flüchtling., US-Flüchtling., Weltflüchtling., UN-Flüchtling., UNHCR-Flüchtling., Unicef-Flüchtling., Uno-Flüchtling., US-Flüchtling., Weltflüchtling., Bundesflücht., EU-Flüchtling.*
Europäische Organisationen FRONTEX
NGOs Pro Asyl, amnesty international, .*Flüchtlingshelfer
nationale Organisationen BAMF, Bundesamt für Migration und Flüchtlinge, Bundesgrenzschutz, .Flüchtlingsminister, .Flüchtlingsministerium
Institutionen
Bilaterale Abkommen
Multilaterale Abkommen Flüchtlingskonvention
Europarecht Schengen, Dublin, EURODAC
Themen
Visa für Daueraufenthalte Punktesystem, Ehegattennachzug., Familiennachz., Nachzug., Visa.
Temporäre Visa mit Arbeitserlaubnis Visa., Visum.
Asyl und Flucht .Asyl, .Asylpolitik, Anti-Asyl., antiasyl., Asyl., Bundesasyl., EU-Asyl., Flughafen-Asyl., Flughafenasyl., Kirchenasyl., Pro-Asyl., Flucht., subsidiärer Schutz, Familienzusammenführung
Irreguläre Migration Schlepper., Schleuser., Menschenhändler
Arbeitsmigration Arbeitsmigration
Territoriale Grenzen Außengrenze., Binnenwanderung, Grenzkontrolle., Grenzschutz, Grenzübertritt
Zielpopulationen Aufnahmegesellschaft, Asyl., .Asyl, Ausländer., Ausgewander., Aussiedler., Spätaussiedler., .Flüchtling, .Flüchtlinge, .Flüchtlingen, Flüchtling., Mittelmeer-Flüchtling., Geflüchtete., Schutzbedürftig., Geduldete., deutsch-türkisch., Deutschtürk., Syrer, Auswand., Einwander., Eingewander., .Migrant, .Migranten, .Migrantin, .Migrantinnen, .migrantisch, .migrantischen, Emigrant., Immigrant., Migrant., Muslim., Moslem., Moschee., Islam., Roma, Romani, Sinti, Sinto, Sintiza, Zigeuner, Zigeunerin, Zuwander., Zugewander., Nichtdeutsch., Gastarbeiter., Biodeutsch.*, Mehrheitsgesellschaft
Sonstiges Anti-Flüchtling., antiflüchtling., .Flüchtlingspolitik, .Flüchtlingskrise, .Flüchtlingslager, .Migrantenpolitik

Der Tabelle kann entnommen werden, welche Dimensionen der Handlungsfelder (Akteure, Institutionen, Themen) für die Erfassung der Migrations- und Integrationspolitik als Ausgangspunkte dienen und welche Suchworte dieser Dimension zugeordnet werden können. Bei den Suchworten handelt es sich um Terme, die durch Literaturrecherche und durch induktive Verfahren aus dem Datenbestand erarbeitet wurden. Dadurch ergibt sich eine “sonstige Kategorie”, die das Themenspektrum um die Zielpopulationen “Geflüchtete” und “migrantisierte Gruppen” umfasst. Die Dimension der „territorialen Grenzen“ ist eine Kategorie, die nicht direkt auf die Dimensionen der Konfiguration politischer Handlungsfelder zurückgeführt werden kann, jedoch auf die Ausgangsdefinition von Migration und der Zuspitzung auf internationale Migration.

Da eine Differenzierung nach den politischen Handlungsfeldern vorgenommen wurde, wird die angeführte Überlegung zu Migration in Tabelle 1.2 auch für den Teilbereich der Integration umgesetzt. Themen hingegen weißen nicht nur die Dimension der Zielpopulationen auf, sondern umfassen auch Aspekte wie Sprache, Staatsbürgerschaft, Fremdenfeindlichkeit und Islam.

Tabelle 1.2: Initiale Verschlagwortung Integration
Kategorie Suchterm
Akteure
staatliche Akteure BAMF, Bundesamt für Migration und Flüchtlinge, Integrationsbeauftragte., Kompetenzzentrum für Integration, .Flüchtlingsminister, .Flüchtlingsministerium, Bundesflücht., EU-Flüchtling.*
nichtstaatliche Akteure Pro Asyl, .*Flüchtlingshelfer
Institutionen
Gesetze Bundesvertriebenengesetz, Anerkennungsgesetz, Anerkennungsverfahren, Daueraufenthaltsrecht, Drittstaat.*
Verfahren .Flüchtlingsgipfel, .Migrantenpolitik, .*Flüchtlingskonferenz
Themen
Zielpopulationen Antisemit., anti-semit., Aufnahmegesellschaft, Asyl., .Asyl, Ausländer., Aussiedler., Spätaussiedler., .Flüchtling, .Flüchtlinge, .Flüchtlingen, Flüchtling., Mittelmeer-Flüchtling., Geflüchtete., Schutzbedürftig., Geduldete., Eingebürger., deutsch-türkisch., Deutschtürk., Türkeistämmig., Auswand., Ausgewander., Einwander., Eingewander., .Migrant, .Migranten, .Migrantin, .Migrantinnen, .migrantisch, .migrantischen, Emigrant., Immigrant., Migrant., Postmigrant., Parallelgesellschaft., Muslim., Moslem., Moschee., Kopftuch., Islam., Imam., Roma, Romani, Rassis., Sinti, Sinto, Sintiza, Zigeuner, Zigeunerin, Zuwander., Zugewander., Nichtdeutsch., Russlanddeutsch., Biodeutsch., Mehrheitsgesellschaft, Migrationsgesellschaft, Einwanderungsland, Parallelgesellschaft.*
Sprache Deutschkenntnisse, Deutschkurs, Orientierungskurs, Aufnahmebereitschaft, Desintegration, Abschottung.*
Staatsbürgerschaft Ausbürger., Mehrstaatlichkeit, Doppelpass., Doppelstaat.*
Fremdenfeindlichkeit Fremdenfeindlich., .Diskriminierung, Anti-Diskriminierung., Antidiskriminierung., Diskriminierung., EU-Antidiskriminierung., EU-Diskriminierung.*
Islam Kopftuch., Burka, Burka-., Burkini., Koran., Minarett.*
Sonstiges Aufnahmefähigkeit, Willkommenskultur., Multikulti, .Flüchtlingskrise, .Flüchtlingslager, .Flüchtlingspolitik, Anti-Flüchtling., antiflüchtling.

Der Zwischenstand ist zunächst, dass wir ein Set von Suchtermen bestimmt haben, die für die endgültige Formulierung einer Suchabfrage in Betracht zu ziehen sind. Wir stehen jedoch dabei vor der potenziellen Herausforderung, dass die Zahl von nun 149 Suchtermen (Worte aus beiden Handlungsfeldern, ohne Doppelungen) für die getroffenen Vereinbarungen mit den Zeitungsverlagen hoch ist. Nachdem dieses Set von Termen theoretisch hergeleitet ist, wäre es aber schwer begründbar, einen Teil von diesen zu verwerfen, nur um die technischen und vertraglichen Anforderungen genügen zu können. Begründbar und vertretbar erscheint jedoch eine Priorisierung, d. h. einen Teil der möglichen Suchterme höher zu gewichten und in einen engeren Kandidatenkreis zu nehmen als andere: Die Suchterme der zweiten Reihe würden also nicht verworfen, sondern als Optionen bewertet und kriteriengeleitet in die finale Auswahl von Suchtermen aufgenommen.

Als Kriterium für eine Einschränkung für die erste Stufe des Verfahrens dient diese Überlegung: Mit einem hohen Maß von Treffsicherheit ist verbunden, dass aussagekräftige Texte nicht umhin kommen, die Zielpopulationen des politischen Handelns im Feld Migration und Integration anzusprechen. Eine theoretische Abstützung findet diese Erwägung - wie bereits dargestellt - im Ansatz der social construction of target populations (Schneider und Ingram 1993): Gesellschafts- und sozialpolitische Felder sind immer auf gesellschaftliche Gruppen ausgerichtet, die konstruiert, benannt und mit bestimmten Attributen versehen werden. Aber wenn keine Diskussion von Migrations- und Integrationspolitik möglich ist, ohne auf eine gesellschaftliche Gruppe Bezug zu nehmen, um die es jeweils geht (dies kann auch die Gesamtgesellschaft sein), dann werden die Suchterme zur Identifikation von Zielpopulationen mit hoher Wahrscheinlichkeit eine Teilmenge der Suchterme sein, die in einem ersten Schritt ein relevantes Korpus hervorrufen.

Folgen wir dieser Einschränkung im ersten Schritt des Verfahrens, so ergibt sich eine Liste von zunächst 59 Suchtermen, die sich nur aus den Zielpopulationen ergeben. Wohlgemerkt: Diese 59 dienen als Kernsuchterme, die weiteren bestimmten Terme gehen in einem zweiten Schritt in das Verfahren zu Suchtermentwicklung als Kandidatensuchterme ein.

1.3 Query Term Relevance (QTR): Kriterienbasierte Entwicklung von Suchtermen

Mit den angestellten konzeptionellen Überlegungen ist eine Basismenge möglicher Suchbegriffe bestimmt, über die – so das Ziel – aus der Grundgesamtheit aller Zeitungsartikel im Untersuchungszeitraum 2000 - 2018 ein Basisbestand migrations- und integrationspolitisch relevanter Artikel gewonnen werden können. Die Herausforderung besteht darin, die Suchterme so zu formulieren und zu erweitern, dass komplexe sozialwissenschaftliche Konzepte (hier: migrations- und integrationspolitische relevante Medienberichterstattung) bestmöglich operationalisiert werden. Es handelt sich hier zwar um einen klassischen Anwendungsfall des Information Retrieval, mit der Spezifikation, dass wir die Operationalisierung sozialwissenschaftlicher Konzepte suchen (Kantner und Overbeck 2018), doch kann aufgrund der Modalitäten des (eingeschränkten) Datenbankzugangs der größte Teil der Information Retrieval-Techniken nicht zum Einsatz kommen. Wir sind vielmehr darauf angewiesen, den bestimmten Kern relevanter Suchterme kriteriengeleitet so zu erweitern, dass wir unter den gegebenen Restriktionen (Identifikation von Artikeln über Suchterme, maximale Artikelmenge) vielleicht nicht ideale, doch bestmögliche Ergebnisse erzielen: “It would be helpful, therefore, to use objective indicators of the degree to which a candidate query term is expected to return relevant documents, or, to be more precise, the degree to which the addition of a term to the query results in the addition of relevant documents” (Gabrielatos 2007, S. 6).

Schon wegen des beschränkten Datenbankzugriffs können auf Unterschiedstests beruhende Keyness-Maße für das gewünschte kriteriengeleitete Verfahren zur Suchtermentwicklung zunächst nicht herangezogen werden. Verfahren der Keyword Extraction sind ein klassischer datengetriebener Ansatz zur Identifikation des statistisch überzufälligen Vokabulars in einem Untersuchungskorpus (engl. corpus of interest). Durch entsprechende statistische Tests, die für jedes Wort durchgeführt werden (meist Chi-Quadrat- oder Log-Likelihood-Tests), können Keywords als diejenigen Begriffe identifiziert werden, die im Vergleich in einem Korpus überzufällig häufiger auftreten als in einem anderen (Pojanapunya und Todd 2018, S. 133). Das statistische Maß beruht auf Unterschieden in der Häufigkeit, aber nicht schlicht auf absoluten Häufigkeiten und ermöglicht effizient die Identifikation des semantisch wichtigen Vokabulars. Mit Keyword Extraction-Verfahren können etwa zeitspezifische und genrespezifische Merkmale von Texten bestimmt werden. Die Verfahren sind jedoch zugleich strukturagnostisch – die Struktur des Korpus wird im Verfahren aufgelöst, was problematisch sein kann, wenn ein Wort in einem Teil des Korpus sehr häufig, sonst aber selten auftritt (Gabrielatos 2007, S. 13). Damit sei verdeutlicht, dass Keyness nicht gleichbedeutend mit Relevanz ist und daher auch nicht der erste Kandidat für die Schätzung der Angemessenheit von Suchtermkandidaten ist (Gabrielatos 2007, S. 14). Selbst wenn Keyness für das Sampling bei der SZ hätte eingesetzt werden können, liefern Keyness-Maße doch keinen gut begründeten Anhaltspunkt für die Güte von Suchtermen. Wir greifen daher einen Vorschlag von Gabrielatos (2007) auf, der mit einem Verfahren zur Bestimmung der Query Term Relevance (QTR) ein kriteriengeleitetes Verfahren vorgeschlagen hat, wie ein Set von Basissuchtermen und die Effekte der Hinzunahme weiterer Suchterme abgeschätzt werden können. Die Durchführung dieses QTR-Verfahrens erfordert die folgenden Schritte (adaptiert von Gabrielatos (2007), S. 32):

  1. Ausgangspunkt des Verfahrens ist die Formulierung von mindestens zwei Kernsuchtermen (core query terms), die für das zu identifizierende Konzept einschlägig sind. Die Kernsuchterme wurden im vorangegangenen Abschnitt bereits entwickelt.

  2. Anhand dieser Kernsuchterme wird ein Subkorpus erstellt.

  3. Auf dieser Grundlage kann eine Baseline-Relevanz berechnet werden, die von relevanten Suchtermen mindestens erreicht werden muss.

  4. Es wird eine Keyword-Analyse unter Rückgriff auf ein repräsentatives Referenzkorpus durchgeführt.

  5. Auswahl von Kandidatenbegriffen aus den im statistischen Sinn einschlägigsten Keywords und aus “introspection”, also eigener subjektiver Ableitung.

  6. Für die so ermittelten Kandidatenworte werden (normalisierte) QTR-Werte berechnet.

  7. Anhand dieser Werte können die Ergebnisse interpretiert werden, so dass eine kriteriengeleitete Entscheidung über die letztlich eingesetzten Suchterme erfolgen kann.

Dieses Verfahren flankiert die anfängliche, durch Erkenntnisinteressen und theoretische Erwägungen geleitete Bestimmung von Kernsuchtermen mit einer stark datengeleiteten Komponente und bindet auch die so gewonnenen weiteren Suchterme zurück an das aus Kontextwissen und theoretischen Einordnungen gespeiste Beurteilungsvermögen der Forschenden. Insofern können für die Mittelpassage des Verfahrens, d. h. für die Generierung weiterer Suchterme ohne weiteres Alternativen zu einem Keyness-Ansatz herangezogen werden. Seit der ursprünglichen Publikation des QTR-Verfahrens sind etwa Word Embedding-Ansätze überaus modern geworden; auch der Einsatz von Topic Model-Verfahren wäre denkbar. Wir gehen davon aus, dass das Verfahren offen ist für eine Umschichtung zwischen der Liste der Kernsuchterme und der Liste der Kandidatensuchterme. In unserem konkreten Fall bedeutet dies, dass wir diejenigen Begriffe, die wir von der Liste von Kernsuchtermen genommen haben, auf die Liste der Kandidatensuchterme setzen und dabei mit den Ergebnissen sowohl eines Word Embedding-Ansatzes als auch eines Keyword-Verfahrens kombinieren.

Den ersten Schritt des QTR-Verfahrens, die Bestimmung der Kernsuchterme, haben wir bereits vollzogen. Wir hatten begründet, dass aus dem Set von insgesamt 149 Suchtermen zunächst ein engerer Kreis von 59 Suchtermen in Betracht gezogen wird, nämlich jene, die auf Zielpopulationen verweisen. Die folgenden Kernsucherme sind der Ausgangspunkt des weiteren Verfahrens.

##  [1] "anti-semit.*"            "Antisemit.*"            
##  [3] "Asyl.*"                  ".*Asyl"                 
##  [5] "Aufnahmegesellschaft"    "Ausgewander.*"          
##  [7] "Ausländer.*"             "Aussiedler.*"           
##  [9] "Auswand.*"               "Biodeutsch.*"           
## [11] "deutsch-türkisch.*"      "Deutschtürk.*"          
## [13] "Eingebürger.*"           "Eingewander.*"          
## [15] "Einwander.*"             "Einwanderungsland"      
## [17] "Emigrant.*"              ".*Flüchtling"           
## [19] "Flüchtling.*"            ".*Flüchtlinge"          
## [21] ".*Flüchtlingen"          "Gastarbeiter.*"         
## [23] "Geduldete.*"             "Geflüchtete.*"          
## [25] "Imam.*"                  "Immigrant.*"            
## [27] "Islam.*"                 "Kopftuch.*"             
## [29] "Mehrheitsgesellschaft"   ".*Migrant"              
## [31] "Migrant.*"               ".*Migranten"            
## [33] ".*Migrantin"             ".*Migrantinnen"         
## [35] ".*migrantisch"           ".*migrantischen"        
## [37] "Migrationsgesellschaft"  "Mittelmeer-Flüchtling.*"
## [39] "Moschee.*"               "Moslem.*"               
## [41] "Muslim.*"                "Nichtdeutsch.*"         
## [43] "Parallelgesellschaft.*"  "Postmigrant.*"          
## [45] "Rassis.*"                "Roma"                   
## [47] "Romani"                  "Russlanddeutsch.*"      
## [49] "Schutzbedürftig.*"       "Sinti"                  
## [51] "Sintiza"                 "Sinto"                  
## [53] "Spätaussiedler.*"        "Syrer"                  
## [55] "Türkeistämmig.*"         "Zigeuner"               
## [57] "Zigeunerin"              "Zugewander.*"           
## [59] "Zuwander.*"

1.4 Query Term Relevance (QTR) der Kernsuchterme und Basisrelevanz

Der erste Schritt des QTR-Verfahrens nach der ursprünglichen Bestimmung von Kernsuchtermen besteht darin, die Query Term Relevance (QTR) für jeden der Kernsuchterme zu bestimmen, um so einen Basis-QTR-Wert zu ermitteln, der zum Maßstab der Bewertung potenzieller weiterer Suchterme wird. Die Baseline-Relevanz ist die Query Term Relevance (QTR) des am wenigsten einschlägigen Wortes der Liste der Kernsuchterme. Dabei steht QTR für die Query Term Relevance, CQ&T für die Zahl der Artikel, die sowohl über die Kernsuchterme als auch über den Kandidatensuchterm identifiziert werden und T für Zahl der Artikel, die nur durch den Begriff identifiziert wurden (Gabrielatos 2007, S. 14).

\[\begin{equation} QTR = \frac{CQ\&T}{T} \tag{1.1} \end{equation}\]

Um die QTR für die Kernsuchterme berechnen zu können, werden Informationen benötigt, welcher Artikel durch die Nutzung eines Suchterms getroffen werden. Das Verfahren, wie diese Informationen gewonnen werden können, weicht für FAZ und SZ deutlich voneinander ab. Bei der SZ kann mit der gesamten Artikelmenge gearbeitet werden. Hierfür wurde die Lieferung sämtlicher Artikel der SZ in als indiziertes Korpus aufbereitet, was effiziente Abfragen mit regulären Ausdrücken mittels des R-Pakets polmineR möglich macht (Blätte 2019). Im Fall der FAZ konnte dies nicht realisiert werden, weil ja eine Lieferung von Artikeln erst entsprechend der erst zu entwickelnden Suchtermliste erfolgen wird. Allerdings können mit dem FAZ-Bibliotheksportal als Stufe vor und unterhalb des lizenzrechtlich beschränkten Zugriffs auf den Volltext eines Artikels Trefferübersichten generiert werden, die bereits alle Informationen enthalten, die für das QTR-Verfahren erforderlich sind.

Es war also trotz des beschränkten Zugriffs auf die Volltexte der Artikel möglich, anhand der Trefferübersichtslisten der FAZ das QTR-Verfahren analog zu dem im Falle der SZ Möglichen durchzuführen. Dabei kann zwar nicht die Syntax der regulären Ausdrücke im engeren Sinne angewendet werden, aber die Möglichkeit der FAZ, bei der Suche Trunkierungen einzusetzen und auch nach Mehrwortausdrücken zu suchen, lässt auch in dieser Hinsicht eine äquivalente Informationsbedingung bei ansonsten sehr unterschiedlichen Zugangsbedingungen zu. Um auch ansonsten die Vergleichbarkeit des Samplings zu erreichen, wurden die Rubriken, aus denen die jeweiligen Artikel selektiert wurden, für beide Zeitungen vergleichbar gewählt, soweit dies im FAZ-Bibliotheksportal einsichtig war. Dabei wurden Rubriken ausgeschlossen, die entweder zahlreiche Dubletten einführen würden (Online-Rubriken), offenkundig keinen substanziellen Bezug zu migrations- und integrationspolitischen Debatten nahelegen (Feuilleton, Sport) oder primär regionale Bezüge darstellen. Die ausgewählten Rubriken werden im Anhang aufgelistet. Aus rechtlichen Gründen können Leser_innenbriefe, reines Agenturmaterial und Presseschauen (Stimmen der Anderen) nicht von der FAZ herausgegeben werden. Auch beinhaltet das Datenpaket keine Ergebnisse, bei denen es sich nicht um redaktionelles Material handelt, z. B. Terminankündigungen oder Meldungen zu Insolvenzen.

Das erste Zwischenergebnis ist, dass durch die Kernsuchterme im Fall der FAZ 88203 Treffer hervorgerufen werden. Bei der SZ sind es 73222. Dies entspricht im Falle der SZ 6.02 Prozent aller SZ-Artikel und bewegt sich damit vollkommen im Rahmen der lizenzrechtlichen Vereinbarung. Wenig überraschend ist dabei, dass die Suchterme in sehr unterschiedlichem Ausmaß zur Gesamtzahl der Treffer beitragen, und dass die Trefferliste bei Weitem durch Varianten der Suchterme “Islam”, “Ausländer” und “Flüchtling” angeführt werden. Dies wird in Abbildung 1.1 dargestellt.

Anzahl der durch die Kernsuchterme getroffenen Artikel

Abbildung 1.1: Anzahl der durch die Kernsuchterme getroffenen Artikel

Die Evaluation der Suchterme der Liste der Kernsuchterme im Sinne des QTR-Verfahrens erfolgt, indem jeweils einer von diesen von der Liste entfernt wird und ermittelt wird, welche Trefferdokumente dieser hervorruft, die nicht schon durch die anderen Terme gefunden wurden. Für die Berechnung der QTR-Werte für beide Zeitungen nutzen wir nun die Methode qtr() des für diesen Zweck von uns entwickelten Pakets qtr, mittels derer die oben dargestellte Formel implementiert ist.

Der gleiche Schritt erfolgt für die FAZ.

Diese Ergebnisse für FAZ und SZ fassen wir in einer Tabelle zusammen, welche die QTR-Werte für SZ und FAZ sowie die der Berechnung zugrunde liegenden T und CQT-Werte berichtet (Tabelle 1.3). QTR beschreibt entsprechend Formel (1.1) den ermittelten Wert der Query Term Relevance.

Tabelle 1.3: Query Term Relevance der Kernsuchterme
T
CQT
QTR
Suchtermkandidat TFAZ TSZ CQTFAZ CQTSZ QTRFAZ QTRSZ
Mittelmeer-Flüchtling.* 9 9 9 9 1.00 1.00
.*migrantisch 6 6 6 6 1.00 1.00
.*migrantischen 10 11 10 11 1.00 1.00
Postmigrant.* 3 2 3 2 1.00 1.00
Sintiza 2 3 2 3 1.00 1.00
Einwanderungsland 569 319 569 319 1.00 1.00
Aufnahmegesellschaft 38 11 37 11 0.97 1.00
.*Migrantin 34 68 33 68 0.97 1.00
.*Migrantinnen 64 70 64 68 1.00 0.97
Türkeistämmig.* 31 37 31 34 1.00 0.92
Biodeutsch.* 12 7 12 6 1.00 0.86
.*Asyl 9618 2786 9585 2737 1.00 0.98
.*Migrant 271 266 269 261 0.99 0.98
.*Migranten 5426 4670 5380 4620 0.99 0.99
.*Flüchtlingen 5740 5034 5655 4912 0.98 0.98
Immigrant.* 844 1298 831 1202 0.98 0.93
.*Flüchtlinge 12272 11195 12048 10832 0.98 0.97
Emigrant.* 470 493 461 429 0.98 0.87
Sinti 495 302 484 282 0.98 0.93
Migrant.* 4675 4278 4532 4012 0.97 0.94
.*Flüchtling 1471 1662 1408 1581 0.96 0.95
Asyl.* 12994 8327 12138 7237 0.93 0.87
Imam.* 1496 1209 1381 1056 0.92 0.87
Parallelgesellschaft.* 441 272 403 221 0.91 0.81
Spätaussiedler.* 278 238 250 190 0.90 0.80
Migrationsgesellschaft 6 9 5 8 0.83 0.89
Sinto 9 16 8 13 0.89 0.81
Mehrheitsgesellschaft 283 156 250 133 0.88 0.85
Flüchtling.* 19549 18389 16875 15238 0.86 0.83
Moschee.* 4224 3483 3579 2868 0.85 0.82
Deutschtürk.* 154 146 126 109 0.82 0.75
Zugewander.* 358 396 275 323 0.77 0.82
Kopftuch.* 1475 1692 1203 1357 0.82 0.80
Zigeuner 222 107 175 82 0.79 0.77
Geflüchtete.* 520 885 343 684 0.66 0.77
Syrer 1746 1598 1348 1191 0.77 0.74
Romani 82 86 54 65 0.66 0.76
anti-semit.* 8 25 6 14 0.75 0.56
Geduldete.* 593 500 353 374 0.60 0.75
Nichtdeutsch.* 285 106 178 79 0.62 0.74
Muslim.* 15464 12708 11479 8922 0.74 0.70
Gastarbeiter.* 974 929 721 638 0.74 0.69
Zuwander.* 4718 5465 3434 3848 0.73 0.70
Eingewander.* 888 617 646 403 0.73 0.65
Aussiedler.* 943 287 437 208 0.46 0.72
Einwander.* 11866 7538 8596 5058 0.72 0.67
Moslem.* 189 596 115 422 0.61 0.71
deutsch-türkisch.* 508 470 359 298 0.71 0.63
Roma 1287 948 870 633 0.68 0.67
Russlanddeutsch.* 246 184 164 116 0.67 0.63
Schutzbedürftig.* 403 406 236 264 0.59 0.65
Auswand.* 1707 1317 1110 732 0.65 0.56
Zigeunerin 14 15 9 8 0.64 0.53
Ausländer.* 24821 10823 14930 5871 0.60 0.54
Rassis.* 4230 4614 2512 2595 0.59 0.56
Eingebürger.* 629 536 359 302 0.57 0.56
Ausgewander.* 530 589 291 289 0.55 0.49
Antisemit.* 3181 3105 1584 1592 0.50 0.51
Islam.* 30614 23938 14953 11138 0.49 0.46

Die Tabelle ist folgendermaßen zu lesen: Der T-Wert für “Muslim.*” steht für alle Treffer, die alleine durch das Suchwort entstehen. Bei dem CQT-Wert handelt es sich um Ergebnisse, die mit einem weiteren Begriff aus der Kernsuchtermliste erfasst werden können. Das logische UND führt zwangsläufig dazu, dass die Trefferzahl geringer als die Anzahl an Treffern ist, die allein mit “Muslim.*” generiert werden. Mittels einer UND- und weiterer ODER-Verknüpfungen ist es irrelevant welches Suchwort der Kernsuchtermliste gemeinsam mit “Muslim.*” auftritt. Durch das Verhältnis des T- und CQT-Wertes wird die QTR ermittelt, der sich in der Spannweite 0-1 befindet.

Der Grad des Zusammenhangs zwischen den QTR-Werten für SZ und FAZ kann dem folgenden Scatterplot (Abbildung 1.2) entnommen werden.

Zusammenhang zwischen der Query Term Relevance von SZ und FAZ

Abbildung 1.2: Zusammenhang zwischen der Query Term Relevance von SZ und FAZ

Die Korrelation zwischen den QTR-Werten der beiden Zeitungen beläuft sich auf 0.902, der damit als stark bezeichnet werden kann. Dies ist ein ermutigendes Zwischenergebnis: Für die Anwendung des Verfahrens mit dem Ziel, für SZ und FAZ im Ergebnis die gleiche Suchtermliste einsetzen zu können, ist es von Vorteil, wenn eine Vergleichbarkeit der Effekte der Suchterme bei den beiden Zeitungen gegeben ist.

Aus der QTR-Berechnung für die Kernsuchterme ergibt sich als Zwischenergebnis eine Basisrelevanz von 0.465 im Falle der SZ und von 0.463 für die FAZ. Nach Gabrielatos sollten weitere Suchterme diesen Wert nicht unterschreiten. Suchterme mit einem QTR von 1 fügen dem Korpusaufbau nichts hinzu und können damit entfallen.

1.4.1 Erweiterung der Liste der Suchterme

Gabrielatos (2007) empfiehlt, auf Grundlage eines anhand der Kernsuchterme erstellten vorläufigen Korpus Keywords zu extrahieren, die dann zu Kandidatensuchtermen werden. Er nutzt hierfür verschiedene Varianten des British National Corpus. Eine vergleichbare deutsche Ressource stellt das Mixed-typical-Korpus des Projekts Deutscher Wortschatz / Leipzig Corpora Collection dar (Goldhahn et al. 2012) und könnte für ein Verfahren der Keyword-Berechnung genutzt werden. Um Fortschritten im Natural Language Processing (NLP) Rechnung zu tragen, modifizieren wir jedoch Gabrielatos’ Vorschlag wie folgt: Zunächst erweitern wir die Liste der Kernsuchterme um alternative Begriffe mit vergleichbaren Wortumfeld, wobei wir auf den Word Embedding-Algorithmus “word2vec” zurückgreifen. In einem zweiten Schritt nutzen wir das GermaParl-Korpus der Plenarprotokolle des deutschen Bundestages zur Generierung alternativer Suchterme (Blätte und Blessing 2018). Zur Ergänzung dieser datengetriebenen Erweiterung greifen wir abschließend auf die konzeptionellen und sekundäranalytischen Erwägungen des ersten Teils dieses Papiers zurück. Das heißt wir evaluieren später – nach der Bestimmung der Kernsuchterme – die Effekte einer Hinzunahme der zunächst zurückgestellten Suchterme.

1.4.2 Word Embeddings

Wird den Suchtermen zur Identifikation von Zielpopulationen eine zentrale Bedeutung zugemessen, ist es imperativ, diese Liste so vollständig und inklusiv wie möglich zu gestalten. Die oben dargestellten Begriffe der Kernsuchtermliste sind theoretisch abgeleitet, d. h. dem etablierten Fundus sozialwissenschaftlicher Konzepte entnommen. Jedoch ist auch dies nicht unabhängig von der subjektiven, intuitiven Einschätzung der an der Formulierung der Liste beteiligten Forschenden. Ebensowenig sind diese Begriffe notwendigerweise robust gegenüber Sprachwandel oder abweichenden Konnotationen in der tatsächlich vorkommenden Zeitungsberichterstattung. Um diese Formen von diachroner und synchroner Sprachvariation einzubeziehen, bietet sich als zweiter Schritt ein datengetriebenes Verfahren an, das innerhalb eines Korpus semantisch vergleichbare Begriffe anhand ähnlicher Wortumfelder identifizieren kann. Im Bereich des Natural Language Processing wird hierbei von Word Embeddings gesprochen (Hamilton et al. 2016, S. 1490; Tang 2018, S. 657).

Im Folgenden nutzen wir eine Variante des word2vec embedding Algorithmus, mit dem für jeden Kernsuchterm die 20 Begriffe (tatsächlich im Text vorkommende Worte) identifiziert werden, die die größte semantische Ähnlichkeit hierzu aufweisen. Als konkrete Implementierung wird das wordVectors R-Paket (v.2.0) eingesetzt (Schmidt 2017). Anschließend werden Worte mit geringem semantischen Gehalt (sogenannte “stop words”) entfernt. Die resultierende Wortliste ist nicht ohne weitere Filterschritte nutzbar. Um ihren Umfang strukturiert weiter einzuschränken, haben wir uns in manueller Durchsicht für Begriffe entschieden, die möglichst eindeutige Konzepte beschreiben. Zahlreiche offenkundig historisch konnotierte Begriffe und personenbezogene Beschreibungen werden entfernt.

Aus diesem Grund werden 119 Begriffe ausgewählt, die weder bereits durch die bisherigen Kernbegriffe abgedeckt noch zu ambig sind.

##   [1] "Deutsch-Türk.*"            "EU-Zuwander.*"            
##   [3] "Fachkräfteeinwanderung.*"  "Leitkultur"               
##   [5] "Nicht-Deutsch.*"           "Roma-.*"                  
##   [7] "Schutzsuchend.*"           "Vertriebene.*"            
##   [9] "Wohnbevölkerung"           "Zugezogene.*"             
##  [11] "Aufnahmeland"              "Dublin-.*"                
##  [13] "Erstaufnahmeeinrichtung.*" "Integrationsland"         
##  [15] "Integrationspolitik"       "Staatsangehörig.*"        
##  [17] "Multikult.*"               "Assimilierung"            
##  [19] "Assimilation"              "Freizügigkeit"            
##  [21] "Integrationsproblem.*"     "Transitstaat.*"           
##  [23] "Immigration.*"             "islamist.*"               
##  [25] "Migration.*"               "Abschiebung.*"            
##  [27] "Staatsbürgerschaft.*"      "Einreise"                 
##  [29] "Ausreise.*"                "Rumänen"                  
##  [31] "Zuzug.*"                   "Mitbürger"                
##  [33] "Emigration.*"              "Religionsunterricht.*"    
##  [35] "Wanderarbeiter.*"          "Wanderungsbewegung.*"     
##  [37] "Wiedereinreise.*"          "Abgeschoben"              
##  [39] "Abschiebe.*"               "Altfallregelung"          
##  [41] "Anerkennungsquote"         "Ankerzentr.*"             
##  [43] "Anwerbestopp"              "Aufenthaltsgenehmigung"   
##  [45] "Aufenthaltsgesetz.*"       "Aufenthaltsrecht.*"       
##  [47] "Aufenthaltsstatus"         "Aufenthaltstitel"         
##  [49] "Auffanglager"              "Aufnahmeeinrichtung.*"    
##  [51] "Aufnahmelager.*"           "Aufnahmezentr.*"          
##  [53] "Auslandstürk.*"            "Auslieferungsantr.*"      
##  [55] "Balkan-Route"              "Bleibeperspektive"        
##  [57] "Bleiberecht.*"             "Deportation.*"            
##  [59] "Deutschstämmig.*"          "Duldung.*"                
##  [61] "Ehrenmord.*"               "Einbürgerung.*"           
##  [63] "eingereist.*"              "emigrier.*"               
##  [65] "Erstaufnahmestelle.*"      "EU-Türkei-Abkommen"       
##  [67] "Flüchtende.*"              "Fremdsprachenunterricht"  
##  [69] "Geflohene.*"               "Grenzpolitik"             
##  [71] "Grenzschließung.*"         "Grenzschützer.*"          
##  [73] "Grenzwächter.*"            "Heimatvertriebene.*"      
##  [75] "Hochqualifizierte.*"       "Identitätsfeststellung.*" 
##  [77] "Integrationsbemühungen.*"  "Integrationsdebatte.*"    
##  [79] "Integrationsfähigkeit"     "Integrationsgesetz.*"     
##  [81] "Integrationsgipfel.*"      "Integrationskonzept.*"    
##  [83] "Integrationskurs.*"        "Integrationsmaßnahme.*"   
##  [85] "Integrationsminister.*"    "Integrationsplan"         
##  [87] "islamfeindlich.*"          "Kopftücher.*"             
##  [89] "Lampedusa"                 "Massenmigration"          
##  [91] "Multi-Kulti"               "Niqab"                    
##  [93] "Optionspflicht"            "Passkontrollen.*"         
##  [95] "Personenfreizügigkeit"     "Personenkontrollen"       
##  [97] "Residenzpflicht"           "Rückführung.*"            
##  [99] "Sachleistungsprinzip.*"    "Sammelunterk.*"           
## [101] "Schleusung"                "Sea-Watch"                
## [103] "Sprachförderung"           "Sprachkurs.*"             
## [105] "Sprachtest.*"              "Sprachunterricht.*"       
## [107] "Staatenlos.*"              "subsidiäre.*"             
## [109] "Transitzonen"              "Türkischstämmig.*"        
## [111] "Umsiedlungsprogramm"       "unbegleitete"             
## [113] "Völkerwanderung.*"         "Vorrangprüfung"           
## [115] "Nikab"                     "Transit-Staat.*"          
## [117] "Balkanroute"               "Auslands-Türk.*"          
## [119] "Menschenschmugg.*"

1.4.3 Keywords des GermaParl-Korpus

Zusätzlich zum oben beschriebenen word2vec-Verfahren führen wir zur Generierung von weiteren Suchtermen eine Keyword-Extraction auf Grundlage des GermaParl-Korpus durch. Hierfür nutzen wir ein (optimiertes) topic model, mit dem 250 topics modelliert werden. Für jedes dieser topics kann das einschlägige Vokabular ausgegeben und damit die topics identifiziert werden, die auf migrations- und integrationsspezifische Thematisierungen hinweisen. Diese sind in Tabelle 1.4 dargestellt.

Tabelle 1.4: Migrations- und integrationspolitisch relevante Topics im GermaParl-Korpus
Topic 133 Topic 213 Topic 229
Staatsangehörigkeit Flüchtlinge Deutschland
deutsche Menschen Integration
deutschen Deutschland Zuwanderung
Staatsbürgerschaft Flüchtlingen Migranten
Deutschland kommen Menschen
Ausländer Schutz deutschen
doppelte Asylbewerber Ausländer
Integration Asyl Sprache
Einbürgerung Europa kommen
geboren Land dass

Dokumente, in denen mindestens eines dieser Topics unter den drei am stärksten ausgeprägten Topics fungiert, werden zu einem Subkorpus des GermaParl-Korpus zusammengefasst und in einem Verfahren der Keyword-Extraktion mit dem Gesamtkorpus verglichen (Baker 2006, S. 121 - 149). Die initiale Keyword-Liste findet sich als Tabelle 1.9 im Anhang.

Von den so identifizierten Schlagworten werden aber nur diejenigen einen Beitrag zum Korpusaufbau leisten, die Artikel treffen, die nicht schon über die (erweiterte) Suchtermliste getroffen werden. Zunächst lässt sich ermitteln, welche Wortformen bereits getroffen werden. Wir gleichen also ab, welche Wortformen der datengeleitet gewonnenen Liste hier nicht repräsentiert sind. Damit ergeben sich die in Tabelle 1.5 dargetellten Begriffe.

Wir gleichen also ab, welche Wortformen der datengeleitet gewonnenen Liste hier nicht repräsentiert sind. Damit ergibt sich die folgende Tabelle.

Tabelle 1.5: Signifikante Keywords im Migrations- und integrationspolitischen Teil des GermaParl-Korpus
rank_chisquare word pos count_coi count_ref exp_coi chisquare
2 Integration NN 3071 8940 305.80 25660.96
20 Menschen NN 7139 115732 3128.26 5282.79
33 Herkunftsstaaten NN 257 316 14.59 4133.35
36 Aufenthalt NN 357 749 28.16 3940.67
46 Innenminister NN 586 2534 79.43 3314.95
47 Mehrstaatigkeit NN 183 194 9.60 3214.51
50 Herkunftsland NN 223 339 14.31 3123.37
68 Bundesinnenminister NN 468 1999 62.81 2682.30
69 Verfolgung NN 482 2125 66.37 2670.69
71 Mittelmeer NN 328 1005 33.94 2614.58
73 Sprache NN 746 4934 144.61 2566.46
86 Ehegatten NN 250 653 22.99 2300.13
96 Aufnahme NN 540 3215 95.60 2119.82
100 Unterbringung NN 269 890 29.51 1994.58
104 Heimat NN 419 2208 66.88 1902.28
105 Herkunftsländern NN 153 275 10.90 1901.58
107 Land NN 2983 51493 1386.94 1885.68
110 Herkunftsländer NN 134 209 8.73 1843.87
111 Pass NN 178 414 15.07 1807.25
117 Bürgerkriegsflüchtlinge NN 126 191 8.07 1768.21
118 Personen NN 800 7308 206.43 1751.52
119 Deutsch NN 334 1555 48.09 1744.10
121 Zwangsheirat NN 133 233 9.32 1684.53
122 Seenotrettung NN 112 155 6.80 1670.66

Entsprechend des Ziels, den Korpusaufbau über domänenspezifisches Vokabular zu erreichen und die Beimengung irrelevanter Artikel gering zu halten, bereinigen wir nach Durchsicht diese Liste um Worte, die ersichtlich zu ambig sind (Integration, Menschen, Aufenthalt, Mittelmeer, Sprache, Heimat, Ehegatten, Land, Pass, Personen, Deutsch, Innenminister, Bundesinnenminister, Aufnahme, Unterbringung). Damit ergibt sich endgültig durch das Keywords-Verfahren eine Erweiterung der Suchtermliste um 9 Suchterme.

Aus der Kombination von datengeleiteten Erweiterungsstrategien und den zuvor zurückgestellten Suchtermen ergibt sich die in Tabelle 1.6 dargestellte Verteilung:

Tabelle 1.6: Anzahl der Suchterme nach Ursprungstyp
Suchtermtyp N
Kernsuchterme 59
A priori-Suchterme 90
Keyword-Verfahren 9
word2vec-Verfahren 119
Gesamt 277

1.5 Schätzung der Effekte der Hinzunahme weiterer Suchterme

Der letzte (und eigentlich zentrale) Schritt des QTR-Verfahrens besteht nun darin, die QTR-Werte für alle Suchterme auch der erweiterten Liste zu berechnen und in eine inhaltlich aussagekräftige Form zu bringen. Nach Gabrielatos ist eine inhaltliche Interpretation der QTR-Werte möglich, indem diese ins Verhältnis zur Baseline-Relevanz gesetzt werden (Gabrielatos 2007, S. 20). Diese stellt den QTR-Wert des irrelevantesten Begriffs der Kernsuchtermliste dar. Die QTR eines jeden Begriffs wird relativ zu dieser normalisiert. Dafür wird die folgende Formel verwendet:

\[\begin{equation} \label{eq:RQTRnBerechnung} RQTRn = \frac{(QTR - B) * 100}{1 - B} \end{equation}\]

RQTRn steht dabei für die relative Query Term Relevance (normalisiert), QTR für die Query Term Relevance und B für die Baseline-Relevanz.

Tabelle 1.7 stellt den Zusammenhang zwischen der normalisierten relativen Query Term Relevance (RQTRn) und der so zusammen mit den ohnehin schon von der Kernsuchtermliste generierten Artikelanzahl (N) je Zeitung dar. Die Sortierung erfolgt anhand des maximalen RQTRn Wertes in beiden Zeitungen.

Tabelle 1.7: Relevanz von Suchtermkandidaten und Anzahl abgerufener Artikel
T
CQT
RQTRn
N
Suchtermkandidat TFAZ TSZ CQTFAZ CQTSZ RQTRnFAZ RQTRnSZ NFAZ NSZ
Bundesasyl.* [APR] 6 6 6 6 100.00 100.00 88203 73222
Bundesflücht.* [APR] 3 4 3 4 100.00 100.00 88203 73222
Bürgerkriegsflüchtlinge [KEY] 203 125 203 125 100.00 100.00 88203 73222
Erstaufnahmestelle.* [W2V] 59 45 59 45 100.00 100.00 88203 73222
Flughafen-Asyl.* [APR] 1 2 1 2 100.00 100.00 88203 73222
Flughafenasyl.* [APR] 5 3 5 3 100.00 100.00 88203 73222
Flüchtlingskommissar [APR] 90 56 90 56 100.00 100.00 88203 73222
Flüchtlingskonvention [APR] 306 228 306 228 100.00 100.00 88203 73222
Orientierungskurs [APR] 12 11 12 11 100.00 100.00 88203 73222
Pro-Asyl.* [APR] 143 39 143 39 100.00 100.00 88203 73222
UNHCR-Flüchtling.* [APR] 1 3 1 3 100.00 100.00 88203 73222
.*Asylpolitik [APR] 853 614 853 614 100.00 100.00 88203 73222
.*Flüchtlingsgipfel [APR] 97 96 97 96 100.00 100.00 88203 73222
.*Flüchtlingshelfer [APR] 57 112 57 112 100.00 100.00 88203 73222
.*Flüchtlingskonferenz [APR] 17 13 17 13 100.00 100.00 88203 73222
.*Flüchtlingskrise [APR] 2581 1555 2581 1555 100.00 100.00 88203 73222
.*Flüchtlingsminister [APR] 17 30 17 30 100.00 100.00 88203 73222
.*Flüchtlingsministerium [APR] 2 7 2 7 100.00 100.00 88203 73222
.*Migrantenpolitik [APR] 4 2 4 2 100.00 100.00 88203 73222
islamfeindlich.* [W2V] 385 320 385 320 100.00 100.00 88203 73222
islamist.* [W2V] 14246 11101 14246 11101 100.00 100.00 88203 73222
Ankerzentr.* [W2V] 79 44 77 44 95.34 100.00 88205 73222
Anti-Asyl.* [APR] 15 20 15 19 100.00 90.65 88205 73223
Anti-Flüchtling.* [APR] 5 31 5 27 100.00 75.89 88205 73227
Aufnahmeeinrichtung.* [W2V] 103 54 102 54 98.14 100.00 88206 73227
Balkan-Route [W2V] 251 28 246 28 96.28 100.00 88211 73227
Bundesvertriebenengesetz [APR] 971 4 968 4 99.44 100.00 88214 73227
EU-Asyl.* [APR] 138 96 138 94 100.00 96.07 88214 73229
EU-Flüchtling.* [APR] 89 110 89 105 100.00 91.59 88214 73234
EU-Türkei-Abkommen [W2V] 36 27 35 27 94.79 100.00 88215 73234
EU-Zuwander.* [W2V] 19 45 19 42 100.00 87.48 88215 73237
EURODAC [APR] 86 38 84 38 95.72 100.00 88217 73237
Fachkräfteeinwanderung.* [W2V] 32 24 32 22 100.00 84.49 88217 73239
Kirchenasyl.* [APR] 92 132 92 130 100.00 97.20 88217 73241
Niqab [W2V] 77 44 69 44 80.63 100.00 88225 73241
Roma-.* [W2V] 1287 343 1287 284 100.00 67.85 88225 73300
Sea-Watch [W2V] 17 20 16 20 89.01 100.00 88226 73300
UN-Flüchtling.* [APR] 479 660 479 589 100.00 79.81 88226 73371
Vorrangprüfung [W2V] 97 47 94 47 94.23 100.00 88229 73371
.*Flüchtlingslager [APR] 1115 1161 1115 1157 100.00 99.44 88229 73373
.*Flüchtlingspolitik [APR] 2211 1913 2211 1910 100.00 99.63 88229 73373
antiflüchtling.* [APR] 2 2 2 1 100.00 6.54 88229 73374
BAMF [APR] 560 314 555 313 98.32 99.44 88233 73375
Erstaufnahmeeinrichtung.* [W2V] 241 148 240 145 99.26 96.26 88234 73378
Bleibeperspektive [W2V] 188 96 187 95 99.07 98.13 88235 73379
unbegleitete [W2V] 148 137 133 136 81.19 98.69 88250 73380
Transitzonen [W2V] 247 62 245 60 98.51 94.02 88252 73382
UNHCR [APR] 621 544 615 519 98.14 91.40 88258 73385
Aufnahmelager.* [W2V] 177 152 175 146 97.95 92.71 88260 73391
Aufnahmezentr.* [W2V] 125 113 123 111 97.02 96.64 88262 73393
Anwerbestopp [W2V] 70 55 66 54 89.39 96.64 88266 73394
Aufenthaltstitel [W2V] 209 109 205 102 96.46 88.04 88270 73401
Familiennachz.* [APR] 597 390 580 380 94.79 95.14 88287 73411
Aufenthaltsgesetz.* [W2V] 220 131 214 127 94.97 94.21 88293 73415
Herkunftsstaaten [KEY] 281 210 273 197 94.79 88.41 88301 73428
Anerkennungsquote [W2V] 100 67 97 63 94.41 88.79 88304 73432
Integrationskurs.* [W2V] 374 366 354 355 90.13 94.39 88323 73443
Deutsch-Türk.* [W2V] 580 692 562 633 94.23 84.11 88341 73502
Balkanroute [W2V] 166 262 160 254 93.30 94.21 88347 73510
Lampedusa [W2V] 435 426 421 399 94.04 88.22 88361 73536
Integrationsgipfel.* [W2V] 137 150 132 138 93.30 85.05 88366 73548
FRONTEX [APR] 371 309 355 298 91.99 93.27 88381 73559
Integrationsgesetz.* [W2V] 158 162 152 156 92.92 93.08 88387 73564
Dublin-.* [W2V] 3299 294 689 282 -47.30 92.34 90997 73576
Ehegattennachzug.* [APR] 24 18 23 17 92.18 89.53 90998 73577
Schutzsuchend.* [W2V] 157 278 149 266 90.50 91.96 91006 73588
Daueraufenthaltsrecht [APR] 23 20 21 19 83.80 90.65 91008 73589
Bleiberecht.* [W2V] 619 578 586 535 90.13 86.17 91041 73631
Residenzpflicht [W2V] 95 69 84 65 78.40 89.16 91052 73635
Seenotrettung [KEY] 115 92 92 86 62.76 87.85 91074 73641
Aufnahmeland [W2V] 61 43 57 33 87.71 56.45 91078 73651
Integrationsmaßnahme.* [W2V] 252 76 233 69 86.03 82.80 91096 73658
Aufenthaltsstatus [W2V] 252 184 232 167 85.29 82.80 91116 73674
Koran.* [APR] 2094 1786 1927 1555 85.10 75.89 91283 73904
Minarett.* [APR] 411 424 378 370 85.10 76.26 91316 73958
Arbeitsmigration [APR] 177 110 156 101 77.84 84.67 91336 73967
Auffanglager [W2V] 239 298 218 267 83.61 80.56 91356 73998
Integrationsdebatte.* [W2V] 136 79 117 72 73.93 83.36 91375 74005
Aufenthaltsrecht.* [W2V] 712 401 647 344 83.05 73.46 91435 74055
Altfallregelung [W2V] 42 33 32 30 55.68 82.99 91445 74058
Umsiedlungsprogramm [W2V] 20 22 13 20 34.82 82.99 91452 74060
Willkommenskultur.* [APR] 497 258 451 227 82.68 77.57 91495 74090
Sammelunterk.* [W2V] 64 54 58 46 82.50 72.34 91501 74098
Weltflüchtling.* [APR] 21 17 19 14 82.31 67.10 91503 74101
Abschiebung.* [W2V] 2740 2160 2475 1920 81.94 79.25 91757 74330
Massenmigration [W2V] 72 20 65 17 81.94 71.96 91764 74333
Integrationsland [W2V] 20 8 18 6 81.38 53.27 91766 74335
Mehrstaatigkeit [KEY] 20 13 18 11 81.38 71.21 91768 74337
Grenzpolitik [W2V] 18 19 16 15 79.33 60.56 91770 74341
Mehrstaatlichkeit [APR] 18 6 16 5 79.33 68.79 91772 74342
Kopftücher.* [W2V] 321 430 284 359 78.58 69.16 91806 74411
Menschenschmugg.* [W2V] 403 335 356 283 78.21 71.03 91852 74460
Optionspflicht [W2V] 49 42 41 37 69.65 77.76 91859 74465
Integrationsplan [W2V] 65 47 57 41 77.09 76.07 91867 74471
Integrationsbeauftragte.* [APR] 436 340 380 298 76.16 76.82 91920 74511
Anerkennungsgesetz [APR] 10 16 8 14 62.76 76.64 91922 74513
Schleusung [W2V] 78 54 68 37 76.16 41.12 91930 74528
Herkunftsländern [KEY] 654 376 567 320 75.23 72.15 92016 74584
Schleuser.* [APR] 699 735 606 602 75.23 66.17 92105 74699
subsidiäre.* [W2V] 247 134 186 116 54.00 74.95 92165 74717
Deutschkurs [APR] 88 104 76 80 74.67 56.82 92177 74740
Heimatvertriebene.* [W2V] 1419 207 1226 72 74.67 -21.87 92368 74873
Integrationspolitik [W2V] 716 351 571 302 62.20 73.83 92511 74918
Wiedereinreise.* [W2V] 141 107 121 80 73.56 52.90 92530 74941
Auslandstürk.* [W2V] 56 31 48 24 73.37 57.76 92538 74946
Herkunftsländer [KEY] 651 367 558 278 73.37 54.58 92621 75028
Burka [APR] 387 264 330 196 72.63 51.78 92666 75093
Burka-.* [APR] 387 141 330 109 72.63 57.57 92666 75107
Einbürgerung.* [W2V] 808 641 664 547 66.85 72.52 92803 75193
Aufenthaltsgenehmigung [W2V] 457 434 387 349 71.51 63.36 92866 75271
Integrationsproblem.* [W2V] 176 118 147 91 69.27 57.20 92895 75298
Multikult.* [W2V] 1922 849 1604 592 69.27 43.36 93199 75552
eingereist.* [W2V] 792 646 657 480 68.34 51.96 93325 75701
Binnenwanderung [APR] 35 14 29 11 68.16 60.00 93331 75704
Integrationskonzept.* [W2V] 70 49 58 40 68.16 65.61 93342 75713
Assimilation [W2V] 227 85 188 60 67.97 45.05 93380 75734
Grenzschließung.* [W2V] 92 91 76 75 67.60 67.10 93395 75749
Migration.* [W2V] 5930 4433 4771 3658 63.69 67.29 94475 76479
Abschiebe.* [W2V] 1276 1408 1052 1158 67.23 66.73 94657 76695
Immigration.* [W2V] 589 647 483 509 66.48 60.19 94757 76813
Burkini.* [APR] 151 64 109 52 48.23 64.86 94796 76825
Integrationsbemühungen.* [W2V] 136 53 101 43 52.14 64.67 94829 76833
Familienzusammenführung [APR] 283 162 229 117 64.43 48.04 94880 76875
Deutschkenntnisse [APR] 376 238 293 192 58.85 63.93 94956 76919
Transitstaat.* [W2V] 64 41 44 33 41.90 63.55 94976 76927
Multikulti [APR] 341 107 274 73 63.50 40.56 94976 76927
Punktesystem [APR] 305 221 244 137 62.76 28.97 95037 77011
Assimilierung [W2V] 78 38 59 30 54.56 60.56 95054 77018
Integrationsminister.* [W2V] 527 347 393 273 52.70 60.19 95173 77081
Fremdenfeindlich.* [APR] 1785 1894 1388 1468 58.66 57.94 95558 77482
Doppelstaat.* [APR] 119 143 92 101 57.73 45.05 95584 77521
Ehrenmord.* [W2V] 239 161 183 115 56.42 46.54 95637 77560
Türkischstämmig.* [W2V] 705 505 540 352 56.42 43.36 95785 77689
Sprachtest.* [W2V] 165 195 125 149 54.93 55.89 95818 77720
Integrationsfähigkeit [W2V] 160 92 113 70 45.25 55.33 95864 77740
Leitkultur [W2V] 634 308 481 207 55.12 38.69 95995 77832
Sprachkurs.* [W2V] 613 536 462 396 54.19 51.21 96134 77955
Nikab [W2V] 8 22 6 13 53.45 23.55 96134 77955
Außengrenze.* [APR] 1457 614 1091 459 53.26 52.90 96446 78080
Anerkennungsverfahren [APR] 82 45 45 33 16.01 50.09 96482 78092
Schlepper.* [APR] 1011 981 734 705 48.98 47.48 96745 78349
Menschenhändler [APR] 161 173 116 101 47.86 22.24 96778 78402
Schengen [APR] 1399 150 915 108 35.57 47.66 97173 78433
Völkerwanderung.* [W2V] 231 161 165 70 46.74 -5.61 97232 78520
Grenzübertritt [APR] 406 155 285 90 44.51 21.68 97340 78581
Herkunftsland [KEY] 657 420 460 259 44.13 28.41 97519 78732
Sprachförderung [W2V] 300 186 210 125 44.13 38.69 97586 78785
Staatenlos.* [W2V] 247 281 172 193 43.39 41.50 97641 78855
Personenfreizügigkeit [W2V] 226 89 156 62 42.27 43.36 97697 78879
Multi-Kulti [W2V] 39 20 27 12 42.64 25.23 97706 78885
Wohnbevölkerung [W2V] 94 39 65 24 42.46 28.04 97733 78900
Aufnahmebereitschaft [APR] 142 63 98 41 42.27 34.77 97776 78920
Sprachunterricht.* [W2V] 187 110 121 76 34.26 42.24 97824 78950
Grenzschutz [APR] 631 284 435 196 42.09 42.06 97976 79027
Zwangsheirat [KEY] 93 72 63 44 39.85 27.29 98000 79047
Ausreise.* [W2V] 2549 2125 1701 1300 37.99 27.48 98760 79807
EU-Diskriminierung.* [APR] 11 3 5 2 -1.49 37.76 98766 79808
Wanderungsbewegung.* [W2V] 257 89 152 59 23.84 37.01 98858 79836
Grenzschützer.* [W2V] 193 297 127 185 36.31 29.53 98902 79927
Identitätsfeststellung.* [W2V] 76 45 50 25 36.31 17.01 98923 79947
Religionsunterricht.* [W2V] 918 479 559 312 27.19 34.77 99268 80108
Staatsangehörig.* [W2V] 3287 1283 2118 775 33.71 25.98 100270 80532
Grenzwächter.* [W2V] 42 54 27 34 33.52 30.84 100279 80547
Staatsbürgerschaft.* [W2V] 2158 1915 1385 1129 33.33 23.36 100876 81190
Einreise [W2V] 1947 1590 1246 918 32.96 20.93 101410 81732
Grenzkontrolle.* [APR] 1809 891 1100 514 27.00 20.93 101879 82018
Rückführung.* [W2V] 1931 950 959 574 6.33 25.98 102801 82369
Passkontrollen.* [W2V] 55 71 32 29 22.16 -10.65 102811 82395
Doppelpass.* [APR] 179 199 103 116 20.86 22.06 102865 82452
Geflohene.* [W2V] 627 561 330 325 11.73 21.31 103141 82666
Duldung.* [W2V] 1038 687 497 394 2.98 20.37 103653 82941
Deportation.* [W2V] 782 537 442 253 18.99 1.12 103945 83191
Freizügigkeit [W2V] 1344 764 759 418 18.99 15.33 104408 83488
Nicht-Deutsch.* [W2V] 586 138 228 77 -13.78 17.38 104732 83543
Vertriebene.* [W2V] 2788 5504 1506 790 14.34 -60.00 105817 88142
Desintegration [APR] 208 86 112 41 13.97 2.24 105894 88179
Flüchtende.* [W2V] 304 386 132 207 -5.40 13.27 106057 88343
Visum.* [APR] 2095 1727 1119 818 13.22 1.68 106764 89044
Personenkontrollen [W2V] 194 119 103 61 12.66 8.97 106820 89089
Emigration.* [W2V] 378 297 197 139 10.80 0.56 106980 89233
Ausbürger.* [APR] 108 103 53 53 5.21 9.35 107016 89269
Rumänen [W2V] 741 633 374 276 7.82 -5.42 107310 89586
Mitbürger [W2V] 866 702 432 318 6.70 -2.24 107691 89933
Deutschstämmig.* [W2V] 414 354 201 165 4.28 0.19 107868 90094
Drittstaat.* [APR] 1242 641 586 311 1.68 3.74 108424 90379
Zugezogene.* [W2V] 244 278 117 121 3.17 -5.61 108531 90515
Zuzug.* [W2V] 2593 2067 1193 977 -0.56 1.50 109821 91529
Aufnahmefähigkeit [APR] 256 96 113 45 -4.10 0.75 109953 91576
Abschottung.* [APR] 1271 966 507 446 -11.92 -0.56 110639 92058
Visa.* [APR] 3159 2339 1450 966 -0.74 -9.72 111834 93070
Sachleistungsprinzip.* [W2V] 38 27 12 12 -27.37 -3.93 111857 93084
Flucht.* [APR] 10601 10736 4671 4281 -4.10 -12.34 117100 98892
emigrier.* [W2V] 403 493 166 217 -9.50 -4.67 117288 99098
Hochqualifizierte.* [W2V] 1315 692 476 303 -18.81 -5.05 118053 99461
Verfolgung [KEY] 4558 3172 1808 1374 -12.29 -5.98 120341 100998
.*Diskriminierung [APR] 3709 2435 1574 1001 -7.26 -10.09 122229 102285
Diskriminierung.* [APR] 4296 2927 1685 1181 -13.22 -11.59 122891 102687
Nachzug.* [APR] 1575 1210 536 425 -22.91 -21.31 123811 103391
Fremdsprachenunterricht [W2V] 185 22 58 7 -27.75 -27.48 123911 103404
Antidiskriminierung.* [APR] 653 331 204 104 -28.12 -28.22 124120 103517
EU-Antidiskriminierung.* [APR] 23 4 7 0 -29.61 -86.92 124120 103520
Anti-Diskriminierung.* [APR] 33 115 10 34 -29.80 -31.59 124120 103569
Wanderarbeiter.* [W2V] 352 338 105 93 -30.73 -35.51 124324 103754
Auslieferungsantr.* [W2V] 183 159 51 45 -34.26 -34.02 124412 103821
Bundesgrenzschutz [APR] 355 325 94 85 -36.87 -37.94 124603 104008
Dublin [APR] 3299 1295 689 171 -47.30 -62.24 124603 105059

Ein RQTRn-Wert von 100 impliziert, dass ein Suchtermkandidat immer mit mindestens einem Term der Kernsuchtermliste gemeinsam auftritt, also nicht zum Abruf zusätzlicher Artikel führt. Diese Begriffe haben dementsprechend keinen über die Kernsuchtermliste hinausgehenden Wert. Ein neutraler Wert um 0 suggeriert eine Relevanz vergleichbar zum irrelevantesten Term der Kernsuchtermliste. Gabrielatos (2007) schlägt vor, dies als Mindestwert zu behandeln, ab dem die Nutzung eines Kandidatenwortes gerechtfertigt ist. Ein negativer RQTRn-Wert legt dementsprechend nahe, dass es sich bei einem Suchtermkandidaten um einen Suchterm mit geringer Relevanz handelt, da er nie oder selten in Artikeln vorkommt, die bereits durch die Kernsuchterme abgerufen werden (Gabrielatos 2007, S. 21). Die Darstellung unproduktiver Terme (RQTRn-Wert von 100 für beide Zeitungen) und irrelevanter Werte (RQTRn-Wert von weniger als 0 für beide Zeitungen) findet sich im Anhang (Tabellen 1.10 und 1.11).

Analog zu den Kernsuchtermen kann auch hier von einem Zusammenhang von FAZ und SZ ausgegangen werden. Die Pearson-Korrelation zwischen der Relevanz der Kandidatensuchterme für FAZ und SZ ist sehr hoch und beträgt hier: 0.88.

Ein rein datengeleitetes Vorgehen würde nahelegen, all die Terme als plausible Suchterme zu behandeln, die in mindestens einer Zeitung einen positiven RQTRn-Wert aufweisen. Diese Suchterme sind es, die noch über die Kernsuchtermliste hinaus Artikel beitragen. Da wir allerdings mit dargestellten vertraglichen und lizenzrechtlichen Limitierungen arbeiten, wird eine zweite Maßzahl wesentlich: Die Anzahl der durch die Suchterme getroffenen Artikel. In Tabelle 1.7 ist zusätzlich zur normalisierten relativen Query Term Relevance die Anzahl der Artikel (N) dargestellt, die durch die Kernsuchtermliste und die Hinzunahme von Kandidatensuchtermen getroffen werden. Um dies am Beispiel der FAZ zu illustrieren: Durch die Kernsuchtermliste werden zunächst 88203 Artikel getroffen. Anschließend wird für jeden weiteren Suchterm die Anzahl der zusätzlich getroffenen Artikel ermittelt und mit diesen Basiswert addiert. Hierbei wird beim relevantesten Kandidatensuchterm begonnen und in absteigender Relevanz weiterverfahren. Dies setzt sich bis zum irrelevantesten Kandidatensuchterm fort. Diese Zusammenhänge werden in Abbildung 1.3 im Anhang zur leichteren Interpretation auch visuell dargestellt.

1.5.1 Folgerungen: Eine kriteriengeleitet konsolidierte Suchtermliste

Optimal ist die Suchtermliste dann, wenn nur Terme ausgewählt werden, die produktiv (d. h. die der Auswahl neue Artikel hinzufügen) und relevant sind (d. h. die in mindestens einer Zeitung einen Relevanzwert von über 0 erreichen). Dieses Vorgehen enspricht dem Ziel, so wenig Lücken des Datenbestandes wie möglich zu haben (fehlende Artikel) als auch das Rauschen in den Daten (irrelevante Artikel) gering zu halten (Gabrielatos 2007, S. 9). Durch Anwendung dieser (Daumen-)Regeln reduziert sich die Zahl der Kandidatensuchterme. Tatsächlich können 39 Suchterme (aus Tabelle 1.7) entfallen, weil sie in beiden Zeitungen entweder nicht hinreichend relevant sind oder sie keine neuen Treffer produzieren.

Kombiniert mit den eingangs gewählten und begründeten Kernsuchtermen ergibt sich basierend auf den normalisierten relativen Query Term Relevance eine reduzierte Suchtermliste (Tabelle 1.8):

Tabelle 1.8: Finale Liste der Suchterme
Suchterm Quellverfahren
Abschiebe.* [W2V]
Abschiebung.* [W2V]
Altfallregelung [W2V]
Anerkennungsgesetz [APR]
Anerkennungsquote [W2V]
Anerkennungsverfahren [APR]
Ankerzentr.* [W2V]
Anti-Asyl.* [APR]
Anti-Flüchtling.* [APR]
anti-semit.* [CORE]
antiflüchtling.* [APR]
Antisemit.* [CORE]
Anwerbestopp [W2V]
Arbeitsmigration [APR]
Assimilation [W2V]
Assimilierung [W2V]
.*Asyl [CORE]
Asyl.* [CORE]
Aufenthaltsgenehmigung [W2V]
Aufenthaltsgesetz.* [W2V]
Aufenthaltsrecht.* [W2V]
Aufenthaltsstatus [W2V]
Aufenthaltstitel [W2V]
Auffanglager [W2V]
Aufnahmebereitschaft [APR]
Aufnahmeeinrichtung.* [W2V]
Aufnahmefähigkeit [APR]
Aufnahmegesellschaft [CORE]
Aufnahmelager.* [W2V]
Aufnahmeland [W2V]
Aufnahmezentr.* [W2V]
Ausbürger.* [APR]
Ausgewander.* [CORE]
Ausländer.* [CORE]
Auslandstürk.* [W2V]
Ausreise.* [W2V]
Außengrenze.* [APR]
Aussiedler.* [CORE]
Auswand.* [CORE]
Balkan-Route [W2V]
Balkanroute [W2V]
BAMF [APR]
Binnenwanderung [APR]
Biodeutsch.* [CORE]
Bleibeperspektive [W2V]
Bleiberecht.* [W2V]
Bundesvertriebenengesetz [APR]
Burka [APR]
Burka-.* [APR]
Burkini.* [APR]
Daueraufenthaltsrecht [APR]
Deportation.* [W2V]
Desintegration [APR]
Deutsch-Türk.* [W2V]
deutsch-türkisch.* [CORE]
Deutschkenntnisse [APR]
Deutschkurs [APR]
Deutschstämmig.* [W2V]
Deutschtürk.* [CORE]
Doppelpass.* [APR]
Doppelstaat.* [APR]
Drittstaat.* [APR]
Dublin-.* [W2V]
Duldung.* [W2V]
Ehegattennachzug.* [APR]
Ehrenmord.* [W2V]
Einbürgerung.* [W2V]
Eingebürger.* [CORE]
eingereist.* [W2V]
Eingewander.* [CORE]
Einreise [W2V]
Einwander.* [CORE]
Emigrant.* [CORE]
Emigration.* [W2V]
Erstaufnahmeeinrichtung.* [W2V]
EU-Asyl.* [APR]
EU-Diskriminierung.* [APR]
EU-Flüchtling.* [APR]
EU-Türkei-Abkommen [W2V]
EU-Zuwander.* [W2V]
EURODAC [APR]
Fachkräfteeinwanderung.* [W2V]
Familiennachz.* [APR]
Familienzusammenführung [APR]
Flüchtende.* [W2V]
.*Flüchtling [CORE]
Flüchtling.* [CORE]
.*Flüchtlinge [CORE]
.*Flüchtlingen [CORE]
.*Flüchtlingslager [APR]
.*Flüchtlingspolitik [APR]
Freizügigkeit [W2V]
Fremdenfeindlich.* [APR]
FRONTEX [APR]
Gastarbeiter.* [CORE]
Geduldete.* [CORE]
Geflohene.* [W2V]
Geflüchtete.* [CORE]
Grenzkontrolle.* [APR]
Grenzpolitik [W2V]
Grenzschließung.* [W2V]
Grenzschutz [APR]
Grenzschützer.* [W2V]
Grenzübertritt [APR]
Grenzwächter.* [W2V]
Heimatvertriebene.* [W2V]
Herkunftsland [KEY]
Herkunftsländer [KEY]
Herkunftsländern [KEY]
Herkunftsstaaten [KEY]
Identitätsfeststellung.* [W2V]
Imam.* [CORE]
Immigrant.* [CORE]
Immigration.* [W2V]
Integrationsbeauftragte.* [APR]
Integrationsbemühungen.* [W2V]
Integrationsdebatte.* [W2V]
Integrationsfähigkeit [W2V]
Integrationsgesetz.* [W2V]
Integrationsgipfel.* [W2V]
Integrationskonzept.* [W2V]
Integrationskurs.* [W2V]
Integrationsland [W2V]
Integrationsmaßnahme.* [W2V]
Integrationsminister.* [W2V]
Integrationsplan [W2V]
Integrationspolitik [W2V]
Integrationsproblem.* [W2V]
Islam.* [CORE]
Kirchenasyl.* [APR]
Kopftuch.* [CORE]
Kopftücher.* [W2V]
Koran.* [APR]
Lampedusa [W2V]
Leitkultur [W2V]
Massenmigration [W2V]
Mehrheitsgesellschaft [CORE]
Mehrstaatigkeit [KEY]
Mehrstaatlichkeit [APR]
Menschenhändler [APR]
Menschenschmugg.* [W2V]
.*Migrant [CORE]
Migrant.* [CORE]
.*Migranten [CORE]
.*Migrantin [CORE]
.*Migrantinnen [CORE]
Migration.* [W2V]
Migrationsgesellschaft [CORE]
Minarett.* [APR]
Mitbürger [W2V]
Moschee.* [CORE]
Moslem.* [CORE]
Multi-Kulti [W2V]
Multikult.* [W2V]
Multikulti [APR]
Muslim.* [CORE]
Nicht-Deutsch.* [W2V]
Nichtdeutsch.* [CORE]
Nikab [W2V]
Niqab [W2V]
Optionspflicht [W2V]
Parallelgesellschaft.* [CORE]
Passkontrollen.* [W2V]
Personenfreizügigkeit [W2V]
Personenkontrollen [W2V]
Punktesystem [APR]
Rassis.* [CORE]
Religionsunterricht.* [W2V]
Residenzpflicht [W2V]
Roma [CORE]
Roma-.* [W2V]
Romani [CORE]
Rückführung.* [W2V]
Rumänen [W2V]
Russlanddeutsch.* [CORE]
Sammelunterk.* [W2V]
Schengen [APR]
Schlepper.* [APR]
Schleuser.* [APR]
Schleusung [W2V]
Schutzbedürftig.* [CORE]
Schutzsuchend.* [W2V]
Sea-Watch [W2V]
Seenotrettung [KEY]
Sinti [CORE]
Sinto [CORE]
Spätaussiedler.* [CORE]
Sprachförderung [W2V]
Sprachkurs.* [W2V]
Sprachtest.* [W2V]
Sprachunterricht.* [W2V]
Staatenlos.* [W2V]
Staatsangehörig.* [W2V]
Staatsbürgerschaft.* [W2V]
subsidiäre.* [W2V]
Syrer [CORE]
Transitstaat.* [W2V]
Transitzonen [W2V]
Türkeistämmig.* [CORE]
Türkischstämmig.* [W2V]
Umsiedlungsprogramm [W2V]
UN-Flüchtling.* [APR]
unbegleitete [W2V]
UNHCR [APR]
Vertriebene.* [W2V]
Visum.* [APR]
Völkerwanderung.* [W2V]
Vorrangprüfung [W2V]
Wanderungsbewegung.* [W2V]
Weltflüchtling.* [APR]
Wiedereinreise.* [W2V]
Willkommenskultur.* [APR]
Wohnbevölkerung [W2V]
Zigeuner [CORE]
Zigeunerin [CORE]
Zugewander.* [CORE]
Zugezogene.* [W2V]
Zuwander.* [CORE]
Zuzug.* [W2V]
Zwangsheirat [KEY]

Wird die bereits dargestellte Artikelbegrenzung zur Grundlage genommen, ist es ein plausibles Vorgehen, so lange niedrig-relevante Begriffe von der Liste zu entfernen bis 100.000 Artikel unterschritten werden. In unserem Fall trifft dies auf 27 Begriffe zu:

##  [1] "Staatsangehörig.*"    "Grenzwächter.*"       "Staatsbürgerschaft.*"
##  [4] "Einreise"             "Grenzkontrolle.*"     "Rückführung.*"       
##  [7] "Passkontrollen.*"     "Doppelpass.*"         "Geflohene.*"         
## [10] "Duldung.*"            "Deportation.*"        "Freizügigkeit"       
## [13] "Nicht-Deutsch.*"      "Vertriebene.*"        "Desintegration"      
## [16] "Flüchtende.*"         "Visum.*"              "Personenkontrollen"  
## [19] "Emigration.*"         "Ausbürger.*"          "Rumänen"             
## [22] "Mitbürger"            "Deutschstämmig.*"     "Drittstaat.*"        
## [25] "Zugezogene.*"         "Zuzug.*"              "Aufnahmefähigkeit"

1.6 Schlussbemerkungen

In diesem Papier wurde illustriert, wie mit einer Kombination aus konzeptionellen, auf sekundärliteratur basierenden und datengeleiteten Ansätzen ein thematisch klar definiertes Korpus deutscher Zeitungsberichterstattung erstellt werden konnte, das vorgegebenen lizenzrechtlichen Vereinbarungen genügt.

Diese Überlegungen sind hierbei nicht auf die Entwicklung migrations- und integrationspolitischer Suchterme beschränkt. Vielmehr ist die vorgeschlagene Kombination von theoretischer Herleitung und datengeleiteter Erweiterung und Kontrolle entwickelter Suchterme generalisierbar.

  • Integration dieser Passage in Schluss: “Wie aus den konzeptionellen Erwägungen hervorgeht, ist das MigPress-Korpus darauf ausgerichtet, als multifunktionales Korpus eine große Bandbreite von Forschungsinteressen bedienen zu können. Im konkreten Einsatzfall wird oftmals wiederum nur ein konzeptionell enger gefasstes Subkorpus von MigPress gefordert sein. Damit Nutzer_innen dies in einem zweiten Schritt selbst durchführen können, beinhaltet die Darstellung des Verfahrens den zugrundeliegenden Code, der frei adaptiert werden kann. Um dies niedrigschwellig möglich zu machen, liegt eine Implementierung des QTR-Verfahrens mit dem von uns entwickelten quelloffenen R-Paket qtr vor.”

1.7 Anhang

1.7.1 Ergebnis der Keyword-Extraction

Tabelle 1.9: Ergebnis der Keyword-Extraction aus dem migrations- und integrationspolitisch relevanten Reden des GermaParl-Korpus
rank_chisquare word pos count_coi count_ref exp_coi chisquare
1 Flüchtlinge NN 3859 7305 284.23 46139.21
2 Integration NN 3071 8940 305.80 25660.96
3 Zuwanderung NN 1689 2683 111.31 22947.17
4 Staatsangehörigkeit NN 1187 1500 68.41 18768.64
5 Flüchtlingen NN 1366 2480 97.92 16851.90
6 Ausländer NN 1139 2095 82.34 13915.35
7 Staatsbürgerschaft NN 751 1024 45.19 11311.78
8 Migranten NN 868 1538 61.26 10902.68
9 Asylbewerber NN 735 1100 46.72 10405.22
10 Asyl NN 731 1143 47.71 10041.39
11 Einbürgerung NN 487 567 26.83 8097.28
12 Migration NN 666 1236 48.42 8082.12
14 Asylverfahren NN 453 612 27.11 6864.17
15 Integrationspolitik NN 449 621 27.24 6700.31
17 Abschiebung NN 448 710 29.48 6096.37
19 Ausländern NN 431 754 30.17 5464.56
20 Menschen NN 7139 115732 3128.26 5282.79
21 Zuwanderer NN 363 540 22.99 5159.96
22 Bleiberecht NN 324 418 18.89 5056.57
23 Integrationskurse NN 354 528 22.46 5023.04
24 Aufenthaltserlaubnis NN 297 338 16.17 5005.79
25 Aufenthaltsrecht NN 365 585 24.19 4927.89
26 Migrantinnen NN 416 819 31.44 4826.23
28 Asylrecht NN 335 526 21.92 4588.35
29 Zuwanderungsgesetz NN 350 597 24.11 4520.04
30 Staatsangehörigkeitsrecht NN 302 421 18.41 4483.34
32 Bleiberechtsregelung NN 252 285 13.67 4263.11
33 Herkunftsstaaten NN 257 316 14.59 4133.35
34 Einwanderung NN 316 530 21.54 4130.82
36 Aufenthalt NN 357 749 28.16 3940.67
37 Familiennachzug NN 223 260 12.30 3704.62
38 Optionspflicht NN 213 232 11.33 3683.61
39 Flüchtlingskonvention NN 231 289 13.24 3675.41
40 Residenzpflicht NN 226 273 12.70 3674.62
41 Flüchtlingspolitik NN 278 460 18.79 3669.44
42 Asylbewerbern NN 266 414 17.31 3665.63
44 Sprachkenntnisse NN 240 329 14.49 3602.32
45 Einreise NN 311 663 24.80 3389.52
46 Innenminister NN 586 2534 79.43 3314.95
47 Mehrstaatigkeit NN 183 194 9.60 3214.51
48 Ausländerbehörden NN 207 271 12.17 3200.62
49 Asylsuchende NN 204 271 12.09 3124.90
50 Herkunftsland NN 223 339 14.31 3123.37
51 Einwanderungsland NN 221 337 14.21 3088.80
52 Asylbewerberleistungsgesetz NN 279 585 22.00 3081.15
54 Aufenthaltsgesetz NN 196 254 11.46 3050.23
55 Spätaussiedler NN 211 308 13.21 3037.91
56 Flüchtling NN 208 303 13.01 2998.84
57 Abschiebungen NN 203 295 12.68 2931.53
60 Ausländerrecht NN 225 387 15.58 2888.21
61 Abschiebehaft NN 175 209 9.78 2865.24
62 Staatsangehörigkeitsrechts NN 193 272 11.84 2844.64
63 Deutschkenntnisse NN 174 209 9.75 2838.93
64 Asylanträge NN 175 218 10.01 2791.87
65 Vorrangprüfung NN 165 190 9.04 2761.58
67 Sprachkurse NN 201 327 13.44 2685.24
68 Bundesinnenminister NN 468 1999 62.81 2682.30
69 Verfolgung NN 482 2125 66.37 2670.69
70 Asylantrag NN 161 189 8.91 2663.65
71 Mittelmeer NN 328 1005 33.94 2614.58
72 Geduldete NN 158 187 8.78 2601.14
73 Sprache NN 746 4934 144.61 2566.46
76 Integrationskursen NN 168 229 10.11 2530.94
77 Aufenthaltsstatus NN 175 255 10.95 2522.58
78 Migrationshintergrund NN 335 1091 36.31 2521.67
80 Asylsuchenden NN 162 215 9.60 2483.06
82 Ehegattennachzug NN 147 171 8.10 2445.40
83 Fluchtursachen NN 267 709 24.85 2421.45
84 Roma NN 338 1167 38.32 2405.15
86 Ehegatten NN 250 653 22.99 2300.13
87 Altfallregelung NN 141 175 8.05 2254.60
88 Bleibeperspektive NN 149 204 8.99 2238.25
90 Willkommenskultur NN 165 266 10.97 2218.53
92 Flucht NN 396 1734 54.23 2210.28
93 Zuzug NN 168 283 11.48 2189.27
94 Asylsystem NN 125 137 6.67 2153.94
95 Einbürgerungen NN 130 156 7.28 2122.28
96 Aufnahme NN 540 3215 95.60 2119.82
99 Asylrechts NN 137 195 8.45 2006.03
100 Unterbringung NN 269 890 29.51 1994.58
101 Familienzusammenführung NN 129 176 7.77 1942.24
102 Aufenthaltstitel NN 142 227 9.39 1920.64
104 Heimat NN 419 2208 66.88 1902.28
105 Herkunftsländern NN 153 275 10.90 1901.58
106 Nachzug NN 113 130 6.19 1892.31
107 Land NN 2983 51493 1386.94 1885.68
108 Integrationsplan NN 121 158 7.10 1873.99
110 Herkunftsländer NN 134 209 8.73 1843.87
111 Pass NN 178 414 15.07 1807.25
112 Duldung NN 146 266 10.49 1796.38
113 Zuwanderern NN 129 199 8.35 1788.64
114 Ausländerinnen NN 143 256 10.16 1782.56
115 Punktesystem NN 138 237 9.55 1773.39
117 Bürgerkriegsflüchtlinge NN 126 191 8.07 1768.21
118 Personen NN 800 7308 206.43 1751.52
119 Deutsch NN 334 1555 48.09 1744.10
121 Zwangsheirat NN 133 233 9.32 1684.53
122 Seenotrettung NN 112 155 6.80 1670.66
123 Staatsangehörigen NN 140 266 10.34 1669.01
124 Rückführung NN 244 885 28.74 1654.13

1.7.2 Relevanz von Suchtermkandidaten und Anzahl der abgerufenen Artikel - Dotplotdarstellung

Relevanz von Suchtermkandidaten und der abgerufenen Artikel - Dotplotdarstellung

Abbildung 1.3: Relevanz von Suchtermkandidaten und der abgerufenen Artikel - Dotplotdarstellung

Hierbei wird die normalisierte relative Query Term Relevance einzelner Suchterme für FAZ (Kreise) und SZ (Kreuze) abgetragen. Gleichzeitig wird Auskunft darüber gegeben, wie viele Artikel in Summe durch die Hinzunahme von Begriffen getroffen werden (blauer Balken).

1.7.3 Produktivität: Ausschluss unproduktiver Terme

Tabelle 1.10: Vergleich unproduktiver Terme in FAZ und SZ
SZ
productive unproductive
FAZ productive Ankerzentr., Aufnahmeeinrichtung., Balkan-Route, Bundesamt+für+Migration+und+Flüchtlinge, Bundesvertriebenengesetz, EU-Türkei-Abkommen, EURODAC, Kompetenzzentrum+für+Integration, Niqab, Pro+Asyl, Sea-Watch, US-Flüchtling., Unicef-Flüchtling., Vorrangprüfung, subsidiärer+Schutz
FAZ unproductive Anti-Asyl., Anti-Flüchtling., EU-Asyl., EU-Flüchtling., EU-Zuwander., Fachkräfteeinwanderung., Kirchenasyl., Roma-., UN-Flüchtling., .Flüchtlingslager, .Flüchtlingspolitik, antiasyl., antiflüchtling.* Bundesasyl., Bundesflücht., Bürgerkriegsflüchtlinge, Erstaufnahmestelle., Flughafen-Asyl., Flughafenasyl., Flüchtlingskommissar, Flüchtlingskonvention, Orientierungskurs, Pro-Asyl., UNHCR-Flüchtling., .Asylpolitik, .Flüchtlingsgipfel, .Flüchtlingshelfer, .Flüchtlingskonferenz, .Flüchtlingskrise, .Flüchtlingsminister, .Flüchtlingsministerium, .Migrantenpolitik, islamfeindlich., islamist.*

1.7.4 Relevanz: Ausschluss irrelevanter Terme

Tabelle 1.11: Vergleich irrelevanter Terme in FAZ und SZ
SZ
relevant irrelevant
FAZ relevant Heimatvertriebene., Mitbürger, Passkontrollen., Rumänen, Vertriebene., Völkerwanderung., Zugezogene.*, amnesty+international
FAZ irrelevant Aufnahmefähigkeit, Dublin-., EU-Diskriminierung., Flüchtende., Nicht-Deutsch., Transit-Staat., Zuzug. Abschottung., Anti-Diskriminierung., Antidiskriminierung., Auslieferungsantr., Bundesgrenzschutz, Diskriminierung., Dublin, EU-Antidiskriminierung., Flucht., Fremdsprachenunterricht, Hochqualifizierte., Nachzug., Sachleistungsprinzip., Verfolgung, Visa., Wanderarbeiter., .Diskriminierung, emigrier.

1.7.5 Ausgewählte Ressorts je Zeitung

(#tab:ressorts_per_paper)Liste der ausgewählten Ressorts je Zeitung
SZ
Berlin
Berlin-Seite
Buch Zwei
Das politische Kinderbuch
Die Seite Drei
Dokumentation
Gesellschaft
Letzte Seite
Meinungsseite
Nachrichten
Panorama
Politik
Politisches Buch
Report
Serie
Sonstiges
SZ am Wochenende
SZ Wochenende
Themen
Themen aus dem Ausland
Themen aus Deutschland
Themen des Tages
Wirtschaft
Wirtschaft /Geld
Wirtschaft Beilage
Wirtschaftsreport
Zeichen der Zeit
FAZ
Gesellschaft
Meinung
Meldungen der Woche
Politik
Titelthema
Wirtschaft
Wirtschaft und Politik
Wirtschaft und Politik - Titelthema
Wirtschaft und Politik Titelthema

1.7.6 Queries für SZ und FAZ

(#tab:cqp_and_faz_expressions)Übersicht: CQP und FAZ Queries
CQP Ausdruck FAZ Ausdruck
Abschottung .Abschottung. Abschottung.*
Asyl .Asyl. .Asyl, .Asylpolitik, Anti-Asyl., Asyl., Bundesasyl., EU-Asyl., Flughafen-Asyl., Flughafenasyl., Kirchenasyl., Pro-Asyl.
Diskrimin .Diskrimin. .Diskriminierung, Anti-Diskriminierung., Antidiskriminierung., Diskriminierung., EU-Antidiskriminierung., EU-Diskriminierung.
Flüchtling .Flüchtling. .Flüchtling, .Flüchtlinge, .Flüchtlingen, .Flüchtlingsgipfel, .Flüchtlingshelfer, .Flüchtlingskonferenz, .Flüchtlingskrise, .Flüchtlingslager, .Flüchtlingsminister, .Flüchtlingsministerium, .Flüchtlingspolitik, Anti-Flüchtling., Bundesflücht., EU-Flüchtling., Flüchtling., Mittelmeer-Flüchtling., UN-Flüchtling., UN–Flüchtling., UNHCR-Flüchtling., Unicef-Flüchtling., Uno-Flüchtling., US-Flüchtling., Weltflüchtling.*
Migrant .Migrant. .Migrant, .Migranten, .Migrantenpolitik, .Migrantin, .Migrantinnen, .migrantischen, Emigrant., Immigrant., Migrant., Postmigrant.