Kapitel 2 Anhang

2.1 Datenbericht MIGPRESS_FAZ

2.1.1 Überblick

Das ist der Datenbericht für das MIGPRESS_FAZ-Korpus (corpus build date: 2020-07-08)

2.1.2 Korpusgröße

Die Größe des gesamten Korpus beträgt 86.46 Millionen Tokens.

2.1.3 Positionale Attribute

Die folgenden positionalen Attribute sind verfügbar:

## - word
## - pos
## - lemma
## - ner

2.1.4 Strukturelle Attribute

Die folgenden strukturellen Attribute sind verfügbar:

## - article_id
## - date
## - year
## - calendar_week
## - column
## - department
## - headline
## - n_articles_calendar_week
## - n_articles_calendar_week_sampled_departments
## - newspaper

2.1.5 Bericht einzelner struktureller Attribute

2.1.5.1 Strukturelles Attribut “calendar_week”

Im MIGPRESS_FAZ-Korpus können genaue Datumsangaben nicht angeboten werden. Die genauste Datenangabe, die wir anbieten können, ist die Kalenderwoche über das s-Attribut “calendar_week”

Das Korpus deckt die Zeitspanne zwischen 2000-02 und 2019-53 (Angabe in Jahr-Kalenderwoche) ab.

2.1.5.2 Strukturelles Attribut “year”

2.1.5.3 Strukturelles Attribut “article_id”

Das strukturelle Attribut “article_id” identifiziert individuelle Artikel im Korpus. Das Korpus umfasst 104668 individuelle Artikel. Wir können die Artikelanzahl je Zeit darstellen. Hier nach Kalenderwoche:

Auch eine Darstellung je Jahr ist möglich:

2.1.5.4 Strukturelles Attribut “Ressort”

  • Anzahl der Token je Ressort
  • Anzahl der Artikel je Ressort

2.2 Datenbericht MIGPRESS_SZ

2.2.1 Überblick

Das ist der Datenbericht für das MIGPRESS_SZ-Korpus (corpus build date: 2020-07-08)

2.2.2 Korpusgröße

Die Größe des gesamten Korpus beträgt 58.36 Millionen Tokens.

2.2.3 Positionale Attribute

Die folgenden positionalen Attribute sind verfügbar:

## - word
## - pos
## - lemma
## - ner

2.2.4 Strukturelle Attribute

Die folgenden strukturellen Attribute sind verfügbar:

## - article_id
## - date
## - year
## - calendar_week
## - column
## - department
## - headline
## - n_articles_day
## - n_articles_calendar_week
## - n_articles_day_sampled_departments
## - n_articles_calendar_week_sampled_departments
## - newspaper

2.2.5 Bericht einzelner struktureller Attribute

2.2.5.1 Strukturelles Attribut “date”

Das MIGPRESS_SZ-Korpus deckt die Zeitspanne von 2000-01-01 bis 2019-12-31 ab.

2.2.5.2 Strukturelles Attribut “calendar_week”

Um Vergleichbarkeit mit dem MIGPRESS_FAZ-Korpus herzustellen, wird auch im MIGPRESS_SZ-Korpus das s-Attribut “calendar_week” angeboten.

Das Korpus deckt die Zeitspanne zwischen 1999-52 und 2020-01 (Angabe in Jahr-Kalenderwoche) ab.

2.2.5.3 Strukturelles Attribut “year”

2.2.5.4 Strukturelles Attribut “article_id”

Das strukturelle Attribut “article_id” identifiziert individuelle Artikel im Korpus. Das Korpus umfasst 86302 individuelle Artikel. Wir können die Artikelanzahl je Zeit darstellen. Hier nach Kalenderwoche:

Auch eine Darstellung je Jahr ist möglich:

2.2.5.5 Strukturelles Attribut “Ressort”

  • Anzahl der Token je Ressort
  • Anzahl der Artikel je Ressort