Kapitel 2 Anhang
2.1 Datenbericht MIGPRESS_FAZ
2.1.1 Überblick
Das ist der Datenbericht für das MIGPRESS_FAZ-Korpus (corpus build date: 2020-07-08)
2.1.2 Korpusgröße
Die Größe des gesamten Korpus beträgt 86.46 Millionen Tokens.
2.1.3 Positionale Attribute
Die folgenden positionalen Attribute sind verfügbar:
## - word
## - pos
## - lemma
## - ner
2.1.4 Strukturelle Attribute
Die folgenden strukturellen Attribute sind verfügbar:
## - article_id
## - date
## - year
## - calendar_week
## - column
## - department
## - headline
## - n_articles_calendar_week
## - n_articles_calendar_week_sampled_departments
## - newspaper
2.1.5 Bericht einzelner struktureller Attribute
2.1.5.1 Strukturelles Attribut “calendar_week”
Im MIGPRESS_FAZ-Korpus können genaue Datumsangaben nicht angeboten werden. Die genauste Datenangabe, die wir anbieten können, ist die Kalenderwoche über das s-Attribut “calendar_week”
Das Korpus deckt die Zeitspanne zwischen 2000-02 und 2019-53 (Angabe in Jahr-Kalenderwoche) ab.
2.1.5.2 Strukturelles Attribut “year”
2.1.5.3 Strukturelles Attribut “article_id”
Das strukturelle Attribut “article_id” identifiziert individuelle Artikel im Korpus. Das Korpus umfasst 104668 individuelle Artikel. Wir können die Artikelanzahl je Zeit darstellen. Hier nach Kalenderwoche:
Auch eine Darstellung je Jahr ist möglich:
2.1.5.4 Strukturelles Attribut “Ressort”
- Anzahl der Token je Ressort
- Anzahl der Artikel je Ressort
2.2 Datenbericht MIGPRESS_SZ
2.2.1 Überblick
Das ist der Datenbericht für das MIGPRESS_SZ-Korpus (corpus build date: 2020-07-08)
2.2.2 Korpusgröße
Die Größe des gesamten Korpus beträgt 58.36 Millionen Tokens.
2.2.3 Positionale Attribute
Die folgenden positionalen Attribute sind verfügbar:
## - word
## - pos
## - lemma
## - ner
2.2.4 Strukturelle Attribute
Die folgenden strukturellen Attribute sind verfügbar:
## - article_id
## - date
## - year
## - calendar_week
## - column
## - department
## - headline
## - n_articles_day
## - n_articles_calendar_week
## - n_articles_day_sampled_departments
## - n_articles_calendar_week_sampled_departments
## - newspaper
2.2.5 Bericht einzelner struktureller Attribute
2.2.5.1 Strukturelles Attribut “date”
Das MIGPRESS_SZ-Korpus deckt die Zeitspanne von 2000-01-01 bis 2019-12-31 ab.
2.2.5.2 Strukturelles Attribut “calendar_week”
Um Vergleichbarkeit mit dem MIGPRESS_FAZ-Korpus herzustellen, wird auch im MIGPRESS_SZ-Korpus das s-Attribut “calendar_week” angeboten.
Das Korpus deckt die Zeitspanne zwischen 1999-52 und 2020-01 (Angabe in Jahr-Kalenderwoche) ab.
2.2.5.3 Strukturelles Attribut “year”
2.2.5.4 Strukturelles Attribut “article_id”
Das strukturelle Attribut “article_id” identifiziert individuelle Artikel im Korpus. Das Korpus umfasst 86302 individuelle Artikel. Wir können die Artikelanzahl je Zeit darstellen. Hier nach Kalenderwoche:
Auch eine Darstellung je Jahr ist möglich:
2.2.5.5 Strukturelles Attribut “Ressort”
- Anzahl der Token je Ressort
- Anzahl der Artikel je Ressort