Die Möglichkeiten der Arbeit mit Korpora gehen weit über das Zählen hinaus. Worte (und komplexere lexikalische Einheiten) zu zählen, ist jedoch die grundlegende Operation für komplexere algorithmische Analysen und kann bereits selbst zu aussagekräftigen Analysen führen.
Das Zählen kann als Messvorgang verstanden werden. Wie bei allen anderen Auswertungsschritten sollte jede Zähloperation mit der Frage nach der Validität verbunden sein. Ist sichergestellt, dass ich messe, was ich meine zu messen? Gerade durch die Variation der Ausdrucksmöglichkeiten natürlicher Sprache ist das nicht trivial.
Es ist zu unterscheiden zwischen absoluten Häufigkeiten (
count
) und relativen Frequenzen (frequencies
, Normalisierung der Häufigkeit durch Division mit Korpus- bzw. Subkorpusgröße, meist alsfreq
abgekürzt). In Analysen ist inhaltlich zu begründen, weshalb man mit Häufigkeiten oder Frequenzen arbeitet.Die grundlegenden hier erläuterten Methoden sind
count()
,dispersion()
undas.TermDocumentMatrix()
. Wie alle anderen Basis-Methoden des polmineR-Pakets sind diese für Korpora,corpus
undpartition
-Objekte verfügbar.Als Beispiele dienen u.a.: Die Gewinnung von Zeitreihen, die diktionärsbasierte Klassifikation von Partitionen.