In der quantitativen Textanalyse gibt es eine Reihe von Algorithmen, die als Grundlage eine Übersetzung von Texten in sogenannte Term-Dokument-Matrizen erfordern. Dies gilt etwa bei Topic-Modellen, aber auch für viele Verfahren des maschinellen Lernens oder für die in der Politikwissenschaft gängigen Wordscore- und Wordfish-Verfahren.
Term-Dokument-Matrizen beruhen auf einem sogenannten ‘bag-of-words’-Ansatz: Indem ein Text in einen Vektor mit Zählungen von Worten übersetzt wird, wird dessen grammatikalische Struktur und einschließlich der Sequenz des Textes aufgelöst. Ein Term-Dokument-Matrix führt die Vektor-Repräsentation von Texten zusammen, mit den Worten in den Reihen und Dokumenten in den Spalten. Jede Zelle der Matrix gibt an, wie oft Wort i in Dokument j auftritt.
Technisch müssen Term-Dokument-Matrizen als “dünnbesetzte Matrix” (sparse matrix) realisiert werden, weil bei einem ausdifferenzierten Vokabular bei weitem nicht jedes Wort in jedem Dokument mindestens einmal auftrifft. Das polmineR-Paket nutzt dabei die
TermDocumentMatrix
-Klasse des tm-Pakets, die als geringfügige Modifikation aus dersimple_triplet_matrix
des slam-Pakets hervorgeht.