The method will get the number of tokens in a corpus or partition, or the dispersion across one or more s-attributes.

size(x, ...)

# S4 method for corpus
size(x, s_attribute = NULL, verbose = TRUE, ...)

# S4 method for character
size(x, s_attribute = NULL, verbose = TRUE, ...)

# S4 method for partition
size(x, s_attribute = NULL, ...)

# S4 method for partition_bundle
size(x)

# S4 method for DocumentTermMatrix
size(x)

# S4 method for TermDocumentMatrix
size(x)

# S4 method for features
size(x)

# S4 method for remote_corpus
size(x)

# S4 method for remote_partition
size(x)

Arguments

x

An object to get size(s) for.

...

Further arguments (used only for backwards compatibility).

s_attribute

A character vector with s-attributes (one or more).

verbose

A logical value, whether to output messages.

Value

If .Object is a corpus (a corpus object or specified by corpus id), an integer vector if argument s_attribute is NULL, a two-column data.table otherwise (first column is the s-attribute, second column: "size"). If .Object is a subcorpus_bundle or a partition_bundle, a data.table (with columns "name" and "size").

Details

One or more s-attributes can be provided to get the dispersion of tokens across one or more dimensions. Two or more s-attributes can lead to reasonable results only if the corpus XML is flat.

The size-method for features objects will return a named list with the size of the corpus of interest ("coi"), i.e. the number of tokens in the window, and the reference corpus ("ref"), i.e. the number of tokens that are not matched by the query and that are outside the window.

See also

See dispersion-method for counts of hits. The hits method calls the size-method to get sizes of subcorpora.

Examples

use("polmineR")
#> ... activating corpus: GERMAPARLMINI (version: 0.0.1 | build date: 2019-02-23)
#> ... activating corpus: REUTERS
# for corpus object corpus("REUTERS") %>% size()
#> [1] 4050
corpus("REUTERS") %>% size(s_attribute = "id")
#> id size #> 1: 127 92 #> 2: 144 444 #> 3: 191 55 #> 4: 194 69 #> 5: 211 93 #> 6: 236 465 #> 7: 237 434 #> 8: 242 164 #> 9: 246 331 #> 10: 248 349 #> 11: 273 378 #> 12: 349 92 #> 13: 352 105 #> 14: 353 103 #> 15: 368 110 #> 16: 489 149 #> 17: 502 199 #> 18: 543 83 #> 19: 704 282 #> 20: 708 53
corpus("GERMAPARLMINI") %>% size(s_attribute = c("date", "party"))
#> date party size #> 1: 2009-10-27 B90_DIE_GRUENEN 17 #> 2: 2009-10-27 CDU_CSU 71 #> 3: 2009-10-27 DIE_LINKE 25 #> 4: 2009-10-27 FDP 17 #> 5: 2009-10-27 NA 9197 #> 6: 2009-10-27 SPD 14 #> 7: 2009-10-28 CDU_CSU 224 #> 8: 2009-10-28 FDP 50 #> 9: 2009-10-28 NA 2519 #> 10: 2009-11-10 B90_DIE_GRUENEN 6706 #> 11: 2009-11-10 CDU_CSU 25327 #> 12: 2009-11-10 DIE_LINKE 7703 #> 13: 2009-11-10 FDP 9861 #> 14: 2009-11-10 NA 6028 #> 15: 2009-11-10 SPD 12691 #> 16: 2009-11-11 B90_DIE_GRUENEN 13409 #> 17: 2009-11-11 CDU_CSU 33209 #> 18: 2009-11-11 DIE_LINKE 13501 #> 19: 2009-11-11 FDP 17493 #> 20: 2009-11-11 NA 11264 #> 21: 2009-11-11 SPD 28738 #> 22: 2009-11-12 B90_DIE_GRUENEN 2920 #> 23: 2009-11-12 CDU_CSU 7659 #> 24: 2009-11-12 DIE_LINKE 1313 #> 25: 2009-11-12 FDP 4084 #> 26: 2009-11-12 NA 2302 #> 27: 2009-11-12 SPD 5859 #> date party size
# for corpus specified by ID size("GERMAPARLMINI")
#> [1] 222201
size("GERMAPARLMINI", s_attribute = "date")
#> date size #> 1: 2009-10-27 9341 #> 2: 2009-10-28 2793 #> 3: 2009-11-10 68316 #> 4: 2009-11-11 117614 #> 5: 2009-11-12 24137
size("GERMAPARLMINI", s_attribute = c("date", "party"))
#> date party size #> 1: 2009-10-27 B90_DIE_GRUENEN 17 #> 2: 2009-10-27 CDU_CSU 71 #> 3: 2009-10-27 DIE_LINKE 25 #> 4: 2009-10-27 FDP 17 #> 5: 2009-10-27 NA 9197 #> 6: 2009-10-27 SPD 14 #> 7: 2009-10-28 CDU_CSU 224 #> 8: 2009-10-28 FDP 50 #> 9: 2009-10-28 NA 2519 #> 10: 2009-11-10 B90_DIE_GRUENEN 6706 #> 11: 2009-11-10 CDU_CSU 25327 #> 12: 2009-11-10 DIE_LINKE 7703 #> 13: 2009-11-10 FDP 9861 #> 14: 2009-11-10 NA 6028 #> 15: 2009-11-10 SPD 12691 #> 16: 2009-11-11 B90_DIE_GRUENEN 13409 #> 17: 2009-11-11 CDU_CSU 33209 #> 18: 2009-11-11 DIE_LINKE 13501 #> 19: 2009-11-11 FDP 17493 #> 20: 2009-11-11 NA 11264 #> 21: 2009-11-11 SPD 28738 #> 22: 2009-11-12 B90_DIE_GRUENEN 2920 #> 23: 2009-11-12 CDU_CSU 7659 #> 24: 2009-11-12 DIE_LINKE 1313 #> 25: 2009-11-12 FDP 4084 #> 26: 2009-11-12 NA 2302 #> 27: 2009-11-12 SPD 5859 #> date party size
# for partition object P <- partition("GERMAPARLMINI", date = "2009-11-11")
#> ... get encoding: latin1
#> ... get cpos and strucs
size(P, s_attribute = "speaker")
#> speaker size #> 1: Albert Rupprecht 1055 #> 2: Annette Schavan 2048 #> 3: Anton Schaaf 332 #> 4: Brigitte Pothmer 1795 #> 5: Bärbel Höhn 1671 #> 6: Christine Lambrecht 1901 #> 7: Dagmar Ziegler 4073 #> 8: Daniela Raab 1506 #> 9: Dieter Wiefelspütz 1268 #> 10: Dirk Fischer 1301 #> 11: Dorothée Menzner 772 #> 12: Ekin Deligöz 1665 #> 13: Elke Ferner 2053 #> 14: Ernst Dieter Rossmann 1721 #> 15: Eva Bulling-Schröter 854 #> 16: Florian Pronold 1327 #> 17: Frank Schwabe 1279 #> 18: Franz Josef Jung 1653 #> 19: Georg Nüßlein 2277 #> 20: Gerda Hasselfeldt 636 #> 21: Gisela Piltz 1775 #> 22: Günter Krings 40 #> 23: Halina Wawzyniak 524 #> 24: Hans-Peter Uhl 1388 #> 25: Hartfrid Wolff 1432 #> 26: Heidrun Bluhm 1045 #> 27: Heinrich Leonhard Kolb 2016 #> 28: Hermann Otto Solms 4001 #> 29: Horst Meierhofer 1366 #> 30: Hubertus Heil 6117 #> 31: Jens Petermann 641 #> 32: Jerzy Montag 1431 #> 33: Joachim Pfeiffer 2051 #> 34: Johannes Vogel 1072 #> 35: Josef Göppel 746 #> 36: Jörn Wunderlich 1855 #> 37: Karl Schiewerling 2018 #> 38: Katja Kipping 821 #> 39: Katrin Göring-Eckardt 4281 #> 40: Kerstin Andreae 2097 #> 41: Klaus Ernst 1236 #> 42: Krista Sager 1451 #> 43: Marco Bülow 1355 #> 44: Marie-Luise Dött 1195 #> 45: Markus Kurth 92 #> 46: Martin Neumann 771 #> 47: Max Straubinger 1578 #> 48: Michael Franz Wilhelm Fuchs 2361 #> 49: Michael Grosse-Brömer 1530 #> 50: Michael Kauch 1274 #> 51: Michael Kretschmer 1489 #> 52: Miriam Gruß 1540 #> 53: Norbert Lammert 1724 #> 54: Norbert Röttgen 2670 #> 55: Olaf Scholz 3741 #> 56: Patrick Döring 2144 #> 57: Patrick Meinhardt 1398 #> 58: Peter Götz 882 #> 59: Peter Ramsauer 2168 #> 60: Petra Pau 229 #> 61: Petra Sitte 1810 #> 62: Rainer Brüderle 1367 #> 63: Raju Sharma 536 #> 64: Reinhard Grindel 1407 #> 65: Sabine Leidig 1048 #> 66: Sabine Leutheusser-Schnarrenberger 1338 #> 67: Sahra Wagenknecht 1063 #> 68: Sören Bartol 1158 #> 69: Ulla Jelpke 589 #> 70: Ulla Lötzer 707 #> 71: Ulrich Kelber 1243 #> 72: Ursula von der Leyen 1846 #> 73: Uwe Karl Beckmeyer 1170 #> 74: Volker Beck 121 #> 75: Winfried Hermann 1601 #> 76: Wolfgang Thierse 272 #> 77: Wolfgang Wieland 1606 #> speaker size
size(P, s_attribute = "party")
#> party size #> 1: B90_DIE_GRUENEN 13409 #> 2: CDU_CSU 33209 #> 3: DIE_LINKE 13501 #> 4: FDP 17493 #> 5: NA 11264 #> 6: SPD 28738
size(P, s_attribute = c("speaker", "party"))
#> speaker party size #> 1: Albert Rupprecht CDU_CSU 1055 #> 2: Annette Schavan CDU_CSU 2048 #> 3: Anton Schaaf SPD 332 #> 4: Brigitte Pothmer B90_DIE_GRUENEN 1795 #> 5: Bärbel Höhn B90_DIE_GRUENEN 1671 #> 6: Christine Lambrecht SPD 1901 #> 7: Dagmar Ziegler SPD 4073 #> 8: Daniela Raab CDU_CSU 1506 #> 9: Dieter Wiefelspütz SPD 1268 #> 10: Dirk Fischer CDU_CSU 1301 #> 11: Dorothée Menzner DIE_LINKE 772 #> 12: Ekin Deligöz B90_DIE_GRUENEN 1665 #> 13: Elke Ferner SPD 2053 #> 14: Ernst Dieter Rossmann SPD 1721 #> 15: Eva Bulling-Schröter DIE_LINKE 854 #> 16: Florian Pronold SPD 1327 #> 17: Frank Schwabe SPD 1279 #> 18: Franz Josef Jung CDU_CSU 1653 #> 19: Georg Nüßlein CDU_CSU 2277 #> 20: Gerda Hasselfeldt NA 636 #> 21: Gisela Piltz FDP 1775 #> 22: Günter Krings CDU_CSU 40 #> 23: Halina Wawzyniak DIE_LINKE 524 #> 24: Hans-Peter Uhl CDU_CSU 1388 #> 25: Hartfrid Wolff FDP 1432 #> 26: Heidrun Bluhm DIE_LINKE 1045 #> 27: Heinrich Leonhard Kolb FDP 2016 #> 28: Hermann Otto Solms NA 4001 #> 29: Horst Meierhofer FDP 1366 #> 30: Hubertus Heil SPD 6117 #> 31: Jens Petermann DIE_LINKE 641 #> 32: Jerzy Montag B90_DIE_GRUENEN 1431 #> 33: Joachim Pfeiffer CDU_CSU 2051 #> 34: Johannes Vogel FDP 1072 #> 35: Josef Göppel CDU_CSU 746 #> 36: Jörn Wunderlich DIE_LINKE 1855 #> 37: Karl Schiewerling CDU_CSU 2018 #> 38: Katja Kipping DIE_LINKE 821 #> 39: Katrin Göring-Eckardt NA 4281 #> 40: Kerstin Andreae B90_DIE_GRUENEN 1976 #> 41: Kerstin Andreae NA 121 #> 42: Klaus Ernst DIE_LINKE 1236 #> 43: Krista Sager B90_DIE_GRUENEN 1451 #> 44: Marco Bülow SPD 1355 #> 45: Marie-Luise Dött CDU_CSU 1195 #> 46: Markus Kurth B90_DIE_GRUENEN 92 #> 47: Martin Neumann FDP 771 #> 48: Max Straubinger CDU_CSU 1578 #> 49: Michael Franz Wilhelm Fuchs CDU_CSU 2361 #> 50: Michael Grosse-Brömer CDU_CSU 1530 #> 51: Michael Kauch FDP 1274 #> 52: Michael Kretschmer CDU_CSU 1489 #> 53: Miriam Gruß FDP 1540 #> 54: Norbert Lammert NA 1724 #> 55: Norbert Röttgen CDU_CSU 2670 #> 56: Olaf Scholz SPD 3741 #> 57: Patrick Döring FDP 2144 #> 58: Patrick Meinhardt FDP 1398 #> 59: Peter Götz CDU_CSU 882 #> 60: Peter Ramsauer CDU_CSU 2168 #> 61: Petra Pau NA 229 #> 62: Petra Sitte DIE_LINKE 1810 #> 63: Rainer Brüderle FDP 1367 #> 64: Raju Sharma DIE_LINKE 536 #> 65: Reinhard Grindel CDU_CSU 1407 #> 66: Sabine Leidig DIE_LINKE 1048 #> 67: Sabine Leutheusser-Schnarrenberger FDP 1338 #> 68: Sahra Wagenknecht DIE_LINKE 1063 #> 69: Sören Bartol SPD 1158 #> 70: Ulla Jelpke DIE_LINKE 589 #> 71: Ulla Lötzer DIE_LINKE 707 #> 72: Ulrich Kelber SPD 1243 #> 73: Ursula von der Leyen CDU_CSU 1846 #> 74: Uwe Karl Beckmeyer SPD 1170 #> 75: Volker Beck B90_DIE_GRUENEN 121 #> 76: Winfried Hermann B90_DIE_GRUENEN 1601 #> 77: Wolfgang Thierse NA 272 #> 78: Wolfgang Wieland B90_DIE_GRUENEN 1606 #> speaker party size
# for subcorpus sc <- corpus("GERMAPARLMINI") %>% subset(date == "2009-11-11") size(sc, s_attribute = "speaker")
#> speaker size #> 1: Albert Rupprecht 1055 #> 2: Annette Schavan 2048 #> 3: Anton Schaaf 332 #> 4: Brigitte Pothmer 1795 #> 5: Bärbel Höhn 1671 #> 6: Christine Lambrecht 1901 #> 7: Dagmar Ziegler 4073 #> 8: Daniela Raab 1506 #> 9: Dieter Wiefelspütz 1268 #> 10: Dirk Fischer 1301 #> 11: Dorothée Menzner 772 #> 12: Ekin Deligöz 1665 #> 13: Elke Ferner 2053 #> 14: Ernst Dieter Rossmann 1721 #> 15: Eva Bulling-Schröter 854 #> 16: Florian Pronold 1327 #> 17: Frank Schwabe 1279 #> 18: Franz Josef Jung 1653 #> 19: Georg Nüßlein 2277 #> 20: Gerda Hasselfeldt 636 #> 21: Gisela Piltz 1775 #> 22: Günter Krings 40 #> 23: Halina Wawzyniak 524 #> 24: Hans-Peter Uhl 1388 #> 25: Hartfrid Wolff 1432 #> 26: Heidrun Bluhm 1045 #> 27: Heinrich Leonhard Kolb 2016 #> 28: Hermann Otto Solms 4001 #> 29: Horst Meierhofer 1366 #> 30: Hubertus Heil 6117 #> 31: Jens Petermann 641 #> 32: Jerzy Montag 1431 #> 33: Joachim Pfeiffer 2051 #> 34: Johannes Vogel 1072 #> 35: Josef Göppel 746 #> 36: Jörn Wunderlich 1855 #> 37: Karl Schiewerling 2018 #> 38: Katja Kipping 821 #> 39: Katrin Göring-Eckardt 4281 #> 40: Kerstin Andreae 2097 #> 41: Klaus Ernst 1236 #> 42: Krista Sager 1451 #> 43: Marco Bülow 1355 #> 44: Marie-Luise Dött 1195 #> 45: Markus Kurth 92 #> 46: Martin Neumann 771 #> 47: Max Straubinger 1578 #> 48: Michael Franz Wilhelm Fuchs 2361 #> 49: Michael Grosse-Brömer 1530 #> 50: Michael Kauch 1274 #> 51: Michael Kretschmer 1489 #> 52: Miriam Gruß 1540 #> 53: Norbert Lammert 1724 #> 54: Norbert Röttgen 2670 #> 55: Olaf Scholz 3741 #> 56: Patrick Döring 2144 #> 57: Patrick Meinhardt 1398 #> 58: Peter Götz 882 #> 59: Peter Ramsauer 2168 #> 60: Petra Pau 229 #> 61: Petra Sitte 1810 #> 62: Rainer Brüderle 1367 #> 63: Raju Sharma 536 #> 64: Reinhard Grindel 1407 #> 65: Sabine Leidig 1048 #> 66: Sabine Leutheusser-Schnarrenberger 1338 #> 67: Sahra Wagenknecht 1063 #> 68: Sören Bartol 1158 #> 69: Ulla Jelpke 589 #> 70: Ulla Lötzer 707 #> 71: Ulrich Kelber 1243 #> 72: Ursula von der Leyen 1846 #> 73: Uwe Karl Beckmeyer 1170 #> 74: Volker Beck 121 #> 75: Winfried Hermann 1601 #> 76: Wolfgang Thierse 272 #> 77: Wolfgang Wieland 1606 #> speaker size
size(sc, s_attribute = "party")
#> party size #> 1: B90_DIE_GRUENEN 13409 #> 2: CDU_CSU 33209 #> 3: DIE_LINKE 13501 #> 4: FDP 17493 #> 5: NA 11264 #> 6: SPD 28738
size(sc, s_attribute = c("speaker", "party"))
#> speaker party size #> 1: Albert Rupprecht CDU_CSU 1055 #> 2: Annette Schavan CDU_CSU 2048 #> 3: Anton Schaaf SPD 332 #> 4: Brigitte Pothmer B90_DIE_GRUENEN 1795 #> 5: Bärbel Höhn B90_DIE_GRUENEN 1671 #> 6: Christine Lambrecht SPD 1901 #> 7: Dagmar Ziegler SPD 4073 #> 8: Daniela Raab CDU_CSU 1506 #> 9: Dieter Wiefelspütz SPD 1268 #> 10: Dirk Fischer CDU_CSU 1301 #> 11: Dorothée Menzner DIE_LINKE 772 #> 12: Ekin Deligöz B90_DIE_GRUENEN 1665 #> 13: Elke Ferner SPD 2053 #> 14: Ernst Dieter Rossmann SPD 1721 #> 15: Eva Bulling-Schröter DIE_LINKE 854 #> 16: Florian Pronold SPD 1327 #> 17: Frank Schwabe SPD 1279 #> 18: Franz Josef Jung CDU_CSU 1653 #> 19: Georg Nüßlein CDU_CSU 2277 #> 20: Gerda Hasselfeldt NA 636 #> 21: Gisela Piltz FDP 1775 #> 22: Günter Krings CDU_CSU 40 #> 23: Halina Wawzyniak DIE_LINKE 524 #> 24: Hans-Peter Uhl CDU_CSU 1388 #> 25: Hartfrid Wolff FDP 1432 #> 26: Heidrun Bluhm DIE_LINKE 1045 #> 27: Heinrich Leonhard Kolb FDP 2016 #> 28: Hermann Otto Solms NA 4001 #> 29: Horst Meierhofer FDP 1366 #> 30: Hubertus Heil SPD 6117 #> 31: Jens Petermann DIE_LINKE 641 #> 32: Jerzy Montag B90_DIE_GRUENEN 1431 #> 33: Joachim Pfeiffer CDU_CSU 2051 #> 34: Johannes Vogel FDP 1072 #> 35: Josef Göppel CDU_CSU 746 #> 36: Jörn Wunderlich DIE_LINKE 1855 #> 37: Karl Schiewerling CDU_CSU 2018 #> 38: Katja Kipping DIE_LINKE 821 #> 39: Katrin Göring-Eckardt NA 4281 #> 40: Kerstin Andreae B90_DIE_GRUENEN 1976 #> 41: Kerstin Andreae NA 121 #> 42: Klaus Ernst DIE_LINKE 1236 #> 43: Krista Sager B90_DIE_GRUENEN 1451 #> 44: Marco Bülow SPD 1355 #> 45: Marie-Luise Dött CDU_CSU 1195 #> 46: Markus Kurth B90_DIE_GRUENEN 92 #> 47: Martin Neumann FDP 771 #> 48: Max Straubinger CDU_CSU 1578 #> 49: Michael Franz Wilhelm Fuchs CDU_CSU 2361 #> 50: Michael Grosse-Brömer CDU_CSU 1530 #> 51: Michael Kauch FDP 1274 #> 52: Michael Kretschmer CDU_CSU 1489 #> 53: Miriam Gruß FDP 1540 #> 54: Norbert Lammert NA 1724 #> 55: Norbert Röttgen CDU_CSU 2670 #> 56: Olaf Scholz SPD 3741 #> 57: Patrick Döring FDP 2144 #> 58: Patrick Meinhardt FDP 1398 #> 59: Peter Götz CDU_CSU 882 #> 60: Peter Ramsauer CDU_CSU 2168 #> 61: Petra Pau NA 229 #> 62: Petra Sitte DIE_LINKE 1810 #> 63: Rainer Brüderle FDP 1367 #> 64: Raju Sharma DIE_LINKE 536 #> 65: Reinhard Grindel CDU_CSU 1407 #> 66: Sabine Leidig DIE_LINKE 1048 #> 67: Sabine Leutheusser-Schnarrenberger FDP 1338 #> 68: Sahra Wagenknecht DIE_LINKE 1063 #> 69: Sören Bartol SPD 1158 #> 70: Ulla Jelpke DIE_LINKE 589 #> 71: Ulla Lötzer DIE_LINKE 707 #> 72: Ulrich Kelber SPD 1243 #> 73: Ursula von der Leyen CDU_CSU 1846 #> 74: Uwe Karl Beckmeyer SPD 1170 #> 75: Volker Beck B90_DIE_GRUENEN 121 #> 76: Winfried Hermann B90_DIE_GRUENEN 1601 #> 77: Wolfgang Thierse NA 272 #> 78: Wolfgang Wieland B90_DIE_GRUENEN 1606 #> speaker party size
# for subcorpus_bundle subcorpora <- corpus("GERMAPARLMINI") %>% split(s_attribute = "date") size(subcorpora)
#> name size #> 1: 2009-10-27 9341 #> 2: 2009-10-28 2793 #> 3: 2009-11-10 68316 #> 4: 2009-11-11 117614 #> 5: 2009-11-12 24137