Statistics

These are semi-automatically generated statistics from omorfi database. The statistics are based on the actual data in the database tables and the versions of whole analysed corpora and tools on this date.

Generation time was 2018-06-27T15+02:00:


It was created by omorfi configure 20180511, which was
generated by GNU Autoconf 2.69.  Invocation command line was

  $ ./configure --enable-big-tests CFLAGS=-O2 -march=native -ggdb -Wall -Wextra  CXXFLAGS=-O2 -march=native -ggdb -Wall -Wextra  PKG_CONFIG_PATH=/opt/local/lib/pkgconfig:/opt/local/share/pkgconfig:/usr/local/lib/pkgconfig:/usr/local/share/pkgconfig:/home/tpirinen/lib/pkgconfig:/home/tpirinen/share/pkgconfig --no-create --no-recursion

This is a released version, and can be downloaded from github.

Lexical database

The numbers are counted from the database, unique lexical items. Depending on your definitions there may be ±1 % difference, e.g. with homonyms, defective and doubled paradigms, etc. There are total of *427073* lexemes.

Per universal POS

The universal parts-of-speech are described in Universal dependencies UPOS documentation and its Finnish UPOS definitions.

Frequency UPOS
273935 PROPN
111748 NOUN
19154 ADJ
11096 VERB
8929 ADV
902 NUM
571 ADP
383 INTJ
86 PRON
76 SYM
60 X
53 PUNCT
37 SCONJ
17 CCONJ
13 AUX
10 CCONJ, VERB
2 DET
427073 TOTAL

Per sources of origin

Sources of origin are:

Frequency origin
260450 unihu
74414 kotus
30545 finnwordnet
22355 kotus, joukahainen
15279 unk
8989 joukahainen
7495 ftb3
4445 unihu, joukahainen
1598 omorfi
847 finnwordnet, joukahainen
209 ftb3, joukahainen
183 fiwiktionary
99 unihu, kotus
72 omorfi++
31 fiwiktionary, joukahainen
29 omorfi, joukahainen
12 unihu, joukahainen, kotus
10 unihu, omorfi++
2 unihu, joukahainen, omorfi++
2 kotus, omorfi++
1 unk, omorfi++
1 omorfii, joukahainen
1 omorfii
1 joukahainen, omorfi++
1 joukahainen, kotus
1 fomorfiwordnet

Paradigms

Paradigms are the classes you need to separate the lexemes into for inflection and some of the lexical features, such as UPOS. You can see the Paradigms generated documentation for some automatically gathered details about each paradigm.

Paradigms per UPOS
516 NOUN
507 PROPN
227 VERB
135 ADJ
53 PRON
25 NUM
14 SYM
14 ADV
12 ADP
11 AUX
5 X
4 PUNCT
2 INTJ
2 DET
1 SCONJ
1 CCONJ

Naïve coverages

Naïve coverage is number of tokens (types) that receive one or more non-heuristic readings divided by total number of tokens, i.e. how many words are part of the lexical database.

For list of common tokens not covered by the lexicon, see the most frequent missing tokens per corpus.

Combined coverages

Feature Coverage # Coverage % All
Tokens 1596576115 99.1700 % 1610031971
Types 98388 94.8800 % 103702

The coverages were measured with full lexicon, if you use the smaller lexicon coverages are slightly worse.

Smaller lexicon coverage

Feature Coverage # Coverage % All
Tokens 1547643981 96.1300 % 1610031971
Types 89446 86.2600 % 103702

europarl-v7.fi-en.fi

Feature Coverage # Coverage % All
Tokens 37133414 99.1600 % 37449133
Types 625481 87.8500 % 712019

fi_ftb-ud

Feature Coverage # Coverage % All
Tokens 141411 98.4800 % 143599
Types 41447 95.8300 % 43252

fi-ud

Feature Coverage # Coverage % All
Tokens 176557 97.4800 % 181138
Types 49623 93.3400 % 53169

fiwiki-latest-pages-articles

Feature Coverage # Coverage % All
Tokens 91627380 92.5700 % 98983397
Types 3659686 83.4900 % 4383679

ftb1-2014

Feature Coverage # Coverage % All
Tokens 159151 98.2600 % 161984
Types 44422 95.0900 % 46716

ftb3.1

Feature Coverage # Coverage % All
Tokens 74054932 96.9700 % 76369439
Types 1226391 74.4000 % 1648418

gutenberg-fi

Feature Coverage # Coverage % All
Tokens 57634954 96.5600 % 59692254
Types 1271164 66.4400 % 1913489

jrc-fi

Feature Coverage # Coverage % All
Tokens 42783180 95.2000 % 44940790
Types 1068741 84.4600 % 1265450

OpenSubtitles2016.fi

Feature Coverage # Coverage % All
Tokens 204774379 98.0300 % 208902286
Types 2045216 84.7200 % 2414131

tatoeba-fi

Feature Coverage # Coverage % All
Tokens 440645 99.4000 % 443346
Types 47691 95.4900 % 49947

vks

Feature Coverage # Coverage % All
Tokens 1811427 52.8900 % 3425382
Types 57881 19.9900 % 289640

vns

Feature Coverage # Coverage % All
Tokens 4356185 89.6000 % 4862190
Types 325131 61.2700 % 530715

Most frequent missing tokens per corpus

These are the most common tokens still left unrecognised by the lexicon. Most of them should be foreign languages, codes and rubbish. These are used from time to time improve the lexical coverage.

test/europarl-v7.fi-en.fi

Frequency Word-form
629 Fischler
610 SIS
394 Posselt
390 Palacio
384 Barnier
383 Ecofin-neuvoston
375 Santer
372 Swoboda
371 Saharov-palkinnon
366 11.30.
337 Graefe
328 Bolkesteinin
321 Bolkestein
320 Cohn-Bendit
315 Lamy
314 Ferrero-Waldner
297 Méndez
294 Reding
292 Romano
285 Vitorino
283 Swobodan
282 KOM(2001
280 Sarkozy
279 Bögen
274 ECHO
273 González
269 Lehnen
268 Corbettin
268 Barrot
263 T?et?enian
256 Elmar
254 Fischer
252 Jarzembowski
250 Milosevi
248 Europe
246 Schreyer
245 Prestigen
245 Jarzembowskin
242 Fischlerin
241 Bangemann
240 McCreevy
238 Rothleyn
231 Mandelson
231 Juncker
231 Corbett
229 Salafranca
225 koordinoidusti
225 Izquierdo
222 Wogaun
217 17.30.
216 Verhofstadt
215 Merkel
215 Delorsin
213 KOM(2000
212 Miloseviin
210 Pack
210 Nielson
209 Packin
209 Oomen-Ruijtenin
206 T?ekin
206 Bonino
206 analyysia
205 Lamfalussyn
205 Ecofin-neuvosto
203 British
202 Almunia
199 Sterckxin
199 Böschin
197 ECHOn
196 seksuaali-
195 Cox
194 Act
193 Dalai
189 YMJ
189 UCLAFin
189 Rübig
189 Mundus
188 YKP:n
188 Trichet
188 Junilistan
186 Sarkozyn
185 Oomen-Ruijten
183 Dimas
182 Randzio-Plathin
182 Harbourin
180 Haugin
180 Harbour
179 Rompuy
179 Mitchellin
178 Duisenberg
177 Lulling
176 Ribeiro
175 BKT:
174 Vihreät/Euroopan
174 Miguélez
174 KOM(2002
174 Florenzin
173 Karl-Heinz
172 Špidla
172 Leyla

test/fi_ftb-ud

Frequency Word-form
31 ell
18 siel
15 siin
15 joll
13 täs
9 niit
8 sil
8 mitää
7 sillee
6 ol
5 yhen
5 tääl
5 siit
5 pitäs
5 niiku
5 ite
4 semmone
4 rupee
4 rauhotu
4 puol
4 johonki
4 itte
4 esimerkiks
4 Emmä
3 yhtää
3 vähäm
3 viitti
3 viikkoo
3 upeeta
3 ton
3 tiä
3 tiiä
3 tietsä
3 tarttee
3 tartte
3 sillo
3 siihe
3 semmost
3 sellaist
3 sekasin
3 sd
3 pitäskö
3 Oottekste
3 onk
3 ollenkaa
3 näis
3 näi
3 nytte
3 nipin
3 ninku
3 mis
3 millon
3 keng-
3 kaikkee
3 jotaki
3 jonnekkii
3 ens
3 Akiro
3 ainaki
3 31.8.
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 x:ää
2 Woman
2 vähäks
2 vuuen
2 vuoks
2 viittis
2 venäläisittäin
2 uus
2 täälä
2 täsä
2 täst
2 Täs
2 tämmöst
2 tällasen
2 tuol
2 Tuleek
2 Troia
2 tommost
2 tiäks
2 tilloo
2 Tellu
2 teil
2 TBK
2 Sytky
2 styrox-laatikkoon
2 Soiliki
2 siälä
2 siält
2 Siin
2 sielt
2 siell
2 seuraavaks

test/fi-ud

Frequency Word-form
28 EUROOPAN
18 5(n)
10 Pirate
10 Peku
9 Ariarathes
8 Wolters
8 Vicia
8 Valdas
8 Sydow
8 Rauparaha
8 Kokljuschkin
8 Gliese
8 Festuca
7 Zapatero
7 Venera
7 türki
7 Trifolium
7 Thom
7 Stora
7 Ratcliffe
7 Lönnberg
7 Cao
7 Binderup
7 3.Rf3
6 Tšerepanov
6 Tienshinhan
6 Star
6 SDP:tä
6 Nikomedes
6 N63
6 Mirianin
6 Lupinus
6 Louramo
6 Lolium
6 Laodiken
6 Judge
6 HC
6 e5
6 E21
6 common
6 2.f4
5 Wars
5 Tracon
5 takas
5 tajuu
5 Standard
5 Science
5 Rodrigues
5 Qazibe
5 Origenes
5 Moolenaar
5 Molvania
5 Medicago
5 Laodike
5 Know
5 Jarzembowski
5 Iglesiaksen
5 Fischer
5 Finnjet
5 Filen
5 EKPJ:n
5 death
5 Charger
5 Brassica
5 Bayn
5 :
4 Åsbrink
4 Wagon
4 TTW
4 Trunkenpolz
4 Thriller
4 Thrill
4 Son
4 Silvio
4 sillo
4 sativa
4 Routila
4 Risperidon
4 pratensis
4 OMXH
4 Novo
4 Luminance
4 Libuše
4 LHC:n
4 Large
4 kakskytvaille
4 Jong
4 ite
4 isännöintitehtäviä
4 Immortal
4 IHN
4 Hoskins
4 Hodgkinson
4 Head
4 Hadron
4 Grisay
4 First
4 EY:
4 exf4
4 Evertonin

test/fiwiki-latest-pages-articles

Frequency Word-form
4435 Star
4312 Up
4269 Die
4231 Golden
4175 Team
4008 Little
3922 Tour
3879 Press
3639 This
3377 League
3364 Lake
3313 Recordsin
3246 Heart
3225 Les
3225 Dead
3209 Death
3169 We
3081 Bad
3021 Don’t
3016 What
3006 Dark
2939 Go
2923 Space
2907 <li
2899 War
2831
2791 Way
2788 British
2776 School
2753 Girl
2716 Dance
2713 Last
2670 Film
2663 Database
2643 feat
2631 Svenska
2624 Serie
2600 Luokka:Vuoden
2555 Force
2519 That
2504 Paris
2493 Bank
2482 Great
2463 Society
2463 Are
2439 Fort
2437 States
2435 Bay
2420 Luokka:Vuonna
2414 Billboard
2413 Association
2401 an
2391 Fire
2387 Vol
2343 Dream
2322 An
2310 :The
2299 Project
2298 Games
2298 First
2293 Boys
2291 Award
2280 Racing
2238 Wikipedia:Poistettavat
2223 South
2212 Light
2193 Road
2192 Deep
2190 Planet
2187 Entertainment
2184 Blood
2168 State
2167 Las
2156 Series
2130 River
2124 formula_1
2116 discogs.com
2114 East
2113 Rolling
2098 Final
2090 System
2078 Never
2064 General
2056 I’m
2053 Movie
2043 São
2024 Moon
2016 Fameen
2014 Institute
2011 Now
2011 Free
2011 death
2009 Sound
1970 Encyclopedia
1958 Not
1941 Old
1922 Human
1921 Science
1919 Hits
1917 Port

test/ftb1-2014

Frequency Word-form
34 ell
20 siel
17 siin
17 joll
14 täs
10 niit
9 sillee
9 sil
8 Tarja_Halonen
8 siit
8 pitäs
8 mitää
6 yhen
6 ol
6 Helsingin_Sanomat
5 tääl
5 rupee
5 niiku
5 jotenki
5 ite
4 viikkoo
4 upeeta
4 siihe
4 semmone
4 rauhotu
4 puol
4 näis
4 nytte
4 millon
4 kaikkee
4 jotaki
4 johonki
4 itte
4 Euroopan_unionin
4 esimerkiks
4 Emmä
4 4_600
3 yhtää
3 vähäm
3 vähäks
3 viitti
3 ton
3 tiä
3 tiiä
3 tietsä
3 TBK
3 tarttee
3 tartte
3 Tampereen_yliopistossa
3 sillo
3 sielt
3 semmost
3 sellaist
3 sekasin
3 sd
3 Roman_Polanskin
3 pääs
3 Punaisen_Ristin
3 pitäskö
3 Paavo_Lipponen
3 Oottekste
3 onk
3 ollenkaa
3 ol´
3 näi
3 nipin_napin
3 ninku
3 New_Yorkissa
3 muute
3 mis
3 Martti_Ahtisaari
3 kirjotti
3 keng-
3 kattelin
3 Katotaas
3 jonnekkii
3 hirveesti
3 Helsingin_yliopiston
3 Helsingin_Sanomien
3 Esko_Aho
3 ens
3 Akiro
3 ainaki
3 aikasemmin
3 Abdi
3 31.8.
3 300_000
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 x:ää
2 Woman
2 W.G.Palmqvist
2 vuuen
2 vuoks

test/ftb3.1

Frequency Word-form
20965 EUROOPAN
9051 ex
6051 amp
5287 du
4751 à
4703 le
4489 p.m
3874 les
3382 PIC
3319 Ltd
3302 die
3042 be
3017 Commission
2705 της
2517 και
2488 na
2440 lt
2413 Bank
2399 que
2246 nr
2186 europa.eu.int
2145 pic
2132 an
2130 that
2094 comm
2067 2007—2013
2043 un
1950 την
1941 του
1890 a.
1825 mod
1751 το
1749 dans
1732 für
1718 della
1685 pour
1667 state
1665 των
1639 Fax
1604 County
1601 b.
1582 που
1568 CENELEC
1547 this
1524 st
1497 are
1497 Act
1463 S.A
1430 για
1416 να
1414 Limited
1400 1.1.2006–
1399 eG
1356 een
1346 η
1344 il
1343 από
1305 EG
1297 add
1293 με
1274 voor
1273 Tel
1270 LOOPU
1268 not
1264 which
1250 Nr
1215 PO
1203 general
1182 Société
1152 SIS
1149 other
1134 under
1130 Classification
1130 che
1122 including
1104 States
1098 Kingdom
1088 Limites
1088 Klassificering
1085 Council
1066 Europe
1061 Box
1059 C10
1036 programme
1030 Raiffeisenbank
1024 sgb
1024 financial
1018 NEWLINE
1009 secretariat
1009 information
1005 Member
1002 NACE
993 non
958 Valley
958 Nederland
957 Bruxelles
952 ê
946 Verts
928 ec.europa.eu
925 ou

test/gutenberg-fi

Frequency Word-form
3317 y.m
2881 j.n.e
2653 ***
2284 huoneesen
2169 s.o
1558 ol
1451 waan
1342 Oblomov
1190 Mit
1168 End
1166 Project
1153 Produced
1152 LIISA
1129 wielä
1118 JUHANI
1072 jälestä
1027 Kitty
1023 Aramis
1004 Bräsig
996 Glenarvan
969 Natasha
947 oliwat
922 Kenelm
920 Gutenberg
914 kauvas
913 kysäsi
909 mit
902 EBook
890 à
881 kaikk
880 Uli
879 Jurgis
869 Monte-Cristo
865 Paganel
861 HENRIK
860 n.s
843 ain
830 m.m
823 Mabel
816 HANNA
814 SOLNESS
812 Smoke
801 Villefort
797 Vronski
797 Lents
796 att
789 Siell
781 muutamain
771 Vinitius
771 Bertelsköld
761 erääsen
751 JUSSI
748 Il
742 till
740 Gervaise
738 jag
737 FLEMING
728 Mathieu
725 Portos
724 mylord
724 alotti
717 Emilio
711 karkoittaa
706 D’Artagnan
681 Danglars
680 olekkaan
673 Raskolnikov
669 siell
669 HELENA
664 Mik
663 tarjoo
663 ANTTI
657 FALK
656 ELLI
650 Täss
649 tääll
649 Kaikk
643 Kuink
643 heittäysi
640 HILDE
638 laskeusi
638 jälessä
628 Laurie
625 Wäinämöinen
619 kahdenkesken
617 Hawermann
616 Morrel
615 Denise
610 kuitenki
601 yhtämittaa
596 owat
594 Rostof
591 woi
590 Peggotty
588 BRAND
588 AILI
587 Timar
587 hänt
584 Emilie
582 Kaleb

test/jrc-fi

Frequency Word-form
21916 EUROOPAN
17109 EUR/100
14604 PAIKKA>
14444 >TAULUKON
9152 ex
6675 +++++
5385 >VIITTAUS
4865 KAAVIOON>
4863 à
4729 *IT
4399 EUR/t
4002 les
3920 *FR
3893 FILE=
3886 >PIC
3489 die
3192 %amp%
3043 Commission
2757 της
2502 και
2493 //
2461 Ltd
2445 que
2422 0,—
2411 Bank
2335 *DE
2323 na
2284 nr
2230 2006/C
2192 KOM(2005
2179 >KAAVION
2176 that
2044 την
1996 %:a
1983 pic
1957 un
1955 του
1954 mod
1925 *HU
1907 *ES
1805 für
1803 an
1801 Fischer
1797 dans
1781 Boel
1774 το
1753 della
1744 Mariann
1720 pour
1671 των
1638 EUR/kg
1627 Fax
1611 *CZ
1604 this
1598 County
1590 που
1566 S.A
1530 are
1521 CENELEC
1507 p/st
1432 Limited
1431 *NL
1431 KOM(2004
1430 για
1416 να
1408 Act
1401 eG
1393 il
1385 KOM(2006
1382 *SK
1377 *PL
1357 από
1343 2005/C
1341 η
1340 lopull
1311 LOOPU>
1308 voor
1308 ALKU>
1307 which
1293 με
1290 *UK
1289 not
1287 Nr
1257 /*
1254 */
1219 Tel
1202 other
1198 EG
1183 Société
1172 States
1156 een
1152 under
1148 che
1136 including
1134 Classification
1115 Kingdom
1109 financial
1100 lausunnon(2
1094 Council
1088 Limites

test/OpenSubtitles2016.fi

Frequency Word-form
5536 oIe
4490 lhan
4158 Doug
3858 Parker
3772 oIi
3258 lsä
3050 Dylan
3031 OIen
3027 Chloe
3015 Vince
2786 Kenny
2767 Clay
2718 Las
2700 ÄIkää
2637 Gus
2554 Ellie
2533 Mitch
2530 …ja
2496 Lenny
2480 Zoe
2465 SUBHEAVEN.ORG
2450 Russell
2412 Abby
2375 Richie
2371 Walt
2328 ÄIä
2302 Holly
2280 Audrey
2273 Shane
2265 Nate
2248 Manny
2232 Wendy
2209 Cindy
2207 Wade
2195 Allison
2162 tääIIä
2148 Bart
2138 Frodo
2123 Collins
2122 Debbie
2105 Leslie
2091 Toby
2087 Mikey
2057 Curtis
2047 Booth
2026 Trevor
2026 Lloyd
2012 Buck
1977 Reed
1963 Fort
1958 Riley
1949 Dexter
1932 Original
1927 S.org
1912 Troy
1911 oIIa
1891 J.R
1877 Paige
1872 Dorothy
1858 Streetillä
1839 Burke
1837 Keith
1822 Bonnie
1820 Elaine
1818 Streetin
1818 Barney
1816 Vic
1815 Little
1773 Kane
1767 Beverly
1760 Stu
1752 East
1743 Connie
1730 Turner
1728 Woody
1727 Lhan
1719 Judy
1719 Buffy
1713 Star
1710 Brennan
1709 Lester
1707 Zack
1696 Carson
1695 Dana
1692 Mitchell
1691 Sheldon
1689 Marge
1689 Ewing
1655 Buddy
1647 Gandalf
1641 Brenda
1621 Angie
1617 Rosie
1586 Clyde
1585 Robbie
1570 Spencer
1566 oIet
1558 South
1553 Becky
1544 Reese

test/tatoeba-fi

Frequency Word-form
67 Marya
14 Ootsä
8 Ooksä
7 Muiriel
7 kusutaan
6 WC:seen
6 tosissas
6 Tanaka
6 Puerto
6 mitää
5 Onkoha
5 Mist
5 Mayuko
5 koskaa
5 ite
4 Yumi
4 todellä
4 tiiä
4 Taroun
4 Taj
4 sekasin
4 ryssi
4 Rico
4 pitäsi
4 Ogawa
4 nurinpäin
4 Naoko
4 Mite
4 Mis
4 Miksä
4 kolmenkympin
4 Keiko
4 Golden
4 cool
3 Yooko
3 yhen
3 UFO:a
3 tännä
3 Tomil
3 Tomii
3 Tieksä
3 Tallenna”-painiketta
3 Scrooge
3 rättipoikki
3 Quebecissä
3 noloo
3 mutsiis
3 Muirielin
3 Lorelei
3 litsarin
3 Kenji
3 Jeeves
3 jang
3 Huntia
3 hujan
3 Hokkaidolla
3 Hiltonissa
3 Hakatan
3 hajan
3 Gate
3 Duck
2 Ääk
2 äitiis
2 yuri
2 Yoshida
2 ympärikännissä
2 yhessä
2 yhdin
2 Woods
2 Wi-Fi
2 Wau
2 Wasedan
2 Voitsitko
2 vittuukaan
2 virheettömästi
2 Villilintujen
2 vihanen
2 vihane
2 Vihaaksä
2 uus
2 uudestaa
2 unohin
2 törkeen
2 Tämänpäivän
2 tuollalailla
2 Tumblr
2 tuhannan
2 Transrasvat
2 Towerissa
2 Ton
2 ton
2 tollai
2 Tokyo
2 Titanic
2 tippuu.»
2 timeunit:
2 time:
2 Tiki
2 Tiedäksä
2 Three

test/vks

Frequency Word-form
37302 ia
28860 nijn
20706 pitä
20149 cuin
13507 joca
10702 owat
8461 jotca
7707 cosca
7410 caicki
6953 cansa
6929 nijncuin
6422 quin
6190 jälken
6110 wastan
6108 waan
5906 yxi
5474 cautta
5281 mine
5156 henen
5125 jonga
4711 eij
4595 sijtä
4116 ioca
4074 händä
3797 ombi
3787 canssa
3775 sijnä
3667 anda
3646 mös
3577 cuinga
3560 täsä
3093 pite
2982 sijhen
2934 wielä
2876 taicka
2856 tygö
2854 jocu
2784 iotca
2754 sine
2738 hywin
2600 itze
2593 cuningas
2543 ouat
2491 caickein
2454 poica
2426 itzens
2424 ninquin
2373 cuitengin
2304 christuxen
2294 teke
2293 lucu
2246 jesuxen
2171 caiki
2149 idzens
2146 ylitze
2049 olcon
2045 nijtä
1986 nijden
1966 cuningan
1964 caxi
1949 ainoastans
1943 waldacunnan
1920 tawalla
1909 coco
1884 jällens
1883 caiken
1816 sijs
1792 cadzo
1790 hywä
1767 christus
1686 päiwänä
1673 coska
1636 monda
1636 tulewat
1625 ej
1568 päle
1543 cusa
1466 mitän
1445 sijtte
1435 woi
1394 canssan
1391 cansans
1379 wuonna
1304 tapahtu
1297 waimo
1292 cuoleman
1279 andanut
1264 nijstä
1224 päiwä
1216 mahta
1210 cohta
1178 olemma
1176 andoi
1153 vers
1153 cuca
1146 judan
1128 caupungin
1119 olewan
1112 christusen
1110 yxikän

test/vns

Frequency Word-form
1391 kuitenki
1016 päiv
802 täsä
787 erinomattain
715 kuv
694 vyhteä
682 ole’
632 esm
632 vyhtikertaa
612 siaan
567 ej
564 sitte’
475 tähen
465 kunink
459 niinmuodoin
439 rupl
427 joh
420 owat
415 opett
414 lauvantaina
409 pitäjäsä
399 ett’
398 viimmen
397 samate
397 för
396 yxi
391 muist
386 argan
377 itte
367 laps
360 pitä
359 präntätty
358 [1
357 oulusa
357 till
352 ruottalaisen
352 det
351 att
342 jonga
342 imprimatur
340 ruottin
337 händä
332 canzio
329 yhen
326 sentähen
323 nim
320 kuitengin
313 wielä
304 waan
302 itsiänsä
294 kaupunnisa
291 st
288 enämmin
287 samasa
283 olemma
277 pipp
276 dona
265 greekan
265 kaupunnin
260 kaupungisa
260 maasa
257 net
253 olla’
249 syysk
249 läpitse
248
243 kirkkoh
242 eroitus
238 nelju
233 ven
233 lutheruksen
231 usiasti
229 ittensä
227 huomena
225 kirj
224 säätyin
223 alkain
221 usiampia
221 karlos
220 til
218 myöski
217 usiammat
215 tästälähin
215 ne’
212 vice
209 viimen
205 ae
198 talosa
196 hywin
196 jok’
193 jälestä
193 jag
191 ainoastans
186 viellä
186 marrask
186 kahen
184 puol
183 päälle’
183 jonkatähden
182 kauvas

Automata statistics

The underlying language models are mostly represented by finite-state automata (FSAs). The figures may give some indication of the speed and size of the models in practical applications.

accept

Feature Measure
On-disk size 15M
states 146246
arcs 630086
final states 25270
input/output epsilons 0
input epsilons 17461
output epsilons 14523

accept.lexc

Feature Measure
On-disk size 7,3M
states 135886
arcs 375875
final states 15221
input/output epsilons 0
input epsilons 13874
output epsilons 8741

analyse

Feature Measure
On-disk size 6,6M
states 118141
arcs 281495
final states 107
input/output epsilons 0
input epsilons 40578
output epsilons 11999

describe

Feature Measure
On-disk size 23M
states 451602
arcs 975154
final states 120
input/output epsilons 0
input epsilons 127270
output epsilons 60952

generate

Feature Measure
On-disk size 23M
states 466698
arcs 963849
final states 123
input/output epsilons 20038
input epsilons 74569
output epsilons 144284

hyphenate-rules

Feature Measure
On-disk size 56K
states 19
arcs 2765
final states 11
input/output epsilons 0
input epsilons 15
output epsilons 99

lexc

Feature Measure
On-disk size 5,8M
states 128363
arcs 280662
final states 79
input/output epsilons 0
input epsilons 23929
output epsilons 39023