omorfi

Open morphology for Finnish


Project maintained by flammie Hosted on GitHub Pages — Theme by mattgraham

Statistics

These are semi-automatically generated statistics from omorfi database. The statistics are based on the actual data in the database tables and the versions of whole analysed corpora and tools on this date.

Generation time was 2018-11-20T16+01:00:


It was created by omorfi configure 20181111, which was
generated by GNU Autoconf 2.69.  Invocation command line was

  $ ./configure --enable-big-tests --enable-hyphenator --enable-segmenter --enable-labeled-segments CFLAGS=-O2 -march=native -ggdb -Wall -Wextra  CXXFLAGS=-O2 -march=native -ggdb -Wall -Wextra  PKG_CONFIG_PATH=/opt/local/lib/pkgconfig:/opt/local/share/pkgconfig:/usr/local/lib/pkgconfig:/usr/local/share/pkgconfig:/home/tpirinen/lib/pkgconfig:/home/tpirinen/share/pkgconfig --no-create --no-recursion

This is a released version, and can be downloaded from github.

Lexical database

The numbers are counted from the database, unique lexical items. Depending on your definitions there may be ±1 % difference, e.g. with homonyms, defective and doubled paradigms, etc. There are total of *445453* lexemes.

Per universal POS

The universal parts-of-speech are described in Universal dependencies UPOS documentation and its Finnish UPOS definitions.

Frequency UPOS
274842 PROPN
126016 NOUN
21379 ADJ
11646 VERB
9461 ADV
912 NUM
408 INTJ
383 ADP
90 X
88 PRON
76 SYM
56 SCONJ
53 PUNCT
17 CCONJ
13 AUX
10 CCONJ, VERB
2 DET
445453 TOTAL

Per sources of origin

Sources of origin are:

Frequency origin
258669 finer
45298 kotus
26393 kotus, enwikt
26116 finnwordnet
15532 kotus, joukahainen, enwikt
11549 enwikt
10917 joukahainen
8736 unk
7633 kotus, joukahainen
7305 ftb3
4936 finer, fiwikt
3903 finer, joukahainen
3753 finnwordnet, enwikt
3229 omorfi
3046 omorfi, enwikt
1826 kotus, fiwikt
1557 joukahainen, enwikt
1152 finer, joukahainen, enwikt
1103 finnwordnet, joukahainen
416 finnwordnet, joukahainen, enwikt
404 finer, enwikt
358 finer, joukahainen, fiwikt
308 ftb3, joukahainen
250 finer, fiwikt, joukahainen
169 finer, joukahainen, fiwikt, enwikt
164 fiwikt
77 finer, kotus
69 omorfi++
66 joukahainen, fiwikt
61 omorfi, joukahainen
61 ftb3, enwikt
48 kotus, joukahainen, fiwikt, enwikt
43 fiwikt, enwikt
38 finer, fiwikt, enwikt
30 ftb3, joukahainen, enwikt
27 fiwikt, joukahainen
26 kotus, fiwikt, enwikt
23 kotus, joukahainen, fiwikt
22 finer, kotus, enwikt
20 kotus, fiwikt, joukahainen
18 omorfi, fiwikt
18 fiwikt, joukahainen, enwikt
18 finer, fiwikt, joukahainen, enwikt
14 joukahainen, fiwikt, enwikt
9 finer, omorfi++
9 finer, joukahainen, kotus
6 omorfi, joukahainen, enwikt
5 finnwordnet, fiwikt
3 omorfi++, joukahainen
3 finer, joukahainen, kotus, enwikt
2 kotus, omorfi++
2 finer, joukahainen, omorfi++
1 unihu
1 omorfi, joukahainen, fiwikt
1 omorfi++, fiwikt
1 kotus, omorfi
1 kotus, joukahainen, enwikt, omorfi
1 kotus, fiwikt, joukahainen, enwikt
1 joukahainen, omorfi++, joukahainen, enwikt
1 joukahainen, kotus
1 finnwordnet, omorfi
1 finnwordnet, fiwikt, enwikt
1 finer, omorfi++, joukahainen
1 enwikt, omorfi

Paradigms

Paradigms are the classes you need to separate the lexemes into for inflection and some of the lexical features, such as UPOS. You can see the Paradigms generated documentation for some automatically gathered details about each paradigm.

Paradigms per UPOS
521 NOUN
512 PROPN
228 VERB
135 ADJ
53 PRON
25 NUM
14 SYM
14 ADV
12 ADP
11 AUX
5 X
4 PUNCT
2 INTJ
2 DET
1 SCONJ
1 CCONJ

Naïve coverages

Naïve coverage is number of tokens (types) that receive one or more non-heuristic readings divided by total number of tokens, i.e. how many words are part of the lexical database.

For list of common tokens not covered by the lexicon, see the most frequent missing tokens per corpus.

Combined coverages

Feature Coverage # Coverage % All
Tokens 1597725493 99.2400 % 1610031971
Types 98737 95.2200 % 103702

The coverages were measured with full lexicon, if you use the smaller lexicon coverages are slightly worse.

Smaller lexicon coverage

Feature Coverage # Coverage % All
Tokens 1496128362 92.9300 % 1610031971
Types 80544 77.6700 % 103702

5grams

Feature Coverage # Coverage % All
Tokens 1286508 90.0200 % 1429170
Types 207214 78.4900 % 264007

europarl-v7.fi-en.fi

Feature Coverage # Coverage % All
Tokens 37157400 99.2300 % 37449133
Types 628727 88.3100 % 712019

fi_ftb-ud

Feature Coverage # Coverage % All
Tokens 141560 98.5900 % 143599
Types 41531 96.0300 % 43252

fi-ud

Feature Coverage # Coverage % All
Tokens 176831 97.6300 % 181138
Types 49808 93.6800 % 53169

fiwiki-latest-pages-articles

Feature Coverage # Coverage % All
Tokens 90590340 91.5300 % 98983397
Types 2431095 55.4600 % 4383679

ftb1-2014

Feature Coverage # Coverage % All
Tokens 159313 98.3600 % 161984
Types 44510 95.2800 % 46716

ftb3.1

Feature Coverage # Coverage % All
Tokens 74168806 97.1200 % 76369439
Types 1235136 74.9300 % 1648418

gutenberg-fi

Feature Coverage # Coverage % All
Tokens 57774997 96.7900 % 59692254
Types 1284269 67.1200 % 1913489

jrc-fi

Feature Coverage # Coverage % All
Tokens 42603652 94.8000 % 44940790
Types 800091 63.2300 % 1265450

OpenSubtitles2016.fi

Feature Coverage # Coverage % All
Tokens 204549574 97.9200 % 208902286
Types 1673987 69.3500 % 2414131

tatoeba-fi

Feature Coverage # Coverage % All
Tokens 440854 99.4400 % 443346
Types 47860 95.8300 % 49947

unimorph-fin

Feature Coverage # Coverage % All
Tokens 1674731 99.1100 % 1689788
Types 1534882 99.1000 % 1548931

vks

Feature Coverage # Coverage % All
Tokens 1823432 53.2400 % 3425382
Types 58980 20.3700 % 289640

vns

Feature Coverage # Coverage % All
Tokens 4367831 89.8400 % 4862190
Types 328304 61.8700 % 530715

Most frequent missing tokens per corpus

These are the most common tokens still left unrecognised by the lexicon. Most of them should be foreign languages, codes and rubbish. These are used from time to time improve the lexical coverage.

test/5grams

Frequency Word-form
3471 about
3227 ac
1193 abc
1022 access
908 a4
761 academy
536 a1
494 a2
465 aaa
441 a3
414 abb
403 little
390 abs
362 acid
347 a5
333 account
320 carte
303 that
297 hotel
280 abb:n
274 acai
274 .,
271 absolute
270 abby
259 my
255 abc:n
253 aac
238 a.
232 a6
218 girl
216 academic
210 aasiakas
201 aa:n
197 aby
190 cappella
190 acheter
187 abe
181 lot
176 abira
171 above
170 dream
169 academyn
166 this
150 dhabi
147 very
146 nice
145 few
139 study
136 abyss
134 aspire
133 place
131 friend
130 way
130 abigail
128 christmas
128 a8
124 dhabin
123 aces
119 abd
116 small
111 woman
111 great
111 dhabissa
106 abc:llä
106 aamuviideltä
105 acc
104 poker
103 accord
102 year
102 achat
102 able
101 better
100 abdi
100 aalto-setälä
97 aaah
95 work
91 book
91 an
91 abs-jarrut
90 guide
90 abeiya
89 couple
88 finnish
86 thing
86 ilmaistoidussa
86 accounting
86 accept
85 while
85 go
83 absolutely
83 abc:lle
82 jalkeen
81 beautiful
80 a7
79 our
79 global
79 be
78 week
77 star
75 was

test/europarl-v7.fi-en.fi

Frequency Word-form
610 SIS
390 Palacio
372 Swoboda
366 11.30.
337 Graefe
315 Lamy
297 Méndez
292 Romano
285 Vitorino
283 Swobodan
282 KOM(2001
269 Lehnen
263 T?et?enian
250 Milosevi
246 Schreyer
245 Prestigen
240 McCreevy
238 Rothleyn
231 Mandelson
229 Salafranca
225 Izquierdo
222 Wogaun
217 17.30.
216 Verhofstadt
215 Delorsin
213 KOM(2000
212 Miloseviin
210 Pack
210 Nielson
209 Packin
209 Oomen-Ruijtenin
206 T?ekin
206 Bonino
205 Lamfalussyn
203 British
202 Almunia
199 Sterckxin
199 Böschin
195 Cox
194 Act
193 Dalai
189 YMJ
189 UCLAFin
189 Rübig
189 Mundus
188 YKP:n
188 Trichet
188 Junilistan
185 Oomen-Ruijten
183 Dimas
182 Randzio-Plathin
182 Harbourin
180 Haugin
180 Harbour
179 Rompuy
179 Mitchellin
178 Duisenberg
177 Lulling
176 Ribeiro
175 BKT:
174 Vihreät/Euroopan
174 Miguélez
174 KOM(2002
174 Florenzin
172 Špidla
172 Leyla
172 Langenin
172 Lamassouren
172 KOM(1999
171 een
171 Bourlangesin
170 Tobinin
170 Broek
170 Aznar
169 PO
169 Helms-Burtonin
168 Palacion
167 Öcalanin
167 Oostlanderin
166 Coelhon
165 Tajani
165 Solbes
165 Brittan
164 vuoden�
164 Velzenin
164 Rights
164 García
164 Fatuzzo
163 Roth-Behrendt
162 Haarder
162 General
162 Fraga
162 EFD-ryhmän
161 Lehne
160 Garriga
159 Lannoyen
158 Vitorinon
158 Pirkerin
157 Stream
157 Savaryn

test/fi_ftb-ud

Frequency Word-form
31 ell
15 joll
9 niit
8 sil
8 mitää
7 sillee
6 ol
5 yhen
5 tääl
5 pitäs
5 niiku
4 semmone
4 rupee
4 rauhotu
4 puol
4 johonki
4 itte
4 esimerkiks
4 Emmä
3 yhtää
3 vähäm
3 viitti
3 viikkoo
3 upeeta
3 ton
3 tiä
3 tiiä
3 tietsä
3 tarttee
3 tartte
3 sillo
3 siihe
3 semmost
3 sellaist
3 sd
3 pitäskö
3 Oottekste
3 onk
3 ollenkaa
3 näis
3 näi
3 nytte
3 ninku
3 mis
3 keng-
3 jotaki
3 jonnekkii
3 ens
3 Akiro
3 ainaki
3 31.8.
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 x:ää
2 Woman
2 vähäks
2 vuuen
2 vuoks
2 viittis
2 venäläisittäin
2 uus
2 täälä
2 täst
2 tämmöst
2 tällasen
2 tuol
2 Tuleek
2 Troia
2 tommost
2 tiäks
2 tilloo
2 Tellu
2 teil
2 TBK
2 Sytky
2 Soiliki
2 siälä
2 siält
2 sielt
2 siell
2 seuraavaks
2 semssi
2 semmosii
2 semmoseks
2 seitsemä
2 se-
2 satayheksänkymmentä
2 saadas
2 Ride
2 pääs
2 pystykuilua
2 puhutaal
2 Pretty
2 pittää

test/fi-ud

Frequency Word-form
18 5(n)
10 Pirate
10 Peku
9 Ariarathes
8 Wolters
8 Vicia
8 Valdas
8 Sydow
8 Rauparaha
8 Kokljuschkin
8 Gliese
8 Festuca
7 Zapatero
7 Venera
7 türki
7 Trifolium
7 Thom
7 Stora
7 Ratcliffe
7 Cao
7 Binderup
7 3.Rf3
6 Tšerepanov
6 Tienshinhan
6 Star
6 SDP:tä
6 Nikomedes
6 N63
6 Mirianin
6 Lupinus
6 Louramo
6 Lolium
6 Laodiken
6 Judge
6 e5
6 E21
6 common
6 2.f4
5 Wars
5 Tracon
5 tajuu
5 Standard
5 Science
5 Rodrigues
5 Qazibe
5 Origenes
5 Moolenaar
5 Molvania
5 Medicago
5 Laodike
5 Know
5 Iglesiaksen
5 Finnjet
5 Filen
5 EKPJ:n
5 death
5 Charger
5 Brassica
5 Bayn
5 :
4 Åsbrink
4 Wagon
4 TTW
4 Trunkenpolz
4 Thriller
4 Thrill
4 Son
4 Silvio
4 sillo
4 sativa
4 Routila
4 Risperidon
4 pratensis
4 OMXH
4 Novo
4 Luminance
4 Libuše
4 LHC:n
4 Large
4 kakskytvaille
4 Jong
4 isännöintitehtäviä
4 Immortal
4 IHN
4 Hoskins
4 Hodgkinson
4 Head
4 Hadron
4 Grisay
4 First
4 EY:
4 exf4
4 Evertonin
4 EKP/1998/15
4 DeMille
4 Darth
4 Costazza
4 Collection
4 Chávezin
4 Bithynian

test/fiwiki-latest-pages-articles

Frequency Word-form
4435 Star
4312 Up
4269 Die
4231 Golden
4175 Team
4008 Little
3922 Tour
3879 Press
3639 This
3377 League
3364 Lake
3313 Recordsin
3246 Heart
3225 Dead
3209 Death
3169 We
3081 Bad
3021 Don’t
3016 What
3006 Dark
2939 Go
2923 Space
2907 <li
2899 War
2831
2791 Way
2788 British
2776 School
2753 Girl
2716 Dance
2713 Last
2670 Film
2663 Database
2643 feat
2631 Svenska
2624 Serie
2600 Luokka:Vuoden
2555 Force
2519 That
2504 Paris
2493 Bank
2482 Great
2463 Society
2463 Are
2439 Fort
2437 States
2435 Bay
2420 Luokka:Vuonna
2414 Billboard
2401 an
2391 Fire
2387 Vol
2343 Dream
2322 An
2310 :The
2298 Games
2298 First
2293 Boys
2291 Award
2280 Racing
2238 Wikipedia:Poistettavat
2223 South
2212 Light
2193 Road
2192 Deep
2190 Planet
2187 Entertainment
2184 Blood
2168 State
2156 Series
2124 formula_1
2116 discogs.com
2114 East
2113 Rolling
2098 Final
2090 System
2078 Never
2064 General
2056 I’m
2053 Movie
2043 São
2024 Moon
2016 Fameen
2014 Institute
2011 Now
2011 Free
2011 death
2009 Sound
1970 Encyclopedia
1958 Not
1941 Old
1922 Human
1921 Science
1919 Hits
1917 Port
1914 Who
1886 When
1877 Gold
1874 Union
1873 Russell

test/ftb1-2014

Frequency Word-form
34 ell
17 joll
10 niit
9 sillee
9 sil
8 Tarja_Halonen
8 pitäs
8 mitää
6 yhen
6 ol
6 Helsingin_Sanomat
5 tääl
5 rupee
5 niiku
5 jotenki
4 viikkoo
4 upeeta
4 siihe
4 semmone
4 rauhotu
4 puol
4 näis
4 nytte
4 jotaki
4 johonki
4 itte
4 Euroopan_unionin
4 esimerkiks
4 Emmä
4 4_600
3 yhtää
3 vähäm
3 vähäks
3 viitti
3 ton
3 tiä
3 tiiä
3 tietsä
3 TBK
3 tarttee
3 tartte
3 Tampereen_yliopistossa
3 sillo
3 sielt
3 semmost
3 sellaist
3 sd
3 Roman_Polanskin
3 pääs
3 Punaisen_Ristin
3 pitäskö
3 Paavo_Lipponen
3 Oottekste
3 onk
3 ollenkaa
3 ol´
3 näi
3 nipin_napin
3 ninku
3 New_Yorkissa
3 muute
3 mis
3 Martti_Ahtisaari
3 kirjotti
3 keng-
3 kattelin
3 Katotaas
3 jonnekkii
3 hirveesti
3 Helsingin_yliopiston
3 Helsingin_Sanomien
3 Esko_Aho
3 ens
3 Akiro
3 ainaki
3 aikasemmin
3 Abdi
3 31.8.
3 300_000
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 x:ää
2 Woman
2 W.G.Palmqvist
2 vuuen
2 vuoks
2 viittis
2 viimeks
2 vieläkää
2 venäläisittäin
2 Veijo_Meri
2 varmmaam
2 uus
2 Uuno_Turhapuroon

test/ftb3.1

Frequency Word-form
6051 amp
5287 du
4703 le
4489 p.m
3382 PIC
3319 Ltd
3302 die
3042 be
3017 Commission
2705 της
2517 και
2488 na
2440 lt
2413 Bank
2399 que
2246 nr
2186 europa.eu.int
2145 pic
2132 an
2130 that
2094 comm
2067 2007—2013
2043 un
1950 την
1941 του
1890 a.
1825 mod
1751 το
1749 dans
1732 für
1718 della
1685 pour
1667 state
1665 των
1639 Fax
1604 County
1601 b.
1582 που
1547 this
1524 st
1497 are
1497 Act
1463 S.A
1430 για
1416 να
1414 Limited
1400 1.1.2006–
1399 eG
1356 een
1346 η
1344 il
1343 από
1305 EG
1297 add
1293 με
1274 voor
1273 Tel
1270 LOOPU
1268 not
1264 which
1250 Nr
1215 PO
1203 general
1182 Société
1152 SIS
1149 other
1134 under
1130 Classification
1130 che
1122 including
1104 States
1098 Kingdom
1088 Limites
1088 Klassificering
1085 Council
1061 Box
1059 C10
1036 programme
1030 Raiffeisenbank
1024 sgb
1024 financial
1018 NEWLINE
1009 secretariat
1009 information
1005 Member
1002 NACE
993 non
958 Valley
958 Nederland
957 Bruxelles
946 Verts
928 ec.europa.eu
925 ou
925 NGL-ryhmän
924 its
924 General
915 Ministry
903 shall
902 Article
899 Extract

test/gutenberg-fi

Frequency Word-form
3317 y.m
2881 j.n.e
2653 ***
2284 huoneesen
2169 s.o
1558 ol
1451 waan
1342 Oblomov
1190 Mit
1168 End
1153 Produced
1129 wielä
1072 jälestä
1027 Kitty
1023 Aramis
1004 Bräsig
996 Glenarvan
969 Natasha
947 oliwat
922 Kenelm
914 kauvas
913 kysäsi
909 mit
902 EBook
881 kaikk
880 Uli
879 Jurgis
869 Monte-Cristo
865 Paganel
860 n.s
843 ain
830 m.m
823 Mabel
814 SOLNESS
812 Smoke
801 Villefort
797 Vronski
797 Lents
796 att
789 Siell
781 muutamain
771 Vinitius
771 Bertelsköld
761 erääsen
748 Il
742 till
740 Gervaise
738 jag
728 Mathieu
725 Portos
724 mylord
717 Emilio
681 Danglars
680 olekkaan
673 Raskolnikov
669 siell
664 Mik
663 tarjoo
650 Täss
649 tääll
649 Kaikk
643 Kuink
643 heittäysi
640 HILDE
638 laskeusi
638 jälessä
628 Laurie
625 Wäinämöinen
619 kahdenkesken
617 Hawermann
616 Morrel
615 Denise
610 kuitenki
601 yhtämittaa
596 owat
594 Rostof
591 woi
590 Peggotty
587 Timar
587 hänt
584 Emilie
582 Kaleb
581 BERNICK
579 jälestäpäin
576 Stepan
572 Kallem
570 niinmuodoin
568 eessä
565 Jönni
564 Tääll
563 Sakris
562 Ben-Hur
559 kaikellaisia
555 hän
554 Thora
553 jotk
551 Dantès
549 Käkriäinen
547 Sheldon
547 Kornelius

test/jrc-fi

Frequency Word-form
17109 EUR/100
14604 PAIKKA>
14444 >TAULUKON
6675 +++++
5385 >VIITTAUS
4865 KAAVIOON>
4729 *IT
4399 EUR/t
3920 *FR
3893 FILE=
3886 >PIC
3489 die
3192 %amp%
3043 Commission
2757 της
2502 και
2493 //
2461 Ltd
2445 que
2422 0,—
2411 Bank
2335 *DE
2323 na
2284 nr
2230 2006/C
2192 KOM(2005
2179 >KAAVION
2176 that
2044 την
1996 %:a
1983 pic
1957 un
1955 του
1954 mod
1925 *HU
1907 *ES
1805 für
1803 an
1797 dans
1781 Boel
1774 το
1753 della
1744 Mariann
1720 pour
1671 των
1638 EUR/kg
1627 Fax
1611 *CZ
1604 this
1598 County
1590 που
1566 S.A
1530 are
1507 p/st
1432 Limited
1431 *NL
1431 KOM(2004
1430 για
1416 να
1408 Act
1401 eG
1393 il
1385 KOM(2006
1382 *SK
1377 *PL
1357 από
1343 2005/C
1341 η
1340 lopull
1311 LOOPU>
1308 voor
1308 ALKU>
1307 which
1293 με
1290 *UK
1289 not
1287 Nr
1257 /*
1254 */
1219 Tel
1202 other
1198 EG
1183 Société
1172 States
1156 een
1152 under
1148 che
1136 including
1134 Classification
1115 Kingdom
1109 financial
1100 lausunnon(2
1094 Council
1088 Limites
1088 Klassificering
1078 Member
1075 %mdash%
1061 %lt%
1061 C10
1060 NACE

test/OpenSubtitles2016.fi

Frequency Word-form
5536 oIe
4490 lhan
4158 Doug
3858 Parker
3772 oIi
3258 lsä
3050 Dylan
3031 OIen
3027 Chloe
3015 Vince
2786 Kenny
2767 Clay
2637 Gus
2554 Ellie
2533 Mitch
2530 …ja
2496 Lenny
2480 Zoe
2450 Russell
2412 Abby
2375 Richie
2371 Walt
2328 ÄIä
2302 Holly
2280 Audrey
2273 Shane
2265 Nate
2248 Manny
2232 Wendy
2209 Cindy
2207 Wade
2195 Allison
2162 tääIIä
2148 Bart
2138 Frodo
2122 Debbie
2105 Leslie
2091 Toby
2087 Mikey
2057 Curtis
2047 Booth
2026 Trevor
2026 Lloyd
2012 Buck
1977 Reed
1963 Fort
1958 Riley
1949 Dexter
1932 Original
1927 S.org
1912 Troy
1911 oIIa
1891 J.R
1877 Paige
1858 Streetillä
1839 Burke
1837 Keith
1822 Bonnie
1820 Elaine
1818 Streetin
1818 Barney
1816 Vic
1815 Little
1773 Kane
1767 Beverly
1760 Stu
1752 East
1743 Connie
1730 Turner
1728 Woody
1727 Lhan
1719 Judy
1719 Buffy
1713 Star
1710 Brennan
1709 Lester
1707 Zack
1695 Dana
1692 Mitchell
1691 Sheldon
1689 Marge
1689 Ewing
1655 Buddy
1647 Gandalf
1641 Brenda
1621 Angie
1617 Rosie
1586 Clyde
1585 Robbie
1570 Spencer
1566 oIet
1558 South
1553 Becky
1544 Reese
1537 Wyatt
1531 Rodney
1512 FBl
1504 Calvin
1502 Bud
1496 Sal

test/tatoeba-fi

Frequency Word-form
67 Marya
14 Ootsä
8 Ooksä
7 Muiriel
7 kusutaan
6 WC:seen
6 tosissas
6 Tanaka
6 Puerto
6 mitää
5 Onkoha
5 Mist
5 Mayuko
5 koskaa
4 Yumi
4 todellä
4 tiiä
4 Taroun
4 Taj
4 Rico
4 pitäsi
4 Ogawa
4 Naoko
4 Mite
4 Mis
4 Miksä
4 kolmenkympin
4 Keiko
4 Golden
4 cool
3 Yooko
3 yhen
3 UFO:a
3 tännä
3 Tomil
3 Tomii
3 Tieksä
3 Tallenna”-painiketta
3 Scrooge
3 rättipoikki
3 Quebecissä
3 noloo
3 mutsiis
3 Muirielin
3 Lorelei
3 litsarin
3 Kenji
3 Jeeves
3 jang
3 Huntia
3 Hokkaidolla
3 Hakatan
3 Gate
3 Duck
2 Ääk
2 äitiis
2 yuri
2 Yoshida
2 ympärikännissä
2 yhessä
2 yhdin
2 Woods
2 Wi-Fi
2 Wau
2 Wasedan
2 Voitsitko
2 vittuukaan
2 virheettömästi
2 vihanen
2 vihane
2 Vihaaksä
2 uus
2 uudestaa
2 unohin
2 törkeen
2 Tämänpäivän
2 tuollalailla
2 Tumblr
2 tuhannan
2 Transrasvat
2 Towerissa
2 Ton
2 ton
2 tollai
2 Tokyo
2 Titanic
2 tippuu.»
2 timeunit:
2 time:
2 Tiki
2 Tiedäksä
2 Three
2 teskentelee
2 telkkarii
2 tekeväs
2 tekeillään
2 Tarou
2 tarkottaa
2 Tarkotaksä
2 tapaaa

test/unimorph-fin

Frequency Word-form
84 tshe
28 yksimerkit
28 win-
28 tsos
28 tikankont
28 ottomo
28 gong
28 entten-t
28 cous
28 aamiaistap
16 aasianvilli
15 abrakad
13 yksityisy
13 yksittäisy
13 yksiselitteisy
13 yksinäisy
13 yksimielisy
13 yksilöllisy
13 yksikielisy
13 beri
12 undergro
12 oksenn
10 uudenaikais
10 antiperspir
10 antioksid
10 antikoagul
4 interpolo
4 integro
4 feimit
4 attenta
3 peiliteleskoo
3 ajatusp
3 ajatt
2 yröt
2 yiquanit
2 yiquan
2 yhdeksänvyövyötiäiset
2 yhdeksänvyövyötiäinen
2 yarkantinjänis
2 yarkantinjänikset
2 väyryneniitti
2 väyryneniitit
2 väestötiheykset
2 vongaa
2 vokaa
2 villieringenetit
2 viileimmat
2 vesipyörreet
2 valokaarit
2 vakuolit
2 vakuoli
2 uut
2 upeet
2 unbibium
2 uluusit
2 ubiikit
2 töyhtöt
2 törkyt
2 täysjyvät
2 täysjyvä
2 tärkkäykset
2 täpöt
2 turppaat
2 tukah
2 tuditte
2 tudit
2 tudin
2 tudimme
2 tsempaa
2 tsagutit
2 tsaguti
2 trikuspidaaliläpät
2 transrasvat
2 transrasva
2 tosat
2 tosa
2 toliinit
2 tillii
2 tiikerilinsankit
2 terälehdit
2 tektosilikaatit
2 tasavirtat
2 söpöykset
2 söhläykset
2 södet
2 syslingit
2 synkaa
2 sykloheksanonit
2 sykloheksanoni
2 syeniitti
2 syeniitit
2 sulkijalihaat
2 sukupuoliyhteys lähi
2 sukupuoliyhteydet lähi
2 sukkiinihappo
2 sukkiinihapot
2 subjektivistista
2 sterletti
2 sterletit
2 steriiliykset

test/vks

Frequency Word-form
37302 ia
28860 nijn
20706 pitä
20149 cuin
13507 joca
10702 owat
8461 jotca
7707 cosca
7410 caicki
6953 cansa
6929 nijncuin
6422 quin
6190 jälken
6110 wastan
6108 waan
5906 yxi
5474 cautta
5281 mine
5156 henen
5125 jonga
4711 eij
4595 sijtä
4116 ioca
4074 händä
3797 ombi
3787 canssa
3775 sijnä
3667 anda
3646 mös
3577 cuinga
3093 pite
2982 sijhen
2934 wielä
2876 taicka
2856 tygö
2854 jocu
2784 iotca
2754 sine
2738 hywin
2600 itze
2593 cuningas
2543 ouat
2491 caickein
2454 poica
2426 itzens
2424 ninquin
2373 cuitengin
2304 christuxen
2294 teke
2293 lucu
2246 jesuxen
2171 caiki
2149 idzens
2146 ylitze
2049 olcon
2045 nijtä
1986 nijden
1966 cuningan
1964 caxi
1949 ainoastans
1943 waldacunnan
1920 tawalla
1909 coco
1884 jällens
1883 caiken
1816 sijs
1792 cadzo
1790 hywä
1767 christus
1686 päiwänä
1673 coska
1636 monda
1636 tulewat
1625 ej
1568 päle
1543 cusa
1466 mitän
1445 sijtte
1435 woi
1394 canssan
1391 cansans
1379 wuonna
1304 tapahtu
1297 waimo
1292 cuoleman
1279 andanut
1264 nijstä
1224 päiwä
1216 mahta
1210 cohta
1178 olemma
1176 andoi
1153 vers
1153 cuca
1146 judan
1128 caupungin
1119 olewan
1112 christusen
1110 yxikän
1097 sanoden

test/vns

Frequency Word-form
1391 kuitenki
1016 päiv
787 erinomattain
715 kuv
694 vyhteä
682 ole’
632 esm
632 vyhtikertaa
612 siaan
567 ej
564 sitte’
475 tähen
465 kunink
459 niinmuodoin
439 rupl
427 joh
420 owat
415 opett
414 lauvantaina
409 pitäjäsä
399 ett’
398 viimmen
397 samate
397 för
396 yxi
391 muist
386 argan
377 itte
367 laps
360 pitä
359 präntätty
358 [1
357 oulusa
357 till
352 ruottalaisen
352 det
351 att
342 jonga
342 imprimatur
340 ruottin
337 händä
332 canzio
329 yhen
326 sentähen
323 nim
320 kuitengin
313 wielä
304 waan
302 itsiänsä
294 kaupunnisa
291 st
288 enämmin
287 samasa
283 olemma
277 pipp
276 dona
265 greekan
265 kaupunnin
260 kaupungisa
260 maasa
257 net
253 olla’
249 syysk
249 läpitse
248
243 kirkkoh
242 eroitus
238 nelju
233 ven
233 lutheruksen
231 usiasti
229 ittensä
227 huomena
225 kirj
224 säätyin
223 alkain
221 usiampia
221 karlos
220 til
218 myöski
217 usiammat
215 ne’
212 vice
209 viimen
205 ae
198 talosa
196 hywin
196 jok’
193 jälestä
193 jag
191 ainoastans
186 viellä
186 marrask
186 kahen
184 puol
183 päälle’
182 kauvas
181 olekkaan
180 myydä’
179 är

Automata statistics

The underlying language models are mostly represented by finite-state automata (FSAs). The figures may give some indication of the speed and size of the models in practical applications.

accept

Feature Measure
On-disk size 8,8M
states 106550
arcs 380347
final states 17568
input/output epsilons 0
input epsilons 90
output epsilons 9339

accept.lexc

Feature Measure
On-disk size 4,5M
states 98317
arcs 220428
final states 10221
input/output epsilons 0
input epsilons 8964
output epsilons 7088

analyse

Feature Measure
On-disk size 5,3M
states 100916
arcs 223638
final states 42
input/output epsilons 0
input epsilons 34340
output epsilons 9210

describe

Feature Measure
On-disk size 25M
states 475236
arcs 1032265
final states 119
input/output epsilons 0
input epsilons 132397
output epsilons 60986

generate

Feature Measure
On-disk size 24M
states 490283
arcs 1021923
final states 123
input/output epsilons 20596
input epsilons 75121
output epsilons 149303

lexc

Feature Measure
On-disk size 4,8M
states 110697
arcs 227337
final states 47
input/output epsilons 0
input epsilons 19734
output epsilons 33461