omorfi

Open morphology for Finnish


Project maintained by flammie Hosted on GitHub Pages — Theme by mattgraham

Statistics

These are semi-automatically generated statistics from omorfi database. The statistics are based on the actual data in the database tables and the versions of whole analysed corpora and tools on this date.

Generation time was 2026-01-04T19+01:00:


It was created by omorfi configure 0.9.11, which was
generated by GNU Autoconf 2.71.  Invocation command line was

  $ ./configure 'CFLAGS=-O2 -march=native -ggdb -Wall -Wextra ' 'CXXFLAGS=-O2 -march=native -ggdb -Wall -Wextra ' PKG_CONFIG_PATH=/opt/local/lib/pkgconfig:/opt/local/share/pkgconfig:/usr/local/lib/pkgconfig:/usr/local/share/pkgconfig:/home/flammie/lib/pkgconfig:/home/flammie/share/pkgconfig:/usr/lib/pkgconfig:/usr/share/pkgconfig --no-create --no-recursion

This is a released version, and can be downloaded from github.

Lexical database

The numbers are counted from the database, unique lexical items. Depending on your definitions there may be ±1 % difference, e.g. with homonyms, defective and doubled paradigms, etc. There are total of 567540 lexemes.

Per universal POS

The universal parts-of-speech are described in Universal dependencies UPOS documentation and its Finnish UPOS definitions.

Frequency UPOS
351101 PROPN
166486 NOUN
25731 ADJ
13595 VERB
8158 ADV
868 NUM
600 INTJ
513 ADP
148 X
89 PRON
78 SCONJ
74 SYM
54 PUNCT
18 CCONJ
13 AUX
11 CCONJ, VERB
2 DET
567540 TOTAL

Per sources of origin

Sources of origin are:

Frequency origin
289917 nimistö
254098 finer
152634 enwikt
106094 kotus
61718 fiwikt
43271 joukahainen
42855 dvvfi
31349 finnwordnet
15175 omorfi
7703 ftb3

…or split across lexemes:

Frequency origin(s)
211708 finer, nimistö
63755 nimistö
54934 enwikt, kotus
35276 enwikt
20937 finer
20837 finnwordnet
20106 dvvfi
13453 enwikt, fiwikt, joukahainen, kotus
13451 enwikt, fiwikt, kotus
11768 fiwikt
10442 omorfi
8137 kotus
7769 enwikt, joukahainen, kotus
7240 ftb3
6735 joukahainen
5948 unk
5387 enwikt, finnwordnet
4711 enwikt, fiwikt
3930 dvvfi, finer
3600 dvvfi, finer, nimistö
3078 dvvfi, finer, fiwikt, nimistö
2685 fiwikt, kotus
2583 enwikt, omorfi
2211 fiwikt, joukahainen, kotus
2199 enwikt, joukahainen
1779 dvvfi, enwikt, finer, nimistö
1688 enwikt, finnwordnet, fiwikt
1687 dvvfi, fiwikt
1577 joukahainen, kotus
1328 dvvfi, enwikt, finer, fiwikt, nimistö
1185 dvvfi, enwikt, finer, joukahainen, nimistö
858 finnwordnet, fiwikt
791 finer, joukahainen, nimistö
789 dvvfi, omorfi
769 dvvfi, nimistö
758 enwikt, finnwordnet, kotus
749 dvvfi, finer, joukahainen
655 enwikt, fiwikt, joukahainen
654 enwikt, finnwordnet, joukahainen
590 dvvfi, enwikt, finer, joukahainen
589 dvvfi, finer, joukahainen, nimistö
533 finer, joukahainen
516 finnwordnet, joukahainen
480 dvvfi, enwikt, finer, fiwikt, joukahainen, nimistö
436 enwikt, fiwikt, omorfi
423 enwikt, finer
358 fiwikt, joukahainen
328 dvvfi, enwikt, finer
326 dvvfi, finer, fiwikt
310 dvvfi, joukahainen
241 enwikt, kotus, omorfi
234 ftb3, joukahainen
207 enwikt, finer, fiwikt
196 dvvfi, enwikt, finer, fiwikt, joukahainen
188 finer, fiwikt
182 enwikt, finnwordnet, fiwikt, joukahainen
161 dvvfi, enwikt, finer, fiwikt
160 enwikt, finnwordnet, fiwikt, kotus
159 dvvfi, enwikt
153 dvvfi, enwikt, fiwikt
136 enwikt, finer, nimistö
128 enwikt, finer, joukahainen
126 fiwikt, omorfi
125 finer, fiwikt, nimistö
122 dvvfi, fiwikt, nimistö
119 dvvfi, finer, fiwikt, joukahainen, nimistö
108 enwikt, ftb3
102 enwikt, fiwikt, kotus, omorfi
92 finer, fiwikt, joukahainen
91 enwikt, ftb3, joukahainen
88 finnwordnet, kotus
81 omorfi++
71 kotus, omorfi
69 enwikt, finnwordnet, joukahainen, kotus
67 joukahainen, omorfi
62 enwikt, finer, joukahainen, nimistö
60 joukahainen, nimistö
60 dvvfi, fiwikt, joukahainen
60 dvvfi, finer, fiwikt, joukahainen
53 finnwordnet, fiwikt, joukahainen
50 dvvfi, enwikt, fiwikt, joukahainen
48 nimistö, omorfi
48 finer, kotus
46 enwikt, finnwordnet, fiwikt, joukahainen, kotus
41 enwikt, finer, fiwikt, joukahainen
39 dvvfi, joukahainen, nimistö
31 enwikt, finer, kotus
30 dvvfi, enwikt, joukahainen
28 finnwordnet, fiwikt, kotus
28 dvvfi, enwikt, fiwikt, nimistö
26 finer, fiwikt, kotus
26 enwikt, finer, fiwikt, kotus
21 finer, fiwikt, joukahainen, nimistö
17 finnwordnet, joukahainen, kotus
15 enwikt, finer, fiwikt, joukahainen, nimistö
14 fiwikt, kotus, omorfi
13 enwikt, fiwikt, ftb3, joukahainen
13 dvvfi, nimistö, omorfi
12 enwikt, fiwikt, joukahainen, kotus, omorfi
12 dvvfi, enwikt, joukahainen, nimistö
11 finer, joukahainen, kotus
10 finer, fiwikt, joukahainen, kotus
10 enwikt, joukahainen, kotus, omorfi
9 joukahainen, kotus, omorfi
8 enwikt, joukahainen, omorfi
8 enwikt, fiwikt, joukahainen, omorfi
8 enwikt, finer, fiwikt, nimistö
7 enwikt, nimistö
6 kotus, omorfi++
6 fiwikt, omorfi++
6 fiwikt, nimistö
6 finnwordnet, fiwikt, joukahainen, kotus
6 enwikt, finer, fiwikt, joukahainen, kotus
5 enwikt, fiwikt, joukahainen, kotus, kotus*(D)
5 enwikt, fiwikt, ftb3
5 dvvfi, enwikt, nimistö
5 dvvfi, enwikt, fiwikt, joukahainen, nimistö
4 kotus*(C)
4 joukahainen, omorfi++
4 fiwikt, joukahainen, omorfi
4 fiwikt, ftb3
4 finer, omorfi++
4 finer, omorfi
4 dvvfi, joukahainen, omorfi
4 dvvfi, fiwikt, joukahainen, nimistö
3 fiwikt, joukahainen, kotus, kotus*(D)
3 fiwikt, ftb3, joukahainen
3 finer, joukahainen, kotus, omorfi++
3 enwikt, omorfi++
3 enwikt, kotus, kotus*(C)
3 enwikt, ftb3, joukahainen, kotus
3 enwikt, finer, joukahainen, kotus
3 dvvfi, fiwikt, omorfi
3 dvvfi, enwikt, omorfi
2 omori
2 ftb3, joukahainen, kotus
2 fiwikt, kotus, omorfi++
2 fiwikt, joukahainen, kotus, omorfi++
2 fiwikt, joukahainen, kotus, omorfi
2 finer, kotus, omorfi++
2 finer, joukahainen, omorfi++
2 enwikt, kotus*(C)
2 enwikt, fiwikt, joukahainen, kotus, kotus*(F)
2 enwikt, fiwikt, joukahainen, kotus, kotus*(E)
2 , enwikt, fiwikt, joukahainen, kotus
2 dvvfi, fiwikt, joukahainen, omorfi
1 omorfo
1 omorf
1 omofi
1 nimistö, unihu
1 kotus, kotus9
1 kotus*(G)
1 kenwikt, kotus, otus
1 joukahainen, kotus, omorfi++
1 joukahainen, kotus, kotus*(F)
1 joukahainen, kotus, kotus(12)
1 fiwikt, kotus, kotus*(D)
1 fiwikt, kotus, kotus(1)
1 fiwikt, kotus*(H)
1 fiwikt, joukahainen, kotus, kotus*(E)
1 fiwikt, joukahainen, kotus, kotus(66)
1 fiwikt, joukahainen, kotus, kotus(18)
1 finnwordnet, omorfi
1 finer, joukahainen, omorfi
1 finer, joukahainen, nimistö, omorfi++
1 finer, joukahainen, nimistö, omorfi
1 finer, fiwikt, joukahainen, nimistö, omorfi++
1 enwikt, nimistö, omorfi
1 enwikt, kotus, kotus*(G)
1 enwikt, joukahainen, kotus, kotus*(E)
1 enwikt, joukahainen, kotus, kotus(18)
1 enwikt, fiwikt, kotus, kotus*(G)
1 enwikt, fiwikt, kotus*(B)
1 enwikt, fiwikt, joukahainen, kotus, omorfi++
1 enwikt, fiwikt, joukahainen, kotus, kotus*(M)
1 enwikt, fiwikt, joukahainen, kotus, kotus*(H)
1 enwikt, fiwikt, joukahainen, kotus, kotus*(C)
1 enwikt, fiwikt, joukahainen, kotus, kotus(36)
1 enwikt, fiwikt, joukahainen, kotus*(F)
1 enwikt, finnwordnet, fiwikt, kotus*(C)
1 enwikt, finer, joukahainen, nimistö, omorfi++
1 enwikt, finer, fiwikt, joukahainen, nimistö, omorfi++
1 dvvfi, finer, joukahainen, nimistö, omorfi
1 dvvfi, finer, fiwikt, joukahainen, nimistö, omorfi++
1 dvvfi, enwikt, fiwikt, omorfi
1 dvvfi, enwikt, finer, joukahainen, nimistö, omorfi++

Paradigms

Paradigms are the classes you need to separate the lexemes into for inflection and some of the lexical features, such as UPOS. You can see the Paradigms generated documentation for some automatically gathered details about each paradigm.

Paradigms per UPOS
555 PROPN
542 NOUN
231 VERB
145 ADJ
53 PRON
26 NUM
14 SYM
14 ADV
13 ADP
11 AUX
6 X
4 PUNCT
2 INTJ
2 DET
1 SCONJ
1 CCONJ

Naïve coverages

Naïve coverage is number of tokens (types) that receive one or more non-heuristic readings divided by total number of tokens, i.e. how many words are part of the lexical database.

For list of common tokens not covered by the lexicon, see the most frequent missing tokens per corpus.

Combined coverages

Feature Coverage # Coverage % All
Tokens 1603796756 99.6200 % 1610031971
Types 100956 97.3600 % 103702

The coverages were measured with full lexicon, if you use the smaller lexicon coverages are slightly worse.

Smaller lexicon coverage

Feature Coverage # Coverage % All
Tokens 1506093246 93.5500 % 1610031971
Types 82445 79.5100 % 103702

europarl-v7.fi-en.fi

Feature Coverage # Coverage % All
Tokens 37350729 99.4100 % 37572899
Types 703151 89.1600 % 788709

fi_ftb-ud

Feature Coverage # Coverage % All
Tokens 141950 98.8600 % 143599
Types 41815 96.6800 % 43252

finer

Feature Coverage # Coverage % All
Tokens 502505 96.4200 % 521209
Types 61666 90.8900 % 67851

fi_tdt-ud

Feature Coverage # Coverage % All
Tokens 178430 98.2800 % 181571
Types 50635 95.2300 % 53174

fiwiki-latest-pages-articles

Feature Coverage # Coverage % All
Tokens 89331039 94.7300 % 94309549
Types 3020877 61.4300 % 4918107

ftb1

Feature Coverage # Coverage % All
Tokens 160053 98.6100 % 162312
Types 44821 95.9100 % 46734

ftb3.1

Feature Coverage # Coverage % All
Tokens 74553350 97.6300 % 76369439
Types 1266017 76.7500 % 1649644

jrc-fi

Feature Coverage # Coverage % All
Tokens 44835383 95.8400 % 46783240
Types 934666 64.5800 % 1447515

OpenSubtitles2018.fi

Feature Coverage # Coverage % All
Tokens 282889679 98.6400 % 286805178
Types 2593631 69.5500 % 3729496

tatoeba-fi

Feature Coverage # Coverage % All
Tokens 921322 99.4800 % 926170
Types 81908 95.5800 % 85697

unimorph-fin

Feature Coverage # Coverage % All
Tokens 1975121 98.9400 % 1996324
Types 1768489 98.8800 % 1788650

Most frequent missing tokens per corpus

These are the most common tokens still left unrecognised by the lexicon. Most of them should be foreign languages, codes and rubbish. These are used from time to time improve the lexical coverage.

europarl-v7.fi-en.fi

Frequency Word-form
263 Lehnen
258 T?et?enian
240 Prestigen
229 Milosevi
210 Miloseviin
209 (KOM(2001)
208 Salafranca
204 Oomen-Ruijtenin
203 T?ekin
202 Lamfalussyn
196 Böschin
193 Sterckxin
193 Dalai
188 Lamy
186 Junilistan
185 YKP:n
184 UCLAFin
179 Randzio-Plathin
176 Mundus
176 Haugin
173 Vihreät/Euroopan
171 Lamassouren
169 Miguélez
168 Helms-Burtonin
168 Florenzin
165 Ribeiro
165 Coelhon
164 PO
162 Öcalanin
162 (KOM(2000)
162 EFD-ryhmän
161 Velzenin
159 Oostlanderin
157 Lannoyen
157 Garriga
155 Pirkerin
154 Savaryn
153 (KOM(1999)
152 Favan
151 (KOM(2002)
151 Goldstonen
150 Titleyn
150 NUTS
149 Lullingin
149 Buitenwegin
146 Kambodžan
145 Graça
142 Ludfordin
141 Oomen-Ruijten
139 Petersbergin
139 Baringdorfin
138 Dührkop
137 Fontainen
136 Ellesin
135 YMJ:
133 Sinn
133 Sellafieldin
132 Colom
132 Berèsin
130 Morillonin
129 Solbes
128 Roth-Behrendt
127 Isler
127 Fabra
125 Roth-Behrendtin
125 Gaddafin
125 Act
124 Howittin
122 Eurlingsin
121 Rocardin
121 Marset
121 Ferberin
121 Aznarin
119 Reimer
119 Lamyn
119 Gebhardtin
118 Tindemansin
118 Schreyer
118 hoc
118 Cappaton
118 Almunia
117 Bloklandin
117 Bertens
116 Whiteheadin
116 Hernández
115 Nassauerin
115 Galeote
114 Lanckerin
114 Broek
112 Kyi
111 Plooij-van
111 Pervenche
111 Oostlander
111 Alleanza
110 Titley
110 Monnet’n
110 Lehne
108 Randzio-Plath
108 Mont
107 Hatzidakisin

fi_ftb-ud

Frequency Word-form
15 joll
7 sillee
6 ol
5 tääl
5 pitäs
4 semmone
4 rupee
4 rauhotu
4 puol
4 johonki
4 esimerkiks
4 Emmä
3 yhtää
3 vähäm
3 viikkoo
3 upeeta
3 tiä
3 tietsä
3 siihe
3 semmost
3 sellaist
3 sd
3 pitäskö
3 Oottekste
3 onk
3 ollenkaa
3 näis
3 näi
3 nytte
3 ninku
3 mis
3 keng-
3 jotaki
3 jonnekkii
3 ens
3 Akiro
3 31.8.
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 vähäks
2 vuuen
2 vuoks
2 täälä
2 täst
2 tämmöst
2 tällasen
2 tuol
2 Tuleek
2 Troia
2 tommost
2 tiäks
2 tilloo
2 teil
2 TBK
2 Soiliki
2 siälä
2 siält
2 sielt
2 siell
2 seuraavaks
2 semssi
2 semmoseks
2 seitsemä
2 satayheksänkymmentä
2 saadas
2 Ride
2 pääs
2 puhutaal
2 Pretty
2 pittää
2 piikkainporaa
2 Ootsä
2 ook
2 Onk
2 ollum
2 näkönen
2 Näil
2 nimittäi
2 niim
2 Nakayama
2 muute
2 mum
2 mk/kg
2 minuuttii
2 Mikhailov
2 mihi
2 meritalaiset
2 mentäs
2 mennssä
2 Mencius
2 meill
2 Meil
2 meil
2 lähössä

finer

Frequency Word-form
323
323 <BODY>
240
126 Lizard
106 Snowdenin
103 Snowden
82 Glass
77 Oculus
76 Cnet
76 App
66 Angry
62 Glassin
60 Eich
60 Birds
54 Blackberryn
52 Squad
51 Verge
46 Blackberry
45 Silk
45 S5
44 Squadin
43 SpaceX:n
40 Yamamoto
40 ei-IFRS
40 Dotcom
39 SpaceX
39 S6
38 Zoo
38 Yotaphone
38 Cnetin
36 Digitoday
35 Play
34 Neowin
34 Model
34 Digitodaylle
33 Interview
32 Softpedia
32 Gmail
31 Trapattoni
30 Xperia
30 Snapdragon
30 MacBook
30 FierceWireless
30 Dotcomin
28 Xiaomin
28 Xiaomi
28 Cortanan
27 Treholt
26 Raspberry
26 loka–joulukuussa
26 Flappy
26 Chromecast
26 10_000
25 Payn
25 Cortana
24 TechCrunch
24 Syrian
24 Steiber
24 Rift
24 Marriottin
24 Anthemin
24 9to5Mac
24 50_000
23 Vergen
23 Player
22 update
22 Server
22 Gear
21 S5:n
21 Nadella
21 Gmailin
21 100_000
20 Yota
20 Wear
20 PCMag
20 Nest
20 Engadget
20 Army
20 5S
19 Zbořil
19 Z5
19 Register
19 Lollipop
18 TechCrunchin
18 Synchronossin
18 Riftin
18 RadioShackin
18 N1
18 Lollipopin
18 iOS:n
18 Hacker
18 Google+:n
18 Digitodayn
18 Cablen
18 30_000
18 200_000
17 Update
17 mAh
17 Hickersberger
17 Devices

fi_tdt-ud

Frequency Word-form
18 5(n)
7 türki
7 Trifolium
7 Ratcliffe
7 Binderup
7 3.Rf3
6 Tšerepanov
6 Tienshinhan
6 Nikomedes
6 N63
6 Lupinus
6 Lolium
6 Laodiken
6 Judge
6 e5
6 E21
6 2.f4
5 Wars
5 Tracon
5 tajuu
5 Rodrigues
5 Qazibe
5 Origenes
5 Moolenaar
5 Molvania
5 Medicago
5 Laodike
5 Know
5 Iglesiaksen
5 Finnjet
5 Filen
5 death
5 Charger
5 Brassica
5 :
4 Åsbrink
4 TTW
4 Trunkenpolz
4 Thriller
4 Thrill
4 sativa
4 Routila
4 Risperidon
4 pratensis
4 Luminance
4 Libuše
4 LHC:n
4 Large
4 kakskytvaille
4 Immortal
4 IHN
4 Hoskins
4 Hodgkinson
4 Head
4 Hadron
4 Grisay
4 EY:
4 exf4
4 EKP/1998/15
4 DeMille
4 Costazza
4 Collection
4 Chávezin
4 Bithynian
4 Aktan-Collan
4 1.e4
3 Zawinul
3 Vakhtang
3 ugh
3 Trotzigin
3 Tremonti
3 sith-lordi
3 Sidious
3 sd
3 Rösslerin
3 Rumex
3 Realsoft
3 Radioheadin
3 Pong
3 Plotinoksen
3 pic
3 Philokrates
3 Origeneen
3 Obornen
3 Muammar
3 Mocumbi
3 Libušen
3 Kuypers
3 Kieseritzkyn
3 Khosroes
3 –katse
3 häne
3 Hypatian
3 Hypatialle
3 Hypatiaa
3 Gugi
3 guaramidihaara
3 Globate
3 Gaddafin
3 Gaddafi

fiwiki-latest-pages-articles

Frequency Word-form
147644
6960 xxxx
4736 20px
4091
3103 end
3089 function
3043 Serie
2528 sign
1792
1778 Dark
1741 This
1662 Series
1637 death
1564 vuosis
1556 vuosie
1511 Museum
1499 JR
1442 We
1391 this
1387 1855−1856
1321 Kuva:Finland
1293 Championship
1279 Death
1245 vapen.svg
1240
1223 Dead
1220 –Höyhens
1217 Last
1208 –Pxos
1159 Copa
1079 not
1060 Val
1044 Fameen
1013 Dimotikí
1010 Slam
970 1.jpg
966 –Zache
946 Transformers:
935 Legend
919 Segunda
909 2.jpg
881 Light
858 –Abc10
852 Château
850 Way
840 maalaiskunta(
833 Boys
824 Blood
822 Award
809 Enótita
805 Jääkä
796 Two
768 Book
767 Statistiska
761 01.jpg
755 What
755 was
743 Not
727 Heart
718 (Δημοτική
704 Gear
693 École
686 Greatest
682 we
681 Fire
680 Girl
668 Special
666 Sweet
664 syn.
660 arms.svg
659 Dinamo
653 (eng.
651 maalit2
650 maalit1
649 joukkue2
649 joukkue1
648 coats
646 Evil
645 Kuva:No
636 Näsijärven–Ruoveden
629 “Luokka:Poistoäänestykset
625 Ball
621 Public
611 Scapa
611 Rally
604 Κοινότητα
604 Koinótita
599 Mighty
599 God
597 NCAP
595 which
594 End
593 Wars
593 Station
591 UKBot-botti.
590 Earth
588 Never
587 Please
580 States
580 Birds

ftb1

Frequency Word-form
17 joll
9 sillee
8 Tarja_Halonen
8 pitäs
8 ol
6 Helsingin_Sanomat
5 tääl
5 rupee
5 jotenki
4 viikkoo
4 vaanmutta
4 upeeta
4 siihe
4 semmone
4 rauhotu
4 puol
4 näis
4 näin_ollen
4 nytte
4 jotaki
4 johonki
4 Euroopan_unionin
4 esimerkiks
4 4_600
3 yhtää
3 vähäm
3 vähäks
3 tiä
3 tietsä
3 TBK
3 Tampereen_yliopistossa
3 sielt
3 semmost
3 sellaist
3 sd
3 Roman_Polanskin
3 pääs
3 Punaisen_Ristin
3 pitäskö
3 Paavo_Lipponen
3 Oottekste
3 onk
3 ollenkaa
3 näi
3 nipin_napin
3 ninku
3 New_Yorkissa
3 muute
3 mis
3 Martti_Ahtisaari
3 keng
3 Katotaas
3 jonnekkii
3 hirveesti
3 Helsingin_yliopiston
3 Helsingin_Sanomien
3 Esko_Aho
3 ens
3 Akiro
3 300_000
3 30_000
3 3_000
3 10_000
2 Yoeune
2 yksie
2 yhtäkkii
2 yhes
2 yheksän
2 vuuen
2 vuoks
2 Voi_hyvinkin
2 Voi_hyvin
2 viimeks
2 vieläkää
2 Veijo_Meri
2 varmmaam
2 Uuno_Turhapuroon
2 täälä
2 täst
2 tämmöst
2 tällasen
2 Turun_Sanomissa
2 tuol
2 Tuleekse
2 Troia
2 Tony_Blairin
2 tommost
2 tiäks
2 tilloo
2 teil
2 Soiliki
2 siälä
2 siält
2 siell
2 seuraavaks
2 semssi
2 semmoseks
2 seitsemä
2 satayheksänkymmentä
2 saadas

ftb3.1

Frequency Word-form
6051 amp
4489 p.m
3382 PIC
2805
2705 της
2517 και
2246 nr
2186 europa.eu.int
2145 pic
2094 comm
2043 un
1950 την
1941 του
1751 το
1749 dans
1665 των
1639 Fax
1582 που
1547 this
1497 Act
1463 S.A
1430 για
1416 να
1399 eG
1379 1.1.2006–
1346 η
1305 EG
1293 με
1274 voor
1270 LOOPU
1268 not
1264 which
1250 Nr
1215 PO
1182 Société
1134 under
1130 Classification
1122 including
1104 States
1098 Kingdom
1088 Klassificering
1059 C10
1024 sgb
1018 NEWLINE
1009 secretariat
1005 Member
946 Verts
928 ec.europa.eu
925 NGL-ryhmän
924 its
915 Ministry
903 shall
902 Article
899 Extract
896 implementation
890 EXTRACT
883 aux
882 ANNEX
878 spp
875 Regulation
864 τις
858 Department
843 delle
819 between
816 og
814 est
803 net
797 σε
792 artikel
790 ότι
782 por
777 anonyme
774 mod.
772 nie
764 Brussel
757 such
757 -1
751 EMOTR:n
750 B-1049
749 BV
746 IE
739 EKT
735 public
704 measures
688 til
688 reg
663 LU
663 aid
659 million
658 τα
657 je
657 Commissione
656
653 δεν
653 Postbus
653 č
652 GenmbH
649 οι
647 IAS
645 στην

jrc-fi

Frequency Word-form
16379 EUR/100
6675 +++++
4729 *IT
3920 *FR
3893 FILE=
3866 >PIC
3573 EUR/t
3110 %amp%
2698 της
2466 //
2463 και
2422 0,—
2335 *DE
2229 (2006/C
2040 την
1989 %:a
1979 [pic]
1972 KOM(2005)
1952 un
1931 του
1925 *HU
1907 *ES
1793 dans
1755 το
1668 των
1611 *CZ
1595 this
1573 που
1507 p/st
1431 *NL
1408 για
1401 eG
1400 να
1382 *SK
1377 *PL
1352 ……….
1333 (2005/C
1327 η
1325 S.A.
1305 KOM(2006)
1303 LOOPU>
1300 voor
1291 Act
1290 *UK
1284 με
1269 not
1263 which
1259 lopull.
1257 /*
1254 */
1208 nr.
1189 Nr.
1150 Société
1149 under
1149 KOM(2004)
1095 Classification,
1091 Kingdom
1090 lausunnon(2),
1075 %mdash%
1068 nr
1067 (EG)
1045 Member
1040 %lt%
1038 C10
994 including
988 its
986 PO
948 ehdotuksen(1),
943 *AT
932 aux
923 http://europa.eu.int/comm/secretariat_general/sgb/state_aids/
908 States
908 delle
902 Article
898 og
898 aine/ihoa
897 Extract
890 EXTRACT
883 τις
844 shall
842 ANNEX
839 between
828 Demarty
821 implementation
804 Fax:
798 K(2005)
795 Fax
793 σε
786 B-1049
779 por
779 Department
776 artikel
774 Regulation
766 est
765 nie
746 EMOTR:n
742 such
736 anonyme
730 (EUR/100
729 Ministry

OpenSubtitles2018.fi

Frequency Word-form
3949 oIi
2793 OIen
2789 Pinmontagne
2588 S.org
2381 Original
2367 …ja
2059 ÄIä
1801 oIIa
1682 :….
1496 lsä
1460 Text
1382 lhmiset
1372 oIen
1351 llman
1312 oIisi
1297 Mitä…?
1281 oIet
1276 oIIut
1267 FBl:
1253 horge
1226 ltse
1184 juzkaaz,
1157 SubFinland.org…:
1133 OIet
1119 my
1108 Herr
1106 tääIIä
980 vieIä
968 Stevie
957 lstu
902 Führer
892 ltä.
889 Matti_,
875 Gossip
865 wraithien
853 -…ja
846 MinuIIa
827 SubLand.info
821 sinä…?
802 BTI
770 SDI
739 Broadcast
734 minuIIe
728 lsä,
725 tääIIä.
717 FBl:n
711 HaIuan
709 Foreman
704 ¡Ó
699 sinuIIe
693 0len
690 haIua
690 FBI:sta.
687 Juuseri,
686 Heil
678 lta.
658 camel,
651 lsäni
649 lsäsi
629 DickJohnson,
627 OIemme
623 J.R.
615 BarFly83,
602 ..ja
591 I’m
590 Subtitles
581 wraithit
577 Fat
573 amigo.
570 Mayday!
569 Führerin
566 S01
566 neohifk,
565 Mama
563 lkävä
563 BarFly83
555 A_atoli,
553 oIette
553 0nko
551 TuIe
551 Li’l
549 L.A.
544 Lhmiset
540 …mutta
540 2O
539 sinuIIa
533 Darryl
523 Val
522 ltä
520 Iiian
520 [FINNISH]
513 Pope
512 Morty.
511 Ghost
509 Shelly
504 Maddie
504 Coulson
498 Girl
494 Dex.
493 Babe

tatoeba-fi

Frequency Word-form
44 Muiriel
42 Yanni
33 Ziri
25 Ooksä
20 tähdistäennustamiseen.
16 Ootsä
14 Tykkääk
13 Tom’in
13 Mennad
11 pitäsi
10 ve’en
10 tarviin
10 Haluuk
9 Yumi
8 tähdistäennustamisesta?
8 Ook
8 Muirielin
8 Mis
8 Lipschitz-jatkuva!
8 Fréchet-avaruudessa
7 Tomil
7 Skura
7 Mayuko
7 Majk!
7 koskaa
6 π
6 vetrehet
6 törkeen
6 tähdistäennustamista.
6 tosissas?
6 Tom’ista.
6 Tom’ista
6 Tom’ia.
6 Skuran
6 Sagittarius
6 saatantahan,
6 kakskyt
6 Atuqtuaq
5 tähdistäennustamista
5 nään
5 kolmenkympin.
5 ”Emmä
4 Ælfred.
4 Zamenhof
4 ymmärteneen
4 väärinymmärteneen
4 tähdistäennustamisesta.
4 tähdistäennustamiseen?
4 tähdistäennustaminen
4 Tomr.
4 Tom’iin.
4 Titanic
4 telkkarii.
4 tarvin.
4 tarvin
4 Tarviik
4 Taroun
4 Taj
4 syvemmä.
4 ”Sommerfugl”
4 siitäki
4 Siirrää
4 sep’
4 Seinfeldistä?
4 Sauronin
4 šahadaa.
4 Quebecissä.
4 noloo.
4 naimaiässä.
4 Mist
4 Minogue.
4 Marguerit
4 Manjolle
4 L’Hôpitalin
4 kakskytvuotias.
4 kakskyt.
4 kabylia,
4 juuta
4 Johanolle
4 itselläniki
4 Ichiro
4 Höm!
4 hoisi
4 että…
4 Cookie
4 cones”
4 autosa.
4 asiosta,
4 2²⁰¹³
3 Yooko
3 ymmärtynyt
3 WC:seen.
3 Voisiksä
3 vibrofoniin
3 vaikeeta.
3 uuen
3 UFO:a?
3 ŭ,
3 Tähdistäennustamisen
3 tuollalailla

unimorph-fin

Frequency Word-form
8 Merisi
4 vadat
4 upeet
4 suskeptibiliteetit
4 signifikantit
4 kahkot
4 csardas
4 chuukilaiset
4 chuukilainen
4 amerikanbandoggi
2 äpit
2 äikät
2 åkermaniitit
2 zoofyytit
2 zeptosekunnit
2 yröt
2 yritteet
2 Ylä-Volta
2 yläpaarteet
2 yksöistunnit
2 yarkantinjänis
2 yarkantinjänikset
2 wurtziitit
2 wolfinmarakatti
2 wolfinmarakatit
2 Weddellinmeri
2 Vähä-Syrtti
2 väestötiheykset
2 vohlivat
2 vohlitte
2 vohlimista
2 vohliminen
2 vohlimaisillaan
2 vohliakseen
2 virvit
2 virtuaalilemmikkit
2 virtuaalilemmikki
2 virpit
2 virpisi
2 virpinsä
2 virpinne
2 virpini
2 virpimme
2 virpejä
2 virpeinä
2 virpeineen
2 virpeihin
2 villieringenetit
2 Vienanmeri
2 vetot
2 veloute-kastikkeet
2 veloute-kastike
2 vehjeet
2 vastenmielisimmat
2 Valtot
2 valkoisetpaimenkoirat
2 vaihdannaisuudet
2 vadoitta
2 vadoista
2 vadoissa
2 vadoin
2 vadoilta
2 vadoille
2 vadoilla
2 vadoiksi
2 vadatta
2 vadasta
2 vadassa
2 vadan
2 vadalta
2 vadalle
2 vadalla
2 vadaksi
2 vaakaamista
2 vaakaaminen
2 vaakaamaisillaan
2 Uudet-Seelannit
2 uudenseelanninlokit
2 upeetta
2 upeesta
2 upeessa
2 upeesi
2 upeeseen
2 upeensa
2 upeenne
2 upeeni
2 upeena
2 upeen
2 upeemme
2 upeelta
2 upeelle
2 upeella
2 upeeksi
2 Uotsit
2 Uotsi
2 Uotit
2 ulut
2 ubiikit
2 töyhtöt
2 täystakiloidut

Automata statistics

The underlying language models are mostly represented by finite-state automata (FSAs). The figures may give some indication of the speed and size of the models in practical applications.

accept

Feature Measure
On-disk size 11M
states 126887
arcs 437341
final states 20175
input/output epsilons 0
input epsilons 792
output epsilons 9700

accept.lexc

Feature Measure
On-disk size 5,3M
states 116049
arcs 254474
final states 11214
input/output epsilons 0
input epsilons 9154
output epsilons 7176

analyse

Feature Measure
On-disk size 6,3M
states 124042
arcs 267517
final states 42
input/output epsilons 0
input epsilons 37919
output epsilons 29183

describe

Feature Measure
On-disk size 30M
states 540768
arcs 1249753
final states 124
input/output epsilons 0
input epsilons 160259
output epsilons 63331

generate

Feature Measure
On-disk size 29M
states 555144
arcs 1238250
final states 128
input/output epsilons 21744
input epsilons 77740
output epsilons 176477

lexc

Feature Measure
On-disk size 5,7M
states 134572
arcs 267919
final states 47
input/output epsilons 0
input epsilons 34702
output epsilons 36588