NCHLT: Afrikaans POS tag set
For purposes of
annotators, this tag set is described in Afrikaans, and is by and large taken
over from Pilon (2005), as well as various other documents of CTexT, produced
by Pilon.
Om die herbruikbaarheid van ‘n
etiketstel en van die korpora wat uiteindelik met die stel etikette geannoteer
sal word, te verseker, vereis EAGLES dat ‘n
intermediêre etiketstel ooreenkomstig met die WS-etiketstel ontwikkel word.
Intermediêre etikette word, volgens EAGLES, gebruik om passing (“mapping”)
tussen verskillende etiketstelle moontlik te maak. Dit is moontlik om alle
etikette in ‘n geannoteerde korpus met intermediêre
etikette te vervang. Die intermediêre etikette moet dan só gedokumenteer wees
dat dit met die intermediêre etikette van ‘n ander
etiketstel en uiteindelik met die WS-etikette van hierdie ander etiketstel
vervang kan word. Sodoende hoef die hele korpus nie van voor af met ‘n ander WS-etiketstel geëtiketteer te word nie. Deur seker
te maak dat die intermediêre etikette korrek is (d.i. volgens
EAGLES-spesifikasies) kan die herbruikbaarheid van ‘n
geannoteerde korpus dus verder verseker word.
Intermediêre etikette moet nie verwar word met
WS-etikette nie. Die WS-etiket is die “afkorting” van die betrokke woord se
woordsoortkategorie en dit is hierdie etikette wat in die korpus aangebring
word tydens die annotasieproses. Woorde wat presies dieselfde eienskappe en
waardes het se WS-etikette kan verskillend lyk in verskillende etiketstelle. In
die Brown Corpus-etiketstel word ‘n adverbium
gemerk met die WS-etiket RB, terwyl daar in die Penn Treebank-etiketstel
met die WS-etiket ADV aangedui word dat ‘n
woord ‘n adverbium is (Van Halteren, 1999). Sulke
woorde se intermediêre etikette sal, afhangend van die spesifisiteit van die
etiketstel, ooreenstem (Leech & Wilson, 1999).
‘n
Intermediêre etiket word tipies soos volg saamgestel:
·
Die verpligte WS-kategorie (dus een van die dertien deur EAGLES verpligte kategorieë)
word voorgestel deur een of meer van die letters wat vir die spesifieke
WS-kategorie se afkorting gebruik word, of wat maklik geëien kan word. Dit is
wenslik om reeds bestaande etiketstelle vir ‘n taal
te vergelyk om seker te maak dat hierdie letters so ver as moontlik ooreenstem. Aangesien daar nog geen
etiketstel vir Afrikaans bestaan nie, word dit in hierdie etiketstel soos
hieronder gebruik:
N =
Naamwoorde
V =
Verbia
A =
Adjektiewe
P =
Voornaamwoorde
L =
Lidwoorde
B =
Adverbia
S =
Setsels
K =
Konjunkte
T =
Telwoorde
W =
Tussenwerpsels
U =
Uniek/ongespesifiseerd
R =
Residu
Z = Punktuasie
·
Die res van die intermediêre
etiket word voorgestel as ‘n liniêre reeks nommers. Die
verfyning van die WS-kategorieë word met behulp van twee kategorieë, te wete eienskap
en waardes, gedoen. As voorbeeld word die kategorieë wat deur EAGLES
onderskei word vir die etikettering van naamwoorde gebruik. Die kategorieë kan
soos volg in tabelvorm voorgestel word:
Eienskap
|
Waardes
|
|||||
(i)
Tipe |
1. soortnaam |
2. eienaam |
3. massanaam |
4. versamelnaam |
5. maatnaam |
|
(ii)
Genus |
1. manlik |
2. vroulik |
3. onsydig |
4. algemeen |
|
|
(iii)
Getal |
1. enkelvoud |
2. meervoud |
|
|
|
|
(iv)
Kasus |
1. nominatief |
2. genitief |
3. datief |
4. akkusatief |
5. vokatief |
6. ondeklineerbaar |
(v) Telbaarheid |
1. telbaar |
2. ontelbaar |
|
|
|
|
(vi)
Definitiwiteit |
1. definitief |
2. ondefinitief |
3. ongemarkeerd |
4. algemeen |
|
|
(vii)
Graad |
1. basis |
2. diminutief |
|
|
|
|
Tabel 1: Eienskappe en waardes
van WS-kategorieë
Die eienskap-kolom word met Romeinse
syfers genommer. Hierdie
Romeinse syfers kom nêrens in die intermediêre etiket voor nie: dit dui slegs
die plek in die string nommers aan waar die waarde gespesifiseer word. Die
eerste nommer in die reeks verwys dus na tipe, die tweede na genus,
die derde na getal, ens.
Die waarde van elke eienskap word dan met
behulp van ‘n getal aangedui op die plek wat deur die
nommer van die eienskap gespesifiseer is. Waar ‘n
eienskap nie van toepassing is nie, word ‘n 0 (nul)
in die spasie (soos deur die nommer van die eienskap gedikteer) gesit. Die
intermediêre etiket vir stoel kan soos volg saamgestel word:
o Die
letter N word gebruik omdat stoel ‘n
naamwoord is. Die eerste getal in die reeks is ‘n 1
omdat stoel ‘n soortnaam is. Die tweede getal
is ‘n 0 omdat daar nie genus onderskei word by
Afrikaanse naamwoorde nie. Die volgende getal is ook 1 omdat stoel ‘n enkelvoudige naamwoord is. Die kasus-eienskap kry ook die
waarde 1 omdat stoel nominatief is. Telbaarheid en definitiefheid is nie
op Afrikaans van toepassing nie en die vyfde en sesde getalle is dus albei 0. Die
laaste getal is weer 1 omdat stoel die basisvorm van die naamwoord is. Die
etiket lyk dus uiteindelik só: N1011001.
·
Die interpretasie van elke
intermediêre etiket hang af van die spesifieke WS-kategorie en die
eienskappe/waardes wat aan hierdie WS-kategorie toegeken kan word. Elke intermediêre
etiket moet dus op grond van hierdie eienskappe/waardes geanaliseer word.
Nota:
eienskappe en waardes wat in geel
verlig is, is addisionele toevoegings; eienskappe en waardes wat in pienk verlig is, is nie
van toepassing op Afrikaans nie; eienskappe en waardes wat in blou verlig is, is van
toepassing op Afrikaans, maar word om bepaalde redes weggelaat.
Eienskap
|
Waardes
|
|||||
(i)
Tipe |
1. soortnaam |
2. eienaam |
3.
massanaam |
4. versamelnaam |
5. maatnaam |
|
(ii) Genus |
1. manlik |
2. vroulik |
3. onsydig |
4. algemeen |
|
|
(iii)
Getal |
1. enkelvoud |
2. meervoud |
|
|
|
|
(iv)
Kasus |
1. nominatief |
2. genitief |
3. datief |
4. akkusatief |
5. vokatief |
6. onverbuigbaar |
(v) Telbaarheid |
1. telbaar |
2. ontelbaar |
|
|
|
|
(vi) Definitiwiteit |
1.
definitief |
2. ondefinitief |
3.ongemarkeerd |
4.
algemeen |
|
|
(vii) Graad |
1.
basis |
2. dimunitief |
|
|
|
|
·
Massanaam,
maatnaam en versamelnaam moet bykom by Tipe omdat alle naamwoorde in
Afrikaans wat nie eiename is nie, nie soortname is nie. Hierdie kategorieë is belangrik
omdat massaname (gewoonlik) nie meervoud en verkleining kan neem nie;
versamelname en massaname word nie vas aan die volgende naamwoord geskryf nie.
·
Dimunitief word bygevoeg onder Graad. EAGLES laat dit (en ander
verbuigings) uit, aangesien dit suiwer morfologies is. Meervoud val ook hieronder, aangesien dit, vir Afrikaans, geen
invloed op die etikette van die res van die sin het nie.
·
“Algemeen”
moet by Genus kom as teenpool vir onsydig in ‘n
twee-genus sisteem soos die van Deens en Nederlands – dit is egter nie relevant
vir Afrikaans nie. Insgelyks word vokatief en onverbuigbaar by Kasus
gesit vir byvoorbeeld Grieks, maar is onbelangrik vir Afrikaans. Ook Definitiwiteit is ‘n
kategorie wat volgens EAGLES belangrik is vir Deens, maar kan weggelaat word
vir Afrikaans.
·
Telbaarheid
word uitgelaat aangesien dit presies ooreenstem met Tipe – slegs massanaamwoorde is ontelbaar. Dit is dus “dubbele
werk” om ‘n Telbaarheid-eienskap te hê.
Voorbeeld
|
Waarde
|
Etiket
|
Intermediêre etiket
|
stoel |
soortnaam/enkelvoud/nominatief/basis |
NSE |
N101101 |
stoele |
soortnaam/meervoud/nominatief/ basis |
NSM |
N102101 |
stoeltjie |
soortnaam/enkelvoud/nominatief/dimunitief |
NSED |
N101102 |
stoeltjies |
soortnaam/meervoud/nominatief/dimunitief |
NSMD |
N102102 |
persoons
(persoons des aansiens) |
soortnaam/enkelvoud/genitief/basis |
NSG |
N101201 |
Koos |
eienaam/enkelvoud/nominatief/basis |
NEE |
N201101 |
Kose |
eienaam/meervoud/nominatief/basis |
NEM |
N202101 |
Kosie |
eienaam/enkelvoud/nominatief/dimunitief |
NEED |
N201102 |
Kosies |
eienaam/meervoud/nominatief/dimunitief |
NEMD |
N202102 |
goud |
massanaam/nominatief |
NM |
N300100 |
trop |
versamelnaam/enkelvoud/nominatief/basis |
NVE |
N401101 |
troppe |
versamelnaam/meervoud/nominatief/basis |
NVM |
N402101 |
troppie |
versamelnaam/enkelvoud/nominatief/dimunitief |
NVED |
N401102 |
troppies |
versamelnaam/meervoud/nominatief/dimunitief |
NVMD |
N402102 |
emmer |
maatnaam/enkelvoud/nominatief/basis |
NME |
N501101 |
emmers |
maatnaam/meervoud/nominatief/basis |
NMM |
N502101 |
emmertjie |
maatnaam/enkelvoud/nominatief/dimunitief |
NMED |
N501102 |
emmertjies |
maatnaam/meervoud/nominatief/dimunitief |
NMMD |
N502102 |
|
|
|
|
·
Tref onderskeid tussen:
o Soortnaam:
stoel
§ Kan
meervoud neem
§ Kan
die en ‘n vooraan sit
o Eienaam:
Afrikaans
§ Word
met hoofletter geskryf
o Massanaam:
goud
§ Kan
nie meervoud neem nie
§ Kan
die vooraan sit, maar nie ‘n nie
o Maatnaam:
koppie/emmer
§ Kan
gemeet word
§ Word
nie vas aan volgende naamwoord geskryf nie: koppie meel
o Versamelnaam:
trop/swerm/skool
§ Dui
versameling aan
§ Word
nie vas aan volgende naamwoord geskryf nie: skool
visse
o Abstrak:
liefde/haat
Eienskap
|
Waardes
|
||||||
(i)
Persoon |
1.
eerste |
2.
tweede |
3.
derde |
|
|
|
|
(ii)
Genus |
1.
manlik |
2.
vroulik |
3.
onsydig |
|
|
|
|
(iii)
Getal |
1.
enkelvoud |
2.
meervoud |
|
|
|
|
|
(iv) “Finiteness” |
1. “finite” |
2. “non-finite” |
|
|
|
|
|
(v) ”Mood” |
1. indikat |
2. subjunkt |
3. imperat |
4. kondisi |
5. infinit |
6.
partikel |
7. “gerund” |
8. “supine” |
9. -ing |
|
|
|
|
|
|
(vi) Tyd |
1. teenwoordig |
2. imperfektief |
3. toekomend |
4. verlede |
|
|
|
(vii) “Voice” |
1. aktief |
2. passief |
|
|
|
|
|
(viii) Status |
1. hoof |
2. mede |
3.
semi-hulp |
|
|
|
|
(ix) Aspek |
1.
perfektief |
2.
imperfektief |
|
|
|
|
|
(x)
Skeibaarheid |
1.
skeibaar |
2.
onskeibaar |
|
|
|
|
|
(xii) Reflektiwiteit |
1. refleksief |
2. onrefleksief |
|
|
|
|
|
(xiii) “Auxiliary” |
1. have |
2. be |
|
|
|
|
|
(xiv)
Aux-funksie |
1.
primêr |
2.
modaal |
|
|
|
|
|
(xv) Tipe |
1. oorganklik |
2.
onoorganklik |
3.
deeltjie |
4.
koppel |
5. voorsetsel |
6. skakel |
7. hulp-mod |
8. hulp-tyd |
9. onskrywing |
|
|
|
|
|
·
Alle werkwoorde wat skeibaar
is, is deeltjiewerkwoorde en dus hoef daar by oorganklike en onoorganklike
werkwoorde nie voorsiening gemaak te word vir skeibare werkwoorde nie.
Voorbeeld
|
Waarde
|
Etiket
|
Intermediêre etiket
|
pos |
teenwoordig/aktief/hoof/onskeibaar/oorganklik |
VNAHG |
V000001111 |
(sal)
pos |
toekomend/aktief/hoof/onskeibaar/oorganklik |
VTAHG |
V000003111 |
gepos |
verlede/aktief/hoof/onskeibaar/oorganklik |
VVAHG |
V000004111 |
speel |
teenwoordig/aktief/hoof/onskeibaar/onoorganklik |
VNAHO |
V000001112 |
(sal)
speel |
toekomend/aktief/hoof/onskeibaar/onoorganklik |
VTAH |
V000003112 |
gespeel |
verlede/aktief/hoof/onskeibaar/onoorganklik |
VVAHO |
V000004112 |
opstaan |
teenwoordig/aktief/hoof/skeibaar/deeltjie |
VNAHD |
V000001113 |
(sal)
opstaan |
toekomend/aktief/hoof/skeibaar/deeltjie |
VTAHD |
V000003113 |
opgestaan |
verlede/aktief/hoof/skeibaar/deeltjie |
VVAHD |
V000004113 |
is,
bly, kos |
teenwoordig/aktief/hoof/onskeibaar/koppel |
VNAHK |
V000001114 |
(sal)
wees, bly, kos |
toekomend/aktief/hoof/onskeibaar/koppel |
VTAHK |
V000003114 |
was,. gebly, gekos |
verlede/aktief/hoof/onskeibaar/koppel |
VVAHK |
V000004114 |
hou
(van) |
teenwoordig/aktief/hoof/onskeibaar/voorsetsel |
VNAHV |
V000001115 |
(sal)
hou (van) |
toekomend/aktief/hoof/onskeibaar/voorsetsel |
VTAHV |
V000003115 |
gehou
(van) |
verlede/aktief/hoof/onskeibaar/voorsetsel |
VVAHV |
V000004115 |
(word)
gepos |
teenwoordig/passief/hoof/onskeibaar/oorganklik |
VNPHG |
V000001211 |
(sal)
gepos (word) |
toekomend/passief/hoof/onskeibaar/oorganklik |
VTPHG |
V000003211 |
(is)
gepos |
verlede/passief/hoof/onskeibaar/oorganklik |
VVPHG |
V000004211 |
(word)
gespeel |
teenwoordig/passief/hoof/onskeibaar/onoorganklik |
VNPHO |
V000001212 |
(sal)
gespeel (word) |
toekomend/passief/hoof/onskeibaar/onoorganklik |
VTPHO |
V000003212 |
(is)
gespeel |
verlede/passief/hoof/onskeibaar/onoorganklik |
VVPHO |
V000004212 |
(word)
gebly |
teenwoordig/passief/hoof/onskeibaar/koppel |
VNPHK |
V000001213 |
(sal)
wees |
toekomend/passief/hoof/onskeibaar/koppel |
VTPHK |
V000003213 |
(is)
gebly |
verlede/passief/hoof/onskeibaar/koppel |
VVPHK |
V000004213 |
(word)
gehou (van) |
teenwoordig/passief/hoof/onskeibaar/voorsetsel |
VNPHV |
V000001214 |
(sal)
(van) gehou (word) |
toekomend/passief/hoof/onskeibaar/voorsetsel |
VTPHV |
V000003214 |
(is)
gehou (van) |
verlede/passief/hoof/onskeibaar/voorsetsel |
VVPHV |
V000004214 |
(word)
opgestaan |
teenwoordig/passief/hoof/onskeibaar/deeltjie |
VNPHD |
V000001215 |
(sal)
opgestaan (word) |
toekomend/passief/hoof/onskeibaar/deeltjie |
VTPHD |
V000003215 |
(is)
opgestaan |
verlede/passief/hoof/onskeibaar/deeltjie |
VVPHD |
V000004215 |
bly |
teenwoordig/aktief/mede/onskeibaar/skakel |
VNMS |
V000001126 |
(sal)
bly |
toekomend/aktief/mede/onskeibaar/skakel |
VTMS |
V000003126 |
(het)
gebly |
verlede/aktief/mede/onskeibaar/skakel |
VVMS |
V000004126 |
sal |
teenwoordig/aktief/mede/onskeibaar/hulp-mod |
VNMHM |
V000001127 |
sal |
toekomend/aktief/mede/onskeibaar/hulp-mod |
VTMHM |
V000003127 |
sou |
verlede/aktief/mede/onskeibaar/hulp-mod |
VVMHM |
V000004127 |
het |
aktief/mede/onskeibaar/hulp-tyd |
VMHT |
V000000128 |
is/word |
passief/mede/omskrywing |
VMO |
V000000229 |
(om
te) werk |
infinitief/imperfektief |
VII |
V000052000 |
·
Belangrik vir etiketstel:
o Tyd:
teenwoordig/toekomend/verlede
o Status:
hoof/hulp
o Skeibaarheid:
ek skryf by die skool in vs. ek moet by die skool inskryf
o Tipe:
§ oorganklik
· slegs
hoofwerkwoord
§ onoorganklik
· slegs
hoofwerkwoord
§ koppel
· slegs
hoofwerkwoord
o bly
o gaan
o heet
o klink
o smaak
o voel
o word
o lyk
§ voorsetsel
· slegs
hoofwerkwoord
§ deeltjie
· slegs
hoofwerkwoord
§ skakelwerkwoord
§ hulpwerkwoord
van modaliteit
§ hulpwerkwoord
van modaliteit
o sal
o het
o wil
o wou
o sou
§ aspek
· sien
lyste
§ modus
· sien
lyste
§ omskrywingswerkwoord
o is
o word