NCHLT: Afrikaans POS tag set

Tag set

For purposes of annotators, this tag set is described in Afrikaans, and is by and large taken over from Pilon (2005), as well as various other documents of CTexT, produced by Pilon.

Intermediêre etikette

Om die herbruikbaarheid van ‘n etiketstel en van die korpora wat uiteindelik met die stel etikette geannoteer sal word, te verseker, vereis EAGLES dat ‘n intermediêre etiketstel ooreenkomstig met die WS-etiketstel ontwikkel word. Intermediêre etikette word, volgens EAGLES, gebruik om passing (“mapping”) tussen verskillende etiketstelle moontlik te maak. Dit is moontlik om alle etikette in ‘n geannoteerde korpus met intermediêre etikette te vervang. Die intermediêre etikette moet dan só gedokumenteer wees dat dit met die intermediêre etikette van ‘n ander etiketstel en uiteindelik met die WS-etikette van hierdie ander etiketstel vervang kan word. Sodoende hoef die hele korpus nie van voor af met ‘n ander WS-etiketstel geëtiketteer te word nie. Deur seker te maak dat die intermediêre etikette korrek is (d.i. volgens EAGLES-spesifikasies) kan die herbruikbaarheid van ‘n geannoteerde korpus dus verder verseker word.

Intermediêre etikette moet nie verwar word met WS-etikette nie. Die WS-etiket is die “afkorting” van die betrokke woord se woordsoortkategorie en dit is hierdie etikette wat in die korpus aangebring word tydens die annotasieproses. Woorde wat presies dieselfde eienskappe en waardes het se WS-etikette kan verskillend lyk in verskillende etiketstelle. In die Brown Corpus-etiketstel word ‘n adverbium gemerk met die WS-etiket RB, terwyl daar in die Penn Treebank-etiketstel met die WS-etiket ADV aangedui word dat ‘n woord ‘n adverbium is (Van Halteren, 1999). Sulke woorde se intermediêre etikette sal, afhangend van die spesifisiteit van die etiketstel, ooreenstem (Leech & Wilson, 1999).

‘n Intermediêre etiket word tipies soos volg saamgestel:

·        Die verpligte WS-kategorie (dus een van die dertien deur EAGLES verpligte kategorieë) word voorgestel deur een of meer van die letters wat vir die spesifieke WS-kategorie se afkorting gebruik word, of wat maklik geëien kan word. Dit is wenslik om reeds bestaande etiketstelle vir ‘n taal te vergelyk om seker te maak dat hierdie letters so ver as moontlik ooreenstem.  Aangesien daar nog geen etiketstel vir Afrikaans bestaan nie, word dit in hierdie etiketstel soos hieronder gebruik:

N = Naamwoorde

V = Verbia

A = Adjektiewe

P = Voornaamwoorde

L = Lidwoorde

B = Adverbia

S = Setsels

K = Konjunkte

T = Telwoorde

W = Tussenwerpsels

U = Uniek/ongespesifiseerd

R = Residu

Z = Punktuasie

·        Die res van die intermediêre etiket word voorgestel as ‘n liniêre reeks nommers. Die verfyning van die WS-kategorieë word met behulp van twee kategorieë, te wete eienskap en waardes, gedoen. As voorbeeld word die kategorieë wat deur EAGLES onderskei word vir die etikettering van naamwoorde gebruik. Die kategorieë kan soos volg in tabelvorm voorgestel word:

Eienskap

Waardes

(i) Tipe

1. soortnaam

2. eienaam

3. massanaam

4. versamelnaam

5.  maatnaam

 

(ii) Genus

1. manlik

2. vroulik

3. onsydig

4. algemeen

 

 

(iii) Getal

1. enkelvoud

2. meervoud

 

 

 

 

(iv) Kasus

1. nominatief

2. genitief

3. datief

4. akkusatief

5. vokatief

6. ondeklineerbaar

(v) Telbaarheid

1. telbaar

2. ontelbaar

 

 

 

 

(vi) Definitiwiteit

1. definitief

2. ondefinitief

3. ongemarkeerd

4. algemeen

 

 

(vii) Graad

1. basis

2. diminutief

 

 

 

 

Tabel 1:  Eienskappe en waardes van WS-kategorieë

Die eienskap-kolom word met Romeinse syfers genommer.  Hierdie Romeinse syfers kom nêrens in die intermediêre etiket voor nie: dit dui slegs die plek in die string nommers aan waar die waarde gespesifiseer word. Die eerste nommer in die reeks verwys dus na tipe, die tweede na genus, die derde na getal, ens.

Die waarde van elke eienskap word dan met behulp van ‘n getal aangedui op die plek wat deur die nommer van die eienskap gespesifiseer is.  Waar ‘n eienskap nie van toepassing is nie, word ‘n 0 (nul) in die spasie (soos deur die nommer van die eienskap gedikteer) gesit. Die intermediêre etiket vir stoel kan soos volg saamgestel word:

o   Die letter N word gebruik omdat stoel ‘n naamwoord is. Die eerste getal in die reeks is ‘n 1 omdat stoel ‘n soortnaam is. Die tweede getal is ‘n 0 omdat daar nie genus onderskei word by Afrikaanse naamwoorde nie. Die volgende getal is ook 1 omdat stoel ‘n enkelvoudige naamwoord is.  Die kasus-eienskap kry ook die waarde 1 omdat stoel nominatief is. Telbaarheid en definitiefheid is nie op Afrikaans van toepassing nie en die vyfde en sesde getalle is dus albei 0. Die laaste getal is weer 1 omdat stoel die basisvorm van die naamwoord is. Die etiket lyk dus uiteindelik só: N1011001.

·        Die interpretasie van elke intermediêre etiket hang af van die spesifieke WS-kategorie en die eienskappe/waardes wat aan hierdie WS-kategorie toegeken kan word. Elke intermediêre etiket moet dus op grond van hierdie eienskappe/waardes geanaliseer word.

Etiketstel

Nota: eienskappe en waardes wat in geel verlig is, is addisionele toevoegings; eienskappe en waardes wat in pienk verlig is, is nie van toepassing op Afrikaans nie; eienskappe en waardes wat in blou verlig is, is van toepassing op Afrikaans, maar word om bepaalde redes weggelaat.

Naamwoorde

Eienskap

Waardes

(i) Tipe

1. soortnaam

2. eienaam

3. massanaam

4. versamelnaam

5. maatnaam

 

(ii) Genus

1. manlik

2. vroulik

3. onsydig

4. algemeen

 

 

(iii) Getal

1. enkelvoud

2. meervoud

 

 

 

 

(iv) Kasus

1. nominatief

2. genitief

3. datief

4. akkusatief

5. vokatief

6. onverbuigbaar

(v) Telbaarheid

1. telbaar

2. ontelbaar

 

 

 

 

(vi) Definitiwiteit

1. definitief

2. ondefinitief

3.ongemarkeerd

4. algemeen

 

 

(vii) Graad

1. basis

2. dimunitief

 

 

 

 

Notas

·        Massanaam, maatnaam en versamelnaam moet bykom by Tipe omdat alle naamwoorde in Afrikaans wat nie eiename is nie, nie soortname is nie. Hierdie kategorieë is belangrik omdat massaname (gewoonlik) nie meervoud en verkleining kan neem nie; versamelname en massaname word nie vas aan die volgende naamwoord geskryf nie.

·        Dimunitief word bygevoeg onder Graad. EAGLES laat dit (en ander verbuigings) uit, aangesien dit suiwer morfologies is. Meervoud val ook hieronder, aangesien dit, vir Afrikaans, geen invloed op die etikette van die res van die sin het nie.

·        Algemeen” moet by Genus kom as teenpool vir onsydig in ‘n twee-genus sisteem soos die van Deens en Nederlands – dit is egter nie relevant vir Afrikaans nie. Insgelyks word vokatief en onverbuigbaar by Kasus gesit vir byvoorbeeld Grieks, maar is onbelangrik vir Afrikaans. Ook Definitiwiteit is ‘n kategorie wat volgens EAGLES belangrik is vir Deens, maar kan weggelaat word vir Afrikaans.

·        Telbaarheid word uitgelaat aangesien dit presies ooreenstem met Tipe – slegs massanaamwoorde is ontelbaar. Dit is dus “dubbele werk” om ‘n Telbaarheid-eienskap te hê.

 

 

 

 

Kombinasies vir Afrikaans

Voorbeeld

Waarde

Etiket

Intermediêre etiket

stoel

soortnaam/enkelvoud/nominatief/basis

NSE

N101101

stoele

soortnaam/meervoud/nominatief/ basis

NSM

N102101

stoeltjie

soortnaam/enkelvoud/nominatief/dimunitief

NSED

N101102

stoeltjies

soortnaam/meervoud/nominatief/dimunitief

NSMD

N102102

persoons (persoons des aansiens)

soortnaam/enkelvoud/genitief/basis

NSG

N101201

Koos

eienaam/enkelvoud/nominatief/basis

NEE

N201101

Kose

eienaam/meervoud/nominatief/basis

NEM

N202101

Kosie

eienaam/enkelvoud/nominatief/dimunitief

NEED

N201102

Kosies

eienaam/meervoud/nominatief/dimunitief

NEMD

N202102

goud

massanaam/nominatief

NM

N300100

trop

versamelnaam/enkelvoud/nominatief/basis

NVE

N401101

troppe

versamelnaam/meervoud/nominatief/basis

NVM

N402101

troppie

versamelnaam/enkelvoud/nominatief/dimunitief

NVED

N401102

troppies

versamelnaam/meervoud/nominatief/dimunitief

NVMD

N402102

emmer

maatnaam/enkelvoud/nominatief/basis

NME

N501101

emmers

maatnaam/meervoud/nominatief/basis

NMM

N502101

emmertjie

maatnaam/enkelvoud/nominatief/dimunitief

NMED

N501102

emmertjies

maatnaam/meervoud/nominatief/dimunitief

NMMD

N502102

 

 

 

 

 

 

 

 

 

Enkele riglyne

 

·        Tref onderskeid tussen:

o   Soortnaam: stoel

§  Kan meervoud neem

§  Kan die en ‘n vooraan sit

o   Eienaam: Afrikaans

§  Word met hoofletter geskryf

o   Massanaam: goud

§  Kan nie meervoud neem nie

§  Kan die vooraan sit, maar nie ‘n nie

o   Maatnaam: koppie/emmer

§  Kan gemeet word

§  Word nie vas aan volgende naamwoord geskryf nie: koppie meel

o   Versamelnaam: trop/swerm/skool

§  Dui versameling aan

§  Word nie vas aan volgende naamwoord geskryf nie: skool visse

o   Abstrak: liefde/haat

Werkwoorde

Eienskap

Waardes

(i) Persoon

1. eerste

2. tweede

3. derde

 

 

 

 

(ii) Genus

1. manlik

2. vroulik

3. onsydig

 

 

 

 

(iii) Getal

1. enkelvoud

2. meervoud

 

 

 

 

 

(iv) “Finiteness

1. “finite

2. “non-finite

 

 

 

 

 

(v) ”Mood

1. indikat

2. subjunkt

3. imperat

4. kondisi

5. infinit

6. partikel

7. “gerund

8. “supine

9. -ing

 

 

 

 

 

(vi) Tyd

1. teenwoordig

2. imperfektief

3. toekomend

4. verlede

 

 

 

(vii) “Voice

1. aktief

2. passief

 

 

 

 

 

(viii) Status

1. hoof

2. mede

3. semi-hulp

 

 

 

 

(ix) Aspek

1. perfektief

2. imperfektief

 

 

 

 

 

(x) Skeibaarheid

1. skeibaar

2. onskeibaar

 

 

 

 

 

(xii) Reflektiwiteit

1. refleksief

2. onrefleksief

 

 

 

 

 

(xiii) “Auxiliary

1. have

2. be

 

 

 

 

 

(xiv) Aux-funksie

1. primêr

2. modaal

 

 

 

 

 

(xv) Tipe

1. oorganklik

2. onoorganklik

3. deeltjie

4. koppel

5. voorsetsel

6. skakel

7. hulp-mod

8. hulp-tyd

9. onskrywing

 

 

 

 

 

 

Notas

·        Alle werkwoorde wat skeibaar is, is deeltjiewerkwoorde en dus hoef daar by oorganklike en onoorganklike werkwoorde nie voorsiening gemaak te word vir skeibare werkwoorde nie.

Kombinasies vir Afrikaans

Voorbeeld

Waarde

Etiket

Intermediêre etiket

pos

teenwoordig/aktief/hoof/onskeibaar/oorganklik

VNAHG

V000001111

(sal) pos

toekomend/aktief/hoof/onskeibaar/oorganklik

VTAHG

V000003111

gepos

verlede/aktief/hoof/onskeibaar/oorganklik

VVAHG

V000004111

speel

teenwoordig/aktief/hoof/onskeibaar/onoorganklik

VNAHO

V000001112

(sal) speel

toekomend/aktief/hoof/onskeibaar/onoorganklik

VTAH

V000003112

gespeel

verlede/aktief/hoof/onskeibaar/onoorganklik

VVAHO

V000004112

opstaan

teenwoordig/aktief/hoof/skeibaar/deeltjie

VNAHD

V000001113

(sal) opstaan

toekomend/aktief/hoof/skeibaar/deeltjie

VTAHD

V000003113

opgestaan

verlede/aktief/hoof/skeibaar/deeltjie

VVAHD

V000004113

is, bly, kos

teenwoordig/aktief/hoof/onskeibaar/koppel

VNAHK

V000001114

(sal) wees, bly, kos

toekomend/aktief/hoof/onskeibaar/koppel

VTAHK

V000003114

was,. gebly, gekos

verlede/aktief/hoof/onskeibaar/koppel

VVAHK

V000004114

hou (van)

teenwoordig/aktief/hoof/onskeibaar/voorsetsel

VNAHV

V000001115

(sal) hou (van)

toekomend/aktief/hoof/onskeibaar/voorsetsel

VTAHV

V000003115

gehou (van)

verlede/aktief/hoof/onskeibaar/voorsetsel

VVAHV

V000004115

(word) gepos

teenwoordig/passief/hoof/onskeibaar/oorganklik

VNPHG

V000001211

(sal) gepos (word)

toekomend/passief/hoof/onskeibaar/oorganklik

VTPHG

V000003211

(is) gepos

verlede/passief/hoof/onskeibaar/oorganklik

VVPHG

V000004211

(word) gespeel

teenwoordig/passief/hoof/onskeibaar/onoorganklik

VNPHO

V000001212

(sal) gespeel (word)

toekomend/passief/hoof/onskeibaar/onoorganklik

VTPHO

V000003212

(is) gespeel

verlede/passief/hoof/onskeibaar/onoorganklik

VVPHO

V000004212

(word) gebly

teenwoordig/passief/hoof/onskeibaar/koppel

VNPHK

V000001213

(sal) wees

toekomend/passief/hoof/onskeibaar/koppel

VTPHK

V000003213

(is) gebly

verlede/passief/hoof/onskeibaar/koppel

VVPHK

V000004213

(word) gehou (van)

teenwoordig/passief/hoof/onskeibaar/voorsetsel

VNPHV

V000001214

(sal) (van) gehou (word)

toekomend/passief/hoof/onskeibaar/voorsetsel

VTPHV

V000003214

(is) gehou (van)

verlede/passief/hoof/onskeibaar/voorsetsel

VVPHV

V000004214

(word) opgestaan

teenwoordig/passief/hoof/onskeibaar/deeltjie

VNPHD

V000001215

(sal) opgestaan (word)

toekomend/passief/hoof/onskeibaar/deeltjie

VTPHD

V000003215

(is) opgestaan

verlede/passief/hoof/onskeibaar/deeltjie

VVPHD

V000004215

bly

teenwoordig/aktief/mede/onskeibaar/skakel

VNMS

V000001126

(sal) bly

toekomend/aktief/mede/onskeibaar/skakel

VTMS

V000003126

(het) gebly

verlede/aktief/mede/onskeibaar/skakel

VVMS

V000004126

sal

teenwoordig/aktief/mede/onskeibaar/hulp-mod

VNMHM

V000001127

sal

toekomend/aktief/mede/onskeibaar/hulp-mod

VTMHM

V000003127

sou

verlede/aktief/mede/onskeibaar/hulp-mod

VVMHM

V000004127

het

aktief/mede/onskeibaar/hulp-tyd

VMHT

V000000128

is/word

passief/mede/omskrywing

VMO

V000000229

(om te) werk

infinitief/imperfektief

VII

V000052000

 


Enkele riglyne

·        Belangrik vir etiketstel:

o   Tyd: teenwoordig/toekomend/verlede

o   Status: hoof/hulp

o   Skeibaarheid: ek skryf by die skool in vs. ek moet by die skool inskryf

o   Tipe:

§  oorganklik

·       slegs hoofwerkwoord

§  onoorganklik

·       slegs hoofwerkwoord

§  koppel

·       slegs hoofwerkwoord

o  bly

o  gaan

o  heet

o  klink

o  smaak

o  voel

o  word

o  lyk

§  voorsetsel

·       slegs hoofwerkwoord

§  deeltjie

·       slegs hoofwerkwoord

§  skakelwerkwoord

§  hulpwerkwoord van modaliteit

§  hulpwerkwoord van modaliteit

o  sal

o  het

o  wil

o  wou

o  sou

§  aspek

·       sien lyste

§  modus

·       sien lyste

§  omskrywingswerkwoord

o  is

o  word