Oslo-Bergen Tagger
From Aksis
Contents |
[edit] Oslo-Bergen-taggeren - en grammatisk tagger for bokmål og nynorsk
Oslo-Bergen-taggeren er en robust morfologisk og syntaktisk tagger. Taggeren består av følgende moduler:
- Preprosessor med sammensetningsanalysator og multitagger: modulen finner blant annet setningsgrenser og identifiserer og analyserer nye sammensetninger som ikke finnes i leksikon. Til slutt blir hvert enkelt ord utstyrt med alle de grammatiske taggene som er mulige for ordet
- Constraint Grammar-moduler for morfologisk og syntaktisk disambiguering:
- Morfologisk disambiguering: Modulen fjerner overflødige morfologiske tagger ved hjelp av føringsbaserte regler (Constraint Grammar)
- Syntaktisk mapping: Gjenstående morfologiske tagger blir utstyrt med alle mulige syntaktiske tagger
- Syntaktisk disambiguering: Modulen fjerner overflødige syntaktiske tagger ved hjelp av føringsbaserte regler
- Navnegjenkjenning og navnedisambiguering:
- Navnegjenkjenning: Navn blir identifisert og flerleddede navn satt sammen
Constraint Grammar-moduler for navnemapping og navnedisambiguering: navnene blir utstyrt med taggene person, sted, organisasjon, verk, hendelse og annet. Deretter blir overflødige tagger forsøkt fjernet ved hjelp av føringsbaserte regler. Statistisk disambiguering: De føringsbaserte reglene ovenfor etterlater noe flertydighet. I den siste modulen blir morfologisk og syntaktisk flertydighet fjernet ved hjelp av en statistisk disambiguerer. Modulene kan kjøres hver for seg og i ulike kombinasjoner. Les mer om historien bak Oslo-Bergen-taggeren nedenfor.
[edit] Nedlasting
Taggeren kan lastes ned for ikke-kommersiell bruk (Mac OS X eller Linux Intel 64-bit):
Leksikon for bokmål og nynorsk (Mac OS X Intel 64-bit)
Leksikon for bokmål og nynorsk (Linux Intel 64-bit)
CG-regler for bokmål (morfologisk disambiguering)
CG-regler for bokmål (syntaks)
CG-regler for nynorsk (morfologisk disambiguering)
I tillegg trenger du Eckart Bicks og Tino Didriksens CG3-parser fra Vislcg3.
Slik bruker du taggeren (fra kommandolinjen):
Bokmål:
mtag < test.txt | vislcg3 -g bm_morf-utf8.cg > test.dis
eller
mtag < test.txt | vislcg3 -g bm_morf-utf8.cg | vislcg3 -g bm_synt-utf8.cg > test.dis
Nynorsk:
mtag -nn < test.txt | vislcg3 -g nn_morf-utf8.cg > test.dis
Vær oppmerksom at mtag forutsetter at lokalen er satt på UTF-8 (f.eks. no_NO.UTF-8).
Programmet mtag tillater følgende parametre:
-
-bm(default): setningsinndeling, tokenisering, sammensetningsanalyse og leksikonoppslag i bokmål-leksikonet -
-nn: setningsinndeling, tokenisering, sammensetningsanalyse og leksikonoppslag i nynorsk-leksikonet -
-tok: kun setningsinndeling og tokenisering.
[edit] Leksikon
Oslo-bergen-taggeren bruker Norsk ordbank, et leksikon som er satt sammen av: ordlister og bøyningsmønstre for bokmål og nynorsk laget ved IBM Norge A/S oppslagsord og bøyingsopplysninger fra Bokmålsordboka og Nynorskordboka laget ved ILN, argumentstruktrurkoder laget av av NorKompLeks ved NTNU Materialet er tilpasset og videreutviklet av Taggerprosjektet, og senere av Tekstlaboratoriet og EDD ved UiO
[edit] Evaluering
Evaluering av morfologisk disambiguering ble foretatt juni 2002. Bokmål- og nynorskversjonen av taggeren ble testet på hvert sitt ca 30 000 ord lange håndtaggede testkorpus med tekster hentet fra aviser, ukeblader, tidsskrifter og offentlige utredninger. Bokmål Leksikals funnrate (recall) på testkorpuset er 99 %. Presisjonen er 95,4 %. Dette gir en f-measure på 97,2 % (dersom funnrate og presisjon vektes likt). Nynorsk Leksikals funnrate (recall) på testkorpuset er 98,7 %. Presisjonen er 93,6 %. Dette gir en f-measurepå 96,2 % (dersom funnrate og presisjon vektes likt).
(Under utviklingen av taggeren ble bokmål- og nynorskversjonen kjørt på hvert sitt 100 000-ords store treningskorpus. Treningskorpusene er manuelt tagget og inneholder tekster hentet fra aviser, ukeblader, tidsskrifter og skjønnlitteratur. Resultatene per juni 2002 for bokmål er en leksikalsk funnrate (recall) på 99,4 % og en presisjon på 95,6 %. Tallene for nynorsk: leksikalsk funnrate: 98,9 % og presisjon: 94,4 %.)
[edit] Taggeren i bruk
Taggeren er blant annet brukt til å tagge Oslo-korpuset av taggede norske tekster (bokmål og nynorsk ) og Norsk aviskorpus.
[edit] Historikk
Taggeren ble opprinnelig utviklet av Taggerprosjektet (1996 - 1998) med Constraint Grammar-programvare fra Lingsoft. Taggeren er senere videreutviklet og reimplementert gjennom et samarbeid mellom Paul Meurer ved Aksis, UiB og Tekstlaboratoriet. Navnedelen av Oslo-Bergen-taggeren ble utviklet av Nomen Nescio-prosjektet (2001 – 2004). Nedenfor er historikken til hver enkelt modul gjengitt:
Preprosessor med sammensetningsanalysator og multitagger: Preprosessoren ble opprinnelig utviklet av Dokumentasjonsprosjektet og Tekstlaboratoriet, UiO. Sammensetningsanalysatoren ble laget ved Tekstlaboratoriet, multitaggeren ved Dokumentasjonsprosjektet. Alle delene utenom CG#-regeltolkeren er nyprogrammert ved Aksis, UiB
- Constraint Grammar-moduler for morfologisk og syntaktisk disambiguering:
- Constraint Grammar-reglene er laget ved Tekstlaboratoriet, UiO, regeltolkeren ved Aksis, UiB
- Reformatering av reglene for CG3 (Tekstlaboratoriet, UiO)
- Navnegjenkjenning og navnedisambiguering:
- Constraint Grammar-reglene er laget ved Tekstlaboratoriet, UiO, regeltolkeren ved Aksis, UiB
- Statistisk disambiguering - laget ved Aksis, UiB
