Definisjon
Navngitt entitetsgjenkjenning (NER) er en NLP-oppgave som identifiserer og klassifiserer enheter i tekst, for eksempel personer, organisasjoner, steder, datoer eller produkter.
Formål
Hensikten er å strukturere ustrukturert tekst ved å trekke ut viktige enheter. Den støtter søk, informasjonsutvinning og bygging av kunnskapsgrafer.
Viktigheten
- Grunnleggende for informasjonsinnhenting og NLP-pipelines.
- Feil forplanter seg til nedstrømsapplikasjoner.
- Domenespesifikk NER (f.eks. medisinsk, juridisk) krever tilpassede datasett.
- Relatert til oppgaver som enhetskobling og relasjonsutvinning.
Slik fungerer det
- Samle inn og forbehandle tekst.
- Annoter datasett med enhetskategorier.
- Tren modeller på merkede eksempler (CRF-er, transformatorer).
- Forutsi enheter i usynlig tekst.
- Valider nøyaktigheten med testdata.
Eksempler (den virkelige verden)
- spaCy: NLP-bibliotek med åpen kildekode og innebygd NER.
- Stanford CoreNLP: tilbyr verktøy for gjenkjenning av navngitte enheter.
- Finansiell NLP: trekker ut firmanavn fra rapporter.
Referanser / Videre lesning
- Jurafsky og Martin. Tale- og språkbehandling. Stanford.
- Lample et al. «Nevrale arkitekturer for gjenkjenning av navngitte enheter.» ACL.
- Klemmende ansikt Transformers NER-modeller.
- Hva er navngitt enhetsgjenkjenning (NER)


