Dataanmerkning – NER

Navngitt Entity Recognition (NER) Annotering for klinisk NLP

Ner annotering

Godt kommentert og gullstandard klinisk tekstdata for å trene/utvikle klinisk NLP for å bygge neste versjon av Healthcare API

Betydningen av klinisk naturlig språkbehandling (NLP) har blitt stadig mer anerkjent de siste årene og har ført til transformative fremskritt. Klinisk NLP lar datamaskiner forstå den rike betydningen som ligger bak en leges skriftlige analyse av en pasient. Klinisk NLP kan ha flere brukstilfeller som spenner fra populasjonshelseanalyse til forbedring i klinisk dokumentasjon til talegjenkjenning til matching av kliniske forsøk osv.

For å utvikle og trene noen kliniske NLP-modeller, trenger du nøyaktige, objektive og godt kommenterte datasett i enorme volumer. Gullstandard og diverse data bidrar til å forbedre presisjonen og tilbakekallingen av NLP-motorer.

Volum

Antall dokumenter kommentert
10
Antall sider kommentert
10 +
Prosjektets varighet
< 1 måneder

Utfordringer

Kunden så frem til å trene og utvikle sin Natural Language Processing (NLP)-plattform med nye enhetstyper og også identifisere forholdet mellom ulike typer. Dessuten evaluerte de leverandører som tilbød høy nøyaktighet, overholdt lokale lover og hadde den nødvendige medisinske kunnskapen til å kommentere et stort sett med data.

Oppgaven var å merke og kommentere opptil 20,000 15,000 etiketterte journaler inkludert opptil 5,000 1 etiketterte journaler fra stasjonære og polikliniske elektroniske helsejournaldata (EPJ) og opptil 2 XNUMX etiketterte journaler fra transkriberte medisinske diktater, likt fordelt på (XNUMX) geografiske herkomster og ( XNUMX) tilgjengelige medisinske spesialiteter.

Så for å oppsummere utfordringene:

  • Organiser heterogene kliniske data for å trene NLP-plattformen
  • Identifiser forholdet mellom ulike enheter for å utlede kritisk informasjon
  • Evne og ekspertise til å merke / kommentere et bredt sett av komplekse kliniske dokumenter
  • Holde kostnadene under kontroll for å merke / kommentere et stort datavolum for å trene klinisk NLP innenfor den fastsatte tidsrammen
  • Annoter enheter i det kliniske datasettet som består av 75 % EPJ- og 25 % dikteringsposter.
  • Dataavidentifikasjon på leveringstidspunktet

Andre utfordringer i naturlig språkforståelse

tvetydighet

Ord er unike, men kan ha forskjellige betydninger avhengig av konteksten, noe som resulterer i tvetydighet på leksikalske, syntaktiske og semantiske nivåer.

Synonymi

Vi kan uttrykke den samme ideen med forskjellige termer som også er synonymer: stor og stor betyr det samme når vi beskriver et objekt.

Coreference

Prosessen med å finne alle uttrykk som refererer til samme enhet i en tekst kalles coreference resolution.

Personlighet, intensjon, følelser

Avhengig av talerens personlighet, kan deres intensjon og følelser uttrykkes ulikt for den samme ideen.

Oppløsning

Et stort volum medisinsk data og kunnskap er tilgjengelig, i form av medisinske dokumenter, men det er hovedsakelig i et ustrukturert format. Med Annotering for medisinsk enhet / Named Entity Recognition (NER) Annotation, var Shaip i stand til å konvertere ustrukturerte data til et strukturert format ved å kommentere nyttig informasjon fra ulike typer kliniske journaler. Når enhetene ble identifisert, ble forholdet mellom dem også kartlagt for å identifisere kritisk informasjon.

Arbeidsomfang: Omtale av helsevesenet

9 enhetstyper

  • Medisinsk tilstand
  • Medisinsk prosedyre
  • Anatomisk struktur
  • Medisin
  • Medisinsk enhet
  • Kroppsmåling
  • Substance Abuse
  • Laboratoriedata
  • Kroppsfunksjon

17 Modifikatorer

  • Medisinmodifikatorer: styrke, enhet, dose, fra, frekvens, rute, varighet, status
  • Kroppsmålemodifikatorer: verdi, enhet, resultat
  • Prosedyremodifikatorer: Metode
    • Laboratoriedatamodifikator: Laboratorieverdi, Laboratorieenhet, Laboratorieresultat
  • Alvorlighetsgrad
  • Resultat av prosedyren

27 Relasjoner og pasientstatus

Utfallet

De kommenterte dataene vil bli brukt til å utvikle og trene klientens kliniske NLP-plattform, som vil bli innlemmet i neste versjon av deres Healthcare API. Fordelene som klienten oppnådde var:

  • Dataene merket/kommentert oppfylte kundens standard retningslinjer for datakommentarer.
  • Heterogene datasett ble brukt til å trene NLP-plattformen for større nøyaktighet.
  • Forholdet mellom ulike enheter, dvs. anatomisk kroppsstruktur <> Medisinsk utstyr, medisinsk tilstand <> Medisinsk utstyr, medisinsk tilstand <> Medisinering, medisinsk tilstand <> Prosedyre ble identifisert for å utlede kritisk medisinsk informasjon.
  • Det brede settet med data som ble merket/kommentert ble også avidentifisert på leveringstidspunktet.

Samarbeidet vårt med Shaip fremmet prosjektet vårt innen Ambient Technology og Conversational AI innen helsevesenet betydelig. Deres ekspertise på å lage og transkribere syntetiske helsetjenester dialoger ga et solid grunnlag, og viste frem potensialet til syntetiske data for å overvinne regulatoriske utfordringer. Med Shaip navigerte vi disse hindringene og er nå et skritt nærmere å realisere vår visjon om intuitive helsetjenester.

Gylden-5-stjerners

Akselerer din Conversational AI
applikasjonsutvikling med 100 %