Opne, lenka data

Semincolon II-prosjektet inviterte 15. nov. 2011 saman med Difi til seminar om opne og lenka data. Her følgjer nokre inntrykk frå presentasjonar og diskusjonar rundt desse, direkte frå seminaret. Eg presiserer at det er mi oppsummering og mine vurderingar som kjem til uttrykk her.

Jens Kilde Mjelva, Computas starta ut med å definera opne, lenka data og spørsmåla kom med ein gong: Er opne data det same som gratis data? Etter litt diskusjon fram og tilbake kom forsamlinga fram til at også data som blir tilbydde mot betaling, kan kallast opne data. Det må då vera ein pris som reflekterer meirkostnaden med tilrettelegging. SSB meiner at for deira del vil det meste vera gratis, men viss dei skal tilby data utanom det dei er pålagde, kan det bli ein marginalkostnad (det det kostar SSB å tilgj.gjera data).

Jens viste så tilgj.gjering av (opne) data frå Brønnøysundregistera sitt Einingsregister.

Den første versjonen, utvikla i Semicolon I-prosjektet, tilbydde berre oppslag på org.nr.

Semicolon II: Utvida modellen med SERES-data og kopla E-reg til andre datakjelder

- heilheitsbilete av eininga

- metadata frå SERES

- beste praksis (URI-regime m.m.)

Ny URI-struktur: http://brreg.no/id/enhet/<org.nr> (ikkje verksam enno, finst på http://opendata.computas.no/lod/page/enhet/<org.nr>

Fleire returformat (Turtle-notasjon i tillegg til rdf/xml)

Utfordringar:

- samanstilling av mange tenester fører til mange kall

- oppslag berre på eining  (og person), skulle gjerne også hatt oppslag på NACE-kode

- ikkje oppslag på person (pga. personnr.-utfordringar), men gjera person til bindeledd mellom org.

Vidare arbeid:

- setja i verk permanente URI-strukturar (sjå dokumentasjon seinare)

- meir effektiv operasjon

- utvida bakanforliggjande web-tenester

- koplingar til andre autorative kjelder (Matrikkel, Kommune/KS)

- også opplysa kor dei ulike delane av informasjonen kjem frå (provenance)

Personnr blir brukt på baksida for å presentera strukturen, men det blir ikkje vist utad.

Det er klare retningslinjer (frå Br.reg.) for kva som kan givast ut av opplysningar, det er t.d. berre lov å gi ut næringsrelaterte opplysningar (sjølv om ein ved opne, lenka data fint kan kopla andre datakjelder).

Svein Erik Grønmo: Opne data hos Brønnøysundregistera

Består i dag av i alt 18 register (starta med Løsørereg. i 1980 med 12 tilsette, har i dag over 600 tilsette).

I 1988 kom Foretaksreg. og erstatta dei tidlegare Handelsreg. (96 handelsreg. i 1970!).

Einingsreg. kom i 1996 – tildeling av eintydig identifikasjon gjennom org.nr

Data frå Br.reg har alltid vore opne, men i ulike format (papir, diskett, cd, ftp, web-service [gratis tilgj. for off. sektor, liten kostnad for næringslivet] og no etter kvart lenka data)

Juridiske vurderingar:

- åvl

- peol

- statistikklova

- eningsreg.lova

- forvaltningslova

-off.lova

Kven skal betala ekstrakostnaden med tilgj.gjering og vedlikehald av t.d. lenka data? I Gebyrforskrifta står det korleis prising av data skal skje (i samråd med Næringsdep.).

I tildelingsbrevet står det viss bortfall av inntekter er ”betydelege”, blir ein ikkje omfatta av plikta til å tilgjengeleggjera data gratis.

Bruk av web-services frå Br.reg:

183 etatar med 61 mill. oppslag i 2010 (men svært skeiv bruk – ein etat står for nesten halvparten av oppslaga [Utviklings- og kompetanseetaten i Oslo kommune]). Næringslivsoppslag  er til samanlikning ca. 3 mill., sikkert fordi det kostar noko (men som Stian påpeiker: viss ein brukar http-protokollen og ikkje web services, slepp ein stort sett kapasitetsproblem som web services kan medføra).

Nye tenester og produkt i Altinn: uthenting av firmaattest, skatteattest m.m.

Steinar Skagemo: Opne data i Difi

Norsk lisens for offentlege data (NLOD)
Informasjon (data.norge.no)
Infrastruktur (hotell.difi.no)

Spørsmål: Er det lurt å publisera inndelinga informasjon og infrastruktur, kontra å samla merksemda om ei adresse, nemleg data.norge.no? Underforstått: Det er sannsynlegvis krevjande nok å få gjort data.norge.no kjendt om ikkje også hotell.difi.no skal blandast inn.

Når det er sagt, er datahotellet ein svært god ide, og ei viktig hjelp til dei som treng det. Men det bør tilbydast som eit sett verktøy på data.norge.no, ut frå føresetnaden om at kor data ligg fysisk, er uinteressant [min kommentar].

SSB: Uklart kva som er strategien for opne data rundt data.norge.no, kva er pilot, kva er strategi, kva er dei permanente løysingsforslaga?

Steinar orienterte så om standardiseringsarbeidet og det vart ein diskusjon om begrepsstandardisering (mal for begrepsarbeid, begrepsharmonisering, prosess for begrepsharmonisering). Her kom det mange innspel, t.d. sjølve begrepsapparatet som er brukt (begrep? term? terminologi?). Fleire peikar på at det er nødvendig å gå til lovverket og dei juridiske definisjonane. Men ikkje alle begrep har referansar i eit lovverk.

SERES ER-modell, Knut Eilif Husa (Karde)

1. Målet har vore å laga ein modell i SERES som egnar seg som grunnlag for automatisk generering av ordliste (OWL/RDF) til ei LOD-teneste

2. Etablera ein ref.modell for ei teneste som involverer fleire etatar/domene

Knut Eilif gjekk så gjennom detaljar i ER-modellen. ER = Entity Relationship, ein måte å visa grafisk samanhengar mellom objekt (entities).

Kor god er modellen, og korleis får ein svar på det? Modellen er mest for datainnhenting, er den like god når den skal brukast på data som skal ut?

Ønskje om å demonstrera aut. gen. av tenester basert på SERES-modell
- store innspareingar
- kvalitetsheving
- lettar arbeidet med forvaltning av tenestene

SERES fokuserer i dag på Data og Metadata-aspektet av tenester. I framtida vil det også omfatta beskrivelse av oppførsel (prosess?) av tenestene.

SERES inneheld for tida begrepsapparat frå fleire domene. Dette innhaldet er viktig input for å kunna modellera samanhengar mellom begrepsapparat eller som basis for eit avgrensa felles begrepsapparat.  Om ein vel  å utarbeida eit felles begrepsapparat for eit område, kan SERES nyttast som metode og verktøy.

Det vart stilt spørsmål om kva krav bruken av SERES som verktøy stiller, med utgangspunkt i at metodikken "model driven engineering" kan vera relativt tung å arbeida med.

Er teneste-begrepet godt nok definert? Slik SERES brukar begrepet, meiner dei ofte skjema. Er skjema nødvendigvis ei teneste? Bruken av begrepet 'teneste' bør nok diskuterast betre, elles er det fare for at ein snublar alt i startblokkene [min kommentar].

Skatt og NAVs EDAG (elektronisk dialog med arbeidsgivar) har vore målet for modelleringa. Men dette er ikkje ein del av EDAG, men noko som Skatt har trekt inn i Semicolon II.

Ser ut som mandatet til SERES har vakse og at det omfattar stadig fleire problemstillingar, er det uproblematisk?

SSB: Må vera tydelege på når det blir arbeida med modellering og når det blir arbeida med implementering - det er ein tendens til å blanda dette.

SERES som lenka data (David Norheim, Computas)

Rapport om URI-regime (tilrådingar for etablering av URI-ar for begrep og data), blir snart publisert som del av Semicolon-prosjektet.

Prinsipp:
1. Eigarskap og opphav
2. Stistruktur i URI-ar
3. Levetidsutfordringar
4. Oppslag på URI-ar
5. Dokument fo rmaskin og menneske
6. Kvalitetskarakteristikkar

http://seres.no/guid/Brønnøysundregistrene/Begrep/Enhet/

Oppslag av begrep
- begrepsdefinisjonar (oppslag, redigering)
- brukt som vokabular/ontologi ved publisering av lenka data (i praksis ein impl.modell som inkl. semantikknivået)

Mapping mot meir generelle vokabular?
Det har vore diskutert i Semicolon, men ein har valt å halda seg innafor domena og ikkje prøvt å mappa mellom dei.

Audun Stople, IFI/UiO: Eksempel på bruk av LOD

Audun viste eksempel på transformering av informasjon om "Gul liste", dvs. oversikt over verneverdige bygningar i Oslo og korleis desse lenka data igjen kan koplast mot eit presentasjonssystem som t.d. Google Maps/Streetview.

Case-et er dokumentert i artikkelen "From Spreadsheets to 5-star Linked Data in the Cultural Heritage Domain: A Case Study of the Yellow List", presentert på årets NIK-konferanse.

Ein viktig del av prosjektet har vore å testa om grafen som er utgangspunktet er "bevart" i grafen som er sluttproduktet etter ein transformasjon. Det er utvikla ein matematisk modell for å testa dette, og det er skilt i laus, middels og streng "validering". Men for alle tre nivåa gjeld det at "permutation" (ombytting) ikkje er lov, du kan leggja til nye data og eigenskapar, men du kan ikkje "bytta om" på data.

Problemstillinga er dokumentert i posteren "Conservative Repurposing of RDF Data" som etter planen skal presenterast på Extended Semantic Web Conference 2012.

Oppsummering (Per Myrseth, Veritas, som også var ordstyrar for seminaret)

Per tok ein runde med innspel på tema deltakarane gjerne såg vart drøfta vidare:

 

Kva er viktige steg vidare?

-          Avklara korleis legale definisjonar og andre definisjonar heng saman og blir brukte

-          Diskutera kven som bør ta initiativ til å kopla mellom kva type data,

-          Korleis nekta andre å kopla til sine data med grunngjeving a,b,c

-          Løfta LOD som middel for å oppnå transparens for innbyggjarane, sporing av sakbehandlingsvedtak basert på IT-støtte.

-          Kopling mellom metadatakjelder, begrep, regelmotorar, programkode etc.

-          Transparens som middel for kvalitetssikring

-          Datakvalitet

-          Avklara personvernomsyn i Semicolon-pilotane

-          Operasjonalisera overgangen frå lovtekst til programkode

-          Automatiseringsvennlege lovtekstar,

-          Hausting av vokabular, kva metodar finst, kva kjelder kan brukast