Full semantisk forvirring

Med lanseringa av schema.org som endå ein måte å supplera HTML-koden med semantisk tilleggs-informasjon, har Google, Yahoo! og Microsoft (Bing) fått fart på diskusjonen på web-en. Det er mange meiningar om korleis dette utspelet vil påverka utviklinga av ein meir semantisk vev.

 

Tre standardar
Med schema.org som endå ein semantisk standard, har vi no tre standardar for semantisk tilleggsinformasjon i HTML-kode:

RDFa (baserer seg på standarden RDF/Semantisk web frå W3C)

Microformats (mykje brukt i bloggverda)

Schema.org (baserer seg på standarden Microdata; Google hovudarkitekt)

USA mot Europa?
Dette trekket kan tolkast i fleire retningar:

eit slag mot W3C sin tilrådde semantisk web-standard  (RDF og RDFa)

Google slår tilbake mot Facebooks bruk av RDFa i Open Graph Protocol (OGP)

eit forsøk på å overta kontrollen av semantisk ”mark up”

USAs business-perspektiv mot Europas akademiske innstilling (semantisk web har til no vore drive fram av europeiske akademiske institusjonar)

W3C snur seg rundt
W3C ser trusselen og har på rekordtid sett i gang eit arbeid for brubygging mellom schema.org og RDFa. At W3C snur seg rundt så fort, viser alvoret i saka, for misnøyen med W3C er som regel at ting tek for lang tid.

Kva er semantisk web/RDF og RDFa?
Utan å gå for langt inn i dei tekniske spesifikasjonane er den semantiske web-standarden frå W3C basert på ein modell kalla Resource Description Framework, RDF. Det er som namnet seier, eit rammeverk for å beskriva ressursar. Det følgjer den enkele modellen:

subjekt -> predikat -> objekt

Samansetjinga av subjekt, predikat og objekt blir kalla ein triplett (”triple”). Alle utsagn i semantisk web/RDF består av triplettar, som er utsagn om ting.

Eksempel:

<Svein Ølnes> <har rollen> <forskar>

Alt er i utgangspunktet URI-ar i RDF-modellen, sjølv om objekta også kan ha verdiar.

RDFa er ein standard for å uttrykkja RDF med HTML-kodar. På den måten unngår ein å innføra endå eit språk, og kan halda seg til HTML, web-ens lingua franca.

Kva er schema.org?
Schema.org er basert på ein standard kalla Microdata. Microdata er også i emning som W3C-standard, men har vorte pressa fram av andre, særleg Google, gjennom arbeidet med HTML5. Ein kan vel seia at W3C nokså motvillig har gått inn på arbeidet med standarden, og at dei har gjort det som følgje av HTML5.

I motsetnad til RDF og semantisk web er schema.org/Microdata frå grunnen av tenkt som HTML-utvidingar. Schema.org har definert eit vokabular som eit hierarki av ”ting”. Eksempel på generiske typar i vokabularet er ’Person’, ’Organization’, ’Place’, ’Event’ osv. Her er ein oversikt over heile type-hierarkiet i schema.org.

Også i kontrast til tanken bak semantisk web er dette eit sentralt vokabular vedlikehalde av Google & co. Du kan velja å bruka ditt eige vokabular og uttrykkja dette ved hjelp av Microdata-formatet, men då risikerer du at dei store søkemotorane ikkje kjenner att begrepa du brukar. Slik sett er det ein effektiv måte å sikra kontroll på.

Kva no?
Det blir spennande å sjå kva resultatet av dette utspelet blir. Det første som har skjedd er at W3C arbeider febrilsk for ei harmonisering mellom deira eigen tilrådde standard RDFa og Schema.org. For leverandørar av ulike verktøy blir det eit vanskeleg val: Skal dei velja å støtta RDFa (som t.d. det mykje brukte publiseringsverktøyet Drupal har gjort), eller skal dei (også) støtta Schema.org (som konkurrenten til Drupal, Joomla, har annonsert).

Eg er redd Microformats kjem i klemma og vil bli skvisa ut. Microfomats er eit grasrot-initiativ som minner mykje om Microdata. Det har røtene i bloggverda, og er særleg brukt av bloggarar. Men Microformats har ingen plass hos W3C og heller ikkje hjå dei store aktørane. Tipset mitt er at schema.org/Microdata erstattar Microformats.

Det større spørsmålet er om etableringa av schema.org blir ei styrking av det semantiske arbeidet eller ei svekking? På kort sikt er eg redd det blir ei svekking på grunn av fragmenteringa. Andre vil kanskje hevda at fleire standardar å velja mellom, er ein bra ting (”det gode med standardar er at det er så mange å velja mellom ...”). På lenger sikt kan det vera positivt at dei store aktørane som Google og Microsoft involverer seg tungt i utviklinga av ein meir semantisk vev.

 

Meir informasjon om denne saka:

ReadWriteWeb: Is Schema.org Really a Google Land Grab?

SemanticWeb.com: Schema.org - One Month In

Peter Mika (ein av hovud-foredragshaldarane på WIMS-konferansen vår i mai): Welcome to schema.org

Jonathan Goodman: What's Wrong with the Semantic Web of Schema.org?

Benjamin Nowack: Schema.org - Threat or Opportunity?