Semantisk mark-up

Semantisk mark-up vil seia å inkludera forklarande metadata i HTML-koden. Det finst ulike format og standardar for slikt arbeid, og Web Data Commons har laga ein oversikt over kor mykje brukte dei ulike metodane er.

 

Web Data Commons er eit samarbeid mellom Freie Universität Berlin og Karlsruhe Institute of Technology. Tenesta trålar web-an på leit etter trippel i HTML-koden for nettsidene. Eit trippel er ei setning bygt opp av subjekt - predikat - objekt, noko som sikkert får fram vage minne frå grunnskulen hjå mange.. Det er grunnsteinane i RDF-modellen og grunnlaget for den semantisk weben og lenka data (Linked Data), og slektskapen med grammatikken og språket er klar.

Oversikt over standardar
Dette er dei mest brukte standardane (både formelle og de facto) for å uttrykkja trippel i HTML-koden:

- RDFa som er W3C sin tilrådde standard

- Microdata som stammar frå WHATWG HTML (Web Hypertext Application Technology Working Group, som etter kvart vart sentrale i utforminga av HTML5)

- microformats, ein mykje brukt metode som ikkje er ein formelt standard

- XFN, XHTML Friend Network, utvikla av Global Multimedia Protocols Group som ein enkel måte å representera menneskelege relasjonar på

5 milliardar trippel!
Oversikten frå Web Data Commons omfattar nærmare 3 milliardar URL-ar frå knapt 20 mill. domene i perioden 2009 - 2010. Det er altså eit ganske omfattande materiale. Trålinga viser at 148 mill. URL-ar har semantisk informasjon i form av trippel i HTML-koden. Det utgjer knappe 6 % av alle URL-ane som er gjennomgått. Kanskje ikkje så imponerande, men i dette talet ligg det over 5 milliardar trippel.

Microformats mest brukt
Oversikten viser vidare at microformats er det suverent mest brukte formatet. Det er interessant med tanke på at microformat er eit skikkkeleg bottom-up-format, ikkje akseptert av noko standardiseringsorgan hittil. Også XFN mykje brukt, men ting tyder på at dette formatet kanskje vil forsvinna gradvis med at XHTML blir erstatta med HTML5. I HTML5 er det microdata og rdfa som er dei tilrådde standardane.

VF-rapport om semantisk mark-up
Vestlandsforsking har laga ein rapport på oppdrag for NCE Tourism/FjordNorge der vi ser på aktuelle standardar for semantisk mark-up, altså tillegg av semantisk informasjon i html-koden. Den er ei god innføring i dette temaet, som truleg blir meir og meir aktuelt slik web-en og HTML-standarden utviklar seg.