Vissza az előzőleg látogatott oldalra (nem elérhető funkció)Vissza a tananyag kezdőlapjára (P)Ugrás a tananyag előző oldalára (E)Ugrás a tananyag következő oldalára (V)Fogalom megjelenítés (nem elérhető funkció)Fogalmak listája (nem elérhető funkció)Oldal nyomtatása (nem elérhető funkció)Oldaltérkép megtekintése (D)Keresés az oldalon (nem elérhető funkció)Súgó megtekintése (S)

Trendkutatás módszerei és eszközei az interneten / Szemantikus web, folkszonómia, taxonómia

Tanulási útmutató

Összefoglalás

A lecke bemutatja a szemantikus web témakörét és a kapcsolódó fogalmakat.

Szemantikus web, folkszonómia, taxonómia

Szemantikus web

Az interneten nap-mint-nap hatalmas mennyiségben keletkeznek szöveges adatok (jegyzetek, önéletrajzok, álláshirdetések, projektjelentések, weboldalak, e-mailek, blogbejegyzések, cikkek, útnyilvántartások, szállítólevelek, termék adatbázisok), gyártási és mérési adatok, lokációs információk, és multimédia tartalmak (képek, videók, hangfelvételek), szerelmes levelek. Mindezt mi sem jellemzi jobban, mint, hogy a Facebok-on naponta közel 3 milliárd tartalmat osztanak meg és lájkolnak a felhasználók, ebből 250 millió feletti a képek száma, akik ma már több mint 1 milliárdnyian vannak. A Twitteren naponta közel 200 millió tweet (magyarul gyakran csirip) keletkezik. Ekkora nagy adathalmazokat (szokásos elnevezése szerint big data) leírni, rendszerezni, majd keresni bennük különleges megoldásokat igényel. Mindez és az internetes kultúra, alkalmazások fejlődése azt igényli, hogy az elérhető adatokat, információkat a számítógépek ne csak tárolni, olvasni, továbbítani tudják, hanem értelmezni is. Ehhez a tartalmakat címkézni kell, vagy az azokra jellemző kiegészítő, úgynevezett metaadatokkal kell ellátni.

A metaadatok számos információt tartalmazhatnak, például az adat forrásának nevét, a közzététel időpontját, stb. Továbbá az információk helyes kombinálásával hasznos összetett ismeretekhez is hozzájuthatunk, következtetéseket vonhatunk le. Az adatok leírásának és lekérdezésének számos módja van, minden módszerhez többféle szabványosítási kísérlet is kapcsolható.

Mi is a baj a jelenlegi Internettel vagy akár a Google-lel?

Előre meg kívánjuk jegyezni, hogy nem a Google-lel van a baj, hanem az Internetes tartalmak leírásával, a webbel.

Ahogy az alábbi képen is látható a számítógép a weblapokon tárolt tartalmakat csak akkor tudja értelmezni, ha segítünk neki ebben.

Mindent tud rólunk és gyakran mégsem ad jó találatot. Nem segít (nem tud kellően segíteni) abban sem, hogy a találatok között megtaláljam azt, amit keresek.

Néhány kérdés, amire nem tud jól válaszolni a Google?

Nézzük meg mindezt egy interaktív animáció segítségével:

Szemantikus keresés példa a Google és a WolframAlpha segítségével

Flash lejátszó letöltése

Szemantikus keresés példa a Google és a WolframAlpha segítségével

A gondot az okozza, hogy a HTML dokumentumleíró és nem információ leíró nyelv.

A nagyméretű adathalmazok tárolását a nagy rendszerek különféle, jellemzően relációs adatbázisok használatával valósítják meg. Ezek a rendszerek kiválóan alkalmasak arra, hogy a rendelkezésünkre álló strukturált, ismert szerkezetű adatokat nagy hatékonysággal, az adott intézmény, vállalat igényeinek, folyamatainak megfelelően kezelje, karbantartsa és a szükséges lekérdezéseket megválaszolja. A szemantikus web fontos összetevője még a tudásreprezentálás, a fizikai világban megtalálható tárgyakat, élőlényeket, dolgokat, stb. egy egyedi azonosítóval egy Uniform Resource Identifiers (URI)-val azonosítanunk kell.

Az egyes adatok jellemzésére számos módszer született az évek során. Ezek közül uralkodó a szemantikus web elképzelés, mely Tim Berners Lee-től származik, csakúgy, mint a World Wide Web elképzelés is. Eszerint a számítógépek képesek lehetnek a különböző forrásokból származó információk jelentését értelmezni és kombinálni annak érdekében, hogy egy-egy problémát megoldjanak, vagy egy kérdést megválaszoljanak. A szemantikus adatokat nem szükségszerűen kell online környezetben kezelni, lehetséges csak offline vagy vegyesen online/offline rendszerek kiépítése is. A szemantikus web elemeit ma már számos szabvány és eszköz segítségével lehet előállítani. Ezek segítségével információkat adhatunk meg bármilyen erőforrásról, adatról, személyről, illetve ezeket az információkat felhasználhatjuk további tudáselemek kinyerésének érdekében is.

A szemantikus adatok legegyszerűbb leírónyelve az XML alapú RDF (Resource Description Framework), melynek segítségével tetszőleges (URI-val jelölt) objektumról fogalmazhatunk és tehetünk közzé állításokat. Minden ilyen állítás három összetevőből áll, ezek a subject, a property és az object. A subject az az objektum, melyet jellemezni szeretnénk, a property az a tulajdonság, melyet meg szeretnénk adni, az object pedig a tulajdonság értéke. Ilyen hármasok felhasználásával könnyen kialakíthatók különféle gráfok, melyek az ismereteinket, azok kapcsolatait leírják.

Ahhoz, hogy az ismeretek struktúráját is meg tudjuk fogalmazni további lehetőségeket kell adnunk a nyelvhez. Ennek érdekében használható az RDFS (RDF Schema) nyelv, vagy az OWL (Web Ontology Language), mely az RDFS-nél is bővebb szerkezeti- és háttér információ megadását teszi lehetővé.

A fent említett nyelvek és a szemantikus technológiák felhasználásával előállíthatók olyan tudástárak, ontológiák, melyek egy adott iparág vagy tudományterület fogalmait, ismereteit és az azok között fennálló kapcsolatokat is képesek leírni, modellezni. Egy-egy ontológia szerkezete és tartalma később tovább bővíthető, alakítható és újrafelhasználható más és más területek leírására és jellemzésére.

Egy jól felépített ontológia használható arra is, hogy a tárolt információkból további adatokat nyerjen ki, különféle – közvetlenül nem elérhető – kapcsolatokat, illetve esetleges hiányosságokat tárjon fel. Ehhez ma már számos következtető algoritmust és programcsomagot használhatunk fel.

A fejlett adatbázis-kezelő rendszerek ma már képesek a szemantikus adatok hatékony kezelésére és logikai következtetések végrehajtására.

LOD (Linked Data Objects) felhő

A weben előforduló adatoknak kisebb része teljesíti azokat a követelményeket, amelyeket a szemantikus web elképzelés támaszt. A világban sok adat keletkezik, azonban ezek megkeresése, feltárása nem mindig egyszerű feladat. Ehhez az egyik kiindulópont lehet a Linked Data Community által gyűjtött és közzétett adatcsokor, az ún. LOD felhő. Ez a gyűjtemény olyan adathalmazokat, ontológiákat tartalmaz, amelyek mérete legalább 1000 sorból áll és a diagramon szereplő adathalmazokkal legalább 50 ponton kapcsolódik.

A felhőben szereplő körök mindegyike 1-1 adathalmazt reprezentál, a köröket összekötő vonalak pedig az adathalmazok közötti kapcsolatokat jelentik. Az adathalmazok színekkel több kategóriába vannak sorolva:

DBPedia

A legtöbb adatot a LOD felhőben DBPedia szolgáltatja. Ez az adathalmaz a Wikipedia tartalmaiból építkezik, célja, hogy a WikiPedia oldalaiból strukturált adatokat nyerjen ki. Ehhez az adathalmazhoz egy speciális keresőfelület is csatlakozik, melyen keresztül összetett kérdéseket lehet feltenni a WikiPedia adataival kapcsolatban.

Ahhoz, hogy ezek a lekérdezések valóban hasznosak legyenek szükséges a Wikipedia adatainak strukturált formában történő elérése, a sokféleségüket tudni kell kezelni és az adatokon hatékony kereséseket kell tudni lefuttatni.

A DBPedia online elérhető a http://dbpedia.neofonie.de címen, ahol ki is lehet próbálni az alkalmazást. Az alábbi ábrán arra kérdésre adott válasz olvashatóak, hogy: melyek azok a legalább 50 kilométer hosszú folyók, melyek a Rajnába ömlenek:

Vissza a tartalomjegyzékhez

Folkszonómia és taxonómia

Taxonómia: leírandó tartalmak osztályozását jelenti. Meghatároz hierarchia szinteket a jobb visszakereshetőség érdekében. Hierarchikus, azaz alá-fölérendeltségi kapcsolatban álló információk leírására alkalmas.

Folkszonómia: Nem rendszerezett információk jellemzésére alkalmas, közösségi kategorizálás, címkézés segítéségével. A gyakorlatban információk, weboldalak, fényképek, linkek taggelését, címkézését jelenti, lásd bővebben a következő fejezetben.

Vissza a tartalomjegyzékhez

Új Széchenyi terv
A projekt az Európai Unió támogatásával, az Európai Szociális Alap társfinanszirozásával valósul meg.

A Társadalominformatika: moduláris tananyagok, interdiszciplináris tartalom- és tudásmenedzsment rendszerek fejlesztése az Európai Unió támogatásával, az Európai Szociális Alap társfinanszírozásával, az ELTE TÁMOP 4.1.2.A/1-11/1-2011-0056 projekt keretében valósult meg.
A tananyag elkészítéséhez az ELTESCORM keretrendszert használtuk.