Session 8 – Nutzergenerierte Daten | #DGI2012 Conference Blog

In Session 8 drehte sich alles um nutzergenerierte Daten. Den Anfang machte Dominik Fischer von der Heinrich-Heine-Universität Düsseldorf mit seinem Vortrag „Sind Tag-Verteilungen vom Inhalt der getaggten Ressource abhängig?“ der auf seiner Bachelorarbeit basierte. Hierbei teilte er 145.000 englischsprachige Delicious Dokumente automatisch in unterschiedliche Kategorien ein, je nachdem, ob es sich um Text Dokumente oder Applikationen, Startseiten oder Subseiten, Seiten mit einem Country Code (.de, .co.uk) oder mit einer allgemeinen TLD (.com, .org) handelte. Dann benutze er zwei verschieden Formeln (A1 und A2) zur Berechnung der Powertags aller Dokumente und untersuchte ob sich die Anzahl der so berechneten Powertags je nach Kategorie unterschieden.

Seine beiden Formeln basierten auf der Frequenz eines Tags in Relation zur Frequenz des häufigsten Tags (A1) bzw. in Relation zur Nutzerzahl eines Dokuments (A2). In den ersten beiden Kategorien (Text/Applikation und Startseite/Unterseite) konnte er leichte Unterschiede ausmachen, in der dritten Kategorie jedoch nicht. Da die Kategorisierung jedoch automatisch vorgenommen wurden, ist nicht klar wie sauber die Kategorisierung war.

Die Präsentationsfolien finden Sie hier: pdf.

Es folgte Klaas Dellschaft von der Universität Koblenz-Landau mit seinem Vortrag „Das Epistemic Model – Ein Modell zur Erklärung der Dynamik in Tagging-Systemen„. Dellschaft hat das Nutzerverhalten bei freier Tagvergabe mit dem Nutzerverhalten unter Einfluss von Tagvorschlägen verglichen. Da die der Untersuchung zugrunde liegenden Daten von Bibsonomy und Delicious auf Systemen mit Tagvorschlägen basierten, entwickelte er für die Untersuchung ein Modell zur Konzeptualisierung des Nutzerverhaltens beim Taggen. Ein Vergleich von echtem Nutzerverhalten mit simuliertem Nutzerverhalten auf Delicious und Bibsonomy ergab das sein epistemisches Modell dem echten Nutzerverhalten mehr glich als andere Modelle mit dem gleichen Ziel.

Daraufhin nutzte er sein Modell um die Tagverteilungen bei freier und unfreier Tagvergabe zu vergleichen. Er beobachtete, dass das Wachstum des Taggingvokabulars immer sublinear ist, allerdings ist die Wachstumsrate bei freier Tagvergabe größer als bei der Nutzung von Tagvorschlägen, was seine These bestätigte, dass die Verteilung bei freier Tagvergabe näher an der Wortverteilung in Texten ist.

Desweiteren konnte er mithilfe von semantischen Netzen in seinem Modell seine Annahme, dass die semantische Breite eines Tags proportional zum Wachstum ist, belegen.

Die Präsentationsfolien finden Sie hier: pdf.

Zuletzt folgte der Vortrag „Quo Kadis nutzergenerierte Metadaten“ von Johannes Hercher vom Hasso-Plattner-Institut für Softwaresystemtechnik.

Hercher und seine Kollegen untersuchten die Frage, ob nutzergenerierte Metadaten für Bibliotheken und Archive von Bedeutung sind. Hierzu befragten sie per 51 Parteien, wobei 20 Parteien für nur Primärsammlungen verantwortlich sind, währen 31 auch für Sekundärsammlungen verantwortlich sind.

Sie kamen zu dem Schluss, dass nutzergenerierte Metadaten insbesondere für Sekundärbestände von hoher Relevanz sind, allerdings sind sie in Bibliotheken und Archiven noch nicht sehr verbreitet. Ein weiteres Problem ist die sehr geringe Nutzungsfrequenz.

Die Präsentationsfolien finden Sie hier: pdf.