Information Retrieval im Social Web

Die Session 7 am 23.03.2012 befasste sich mit dem Thema des „Information Retrieval im Social Web“.

Der erste Vortrag „Social ranking as a feedback mechanism to raise contributions in course wikis“ von Athanasios Mazarakis vom FZI Forschungszentrum Informatik stellte einen Teil seiner Dissertation dar und beschäftigte sich mit der Frage: Wie kann man es schaffen, dass man Beteiligungen in Wikis anregt? Dies wurde am Beispiel eines Vorlesungswikis der Vorlesung „Grundzüge der Informationswirtschaft“ erläutert.

Die Motivation für die Beteiligung sollte  die dauerhafte Beschäftigung mit Vorlesungsinhalten sein. Die Vorteile im Hochschulbereich sind das Mehr-Augen-Prinzip, die Möglichkeit der unmittelbaren Rückmeldung für den Dozenten sowie die Tatsache, dass konträre Positionen deutlich werden. Allerdings sind Wikis keine Selbstläufer, wie Herr Mazarakis betonte. Wichtig sei ein gemeinsam gesetztes Ziel, das zur Teilnahme motiviert. Die Frage ist: Können Feedbackmechanismen helfen? Im Folgenden wurden vier verschiedene Feedbackmechanismen vorgestellt. Die Gratitude, ein einfaches „Dankeschön“ für die Teilnahme, ist einer von ihnen. Der Historical Reminder dagegen zeigt die Anzahl der eigenen Bearbeitungen im Wiki an. Das Relative Ranking stellt den Nutzer in Vergleich zu den restlichen Beteiligten (z.B. Top 8% aller Beitragenden im Wiki). Das Social Ranking geht noch einen Schritt weiter. Neben der Indexseite wird der eigene Zwischenstand angezeigt. Sich selbst sieht man dabei in der Mitte und Teilnehmer mit ähnlichen vielen Beiträgen darüber beziehungsweise darunter. Dies soll der sozialen Identifizierung dienen. Anschließend erläuterte Herr Mazarakis die Rahmenbedingungen der Untersuchung. Als Anreiz zur Teilnahme am Wiki sollte es einen Punktebonus zur Klausur geben. Es gab zwei Studien: im Wintersemester 2009/2010 und im Wintersemester 2010/2011. Bei der Registrierung der Studierenden erfolgte eine dauerhafte Zuweisung zu einer der vier Feedbackmechanismen. Zusätzlich gab es eine Kontrollgruppe. In der zweiten Studie gab es allerdings nur zwei Versuchsbedingungen: Kontrollgruppe vs. Soziales Ranking.

Zwar war die Beteiligung in der ersten Studie größer, allerdings wurden keine signifikanten Unterschiede verzeichnet. Festzustellen war, dass beim Sozialen Ranking signifikant mehr Beiträge als bei der Kontrollgruppe entstanden sind und es zudem den effektivsten Feedbackmechanismus darstellt. Insgesamt sind aber alle Feedbackmechanismen als effektiv anzusehen.

Die Präsentationsfolien finden Sie hier: pdf.

 

Den zweiten Vortrag „Social Media Monitoring – Information Retrieval in unstrukturierten Daten mit der Software web2monitor“ hielt Evrim Sen von der infospeed GmbH. Mit den Worten „Wir sind eine Spezies untereinander“ stellte er kurz das Unternehmen vor und lieferte eine Definition von Social Media Monitoring. Darunter versteht man die Identifikation, Beobachtung und Analyse von User Generated Content im Web. Anschließend folgte eine Problembeschreibung, wie man sie als Nutzer beispielsweise bei Google hat. Unter Umständen werden Millionen von Treffern angezeigt, doch wie kann man diese Daten auswerten? Zur Erläuterung stellte Herr Sen ein Modell zur Erfassung des Webs vor. Zuerst einmal sei das Web in Schichten aufzuteilen, zum Beispiel in Social Networks, Foren und Presseportale. Bei der Identifikation gilt es herauszufinden, ob zu einem bestimmten Thema Blogs, Foren usw. existieren. Danach erfolgt die Erstellung einer White List „Master Sheet“, aus der sich beispielsweise erkennen lässt, welches die Top 10 Foren sind. Anschließend werden die Quellen anhand der Entitäten (Autor, Datum, Posting) analysiert. Hier zeigt sich das große Problem: Foren haben alle verschiedene Konzepte, wie diese Entitäten dargestellt werden und dies müssen Suchmaschinen erkennen. Bei der Indexierung muss der Parser Strukturen erkennen, um sie zu identifizieren; diese strukturierten Daten können nun ausgewertet werden.

Während allgemeine Suchmaschinen auf das gesamte Web zugreifen und einen Volltext-Index bieten, durchsucht w2m mit dem Focused Crawler Social Media Quellen und bietet einen strukturierten Index. Durch die Identifikation, das regelmäßige Crawling und den Einsatz von Expertensuche verringert sich die Anzahl der Treffer auf die der wirklich relevanten, wie Herr Sen an einem schematischen Beispiel eines ETL-Prozesses zeigte. Abschließend erklärte er noch kurz und bündig die Arbeitsweise des w2m.

Die Präsentationsfolien finden Sie hier: pdf.

 

Der dritte Vortrag „Relevance Assessment Tool. Ein Werkzeug zum Design von Retrievaltests sowie zur weitgehend automatisierten Erfassung, Aufbereitung und Auswertung von Daten“ wurde von Herrn Dirk Lewandowski und Herrn Sebastian Sünkler von der Hochschule für Angewandte Wissenschaften Hamburg gehalten. Herr Lewandowski begann mit der Problemstellung der Studien zur Retrievaleffektivität von Suchmaschinen. Beim Aufbau von solchen Studien wird auf Methoden der klassischen IR-Evaluierung zurückgegriffen. So wird eine Menge von Suchaufgaben gebildet und diese an Suchmaschinen geschickt usw. Wichtig hierbei sind die Entscheidungen. Die Auswahl von Suchmaschinen, von Suchanfragen und die Anzahl der Ergebnisse pro Suchanfrage und Suchmaschine sowie die Anzahl der Juroren müssen festgelegt werden. Über die Jahre hinweg wurden zahlreiche Studien mit den zentralen Problemen Testdesign, Datenerhebung und Skalierung der Studien durchgeführt. Das Testdesign war meist manuell und dadurch unflexibel. Zudem gab es unterschiedliche Methoden der Datenerhebung und einen geringen Testumfang. Daher begann man mit der Konzeption des Relevance Assessment Tool. Die Idee war eine Software, die flexibles Testdesign, eine problemlose Datenerhebung und skalierbare Tests erlaubt. Das Testdesign erfolgte nach dem Baukastenprinzip und die Datenerhebung wurde insofern vereinfacht, als dass es automatisiert über Suchmaschinen-Scraper erfolgt. Der Aufwand für die Erstellung und Durchführung der Tests wurde so erheblich reduziert. Dadurch wurden unter anderem weit umfangreichere Tests und Suchmaschinentests als Bachelor-/Masterarbeiten möglich.

Anschließend übernahm Herr Sünkler die Vorstellung der vier Komponenten des Tools. Das Administrationsinterface befasst sich mit der Verwaltung und Gestaltung von Studien. Die Funktion der Suchmaschinenscraper ist unter anderem das automatisierte Anfragen an Suchmaschinen basierend auf den Keywords zu den Suchaufgaben. Im Userinterface erfolgt die Bewertung von Suchergebnissen. Die vierte Komponente stellt das Auswertungsmodul dar, das allerdings noch in der Entwicklung steckt.

Herr Lewandowski schloss mit dem Fazit, dass die Weiterentwicklung des Relevance Assessment Tool vorangetrieben werden wird und sich mit dem RAT Suchmaschinentests einfach und flexibel durchführen lassen.

Die Präsentationsfolien finden Sie hier: pdf.

 

Alles in allem eine lehrreiche Übersicht über neue Möglichkeiten (Feedbackmechanismen, web2monitor, RAT), relevante Informationen zu finden und selbst am Social Web mitzuwirken.

Share

Ein Gedanke zu „Information Retrieval im Social Web

  1. Eine vollständige Version meines Vortrags findet sich auch auf Slideshare: http://www.slideshare.net/warfair/prsentation-auf-der-dgi-konferenz-am-23-mrz-2012-in-dsseldorf - dort ist auch alles einsehbar. In der PDF-Version sind leider die Animationen dargestellt, was manche Ergebnisse ausblendet.

Kommentare sind geschlossen.