Ausgabe: 6.11.2007
Abgabe: 13.11.2007, 14 Uhr
Für die zweite Aufgabe werden Sie eine Websuche in Ihrer Website einbauen. Dafür nutzen Sie das Tool "Lucene". Sie können damit Ihre Website indexieren lassen: HTML Dokumente, XML Daten und Ihre Bilder. Danach führen Sie selber ein paar eigene Abfragen auf Ihrer Website durch und bekommen hoffentlich relevante Ergebnisse.
Um Ihre Website indexieren zu lassen, brauchen Sie ein Indexing Tool. Dafür geeignet ist Lucene von Apache. Sie können Lucene Java von http://www.apache.org/dyn/closer.cgi/lucene/java/ herunterladen. Momentan ist Version 2.2.0 verfügbar.
Damit Sie einen nützlichen Index bekommen, sollten Sie aufpassen, dass genügend Text auf der Website zu finden ist (am besten wäre es, wenn Sie einige Artikeln aus Wikipedia kopieren). Sie sollten sich auch Gedanken machen, wie Sie Ihren Index verbessern können, indem Sie z.B. HTML Markup und Metadata passend verwenden. Sie müssen auch berücksichtigen, dass Ihre XML Daten und Ihre Bilder irgendwie durchsucht werden können.
Deswegen sollen Sie die Code für die Indexierung in Lucene entsprechend erweitern/ändern. Als Ergebnis sollen sie dann drei Lucene Indexes erhalten, in dem man durch Eingabe eines Suchtextes Ihre HTML Daten, XML Daten (die drei Adressen) und (fünf) Bilder finden kann.Sie können die Demo Web Anwendung von Lucene so erweitern, dass über Tomcat eine Website mit Suchfunktion realisiert wird. Diese Suche soll dann folgende drei Optionen anbieten: HTML, XML, Bilder.
Die Suchfunktion soll auch durch HTML Markup und/oder Metadata die Suchergebnisse besser ranken können.
Durch Texteingabe sollen Ergebnisse gerankt zurückgeliefert werden. Dieses Ranking sollte zudem auf der Ergebnisseite beschrieben werden: Wenn beispielsweise HTML Markup benutzt wird, und man Text in <TITLE> Elementen besser rankt als Text in <P> Elementen, sollte diese Vorgehensweise auch im Ergebnis angegeben werden.
Die Website kann jetzt durchsucht werden. In Lucene, kann man 6
weitere Typen von Abfragen unterstützen (neben der
Standardtextsuche): Field, Wildcard, Fuzzy, Proximity, Range,
Boolean.
Formulieren Sie für jeden der Abfragetypen eine Beispielabfrage. Wenden Sie die Beispielanfragen auf Ihrer Website an (d.h. am besten suchen Sie nach Inhalten, die auf Ihrer Website zu finden sind) und merken Sie sich die Ergebnisse. Mindestens eine Abfrage soll Ihre XML Daten durchsuchen, und mindestens eine Abfrage soll Ihre Bilder durchsuchen.
Abgabe per E-Mail:
Schicken
Sie an Ihren Dozenten
die folgenden drei bzw. vier Dateien:
Als
ZIP Ihre Lucene Demo Java Dateien (modifiziert für die Aufgabe, eine
bessere HTML Suche, eine XML Suche und eine Bildsuche zu realisieren)
Als WAR Ihre Lucene Web Anwendung, dass Sie für die Website Suche geändert haben.
Als WAR Ihre Website, falls Sie hier etwas geändert haben (z.B. mehr Inhalt, mehr Markup und/oder Metadata)
Als
Text, Ihre sieben Musterfragen und der jeweils erste Treffer von der
Suche. Erklären Sie die Antworte (z.B. weil Text in HTML TITLE war,
oder wegen IMG ALT usw.)
Der Betreff der E-Mail sollte wie folgt aussehen: "[NBI] Blatt 2 - Gruppe X".
Zum Bestehen des Übungsblattes müssen:
In der Präsentation können Sie
erläutern, wie Sie Lucene erweitert/geändert haben, um die HTML Suche
zu verbessern, und um die XML- und Bildersuche zu ermöglichen. Sie
können ggf. darlegen, wie Sie Ihre Website geändert haben, damit die
Suche besser funktioniert. Ihre Abfragen können Sie live mit der Web
Anwendung demonstrieren sowie die Antworten erklären.