Sobald Sie die neue Collection benannt haben, sollten Sie den Indexing-Prozess starten, d.h. mit Excite-Worten:
Sie legen die CollectionContents fest.
Beim Indexing definieren Sie, welches Haupt-Verzeichnis durchsucht werden soll, und im Weiteren, welche Dokument-Typen dieses Haupt-Verzeichnisses durchsucht werden dürfen.

Zuerst geben Sie das Haupt-Verzeichnis selbst an (unter dem Punkt "Index Using Rules"), welches jene Dokumente enthält, die in die Suche aufgenommen werden sollen, z.B. "faq".
Der Pfad, den Sie eingeben muss folgendes Format haben:

/u/web/<UserID>/<Haupt-Verzeichnis-Name>
z.B. /u/web/<UserID>/faq

Dann konfigurieren Sie den IndexFilter. Hierbei können Sie eine der beiden folgenden Methoden verwenden:

  1. Methode 1: Index Using Explizit List:
    Dieser Begriff wird dafür verwendet, dass Sie beim IndexFilter die Dokument-Typen angeben, die durchsucht werden sollen: HTML und oder TEXT. Wenn Sie HMTL-Files aktivieren, werden alle sich im Haupt-Verzeichnis befindenden HTML-Seiten durchsucht und/oder Sie aktivieren (zusätzlich/anstatt) Text-Files, damit TEXT-Dokumente durchsucht werden.
    Achten Sie darauf, keine Dokumente freizugeben, die Informationen enthalten, die Sie nicht veröffentlichen wollen!
  2. Methode 2: Index Using Rules:
    Im dritten Feld des IndexFilters können sie ein sogenanntes "Custom Filter File" angeben, in welchem Sie festlegen, welche Dokumente Ihres Haupt-Verzeichnisses durchsucht und welche NICHT durchsucht werden sollen.

 

Das Custom Filter File

Im Custom Filter File legen Sie fest, welche Dokumente Ihres Haupt-Verzeichnisses durchsucht und welche NICHT durchsucht werden sollen. Normalerweise bezieht Excite nur HTML- und/oder TEXT-Dateien in seine Volltextsuche ein. Das Custom Filter File gibt Ihnen die Möglichkeit, Excite mitzuteilen, dass es Dokumente anderen Typs entweder als HTML-Dateien oder als TEXT-Dateien interpretieren soll (oder nicht!) und diese Dokumente ebenfalls durchsuchen soll (oder auch nicht!).

Sobald das Excite-Search-Programm Ihr Custom Filter File kennt, wird bei jedem Aufruf Ihrer "Suchmaschine" für jedes Dokument im Haupt-Verzeichnis nachgesehen, ob dafür spezielle Regeln im Custom Filter File festgelegt wurden, d.h. es wird nachgesehen, ob das Dokument durchsucht werden soll oder nicht.

 

Erstellen des Custom Filter File

Sie geben in dieser Datei eine Liste von Dateinamen und/oder (Unter-)Verzeichnisnamen an - unter Einhaltung einer bestimmten Syntax. Alle Dateien, die hier aufgelistet werden, werden in die "Suchmaschine" einbezogen (oder nicht!), also durchsucht (oder nicht!) und jedes aufgeführte Verzeichnis wird ebenfalls aufgenommen, mitsamt allen darin enthaltenen Dokumenten (oder auch nicht!).

Die Syntax, in der Sie die Regeln festlegen, besteht aus drei Spalten:

  • die "Lage" des Verzeichnisses oder der Datei innerhalb des Speicherbereichs: z.B. REGEXP / DIR / SUBDIR / FILE

  • der Verzeichnis- oder Dateiname selbst

  • das Format, als welches Excite die Dateien interpretieren soll:
    HTML als HTML-Dateien
    TEXT als TEXT-Dateien oder
    nichts für nicht aufnehmen und nicht durchsuchen !

Es gibt zwei verschiedene Kategorien von Ausdrücken, mit denen die "Lage" der Verzeichnisse oder Dateien beschrieben werden kann: Regular Expressions und Unix-Style Globbing Expressions.

Regular Expressions:
Ausführliche Informationen zu den "Regular Expressions" finden Sie auf der Unix "man page".
Wenn Sie eine "Regular Expression" benützen wollen, verwenden Sie den Ausdruck "regexp" in der ersten Spalte der Syntax.

Unix-Style Globbing Expressions:
Eine Alternative zu den "Regular Expressions" sind die "Unix-Style Globbing Expressions", die recht einfach zu verwenden sind. Excite kennt drei verschiedene Typen:

  • dir : das Verzeichnis liegt im root

  • subdir : das Verzeichnis ist ein Unterverzeichnis

  • file : Dateiname

 

Ein einfaches Custom Filter File:

# Keine ".pl" Dateien in Verzeichnissen mit dem Namen "bin" aufnehmen.

regexp \/bin\/.*\.pl$

# Alle Dateien und Unterverzeichnisse im Verzeichnis
# /usr/local/www/html/text-files
# als TEXT-Dateien interpretieren.
# Die naechten vier Zeilen sind aequivalent:

dir usr/local/www/html/text-files TEXT
dir usr/local/www/html/text-files/ TEXT
dir /usr/local/www/html/text-files TEXT
dir /usr/local/www/html/text-files/ TEXT


# Keine Daten des Unterverzeichnisses, welches "old" im Namen hat,
# aufnehmen (dritte Spalte leer => ignorieren).
# Die naechten vier Zeilen sind wieder aequivalent:

subdir *old*
subdir *old*/
subdir /*old*
subdir /*old*/

# Alle Dateien mit der Endung ".html.C" als TEXT-Dateien interpretieren
# und somit auch durchsuchen.
# Die beiden Zeilen sind aequivalent:

file *.html.C TEXT
file /*.html.C TEXT

Nach der Erstellung des Custom Filter Files speichern Sie dieses in Ihrem Speicherbereich als .txt-Datei ab, entfernen die Endung .txt und tragen dann im dritten Feld des IndexFilters den Pfad zu der Datei ein:

/u/web/<UserID>/<Pfad>/<Datei-Name>

Nun drücken Sie unter "Possible Actions" auf den SAVE-Button.