Ich will hier auch einmal die Volltextsuchmaschine regain weiterempfehlen, die ich auf meinem Windows Home Server im Einsatz habe. Dies ist die Webseite des Projekts, welches als Open Source lizensiert ist. Mithilfe dieses Programms kann man seine ganzen textbasierenden Dokumente, die auf dem (Intranet-) Server in den Netzwerkfreigaben liegen, über den Webbrowser durchsuchen. Das sieht so aus:
Das Durchsuchen passiert sehr schnell. Die Suchmaschine benutzt für die Java Servlets den Apache Tomcat-Server. Das Indexieren geschieht über eine Batch-Datei, in der man den Crawler aufruft. Bei mir musste ich dazu explizit den Java Heap-Speicher hochsetzen, damit der Index-Vorgang bis zum Ende durchlief.
Natürlich muss man aufpassen, wo man den Startpunkt im Verzeichnis für den Indexvorgang ansetzt, damit nicht das Berechtigungen-Konzept der Netzwerkfreigaben unterlaufen wird (in Bezug auf Lese-Rechte) - denn per default ist das Zugriffsrechte-Management, das regain anbietet, nicht konfiguriert. In einer Firma würde ich mich aber nicht darauf verlassen das das immer funktioniert, sondern dann besser so konfigurieren das nur die Verzeichnisse indexiert werden, die eh jeder lesen darf.