Solr - Lizenzkostenfreie Enterprise Search

 

solr-modell

Solr Funktionen

Heterogene IT-Umgebungen und der Zwang zu Einsparungen machen es schwer, ein geeignetes und dennoch erschwingliches Suchsystem zu finden. Als Open Source Experten setzen wir auf Solr als Enterprise Search.

  • Volltext-Suche
  • Ranking und Relevanz
  • Faceted Search => vielfältige Kategorisierung
  • Stammworterkennung/Rechtstrunkierung - d.h. gesucht wird nach Almhütte, Almkäse aber auch nach Bergalm
  • Filterung mit regulären Ausdrücken, phonetische Filter - d.h. gesucht wird nach ähnlich klingende Wörter
  • "Meinten Sie...?" => Rechtschreibvorschläge
  • Unterstützung von Synonymen, Stopp-Wortlisten
  • Auto-Vervollständigung
  • Hervorheben des Suchbegriffs in Ergebnissen
  • Verfeinerung des Suchergebnisses durch Filter, Sortierung
  • Vorschläge für ähnliche Treffer
  • Indizierung von Inhalten in Dokumenten (Word, PDF, ... mit Tika)
  • Schnell, schneller, am schnellsten bei vielen Zugriffen (Caching)
  • Skalierbar durch verteilte Indizes auf mehreren Rechnern
  • Gute Performance, ausfallsicher
  • Flexibel erweiterbar durch Plugins
  • Schnittstellen zur Eingabe/Ausgabe von Daten
  • Administrationsoberfläche
  • Monitoring, Logging von Suchanfragen
  • Konfiguration über XML-Dateien
  • Multiple Daten-Schemata (numerisch, Datum, dynamisch, eindeutiger Schlüssel (UUID)
  • Daten-Import Handler (CSV, URL, Dateien, ...)

 

Solr ist die weltweit verbreiteste Open Source Enterprise Search

 

solr

Solr ist ein Enterprise Search Server auf der Basis der Lucene Java-Bibliothek und kann somit unabhängig vom Portal betrieben werden. Dies führt zu einer besseren Performance, Skalierbarkeit, Volltextindexierung, Lastverteilung und Wartbarkeit von Solr.

 

Ohne Volltextindizierung geht es nicht

Von Volltextindizierung oder Volltextindexierung spricht man bei einigen großen und leistungsfähigen Suchmaschinen, die den gesamten textlichen Inhalt auf einer Webseite indizieren. Diese Indizierung wird vollautomatisch durch sogenannte Robots bzw. Spider vorgenommen. Jedes neue Dokument, welches von Robots/Spidern gefunden wird, wird innerhalb der Datenbank der jeweiligen Suchmaschine verschlagwortet. Wie diese Verschlagwortung im einzelnen geschieht, ist von Suchmaschine zu Suchmaschine unterschiedlich bzw. eine Einstellungssache. Manche indizieren jedes Wort, andere beschränken sich auf den Titel oder eine Anzahl an Absätzen des jeweiligen Dokumentes. Dabei werden die gesammelten Daten meist nicht als Kopie gespeichert, denn das würde einen sehr hohen Speicheraufwand bedeuten. Solr arbeitet daher mit einer Index-Tabelle, die sich in Form von Ja und Nein strukturiert. Dadurch lässt sich die Speichergröße der Dokumente erheblich verringern, wodurch eine höhere Suchgeschwindigkeit gewährleistet werden kann. Die einzelnen Volltext-Suchmaschinen unterscheiden sich in ihrer Indizierungsbreite und –tiefe.

 

Vorteile von Solr Enterprise Search Volltextsuche

 

Indexierung

Apache Solr ist ein Volltextsuchserver, basierend auf Apache Lucene. Alle Datenquellen und Dokumente werden vollindiziert.

Individualisierung

Flexible Anpassung der Suchalgorithmen und umfangreiche Erweiterung mittels Plug-ins ist möglich.

Transparenz

Offene APIs, Protokolle, Formate und Suchalgorithmen bieten Tranparenz.

Portabilität

Lucene/Solr läuft auf allen Plattform-Systemen, welche Java unterstützen; die erstellten Indices sind unabhängig vom Plattform-System und können somit ohne Probleme zwischen verschiedenen Plattformen ohne Anpassungen portiert werden.

Sicherheit

Solr wird bereits in Unternehmen weltweit eingesetzt, darunter Branchengrößen wie MySpace, AOL, Nike, LinkedIn oder Monster.com.

Performance von Solr

Schnelle Antwortzeiten (intern oft unter 50 ms), da keine Datenbankzugriffe nötig sind; dies verbessert die Geschwindigkeit der Suche und gleichzeitig das Ranking in Suchmaschinen.

Skalierbarkeit von Solr

Auch bei wachsenden Datenbeständen sind keine überproportionalen Investitionen in Hardware nötig - dies schont Ihre IT-Budgets; große Anwender können von den Replikationsmöglichkeiten und Load-Balancer-Systemen von Solr profitieren.

Technik von Solr

Zu den Schnittstellen von Solr gehört beispielsweise eine HTTP- API, mit der Dokumente hinzugefügt, geändert oder gelöscht werden können.

Weitere Funktionen:

  • XML/HTTP und JSON APIs
  • Hit-Highlighting
  • facettierte Suche
  • Caching
  • Replikation sowie eine Web-Administrations-Oberfläche

Enterprise-Search-SOLR

 

Warum Solr statt Lucene

  • Die Jakarta Lucene ist eine leistungsstarke, vollfunktionsfähige Text-Suchengine, geschrieben in Java. Sie ist eine Technologie, die für fast jede mögliche Anwendung verwendbar ist, die Ganztextsuche erfordert, besonders Cross-Plattform.

Lucene ist allerdings keine fertige Suchmaschine, sondern stellt Klassen und Funktionen zur Verfügung, um für beliebige Projekte eine eigene Suchmaschine zu bauen.

  • Lucene unterstützt standardmäßig reichhaltige Suchoptionen.
  • Es besteht auch die Möglichkeit, eine eigene Suchsyntax zu entwickeln.

Solr ist ein Enterprise Search Server auf der Basis der Lucene Java-Bibliothek und kann somit unabhängig vom Portal betrieben werden.

Unterschied Solr - Lucene

  • Lucene ist eine Bibliothek, die Funktionalitäten für die Suche bereitstellt
  • Lucene kann auch als Standalone-Server betrieben werden
  • Solr ist eine Suchmaschine, die Lucene als Suchbibliothek verwendet
  • Solr stellt einfachere Konfigurationsmöglichkeiten und umfangreichere Erweiterungen zur Verfügung

 

Wir analysieren mit Ihnen Ihre Anforderungen an eine Enterprise Search und realisieren für Sie die perfekte Lösung.