Date post: | 29-Nov-2014 |
Category: |
Technology |
Upload: | olivier-dobberkau |
View: | 3,696 times |
Download: | 2 times |
d dkdevelopmentkommunikationdesign
Das�Solr-System
Suche nicht nur auf Planet TYPO3
Ingo Renner, TYPO3 Core DeveloperOlivier Dobberkau, Geschäftsführer dkd
Ingo�Renner
TYPO3 Core Developer
Release Manager TYPO3 4.2
TYPO3 Google Summer of Code Admin
Software Architect, Senior Developerdkd Internet Service GmbH
- Caution -TYPO3-Evangelist
Olivier�Dobberkau
aka TYPO3 Reverend Neverend
Geschäftsführerdkd Internet Service GmbH
Research and Development @ dkd
Kandidat für das BCC der TYPO3 Association
- Caution -TYPO3-Evangelist
Apache�Solr
Open Source Enterprise Search Server
Apache�Solr
Apache Software Foundation
Enterprise Search Server
Basiert auf Lucene Index
Viele starke Funktionen
CNet, Net!ix, ilocal.nl, Zappos.com
Solr�Key-Features
Synonyme
Stopwords
Gewichtung
Facettierung
Bezahlte Ergebnisse
Fehlerkorrektur
Geschwindigkeit
Wie�funktioniert‘s
REST ähnliches Interface
Indexieren per POST
Suchen per GET
Ergebnisse als XML, JSON, PHP
Bibliotheken
SolrPhpClient
php5_solr PECL Package
Solr�Index
Solr Index
Document
Document
Document
Document
Document
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Field
Heimatplanet�TYPO3
Heimatplanet�TYPO3
Suche�B.S.
(Before Solr)
Indexed�Search
Indexed Search seit TYPO3 Version 3.x an Board
Frontend Indexierung beim Seitenaufruf
Suche in Seiten und einigen Dateien möglich
Berücksichtigt Sprachen und FE-Gruppen
Indexed�Search
Index in der Datenbank
Problematisches Verhalten bei großen Webseiten
Langsam
Keine Sortierung
un!exible Templates
OK für kleinere Websites
Suche�im�Zeichen�der�Sonne.
Apache Solr für TYPO3
Geschichte
Prototyp im Sommer 2008
Kick-off Februar 2009
Erstes Ziel „Acts like Indexed Search“
Early Access Program (EAP)
T3CON September 2009 Version 1.0
Aktuelle Version 1.3 (public Version)
Komponenten
Indexierung
Suche
Flexible Ergebnisausgabe
Analyse und Statistiken
Administration
Herausforderungen
Seiten Rendering in TYPO3
Berücksichtigung von Zugriffsrechten
Dateiindexierung
Einfaches Setup für Nicht-Java Leute
Integration und Zugriff auf Solr
Lösungen
Record Monitor und Indexing Queue
Eigenes Solr Query Parser Plugin
Integration von Apache Tika
Voll automatisiertes bash Install Script
SolrPhpClient und JSON Response Writer
Features
Facettierte Suche
Umfangreiche Dateiindexierung
Multi-language Support
Fehlerkorrektur / Did you mean
Suchwort Highlighting
Autocomplete / Suggestions
Berücksichtigung von Zugriffsrechten
Galileo�Galilei
Dreht sich die Sonne um die Erde?
Mond
Der Mond umkreist die Erde.Entfernung 385.000 Kilometer von der Erde.Mondlandung 21 Juli 1969.Enorme Wirkung auf Menschen und Werwölfe.
Mond
Tabellen
TYPO3�Tabellen
TYPO3 besteht nicht nur aus Seiten
News, FAQ, Events, ...
Gut: Eigene Indexer Erweiterung für FE
Besser: Index Queue
Record Monitor
Garbage Collection
Keine Eigenentwicklung nötig
Mars
Der rote Planet.Entfernung zur Sonne 228.000.000 Kilometer.Path"nder sendet erste Bilder am 4. Juli 1997.Leckerer Schokoladen-Riegel.Kriegsgott im antiken Italien.
Mars
Tabellen
Daten-banken
Datenbanken
Anwendungsfall: Daten aus Datenbanken
Datenbanken nicht für Suche optimiert
Apache Solr prädestiniert für Suche
Data Import Handler (DIH)
JDBC
Dateilisten
URL zum Beispiel für RSS Feeds, XML
Datenbanken
Inkrementeller Import möglich
Transformer vorhanden
Regex
HTML
Processoren
XPATH
Saturn
Geil ist Geil.Abstand von Erde 1.430.000.000 Kilometer.96% der Atmosphäre aus Wasserstoff.Saturn-Ringe ø 1.000.000 Kilometer.1610 entdeckte Galilei die Ringe und deutete diese als HenkelGott des Ackerbaus.
Saturn
CSV
Tabellen
Daten-banken
CSV�Daten
Wenn alle Stricke reißen: CSV
CSV Update Request Handler
Einfache Kon"guration über URL Parameter
Indexierung per POST
Entfernte oder Lokale CSV Dateien
Keine Transformation oder Boosting möglich
Gut für Prototyping!
Venus
Entfernung zur Sonne 108.000.000 Kilometer.Hellstes Objekt am Himmel nach dem Mond.Göttin der Liebe und des erotischen Verlangens.437°C im Schatten.
Venus
Websites
CSV
Tabellen
Daten-banken
Andere�Websites
Jeder hat da sein kleines dunkles Geheimnis
Nicht alle Websites mit CMS Systemen gebaut
Kein Zugriff auf Daten möglich
Nutch Crawler
Crawlt Website ab
Indexiert in eigenen Index
Export zu Apache Solr mittels Mapping Funktion
Jupiter
Höchste Gottheit der römischen Mythologie.Entfernung 778.000.000 Kilometer zur Sonne.Tag dauert nur 9 Stunden und 55 Minuten.ø Temperatur -108 C.Heimatplanet von Fred.
Jupiter
Websites
CSV
Dateien
Tabellen
Daten-banken
Dateien
Word und andere Grausamkeiten
Volltext und unstrukturierte Daten
Meta Informationen in Bildern und Filmen
Apache Tika - Daten Extraktions Toolkit
Meta Daten
Text
Spracherkennung
Dateien
Tika ist in Apache Solr als eigener Handler vorhanden
Erkennt über 1200 Dateitypen
Kann über 600 davon lesen
Of"ce Formate inkl. OOXML, ODF und PDF
Audio, Bilder und Video
E-Mails im mbox Format
d dkdesignkommunikationdevelopment
sagt�danke.