Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Einführung in die Installationeigener Suchmaschinen-Software
mit YaCy
SuMa-eV Praxis Workshop: YaCy
Features Demo+
hier zum Nachlesen im Anschlusszum mitmachen
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
•Anwendungsbereiche
•Mögliche Datenquellen: unterstütze Protokolle
•Integrationsmöglichkeiten des Suchinterfaces
Suchmaschinen-Dezentralisierung:Peer-to-Peer Websuche
Software fürSuchportal im Internet
Software fürSuchmaschine im Intranet
HTTP, HTTPS, FTPWeb-StandardsFilesystem, SMB-Shares, Indexdateien (Dublin Core / XML)FilesystemImport aus Wikimedia-Dumps, Retrieval aus DatenbankenDatenbankenRSS-Feed Client, OAI-PMH ImportHarvesting
Opensearch (Suchergebnisse per RSS), JSON, AJAX-ToolsAPIsSuch-Widget, fertige Code-Snippets für eingebettete SucheTools
Zielgruppe und Anwendungen
jede Datenquelle
anzapfen
alle Zielgruppen
für Entwickler interessant
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
geoclub.de
linuxtag.org
linux-club.de
fsfe.org
Beispiel: Suchportale mit YaCy
metager + metager2
YaCy ist schnell!
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
OAI-PMH Import
Dublin Core Metadaten
(web) Suchindex
2000 Open Access Repositories
Beispiel: Open Access Repository Harvesting
Datenquellen zu OAI Servern:http://roar.eprints.org
http://www.openarchives.org/Register/ListFriends
Anwendungen:• dezentrale OAI Repository Suche• Suche für Virtuelle Fachbibliotheken
OA-Suche; ca. 8.800.000 eBooks in demo-Suche auf http://oai.yacy.net
Anleitung um diesen Dienst selber zu erstellen:
http://yacy.net/oai.html
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
SRU
API für Suchergebnis als RSS bzw. Opensearch, auch JSON
Navigatoren:Domänen, Autoren
G**gle-ähnliche Darstellung der Suchergebnisse
Beispiel: Suchseite
,besser‘
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
•Verschiedenste Datenquellen einfach nutzen
•Integrierte Parser für Dateiformate
•Automatische Steuerung und Index-Administration
HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, FlashWeb-StandardsPDF, PS, Word, Excel, Visio, Powerpoint, OpenOffice, RTF, csvOfficegzip, zip, tar, rar, bzip2, 7zipArchivetorrent, images(EXIF)andere
automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werdenSchedulerIndex-Erzeugung und Linkstrukturen visualisieren und editierenMonitoring
Suchappliance: Funktionsreichtum, einfach zu bedienen
Crawler
Harvester
Datenbankenkomfortabel
reichhaltig
produktions-reif
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
YaCy Application: retrieval, indexing, storage and search components overview
Se
arc
h
Inte
rfac
eD
atab
aseIn
de
xin
gCra
wle
r
YaCy Peer-to-Peer Network
Text Analysis
words
Double LinkCheck
StopwordsCheck
ReverseWord Index
@
URLCrawl Stack
links
URL ReferencesWordYaCy has an
integrated NoSQL Database. The
database stores a Reverse Word
Index, Metadata and the source
documents.
Depth = 0 Start-URL
Depth = 1
Depth = 2
Funktionsweise: Crawler und Indexierer
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
The YaCy Network: a distributed hash table
DHT-Store DHT-Read
This peer (as an example) fetches
some Web pages and distributes index
fragments to other peers.
YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and url-hashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance.
A peer which searches information can access directly peers holding the
corresponding index
Peer
Peer
Peer
Peer
PeerPeer
Peer
Peer
Funktionsweise: Peer-to-Peer Netzwerk
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type='text/xsl' href='/yacysearch.xsl' version='1.0'?><rss version="2.0" xmlns:yacy="http://www.yacy.net/" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"<!-- stark verkürztes Beispiel! --><item> <title>Friend of a Friend (FOAF) project</title> <link>http://www.foaf-project.org/</link> <pubDate>Fri, 23 May 2008 02:00:00 +0200</pubDate></item><item> <title>FOAF - Wikipedia</title> <link>http://de.wikipedia.org/wiki/FOAF</link> <pubDate>Tue, 08 Jan 2008 01:00:00 +0100</pubDate></item><item> <link>http://microformats.org/wiki/xfn-to-foaf</link> <pubDate>Fri, 09 May 2008 02:00:00 +0200</pubDate></item></rss>
Für Entwickler: Suchergebnisse per RSS oder JSON
Die Dublin-Core Datensätze passen perfekt auf das RSS Format. Die Suchergebnisausgabe von YaCy ist kompatibel mit dem Opensearch Standard
Als leichtgewichtige Alternative steht JSON als Exportformat für die Einbindung mit AJAX zur Verfügung.
Als Erweiterung von Opensearch werden Navigatoren ausgeliefert.
einfach integrierbar
Info über Opensearch Standard:http://www.opensearch.orgInfo über SRU Standard für Queries:http://www.loc.gov/standards/sru/specs/search-retrieve.html
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
<?xml version="1.0" encoding="utf-8"?><!-- YaCy surrogate using dublin core notion --><surrogates xmlns:dc="http://purl.org/dc/elements/1.1/">
<record> <dc:title><![CDATA[Alan Smithee]]></dc:title> <dc:identifier>http://de.wikipedia.org/wiki/Alan_Smithee</dc:identifier> <dc:description><![CDATA[Der als Filmregisseur oft genannte '''Alan Smithee''' ist ein Anagramm von „The Alias Men“.]]></dc:description> <dc:language>de</dc:language> <dc:date>2009-04-14T00:00:00Z</dc:date> <!-- date is in ISO 8601 --> </record> </surrogates>
Für Entwickler: Dateneingabe per XML (Dublin Core)
YaCy kann Dublin Core Medata XML Dateien als Eingabe für den Indexierer verarbeiten
Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/)abgespeichert werden.
einfach integrierbar
Info über Dublin Core Standard:http://dublincore.org/documents/dc-xml-guidelines/
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
•Download von http://yacy.net
•Auspacken, starten
•Administration über Webinterface
•Support
Installation
YaCy für Windows YaCy für Mac YaCy für Debian YaCy für Linux / generisch (tar.gz)
Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, odertarball: tar.gz auspacken und Startscript starten
YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.
Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.deEine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.deAnfragen für professionellen Support und kommerzielle Erweiterungenan Michael Christen, [email protected]
Lizenz: GPLfreie Software
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
zur Auswahl stehen:
•Portalsuch im Internetwie bei http://yacy.net und bei http://geoclub.de
•Alert-Service für Nachrichten per RSSeinen News-Feed aus Suchergebnissen in News-Feeds erstellen
•Intranetindexierunglokale Webserver und Fileshares
•Virtuelle Fachbibliothek aus OAI-PMH Importdie eigene Buchsuche
Demo: Überblick
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Demo: Portalsuche im Internet
Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de:
• Einen Site-Crawl für eine Link-Liste starten:http://news.geocaching-portal.com/yacy-urls.php
Vorbereitung:• Datenquellen zusammenstellen (einzelne URLs) oder• Linkliste als html-Datei erstellen und im Internet hochladen
Beispiel für Liste von URLs für Portalsuche von YaCy:
• http://yacy.net wird als sitemap erfasst:http://yacy.net/sitemap.xml
• http://forum.yacy.de/ wird über eine sitemap erfasst:http://forum.yacy-websuche.de/sitemap.php
• Updates von http://forum.yacy.de/ werden als rss-feed erfassthttp://forum.yacy-websuche.de/feed.php
• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst:http://www.yacy-websuche.de/wiki/
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Demo: Alert-Service für Nachrichten per RSS
Schritte:• RSS feeds mit dem RSS feed reader in YaCy importieren• jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden• Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen• Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen• Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann
immer die aktuellen Nachrichten zu einem Topic
Ziel:• bestimmte Datenquellen regelmäßig in den Index ziehen• mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche
erhalten
Beispiel-Feeds:• Tagesthemenhttp://www.tagesschau.de/xml/rss2
• Heisehttp://www.heise.de/newsticker/heise-atom.xml
• Gullihttp://ticker.gulli.com/rss
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Demo: Intranetindexierung
Schritte:• YaCy in Intranet-Modus schalten• Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/
über Web-Server freigeben
als smb-share freigeben
Vorbereitung:• repository1 über Apache frei geben• repository2 als smb-share frei geben
Michael Christenhttp://yacy.net
SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy
Demo: Virtuelle Fachbibliothek aus OAI-PMH Import
Schritte:• OAI-PMH Importer wählen• alle Server-Adressen entweder einzeln angeben oder• alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten
Vorbereitung:• OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln,
oder• OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen
verfügbar)
Ergebnis:• Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen• Autoren-Navigatoren sind verfügbar• Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar• Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden