+ All Categories
Home > Documents > Einführung in die Installation eigener Suchmaschinen...

Einführung in die Installation eigener Suchmaschinen...

Date post: 14-Aug-2020
Category:
Upload: others
View: 0 times
Download: 0 times
Share this document with a friend
16
Michael Christen http://yacy.net SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in die Installation eigener Suchmaschinen-Software mit YaCy Einführung in die Installation eigener Suchmaschinen-Software mit YaCy SuMa-eV Praxis Workshop: YaCy Features Demo + hier zum Nachlesen im Anschluss zum mitmachen
Transcript
Page 1: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Einführung in die Installationeigener Suchmaschinen-Software

mit YaCy

SuMa-eV Praxis Workshop: YaCy

Features Demo+

hier zum Nachlesen im Anschlusszum mitmachen

Page 2: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

•Anwendungsbereiche

•Mögliche Datenquellen: unterstütze Protokolle

•Integrationsmöglichkeiten des Suchinterfaces

Suchmaschinen-Dezentralisierung:Peer-to-Peer Websuche

Software fürSuchportal im Internet

Software fürSuchmaschine im Intranet

HTTP, HTTPS, FTPWeb-StandardsFilesystem, SMB-Shares, Indexdateien (Dublin Core / XML)FilesystemImport aus Wikimedia-Dumps, Retrieval aus DatenbankenDatenbankenRSS-Feed Client, OAI-PMH ImportHarvesting

Opensearch (Suchergebnisse per RSS), JSON, AJAX-ToolsAPIsSuch-Widget, fertige Code-Snippets für eingebettete SucheTools

Zielgruppe und Anwendungen

jede Datenquelle

anzapfen

alle Zielgruppen

für Entwickler interessant

Page 3: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

geoclub.de

linuxtag.org

linux-club.de

fsfe.org

Beispiel: Suchportale mit YaCy

metager + metager2

YaCy ist schnell!

Page 4: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

OAI-PMH Import

Dublin Core Metadaten

(web) Suchindex

2000 Open Access Repositories

Beispiel: Open Access Repository Harvesting

Datenquellen zu OAI Servern:http://roar.eprints.org

http://www.openarchives.org/Register/ListFriends

Anwendungen:• dezentrale OAI Repository Suche• Suche für Virtuelle Fachbibliotheken

OA-Suche; ca. 8.800.000 eBooks in demo-Suche auf http://oai.yacy.net

Anleitung um diesen Dienst selber zu erstellen:

http://yacy.net/oai.html

Page 5: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

SRU

API für Suchergebnis als RSS bzw. Opensearch, auch JSON

Navigatoren:Domänen, Autoren

G**gle-ähnliche Darstellung der Suchergebnisse

Beispiel: Suchseite

,besser‘

Page 6: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

•Verschiedenste Datenquellen einfach nutzen

•Integrierte Parser für Dateiformate

•Automatische Steuerung und Index-Administration

HTML, XHTML, RSS, RDF, XHTML+RDFa, FOAF, vCard, FlashWeb-StandardsPDF, PS, Word, Excel, Visio, Powerpoint, OpenOffice, RTF, csvOfficegzip, zip, tar, rar, bzip2, 7zipArchivetorrent, images(EXIF)andere

automatische Indexerneuerung, jeder Vorgang kann zeitgesteuert werdenSchedulerIndex-Erzeugung und Linkstrukturen visualisieren und editierenMonitoring

Suchappliance: Funktionsreichtum, einfach zu bedienen

Crawler

Harvester

Datenbankenkomfortabel

reichhaltig

produktions-reif

Page 7: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

YaCy Application: retrieval, indexing, storage and search components overview

Se

arc

h

Inte

rfac

eD

atab

aseIn

de

xin

gCra

wle

r

YaCy Peer-to-Peer Network

Text Analysis

words

Double LinkCheck

StopwordsCheck

ReverseWord Index

@

URLCrawl Stack

links

URL ReferencesWordYaCy has an

integrated NoSQL Database. The

database stores a Reverse Word

Index, Metadata and the source

documents.

Depth = 0 Start-URL

Depth = 1

Depth = 2

Funktionsweise: Crawler und Indexierer

Page 8: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

The YaCy Network: a distributed hash table

DHT-Store DHT-Read

This peer (as an example) fetches

some Web pages and distributes index

fragments to other peers.

YaCy peers store index fragments according to a ,folded‘ ordering on word-hashes and url-hashes in a distributed hash table (DHT). The index is distributed redundantly to save the index when some peers are not available. The redundancy also helps to increase search performance.

A peer which searches information can access directly peers holding the

corresponding index

Peer

Peer

Peer

Peer

PeerPeer

Peer

Peer

Funktionsweise: Peer-to-Peer Netzwerk

Page 9: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

> curl http://localhost:8080/yacysearch.rss?query=foaf&maximumRecords=10<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet type='text/xsl' href='/yacysearch.xsl' version='1.0'?><rss version="2.0" xmlns:yacy="http://www.yacy.net/" xmlns:opensearch="http://a9.com/-/spec/opensearch/1.1/"<!-- stark verkürztes Beispiel! --><item> <title>Friend of a Friend (FOAF) project</title> <link>http://www.foaf-project.org/</link> <pubDate>Fri, 23 May 2008 02:00:00 +0200</pubDate></item><item> <title>FOAF - Wikipedia</title> <link>http://de.wikipedia.org/wiki/FOAF</link> <pubDate>Tue, 08 Jan 2008 01:00:00 +0100</pubDate></item><item> <link>http://microformats.org/wiki/xfn-to-foaf</link> <pubDate>Fri, 09 May 2008 02:00:00 +0200</pubDate></item></rss>

Für Entwickler: Suchergebnisse per RSS oder JSON

Die Dublin-Core Datensätze passen perfekt auf das RSS Format. Die Suchergebnisausgabe von YaCy ist kompatibel mit dem Opensearch Standard

Als leichtgewichtige Alternative steht JSON als Exportformat für die Einbindung mit AJAX zur Verfügung.

Als Erweiterung von Opensearch werden Navigatoren ausgeliefert.

einfach integrierbar

Info über Opensearch Standard:http://www.opensearch.orgInfo über SRU Standard für Queries:http://www.loc.gov/standards/sru/specs/search-retrieve.html

Page 10: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

<?xml version="1.0" encoding="utf-8"?><!-- YaCy surrogate using dublin core notion --><surrogates xmlns:dc="http://purl.org/dc/elements/1.1/">

<record> <dc:title><![CDATA[Alan Smithee]]></dc:title> <dc:identifier>http://de.wikipedia.org/wiki/Alan_Smithee</dc:identifier> <dc:description><![CDATA[Der als Filmregisseur oft genannte '''Alan Smithee''' ist ein Anagramm von „The Alias Men“.]]></dc:description> <dc:language>de</dc:language> <dc:date>2009-04-14T00:00:00Z</dc:date> <!-- date is in ISO 8601 --> </record> </surrogates>

Für Entwickler: Dateneingabe per XML (Dublin Core)

YaCy kann Dublin Core Medata XML Dateien als Eingabe für den Indexierer verarbeiten

Damit YaCy eine Dublin Core XML Datei verarbeitet, muss diese lediglich in einem Übergabeverzeichnis (DATA/SURROGATES/in/)abgespeichert werden.

einfach integrierbar

Info über Dublin Core Standard:http://dublincore.org/documents/dc-xml-guidelines/

Page 11: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

•Download von http://yacy.net

•Auspacken, starten

•Administration über Webinterface

•Support

Installation

YaCy für Windows YaCy für Mac YaCy für Debian YaCy für Linux / generisch (tar.gz)

Packages: Je nach Betriebssystem den Anweisungen des Installers folgen, odertarball: tar.gz auspacken und Startscript starten

YaCy ist eine Webapplikation. Die gesamte Administration erfolgt über den Browser. Einfach http://localhost:8080im Browser öffnen. Dann den Use Case (P2P Websuche, Portal, Intranet) wählen und Index erstellen.

Bei Fragen und/oder Problemen einfach im Forum posten: http://forum.yacy.deEine gewisse Hilfe bietet auch das YaCy Wiki: http://wiki.yacy.deAnfragen für professionellen Support und kommerzielle Erweiterungenan Michael Christen, [email protected]

Lizenz: GPLfreie Software

Page 12: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

zur Auswahl stehen:

•Portalsuch im Internetwie bei http://yacy.net und bei http://geoclub.de

•Alert-Service für Nachrichten per RSSeinen News-Feed aus Suchergebnissen in News-Feeds erstellen

•Intranetindexierunglokale Webserver und Fileshares

•Virtuelle Fachbibliothek aus OAI-PMH Importdie eigene Buchsuche

Demo: Überblick

Page 13: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Demo: Portalsuche im Internet

Beispiel für Crawlen einer Linkliste bei der Geocaching-Suche auf geoclub.de:

• Einen Site-Crawl für eine Link-Liste starten:http://news.geocaching-portal.com/yacy-urls.php

Vorbereitung:• Datenquellen zusammenstellen (einzelne URLs) oder• Linkliste als html-Datei erstellen und im Internet hochladen

Beispiel für Liste von URLs für Portalsuche von YaCy:

• http://yacy.net wird als sitemap erfasst:http://yacy.net/sitemap.xml

• http://forum.yacy.de/ wird über eine sitemap erfasst:http://forum.yacy-websuche.de/sitemap.php

• Updates von http://forum.yacy.de/ werden als rss-feed erfassthttp://forum.yacy-websuche.de/feed.php

• Das Wiki http://www.yacy-websuche.de/wiki/ wird über den Wiki-Crawler erfasst:http://www.yacy-websuche.de/wiki/

Page 14: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Demo: Alert-Service für Nachrichten per RSS

Schritte:• RSS feeds mit dem RSS feed reader in YaCy importieren• jedes Feed kann individuell im Scheduler mit einer anderen Updatefrequenz versehen werden• Suchanfrage in Suchmaske eingeben und mit dem Schlüsselwort ,RECENT‘ ergänzen• Die URL Suchergebnisseite bearbeiten: filetype ,html‘ einfach durch ,rss‘ ersetzen• Diese URL kann dann in einem feed-reader als feed importiert werden und präsentiert dann

immer die aktuellen Nachrichten zu einem Topic

Ziel:• bestimmte Datenquellen regelmäßig in den Index ziehen• mit einer speziellen Suchabfrage einen RSS-Feed zu einem Topic als Ergebnis einer Suche

erhalten

Beispiel-Feeds:• Tagesthemenhttp://www.tagesschau.de/xml/rss2

• Heisehttp://www.heise.de/newsticker/heise-atom.xml

• Gullihttp://ticker.gulli.com/rss

Page 15: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Demo: Intranetindexierung

Schritte:• YaCy in Intranet-Modus schalten• Einen Site-Crawl starten mit http://localhost und smb://localhost/repository2/

über Web-Server freigeben

als smb-share freigeben

Vorbereitung:• repository1 über Apache frei geben• repository2 als smb-share frei geben

Page 16: Einführung in die Installation eigener Suchmaschinen ...yacy.net/material/YaCy_SuMa-eV_Kongress_2010_Praxis_Workshop.… · SuMa-eV-Kongress 2010 Praxis Workshop: Einführung in

Michael Christenhttp://yacy.net

SuMa-eV-Kongress 2010 Praxis Workshop:Einführung in die Installation eigener Suchmaschinen-Software mit YaCy

Demo: Virtuelle Fachbibliothek aus OAI-PMH Import

Schritte:• OAI-PMH Importer wählen• alle Server-Adressen entweder einzeln angeben oder• alle Server-Adressen aus der Liste gleichzeitig anwählen und den Import starten

Vorbereitung:• OAI-PMH Server-Adressen der Einzelnen Bibliotheksquellen zu einem Fachgebiet sammeln,

oder• OAI-PMH Server-Adressen aus der in YaCy vorrätigen Liste auswählen (>2000 Quellen

verfügbar)

Ergebnis:• Die YaCy Portalsuche präsentiert eine Themensuche zu den ausgewählten Quellen• Autoren-Navigatoren sind verfügbar• Updates aus den Imports sind wie bei der Demo zu Alerts verfügbar• Die Suche kann sehr einfach über das Widget in andere Webseiten eingebunden werden


Recommended