+ All Categories
Home > Documents > [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

[DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

Date post: 25-Feb-2018
Category:
Upload: ulrich-kampffmeyer
View: 214 times
Download: 0 times
Share this document with a friend

of 27

Transcript
  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    1/27

    ECM - Capture

    Dr. Ulrich Kampffmeyer

    Hamburg, 2009

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    2/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 2 von 27

    Einleitung

    Dokumentenmanagement- oder Enterprise-Content-Management-Systeme (folgend:ECM) ganz gleich welcher Colour ziehen ihren Nutzen immer aus den bereitgestelltenInformationen. Aber bevor diese genutzt werden knnen, mssen sie denentsprechenden Systemen auch zugefhrt werden. Deswegen ist die erste undwichtigste Stufe eines ECM-Systems diese Funktionalitt. Man verwendet hierbei denBegriff Capture.

    Unter Capture versteht man alle im Zusammenhang mit der Erfassung, Erkennung undKlassifizierung von Dokumenten oder besser Objekten durchzufhrenden Ttigkeiten.Capture hat sich zwischenzeitlich zu einem eigenstndigen Bereich entwickelt, dersowohl ECM-Systeme und Archive als auch operative Systeme (z.B. ERP-

    Anwendungen) mit Daten beliefert. Die Erfassung der im ECM zu verwaltenden Datenist ein wichtiger Bestandteil beim Dokumenten-Management. Da hierbei zu einemwesentlichen Teil die spteren Nutzungsmglichkeiten bestimmt werden, sollte man derErfassung sowohl der Planung als auch spter der Durchfhrung und der Kontrolleentsprechende Aufmerksamkeit widmen. Die unterschiedlichen Dokumentenquellen -Papier, COLD, E-Mail, Office-Dokumente usw. - erfordern in der Regel auchunterschiedliche Erfassungs-, Attributierungs-/ Klassifizierungs- und Prfschritte.Teilweise kommen bei der Erfassung zustzliche rechtliche Anforderungen hinzu - etwabei eingehenden elektronischen Rechnungen oder Belegen imSozialversicherungsbereich.Das Spektrum der Erfassungsverfahren ist entsprechend gro. Die verschiedenen

    Verfahren verlangen teilweise nach recht unterschiedlichen Techniken. In vielenUnternehmen kommen dabei gleich mehrere Erfassungsverfahren parallel zum Einsatz,um dem Anspruch des Enterprise-Dokument-Management-Anspruchs zu gengen undalle fr das Unternehmen relevanten Dokumente mglichst integriert und weitgehendvollstndig elektronisch zu erfassen und zu verwalten.

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    3/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 3 von 27

    Einordnung in das ECM-Modell:berblick ber die Komponenten von Capture

    Die AIIM (Association for Image and Information Management), eine US-amerikanischeAnwender- und Anbietervereinigung, hat bereits vor vielen Jahren ein ECM-Modelvorgestellt, welches sehr transparent und anschaulich die Teile einer DMS/ECM-Anwendung darstellt.

    Die Kategorie Capture beinhaltet Funktionalitt und Komponenten zur Erstellung,Erfassung, Aufbereitung und Verarbeitung von analogen und elektronischen

    Informationen. Es werden mehrere Stufen und Techniken unterschieden - von dereinfachen Erfassung der Information bis zur komplexen Aufbereitung durch eineautomatische Klassifikation. Die Capture-Komponenten werden auch hufig als Input-Komponenten zusammengefasst und als "Input-Management" bezeichnet.

    CAPTURE

    PRESERVE

    DELIVERSTORE

    MANAGE

    STORE WC

    R

    WF/BPM

    DM

    Collab

    http://de.wikipedia.org/wiki/Inputhttp://de.wikipedia.org/wiki/Inputhttp://de.wikipedia.org/wiki/Inputhttp://de.wikipedia.org/wiki/Input
  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    4/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 4 von 27

    Generell kann unterschieden werden zwischen Indexing, Input Designs undCategorization.

    Anders als im Deutschen beschrnkt sich imAngloamerikanischen der Begriff Indexingauf die manuelle Vergabe von Indexattributen, die in der Datenbank einer Manage -Komponente fr Verwaltung und Zugriff auf die Informationen benutzt wird. ImDeutschen werden hier auch Begriffe wie Indizieren, Attributieren oderVerschlagworten benutzt.Sowohl die automatische als auch die manuelle Indizierung kann durch hinterlegte InputDesigns (Profile) erleichtert und verbessert werden. Solche Profile knnen z.B.Dokumentenklassen beschreiben, die die Anzahl der mglichen Indexwertebeschrnken oder bestimmte Kriterien automatisch vergeben. Input Designs schlietauch die Eingabemasken und deren Logik bei der manuellen Indizierung ein.

    Categorization beschreibt den Prozess der automatischen Klassifikation oderKategorisierung auf Basis der in den elektronischen Informationsobjekten enthaltenenInformationen (z.B. OCR-gewandelte Faksimiles, Office-Dateien oder Ausgabedateien).Hierbei knnen Programme zur automatischen Klassifikation selbststndig Index-,Zuordnungs- und Weiterleitungsdaten extrahieren. Solche Systeme knnen auf Basisvordefinierter Kriterien - oder selbstlernend - Informationen auswerten.Der Flaschenhals der digitalen Informationsverarbeitung ist vor allem die schnelleErfassung der Informationen. Sie gilt im besonderen Mae fr existierendes Schriftgut,das mittels Scannertechnologie in ein elektronisches Informationssystem berfhrtwerden soll. Dazu zhlen Posteingang, sonstige Papierdokumente, eingehendeVordrucke etc. Ein weiteres Problem liegt darin, diese NCI-Dokumente (NCI - Non

    Coded Information) mit Zugriffsinformationen zu versehen. Dies kann manuell beimScannen, durch automatisches Erkennen von Text oder Barcode und durch Ergnzungfehlender Informationen aus bestehenden DV-Systemen geschehen. Fr die

    Barcode

    COLD/ERM E-Billin

    Aggregation Financial

    XML

    Forms Processing

    E-Forms/Web-Forms ERP

    Appl icat ion created

    OMR Microfilm

    ICRRich Media

    HCR Form

    OCROffice DocumentsIndexing

    Input Designs

    Categorization

    Recogni tonHuman created

    Input

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    5/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 5 von 27

    automatische Extraktion von Zugriffsinformationen, der sogenannten Indexinformation,sind Techniken wie OCR (Optical Character Recognition), ICR (Intelligent CharacterRecognition), HCR (Handprint Character Recognition), OMR (Optical Mark Recognition),Barcode u.. erforderlich. Diese knnen nur unter bestimmten qualitativenVoraussetzungen der Dokumentenvorlagen sicher gewonnen werden. In diesemRahmen ist auch Schriftgut zu sehen, das gar nicht mehr in Papierform erzeugt wird.Elektronische Dokumente erlauben eine einfache automatische Indizierung undgewinnen bei der Speicherung von eigen erstellten Dokumenten (z.B.Ausgangsrechnungen, Office-Dokumenten, E-Mails) oder elektronischen, eingehendenInformationsobjekten (z.B. E-Mails, EDI-Dokumente etc.) immer mehr an Bedeutung.Die automatische bernahme von Daten erfolgt in der Regel im sogenannten COLD-Verfahren.Um die generelle Lesbarkeit eingescannter Informationen und die Basis fr eine

    optimale Erkennbarkeit fr die eingesetzten Extraktions-Techniken sicher zu stellen, istes ratsam, entsprechende Bildbearbeitungstechniken einzusetzen.Eine zustzliche Optimierung des Erfassungsprozesses lsst sich durch dieVerarbeitung von Formularen und Vordrucken erreichen. Hierbei werden industriell oderindividuell gedruckte Vordrucke beim Scannen erfasst. Zustzlich kommenanschlieend hufig Erkennungstechniken zum Einsatz, da gut gestaltete Vordruckeeine weitgehend automatische Verarbeitung ermglichen.Bei der Verarbeitung elektronischer Formulare (E-Forms / Web-Forms) ist eineautomatische Erfassung mglich, wenn Layout, Struktur, Logik und Inhalte demErfassungssystem bekannt sind.

    Manuelle Erfassung: Scannen, Import von Office- und anderenDateien, Indizieren, Fehlervermeidung beim Indizieren

    Die Erfassung von papiergebundenen Dokumenten bezeichnet man als Scannen.DieBegriffe Scanner und Scannen leiten sich von dem englischen Begriff fr Abtastenab. Scannen ist ein Zusammenspiel der Komponenten Scan-Eingabe, Verarbeitung undAusgabe.

    Faksimile-Dokument

    ComputerAbtastungo to-elektronisch

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    6/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 6 von 27

    Die Entscheidung, welche Form des Scannens gewhlt wird, ist abhngig von denAnforderungen an die Qualitt und den Prozess der Erfassung.Die Einrichtung einer eigenen zentralen Scanstelle (z.B. in der Poststelle) kann dann inBetracht kommen, wenn relativ groe Mengen an Dokumenten eingehen und diesetaggleich elektronisch am betreffenden Sachbearbeiterplatz zur Verfgung gestelltwerden sollen.Scannen direkt am Arbeitsplatz oder abteilungsweises Scannen wird hufig inAnwendungsfllen mit kleinerem Volumen oder verteilt anfallendem Schriftguteingangeingesetzt. Als Sonderfall ist in diese Kategorie das dezentrale Scannen an entferntenArbeitspltzen und anschlieende bertragen der Daten per Leitung (z.B. vonBaustellen) zuzuordnen, wobei diese Variante zustzlich die vorgenannten nochergnzen kann.In vielen Fllen kann bei groen Belegmengen oder spezialisierten Aufgabenstellungen

    (z.B. bei der Indizierung und Klassifizierung) die exklusive oder zustzlicheInanspruchnahme von Scan-Dienstleistungen (Outsourcing) bei einem entsprechendenDienstleistungsunternehmen stattfinden.Es gibt zwei allgemeine Varianten beim manuellen Indizieren: die Erfassung vom Beleg,das sog. Einzelblatt-Scannen oder die Erfassung vom Bildschirm, das sog.Stapelscannen mit anschlieendem Indizieren. Im ersten Fall werden die zuerfassenden Indexkriterien vom Beleg entnommen und in einer Erfassungsmaskeeingegeben. Erst danach wird der Beleg gescannt und mit den erfassten Datenarchiviert. Beim zweiten Fall werden die Belege stapelweise eingescannt und dannebenfalls in einer Erfassungsmaske sukzessive verschlagwortet (siehe folgendeAbbildung).

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    7/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 7 von 27

    Die folgenden Varianten finden sich in anwendungsspezifischen Ablufen wider.

    Beim Scannen nach der Bearbeitung werden die Geschftsvorflle vom Papierbeleg

    bearbeitet. Je nach Anforderung wird das Dokument danach

    als Papier archiviert, nach Abschluss des Vorgangs gescannt, archiviert und vernichtet oder zustzlich

    als Original archiviert, nach Erstbearbeitung gescannt und vernichtet oder zustzlich als Original

    archiviert, nach Bearbeitung im Original zurckgesendet und als Kopie archiviert.

    Bei Scannen nach der Erstbearbeitung erfolgt die weitere Bearbeitung ausschlielicham Bildschirm.

    Beim Scannen vor der Bearbeitung werden die Belege des Geschftsvorfalls amBildschirm bearbeitet. Die Indizierung erfolgt entweder vor dem Scannen am Papieroder nach dem Scannen am Image auf dem Bildschirm. In den meisten Fllen nimmt dieIndizierung beim Scan-Prozess nur eine erste Klassifizierung vor, die ber die weitereVerarbeitung entscheidet. Whrend der Bearbeitung wird die endgltigeIndexzuordnung ergnzt. Die Dokumente werden nach dem Scannen vernichtet oderzustzlich im Original archiviert.

    Das manuelle Indizieren kann auf Grund von Eingabefehlern des Erfassungspersonalsohne entsprechende Manahmen und technische Hilfsmittel zu einer mangelhaftenArchivierung fhren. Deswegen sollte immer dann wenn es mglich ist, einentsprechendes Verfahren oder eine Kombination davon zum Einsatz kommen.

    Vorbelegte Auswahl-Menues zwingen zur Erfassung einzelner Felder von nurvoreingestellten Inhalten. Bestimmte Feldtypen erlauben die automatische Befllungdurch die Erfassungssoftware (z.B. Erfassungsdatum = Systemdatum). Mit Hilfe vonPrfziffern knnen Eingabefehler erkannt werden. Bei Verwendung der Ziffern 0-9 tritteine zufllige bereinstimmung auch bei ungltigen Zahlen mit ca. 10%Wahrscheinlichkeit auf. Bei Verwendung von zwei Prfziffern liegt dieseFehlerwahrscheinlichkeit nur noch bei ca. 1 %. Die Prfung von Plausibilitten trgtebenso erheblich zur Vermeidung von Erfassungsfehlern bei. So darf z.B. einRechnungsdatum nicht nach dem Erfassungsdatum (Systemdatum) liegen. Alsbesonders sichere Methode ist in diesem Zusammenhang der Abgleich der erfasstenAttribute mit bestehenden Datenbank-Inhalten zu nennen. ber die eigentliche Prfunghinaus kann damit eine automatische Ergnzung weiterer Attribute erfolgen.

    Eine wichtige Anforderung innerhalb des Scan-Vorgangs ist die revisionssichereProtokollierung. Diese ist erforderlich, um z.B. die Nachvollziehbarkeit im Sinne derGoBS zu wahren. Die revisionssichere Protokollierung fhrt in Verbindung mit derVerfahrensdokumentation zu einem sogenannten elektronischen Dokument hoherQualitt. Protokollstze sollen die Angaben von Benutzer, Signaturcode,Datum/Uhrzeit, Unique Identifier des Informationsobjekts, etc. enthalten.

    Die Archivierung von Office- und anderen Dateien lsst sich natrlich in vielen Fllenautomatisch durchfhren. Diese Vorgehensweise wird an anderer Stelle behandelt.Oftmals geschieht das aber auch am Arbeitsplatz des Sachbearbeiters, der diese

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    8/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 8 von 27

    Dokumente erstellt und entscheidet, welche archiviert werden sollen. Hierzu werdenmeistens Drittanwendungen in die Office-Anwendungen eingeklinkt, die die erstelltenDokumente zustzlich zum Ausdruck an einen Virtuellen Printer schicken. Dabei

    werden die Indexkriterien automatisch nach bestimmten Vorgaben ausgelesen, dasDokument TIFF (S/W) oder JPEG (Farbe) konvertiert und gleichzeitig archiviert.

    Scanner-Technologien, Scanner-Typen, Erfassungsverfahren,Multifunktionsgerte, Auflsung, Farbe, Qualittsanforderungen

    Bei der Wahl des Scanners kommt es darauf an, welche Art von Dokumenteneinzuscannen sind - Texte, Belege, Formulare, Fotos, Dias und vieles mehr. Fr jededieser Vorlagen gibt es Scanner, die sich in Hardwaretechnologie, Software undKomplexitt der Bedienung unterscheiden. Je nach notwendigen Weiterverarbeitungs-

    und anschlieenden Ausgabemglichkeiten unterscheiden sich die Anforderungen desAnwenders.

    Mittlerweile sind die berwiegende Mehrzahl der ausgelieferten DokumentenscannerDuplexgerte, selbst wenn in der Regel nur die Blattvorderseite zu erfassen ist. DiePreisdifferenz zwischen den Simplex- und Duplexscannern ist inzwischen so gering,dass viele Hersteller Simplexscanner gar nicht mehr anbieten. hnlich verhlt es sichbeim Papierformat: Dokumentenscanner gibt es im A4- und A3-Format, doch vor allemim Marktsegment der Produktionsscanner sind mittlerweile berwiegend DIN-A3-Modelle zu finden. Selbst wenn als Beleggut meistens A4 vorkommt, kann durch quereingelegte Bltter und automatische Rotation um 90 Grad eine weitere

    Produktivittssteigerung erzielt werden. Ein im DIN-A3-Scanner quer (landscape)eingelegtes A4-Blatt wird etwa 30 Prozent schneller als das hochformatig (portrait)zugefhrte Dokument verarbeitet.

    Vor Einsatz eines Scanners mssen die zu scannenden Belege sorgfltig analysiertwerden, um das passende Gert zu finden: Nicht alle Gerte knnen Sonderformate,berlngen oder Endlosbelege scannen. Und nicht jeder Scanner ist in der Lage,Kleinstbelege zu verarbeiten. Sobald Spezialpapier (z.B. NCR-Papier) gescannt werdensoll, ist Vorsicht geboten: Nicht alle Einzugsrollen knnen dies verarbeiten. Auch dieFhigkeit, unterschiedliche Papierstrken zu verarbeiten, ist bei jedem Scannerunterschiedlich. Wenn man die Minimalspezifikationen nicht beachtet, muss mit

    Doppeleinzgen bei zu dnnem Papier gerechnet werden. Wenn neben Einzelbltternauch gebundene oder empfindliche Dokumente zu bearbeiten sind, ist einFlachbettscanner mit integriertem ADF die richtige Wahl.

    Abhngig von ihrer Geschwindigkeit werden die Dokumentenscanner eingeteilt in:Arbeitsplatz-Scanner (bis 1.000 Belege/Tag), Abteilungs-Scanner (bis 3.000Belege/Tag), Low-Volume-Production-, Mid-Volume-Production- und High-Volume-Production-Scanner (bis 60.000 Belege/Tag). Es gibt Gerte, die ber 200ppm (ppm =Blatt pro Minute) verarbeiten. Dies gibt bereits einen ersten Anhaltspunkt ber denEinsatzzweck des Gerts. Allerdings kann man nicht nur die Geschwindigkeit betrachtenund den angegebenen Wert mit 60 und der tglichen Stundenanzahl multiplizieren.

    Bereits die Belegvorbereitung (Sortieren, Entklammern, Gltten etc.) nimmt Zeit inAnspruch. Es empfiehlt sich immer, einen verhltnismig schnellen Scanner zu

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    9/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 9 von 27

    whlen, um das Zeitfenster fr die Belegerfassung zu verkrzen. Soll zum Beispiel dietgliche Eingangspost von 1.000 Blatt gescannt werden, wrde theoretisch ein 25ppmScanner ausreichen. Allerdings ist dann eine Arbeitskraft etwa zwei Stunden mit demEinscannen beschftigt, und mit einem schnelleren Gert wird nicht nur dieseErfassungszeit gespart, sondern die Belege stehen fr die folgenden Arbeiten schnellerzur Verfgung.

    Auerdem ist zu beachten, dass die angegebene Scangeschwindigkeit in Abhngigkeitvom Papierformat und der gewhlten Auflsung variiert, und nicht alle Hersteller gehenbei ihren Geschwindigkeitsangaben von den gleichen Scannereinstellungen aus.Meistens wird der Durchsatz fr 200dpi angegeben. Je hher die gewhlte Auflsung,desto langsamer wird der Scanner.

    Die Qualitt der Bilderfassung sollte fr unterschiedliche Arten von Dokumenten

    gewhrleistet werden, so dass der Scanner ohne Benutzereingriff stets perfekte Bilderausgibt. In den Scannern sind unterschiedliche Kameratypen eingebaut, und im Vorfeldder Beschaffung empfiehlt es sich, mit den Originalbelegen zu testen, ob derDokumentenscanner die geforderten Ergebnisse liefert. Grundstzlich gilt: je hher dieoptische Auflsung ist, umso besser die Qualitt des entstehenden Bildes. Diese istnicht mit der Auflsung der Ausgabe zu verwechseln. So kann die Kamera ein Rohbildmit optischen 600dpi scannen, das mit 200dpi ausgegeben werden kann.

    Nach wie vor werden die meisten Dokumente in schwarzwei erfasst und als TIFF Dateiabgespeichert. In der Reget reicht eine Ausgabeauflsung von 200dpi aus, um allewesentlichen Informationen der Belege zu erhalten oder auch elektronisch auszulesen.

    Die Herausforderung an den Dokumentenscanner besteht darin, ein Farb- oderGraustufenbild ohne Informationsverlust in ein Schwarzweibild umzuwandeln. Diesgeschieht durch dynamic thresholding. D.h. ab einer gewissen Schwelle wird ein Bitentweder schwarz oder wei dargestellt. Durch intelligente Helligkeits- undKontrastanalyse wird diese Schwelle innerhalb eines Dokuments automatisch verndert,damit knnen auch bei farbigen oder kontrastschwachen Belegen guteScannergebnisse erzielt werden. Gerade bei sehr unterschiedlichen Qualitten derOriginalbelege ist diese Schwellenwertfunktion ein Muss. Ebenfalls unerlsslich sindFunktionen wie die automatische Schrglagenkorrektur (deskew) und auto cropping(Zuschneiden von unterschiedlichen Belegen im Stapel auf die tatschliche Gre). Diegenannten Bildverbesserungen knnen ber den Scannertreiber oder Zusatzprodukteerreicht werden. Der de facto-Standard in diesem Segment ist VirtualReScan vonKofax.

    Alternativ kann in Farbe gescannt werden und der Markttrend geht auch eindeutig indiese Richtung: Bitonale Gerte sind bis auf einige Ausnahmen im Produktionsbereichnicht mehr verfgbar und alle seit 2006 neu vorgestellten sind farbfhig. Damit kannjederzeit von Schwarzwei auf Farbscannen umgestellt werden. Die Frage nach Farbekann beim Scannerkauf mittlerweile als nachrangig betrachtet werden.

    Bei lteren oder einfacheren Scannern sollte das Scan-Modul Zusatzfunktionenbereitstellen, die bei modernen Scannern heute per Firmware oder Treiber zurVerfgung stehen: Nmlich dass die Bilder automatisch gerade gerckt werden unddass der Schwarzrand automatisch entfernt wird, Funktionen fr die Rauschminderungoder Grauflchenentfernung sind bewusst einzusetzen, da diese ganz leicht i-Punkte

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    10/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 10 von27

    oder Satzzeichen entfernen knnen. Handelt es sich dabei um Dezimaltrennzeichen aufeiner Rechnung, ist sogar der Inhalt des Dokumentes verflscht. Nur wenige Scannerknnen auch automatische Rotationen ausfhren. Dabei analysiert die Technik dieAusrichtung des aufgedruckten Textes und dreht die Bilder vollkommen automatisch indie richtige Richtung.

    Erkennungstechnologien: Barcode, Barcodetypen, Strichcode, OCR,ICR; Abgleich mit vorhandenen Daten

    Automatisierte Erkennungstechnologien sollen die Sachbearbeiter vor zu vielenmanuellen Eingaben bewahren. Dies kann manuell beim Scannen, durch automatischesErkennen von Text oder Barcode und durch Hinzufgen fehlender Informationen ausbestehenden DV-Systemen geschehen. Fr die automatische Extraktion von

    Zugriffsinformationen, der sogenannten Indexinformation, sind Techniken wie OCR(Optical Character Recognition) u.. erforderlich. Diese knnen nur unter bestimmtenqualitativen Voraussetzungen der Dokumentenvorlagen sicher gewonnen werden.

    Zur Verarbeitung von gescannten Belegen werden verschiedene Erkennungstechniken(Recognition -Mustererkennung)eingesetzt. Zu ihnen gehren:

    Barcode:Aufgebrachte Barcodes beim Versenden von Vordrucken knnen beimEinlesen der Rcklufer automatisiert erkannt und zugeordnet werden.

    OCR (Optical Character Recognition): Hierbei werden die Bildinformationen inmaschinenlesbare Zeichen umgesetzt. OCR wird fr Maschinenschrift eingesetzt.

    HCR (Handprint Character Recognition). Die Erkennung von Handschriften ist eineWeiterentwicklung von OCR, die jedoch bei Flietexten immer noch nichtzufriedenstellende Ergebnisse liefert. Beim Auslesen von definierten Feldinhalten istdie Methode doch bereits sehr sicher.

    ICR (Intelligent Character Recognition). ICR ist eine Weiterentwicklung von OCR undHCR, die die Qualitt der ausgelesenen Ergebnisse durch Vergleiche, logischeZusammenhnge, Abgleich mit Referenzlisten oder Prftabellen verbessert.

    OMR (Optical Mark Recognition). liest mit hoher Sicherheit spezielle Markierungen invordefinierten Feldern aus und hat sich bei Fragenbogenaktionen und anderenVordrucken bewhrt.

    Bei der Freiformerkennung mssen die gesuchten Attribute nicht mehr an einer festenStelle stehen, sondern knnen irgendwo aufgedruckt sein. ber ein flexibles Layout undein Dokumentenmodell wird definiert, welche Daten einem bestimmten Dokumententypzugeordnet sind. Ein flexibles Layout beschreibt die Felder und deren variablePositionen bei einem bestimmten Satz von Dokumententypen. Man erkennt einenDokumententyp anhand bestimmter Vorgaben und Konventionen. Beispielsweise stehtauf einer Rechnung der Rechnungsbetrag, Kontonummer, Rechnungsnummer usw. DerMensch schaut sich ein ganzes Dokument an und analysiert erst die verschiedenenElemente und dann einzelne Informationen. Anschlieend wird er nach Informationen inder Umgebung der Indexfelder suchen, um zu entscheiden, welche Informationen er inwelches Feld der Datenbank eingibt. hnlich macht es die Software. Mit Hilfe vonSuchelementen, die mit bestimmten Eigenschaften versehen werden und logischuntereinander verknpft werden, knnen die gesuchten Elemente gefunden werden.Typische Suchelemente sind Text, Trennlinien, weie Lcken, Barcodes, Zeichenketten,

    http://de.wikipedia.org/wiki/Mustererkennunghttp://de.wikipedia.org/wiki/Barcodehttp://de.wikipedia.org/wiki/Texterkennunghttp://de.wikipedia.org/wiki/Optical_Mark_Recognitionhttp://de.wikipedia.org/wiki/Optical_Mark_Recognitionhttp://de.wikipedia.org/wiki/Texterkennunghttp://de.wikipedia.org/wiki/Barcodehttp://de.wikipedia.org/wiki/Mustererkennung
  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    11/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 11 von27

    Textfragmente, Objektsammlungen, Datum, Telefonnummern, Whrungen und sogarkomplexe Tabellen. Im Gegensatz zur Erkennung einzelner Elemente, kann durch eineAnalyse der Elemente im Kontext die Genauigkeit gesteigert werden. TypischeAnwendungen sind die automatische Rechnungseingangserfassung sowie dieKlassifikation und Auswertung der Eingangspost. Die Klassifikation ermittelt denDokumententyp, um die Datenextraktion zu vereinfachen. In einer Personalaktebefinden sich beispielsweise ein Bewerbungsschreiben, ein Lebenslauf, Zeugnisse,Beurteilungen und Gehaltsabrechnungen. Fr jeden Dokumententyp sind Datendefiniert, die das jeweilige Dokument kennzeichnen.

    Im Gegensatz zu dem regelbasierten Ansatz sind in den vergangenen Jahren lernendeMustererkennungsverfahren entwickelt worden. Bei den Mustererkennungsverfahrenwerden der Anwendung viele Musterdokumente vorgefhrt, aus denen die Anwendungbestimmte regelmige Strukturen entnimmt. Wird ein neues Dokument vorgefhrt, wirddie hnlichkeit zu den gelernten Dokumenten verglichen. Der Einsatz von lernendenMustererkennungsverfahren wird meist begrenzt auf die Klassifikation und dient alsHilfsmittel der eigentlichen Datenextraktion.

    ber automatische Datenbankabfragen lassen sich die erkannten Ergebnisseberprfen und als sicher erkannt markieren. Auch kann die Datenbank fehlendeIndexmerkmale ergnzen. Die Korrekturen lassen sich so auf ein Minimum reduzieren.Nachgelagerte Datenbankabfragen und Konsistenzprfungen innerhalb derErfassungslsung stellen zustzlich sicher, dass die Daten korrekt sind.

    Es stellt sich nun die Frage: Welches OCR/ICR-Produkt ist das richtige fr die jeweilige

    Anwendung? Es gibt zahlreiche OCR/ICR-Systeme unterschiedlicher Qualitt.Benchmark-Tests und Untersuchungen auf Fehleranflligkeit fhren zu vergleichbarenErgebnissen, indem man Messungen mit standardisierten Vorlagen untergleichbleibenden Bedingungen durchfhrt. Der Aufwand fr die Nachbearbeitung dermaschinell gelesenen Texte - ein weiteres wichtiges Beurteilungskriterium - kann jenach Anwendung sehr unterschiedlich sein. Von mageblicher Bedeutung wird letztlicheine individuell zu erstellende Kosten/Nutzen-Analyse sein.

    OCR Beurteilungskriterien

    Erkennungsmethode

    Erkennungsgeschwindigkeit Schriftgren

    Erkennung von Nadeldruck (LQ, Draft)

    Mglichkeit der Genauigkeitskontrolle

    Lexikonuntersttzung bei der Erkennung

    Integrierte Korrektursoftware

    Trainierbarkeit

    Automatische Ligaturentrennung

    Spaltenerkennung

    Hoch- /Querformaterkennung

    Komfort der Fensterdefinition

    Inputformate (TIFF, PCX etc.)

    Outputformate (Textverarbeitung, DTP, Tabellenkalkulation, Datenbank)

    Hardwareuntersttzung (Co-Prozessor)

    Betriebssystem

    Benutzeroberflche

    Preis

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    12/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 12 von27

    Die Eignung der untersuchten Systeme wird anhand von Testmaterial erprobt. Es sollteein reprsentatives Mustermaterial (Referenzstapel), so wie es spter zum Einsatzkommt, zusammengestellt werden. Alle Systeme werden der gleichen Testprozedurunterworfen.Besondere Erwhnung in diesem Zusammenhang muss der Einsatz von RFID (RadioFrequency Identity) erwhnt werden, der sicherlich in naher Zukunft verstrkt im Umfeldvon ECM-Anwendungen zu finden sein wird. Informationsobjekte im ECM-Umfeldknnen digitaler oder krperlicher Natur sein. Einige in krperlicher Form vorhandeneInformationsobjekte, wie z.B. Dokumente in Papierform, lassen sich digitalisieren. Beieiner Reihe von Objekten, z.B. Blutproben, Gemlden, Postpaketen, Bauteilen etc. istdiese Digitalisierung nicht mglich. In der Regel wird bei diesen rein krperlichvorliegenden Objekten nur der Standort im ECM abgespeichert.

    Der Einsatz von RFID erfordert zwei Komponenten: den RFID-Tag als Prozessor,

    Speicher, Sende- und Empfangseinrichtung und den RFID-Reader. Der Reader erzeugtein elektromagnetisches Feld, welches die Antenne des Transponders empfngt und esals Befehl an den RFID-Tag weiterleitet. Der Transponder sendet Antwort an daselektromagnetische Feld und der Reader interpretiert die Antwort als Antwortdaten.

    Denkbare Anwendungsformen von RFID im ECM-Kontext knnten sein:

    Verfolgung und Archivierung von Proben aller Art Verfolgung und Archivierung von Urkunden, die im Original vorliegen mssen Verfolgen und Archivierung von Bchern und Zeitschriften

    Bessere Untersttzung des Posteingangs Leichteres Finden und Zuordnen verloren gegangener Objekte Compliance Untersttzung durch automatischen Vergleich von Dokumentation und

    tatschlich umgesetzter Realitt (wurden die geplanten Teile eingebaut und befindetsich keine Flschung darunter z.B. Schiffbau, Anlagenbau, Flugzeugbau etc.)

    Auslsen von Alarmen, bei vorher definierten Ereignissen (z.B. zu hoheLuftfeuchtigkeit)

    Zeitgewinn bei der Beseitigung von Schden (z.B. bei Temperaturberschreitungkann ohne visuelle berprfung festgestellt werden, welche Objekte in einembestimmten Stapel, Raum oder anderen Einheit betroffen sind)

    Formulare, Formularmanagement, Formularverarbeitung;Design von Formularen

    Eine besondere Bedeutung bei der Erfassung von Merkmalen fr die Charakterisierungvon DMS-Objekten spielen Formulare oder Vordrucke. Ein Formular ist einstandardisiertes Mittel zur Erfassung, Ansicht und Aufbereitung von Daten. Formularesind Vervielfltigungen, die durch Eintragungen zu ergnzen sind und der Bearbeitunghufig auftretender, gleichartiger Geschftsflle dienen.

    Bei der Erfassung von Formularen werden heute noch zwei Gruppen von Technikenunterschieden, obwohl der Informationsinhalt und der Charakter der Dokumente gleich

    sein kann:

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    13/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 13 von27

    Forms Processing (Vordruckverarbeitung). Das Forms Processing bezeichnet dieErfassung von industriell oder individuell gedrucktenVordrucken mittelsScannen.Hierbei kommen anschlieend hufig die vorne beschriebenen Erkennungstechnikenzum Einsatz, da gut gestaltete Vordrucke eine weitgehend automatischeVerarbeitung ermglichen.

    E-Forms / Web-Forms (Verarbeitung elektronischerFormulare). Bei der Erfassungelektronischer Formulare ist eine automatische Verarbeitung mglich, wennLayout,Struktur, Logik undInhalte dem Erfassungssystem bekannt sind.

    Vordrucke mssen immer einheitlich aussehen und gleichartig verarbeitet werdenknnen. Dabei ist es gleichgltig, ob sie industriell vorgedruckt (herkmmlichesPapierformular), individuell vorgedruckt (Ausdruck auf Laserdrucker) oder am Bildschirmangezeigt und mit Daten ausgedruckt (im LAN mit der Anwendung des Sachbearbeiters,als interaktives PDF oder im Internet als Web-Formular) dargestellt werden. EinVordruck gleichen Inhalts und Rechtscharakters kann in unterschiedlicher Formvorliegen und muss aber gleich behandelt werden.

    Formulare haben dann besondere Vorteile, wenn es sich um rcklaufende Eingangsposthandelt. Denn diese ist dann so strukturiert, wie die Organisation, die sie verarbeitenwill, bentigt. Formulare und Vordrucke bleiben weiterhin eines der wichtigsten Mittel derInformationserhebung, Informationsorganisation und Prozesssteuerung. Inzwischengeht es nicht mehr nur um die Verarbeitung von Papiervordrucken und derenDatenextraktion. Ein Schwerpunkt ist die Identifikation von elektronischen Formularen,PDF-Formularen und Vordrucken in Papierform um durchgngige Prozesse umsetzen

    zu knnen. Dabei kommt eigenstndigen Textbaustein- und Formularmanagement-Lsungen mit entsprechender Versionierung, Synchronisation mit Datenmodellen undweiterer Verwaltungsfunktionalitt eine wichtige Bedeutung zu.

    bernahme von Daten und Dateien: COLD, Listenformate

    Wie bereits erwhnt sind Belege, die selbst erzeugt werden und deren Aufbau undDatenstruktur damit bekannt sind, besonders fr eine automatische Zufhrung in einECM-System geeignet. Das Verfahren mit dem dies geschieht, nennt man COLD.COLD/ERM sind Verfahren zur automatisierten Verarbeitung von strukturiertenEingangsdateien. Der Begriff COLD steht ursprnglich fr Computer Output on

    LaserDisk und hat sich gehalten, obwohl das Medium LaserDisk seit Jahren nicht mehram Markt ist. Das Akronym ERM steht fr Enterprise Report Management. In beidenFllen geht es darum, angelieferte Ausgabedateien auf Basis vorhandenerStrukturinformationen so aufzubereiten, dass sie unabhngig vom erzeugenden Systemindiziert und an eine Speicherkomponente wie eine dynamische Ablage (Store) oder einArchiv (Preserve) bergeben werden knnen. Die Aggregation stellt einenKombinationsprozess von Dateneingaben verschiedener Erstellungs-, Erfassungs- undzuliefernden Anwendungen dar. Zweck ist die Zusammenfhrung und Vereinheitlichungvon Informationen aus unterschiedlichen Quellen, um sie strukturiert und einheitlichformatiert an die Speicher- und Bearbeitungssysteme zu bergeben.

    Ausgangsdokumente werden blicherweise auf Druckern erzeugt. Deswegen bietet essich an, die Druckdaten selbst zu archivieren. Da diese Daten typischerweise ingreren Lufen erstellt werden (Spool-Dateien), hat sich das COLD-Verfahren fr die

    http://de.wikipedia.org/wiki/Vordruckhttp://de.wikipedia.org/wiki/Scanner_%28Datenerfassung%29http://de.wikipedia.org/wiki/Formularhttp://de.wikipedia.org/wiki/Layouthttp://de.wikipedia.org/wiki/Inhalthttp://de.wikipedia.org/wiki/Computer_Output_on_Laserdiskhttp://de.wikipedia.org/wiki/Drucker_%28Peripherieger%C3%A4t%29http://de.wikipedia.org/wiki/Spoolinghttp://de.wikipedia.org/wiki/Spoolinghttp://de.wikipedia.org/wiki/Drucker_%28Peripherieger%C3%A4t%29http://de.wikipedia.org/wiki/Computer_Output_on_Laserdiskhttp://de.wikipedia.org/wiki/Inhalthttp://de.wikipedia.org/wiki/Layouthttp://de.wikipedia.org/wiki/Formularhttp://de.wikipedia.org/wiki/Scanner_%28Datenerfassung%29http://de.wikipedia.org/wiki/Vordruck
  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    14/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 14 von27

    Archivierung dieser Druckdaten entwickelt. Dabei kommen unterschiedliche Strategienzum Einsatz: Abspeicherung als Rohdaten, die durch Aufruf von Layout-Ressourcen inein anzeigefhiges Dokument gewandelt werden, Abspeicherung in Listenform frstrukturierte Berichte und Auswertungen sowie strukturierte Anzeige der Daten inAnwendungen und Wandlung des Datenstroms in einzelnePDF-oderTIFF-Objekte, dieden versendeten Ausgangsbriefen bildlich entsprechen.Seit einiger Zeit sind die Anforderungen auch im Massendruck immer komplexer.Entsprechend wurden optimierte Druckdatenstrme wie PCL,Postscript,BETA93 oderAFP entwickelt, die aufwndige Layouts ermglichen. Die Speicherung solcherDruckdaten als einzelne Datei ist daher nicht mehr in jedem Fall praktikabel.Entsprechend bieten moderne COLD-Systeme folgende Grundfunktionen: Separierender Dokumente mit unterschiedlicher Seitenzahl, Index-Ermittlung ber frei definierbareLogik, Konvertierung der Druckdaten in ein archivgeeignetes Format wie zum Beispiel

    TIFF oder PDF/A und Erstellen von speziellen Importdateien fr unterschiedlicheArchivsysteme.

    AFP ist ein von IBM entwickeltes Format fr den Druckdatenstrom im Rahmen derHerstellung von Massendruckstcken. Ein AFP-Datenstrom besteht ausVerbunddokumenten (MO:DCA mixed object document content architecture) mit Text,grafischem Inhalt, Schriften und Barcodes. Fr die Bildschirmanzeige ist ein AFP-Viewererforderlich. BETA93 ist ein Output-Verwaltungssystem, mit dem Listen(Ergebnisunterlagen) online zur Verfgung gestellt werden anstatt auf Papier. Esverwaltet, verteilt und archiviert Listen automatisch. PCL (von Hewlett-Packardentwickelt) ist eine Befehlssprache zum Steuern von Laserdruckern und liegt in seiner

    Komplexitt zwischen ASCII (welche nur die einfachsten Kommandos erlaubt, wie z.B.Zeilenvorlauf) und PostScript (welches eine eigene, komplexe Programmiersprache istund einen Interpreter voraussetzt).

    http://de.wikipedia.org/wiki/PDFhttp://de.wikipedia.org/wiki/Tagged_Image_File_Formathttp://de.wikipedia.org/wiki/Printer_Command_Languagehttp://de.wikipedia.org/wiki/Postscripthttp://de.wikipedia.org/wiki/Advanced_Function_Presentationhttp://de.wikipedia.org/wiki/Layouthttp://de.wikipedia.org/wiki/Tagged_Image_File_Formathttp://de.wikipedia.org/wiki/PDF/Ahttp://de.wikipedia.org/wiki/PDF/Ahttp://de.wikipedia.org/wiki/Tagged_Image_File_Formathttp://de.wikipedia.org/wiki/Layouthttp://de.wikipedia.org/wiki/Advanced_Function_Presentationhttp://de.wikipedia.org/wiki/Postscripthttp://de.wikipedia.org/wiki/Printer_Command_Languagehttp://de.wikipedia.org/wiki/Tagged_Image_File_Formathttp://de.wikipedia.org/wiki/PDF
  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    15/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 15 von27

    Die COLD-Archivierung stellt eine sehr wichtige Komponente von Enterprise-Content-Management-Systemen dar. COLD dient hier sowohl fr die Aufbereitung der Ausgabefr verschiedene Formate als auch als Eingang fr die Bereitstellung der Postausgngein einer gesamtheitlichen Sicht auf alle elektronischen Dokumente (virtuelle Akte).COLD-Verfahren werden ferner fr Migration von Datenspeichern und die automatisierteberfhrung von Bewegungsdaten in Dokumentenmanagement-Lsungen benutzt.Ebenso werden auf diesem Weg automatisch MS Office-Dokumente abgelegt.

    Eine besondere Erwhnung in diesem Zusammenhang soll hier die Archivierung vonSAP-Daten finden. Auf Grund der sehr groen Verbreitung als ERP-System hat dieserAspekt eine herausragende Bedeutung. SAP verfgt zwar selbst auch ber mehr oderweniger umfangreiche ECM-Funktionen, dennoch werden in entsprechenden ECM-Umgebungen SAP-Belege (Rechnungen, Lieferscheine, Buchungsbelege etc.) imCOLD-Verfahren archiviert.

    Im Zusammenhang mit COLD kann es nicht ausbleiben, das Thema EDIFACT zustreifen. EDIFACT ist die Abkrzung fr Electronic Data Interchange For Administration,Commerce and Transport. EDIFACT ist ein branchenbergreifender internationalerStandard fr das Format elektronischer Daten im Geschftsverkehr. Die bei unsgebruchlichen EDIFACT-Stze bestehen aus einem Umschlag, den man sich als einBriefkuvert vorstellen kann. In diesem Umschlag stehen jeweils vereinbarteCodenummern fr Absender und Empfnger, sowie Nachrichteninhalt, Zeiten zurRckverfolgung, sowie Prfelemente. Eine Nachricht selbst besteht aus Segmenten,Datenelementgruppen und Datenelementen. EDIFACT ist ein Standard fr das

    Datenformat, nicht fr die bertragung der Daten, das heit im Prinzip knnenEDIFACT-Nachrichten ber jedes Medium/Protokoll ausgetauscht werden, das zurbertragung elektronischer Daten benutzt werden kann. Ursprnglich wurde EDIFACTauf Standleitungen eingesetzt. Es gab auch erfolgreiche Projekte, die EDIFACT-Nachrichten per Diskette oder Magnetband transportierten. Auch das Internet kannnatrlich fr EDIFACT genutzt werden.EDIFACT-Nachrichten sind natrlich prdestiniert fr die Archivierung per COLD. Esmssen bestimmte Voraussetzungen geschaffen werden. Entweder sind die beteiligtenAnwendungen in der Lage, EDIFACT-Nachrichten zu erzeugen oder zu verarbeiten,oder es wird ein Konverter dazwischengeschaltet, der die Daten entsprechendumwandelt. Ein moderner Konverter kann heute jedes Format in jedes Format

    umwandeln. Zustzlich wird dann eine Steuerung verwendet, die denKommunikationsprozess von der Partnerverwaltung, der Tabellenverwaltung, demLogging und der Archivierung vollautomatisch bernimmt. EDIFACT ist ein Format, dasdie ganz berwiegende Mehrheit aller Geschftspapiere beschreibt. Es ist notwendig,zwischen den Partnern genaue Vereinbarungen ber Dateninhalte zu treffen, die dieKannfelder und Mussfelder in ausgewhlten Segmenten festlegt.

    Formate JPEG 2000, AFP, PDF/A, TIFF, XML etc.; Format-Konvertierung

    Die Speicherung der zu verwaltenden Objekte innerhalb eines ECM-Systems ist ein

    sehr bedeutender Komplex, da das Format letztendlich die Verwendbarkeit undDarstellung des betreffenden Objekts bestimmt. Da es eine Vielzahl verschiedenerFormate gibt und mit Dokumenten nur dann umgehen kann, wenn man z.B. einen

    http://de.wikipedia.org/wiki/Enterprise_Content_Managementhttp://de.wikipedia.org/wiki/Enterprise_Content_Managementhttp://de.wikipedia.org/wiki/Dokumentenmanagementhttp://de.wikipedia.org/wiki/Standardhttp://de.wikipedia.org/wiki/Datenformathttp://de.wikipedia.org/wiki/Daten%C3%BCbertragunghttp://de.wikipedia.org/wiki/Standleitunghttp://de.wikipedia.org/wiki/Diskettehttp://de.wikipedia.org/wiki/Magnetbandhttp://de.wikipedia.org/wiki/Internethttp://de.wikipedia.org/wiki/Internethttp://de.wikipedia.org/wiki/Magnetbandhttp://de.wikipedia.org/wiki/Diskettehttp://de.wikipedia.org/wiki/Standleitunghttp://de.wikipedia.org/wiki/Daten%C3%BCbertragunghttp://de.wikipedia.org/wiki/Datenformathttp://de.wikipedia.org/wiki/Standardhttp://de.wikipedia.org/wiki/Dokumentenmanagementhttp://de.wikipedia.org/wiki/Enterprise_Content_Managementhttp://de.wikipedia.org/wiki/Enterprise_Content_Management
  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    16/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 16 von27

    geeigneten Viewer besitzt, ist der Ruf nach standardisierten Formaten nur zu verstehen.Die Dokumentenformate lassen sich in folgende Gruppen zusammenfassen:

    Rasterformatesind alle Formate, in denen der darzustellende Inhalt mit einzelnenBildpunkten unterschiedlicher Farbe wiedergegeben wird. Beispiele sind TIFF undJPEG.

    Auszeichnungsformatesind alle Formate, in denen das Layout der jeweiligenObjekte mittels lesbarer Kennzeichnungen (Tags) festgelegt wird. Beispiele sind XMLund HTML.

    Mixed Object-Formatebeschreiben jeden Objekttyp (Text, Grafik, Barcode etc.) ineiner eigenen, seine Besonderheiten bercksichtigenden Weise. Beispiele sind,PDF, PDF/A, PCL und AFP.

    Die im Umfeld von ECM-Lsungen gebruchlichsten Formate sind wohl TIFF, JPEG,XML und PDF bzw. PDF/A.

    TIFF wurde als Format zur Speicherung von Bilddaten von Aldus (spter: Adobe) undMicrosoft fr gescannte Rastergrafiken fr die Farbseparation entwickelt. Es untersttztS/W-Bilder und Bilder mit Grauwerten oder Farben sowie einseitige (single-page-TIFF)und mehrseitige Dokumente (multi-page-TIFF). Die Komprimierung von S/W-Bildernkann verlustfrei erfolgen durch z.B. Fax Gruppe 3 oder 4. Farbbilder werden verlustfreikomprimiert durch LZW-Verfahren oder verlustbehaftet durch JPEG-Verfahren. TIFFkann mit Standard-Viewern angezeigt werden. Manchmal gibt es dabei durchverschieden Versionen Kompatibilittsprobleme. Es ist das bisher am meistenverwendete Speicherformat in DMS/ECM-Anwendungen.JPEG oder besser: JPEG2000 ist seit 2001 offizieller weltweiter Kompressionsstandardder ISO fr statische Bilder. Er basiert auf einer Wavelet-Kompression und ist geeignetfr die elektronische Speicherung und Archivierung sowie die Langzeitarchivierung.XML ist ein Sprachenstandard zur Strukturierung und Beschreibung von Daten. DieSpeicherung geschieht nicht im Binrformat, sondern im Textformat. Es stellt eine echteUntermenge von SGML.PDF wurde von Adobe entwickelt als Dateiformat mit dem es mglich ist, elektronischeDokumente unabhngig von Textverarbeitungsprogramm und/oder Betriebssystemoriginalgetreu zu nutzen. Es ist ein statisches Format und beinhaltet alle Layout- undSchriftinformationen des Originals. Es untersttzt gleichzeitig eine flexible Architektur fr

    digitale Unterschriften. Das PDF-Format ist eine Weiterentwicklung von Postscript undwird mit dem kostenlosen Acrobat Reader oder anderen PDF-Viewern gelesen.PDF/A hat eine besondere Bedeutung, da sich hier ein Standard entwickelt hat, den alleExperten als das Format fr die Langzeitarchivierung einstufen, das berall verwendetwerden kann. Betrieben wurde die Entwicklung von den US Branchenverbnden NPESund AIIM. Erste Entwrfe zum Standard ISO 19005-1 liegen vor.Als Ziele fr die Langzeitarchivierung sind sowohl Versionsunabhngigkeit,Revisionssicherheit und Unabhngigkeit von Adobe definiert. Technisch gesehenhandelt es sich hier um eine erweiterte und auch beschrnkte PDF1.4-Definition. Essind z. B. eingebettete Scripte nicht erlaubt. Der Acrobat-Reader ist verfgbar aber nochkein PDF/A Viewer. Wesentliche Anforderungen, die an dieses Format gestellt wurden

    sind:

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    17/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 17 von27

    Gerte-, Software- und Versionsunabhngigkeit, so dass die Inhalte immer gleichdargestellt werden

    Self Contained, beinhaltet alle Komponenten, die zur Darstellung ntig sind, in derDatei inklusive Fonts

    Self Documented, die Dateien beschreiben sich inhaltlich und dokumentieren sichselbst ber wiederum standardisierte Metadaten

    Transparenz, eine PDF/A-kompatible Datei ist mit einfachen Mitteln analysierbar

    Es gibt bereits viele Organisationen und Unternehmen, die PDF/A als generellesSpeicherformat einsetzen. Beispielhaft sei hier die DAK Krankenkasse genannt.

    Sehr viel detaillierte Informationen gibt es hierzu beim PDF/A Competence Centerunter www.pdfa.org.

    Vor-/Nachteile verbreiteter Formate

    Merkmale BTIFF/G3 oder G4 B PDF B Prop. Formate

    Volltextfhig - Nein, erst durchOCR/ICR

    + Ja (aber nicht fr TIFF-in-PDF)

    + Ja, wenn Filter verfgbar

    Ressourcen-Probleme

    + Nein Manchmal Manchmal

    Verfgbarkeitvon Viewern

    UnterschiedlicheViewer, nicht allePlattformen

    + Sehr gut - Nur fr den Anwender derAutorensoftware oder durch3rd-Party Formatviewer

    Vernderbarkeit Einfach durchEditoren, Systemmuss schtzen

    Einfach durch Editoren,System muss schtzen

    Einfach durch Editoren,System muss schtzen

    Zukunft-sicherheit desFormates

    + Hoch + Hoch Hoch bei Einfachformaten(ASCII) und weitverbreiteten Formaten (Bsp.Word). Riskant bei anderen

    Kann farbigeTexte enthalten

    - G3/G4 nur bitional.TIFF mit JPEGmglich

    + Ja + Ja

    Kann farbigeGrafikenenthalten

    - G3/G4 nur bitional.TIFF mit JPEGmglich

    + Ja (positiv: EmbeddedBitmaps werdenkomprimiert

    + Ja (Achtung: Kompression!)

    Nicht immer stehen Objekte in dem Format zur Verfgung, welches in der aktuellenAnwendung verwendbar ist. Deswegen mssen in diesen Situationen Konvertierungenvorgenommen werden. Es gibt verschiedenste Zeitpunkte und Grnde fr dieAnforderung, Dokumente in ein anderes Format zu konvertieren. So kann esvorkommen, dass fr eine Anzeige am Bildschirm das Dokument konvertiert werdenmuss. Dies geschieht unmittelbar whrend des Viewing-Prozesses. Das Original bleibtdabei unverndert. Vielleicht muss eine Konvertierung fr eine Langzeitarchivierungvorgenommen werden. Hierbei wird das Originalformat verndert. In manchen Fllen

    mssen sogar mehrere Formate des gleichen Inhalts unter gleichem Index archiviertwerden. Dies kann der Fall sein, wenn S/W- und Farb-Dokumente abgelegt werden

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    18/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 18 von27

    mssen. Um im Web Dokumente verwenden zu knnen, ist es erforderlich, diese zukonvertieren.

    Ein hufig verwendetes Format ist hier Adobe Flash als eine proprietre integrierteEntwicklungsumgebung zur Erstellung multimedialer Inhalte, so genannter Flash-Filme. Die resultierenden Dateien liegen im SWF-Format vor, einem auf Vektorgrafikenbasierenden Grafik- und Animationsformat. Das Krzel SWF steht dabei fr ShockwaveFlash. Um Flash-Dateien betrachten zu knnen, ist das proprietre AbspielprogrammFlash Player erforderlich, das auch als Webbrowserplugin eingebunden werden kann.Flash findet heutzutage auf vielen Webseiten Gebrauch z.B. als Werbebanner.

    Automatische Klassifikation, Taxonomien

    Generell versteht man unter Klassifikation die Bildung von Dokumentenklassen oderInformationsobjektklassen. Diese dient zur Gruppierung von Objekten mit gleichenAttributen oder Eigenschaften. Die Nutzung von Dokumentenklassen ist eine derwesentlichen Eigenschaften von Systemen um Dokumente und Informationsobjekte zuschtzen, zu strukturieren und zu ordnen, in geeigneter Form in elektronischen Akten zuvisualisieren und effizient zu verwalten. Typische Attribute von Dokumenten- oderInformationsobjektklassen sind Schlagworte, Ordnungskriterien, Berechtigungen,Speicherorte, Aufbewahrungsfristen, Vernichtungszeitpunkte. Den Prozess derZuordnung von Objekten zu einer Klasse bezeichnet man als Klassifizierung oder auchIndizierung oder Attributierung.

    Copyright 2006, Competence Center Postbearbeitung,VOI e.V., Bonn

    Wie bereits weiter oben ausgefhrt, ist es ein verstndliches Anliegen der Anwender,diesen Prozess mglichst zu automatisieren und eingehende, elektronische und

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    19/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 19 von27

    papierbasierte Dokumente automatisch zu indizieren und zuzuordnen. Hierzu werdennach der Erfassung durch den Scanner die Faksimiles mit OCR/ICR-Technikeninterpretiert und anschlieend werden die Indexmerkmale nach vordefinierten Schemataherausgefiltert, geprft und mit Stammdaten abgeglichen. Selbstlernende Programmeerlauben die Generierung von Strukturen, Aufbau von Ordnungssystematiken undZuordnungen anhand der Dokumentinformationen. Elektronische Informationsobjekte(z.B. per OCR-gewandelte Faksimiles, Office-Dateien oder Ausgabedateien) enthaltenInformationen. Auf Basis dieser Informationen knnen Programme zur automatischenKlassifikation selbststndig Index-, Zuordnungs- und Weiterleitungsdaten extrahieren.Solche Systeme knnen auf Basis vordefinierter Kriterien oder selbstlernendInformationen auswerten. Zur Anwendung knnen hierbei neuronale Netze oderregelbasierte Anstze kommen. Neuronale Netze sind selbstlernende Mechanismenbzw. knstliche Intelligenz. Auf Grund einer definierten Lernmenge knnen alle weiteren

    Informationen automatisch zugeordnet werden. Der Effekt des bertrainierens kanndiese Systeme allerdings in unkontrollierbare Zustnde versetzen.Regelbasierte Anstze sind alle Merkmale, die einen bestimmten Dokumententypbeschreiben, mssen durch eine Regel beschrieben werden. Bei sehr heterogenenDokumenten knnen erhebliche Administrationsaufwnde fr die Erstellung der Regelnentstehen.

    Es ist verstndlich, dass solche Automatismen nicht immer fehlerfrei ablaufen. Es

    knnen Erkennungsfehler auf Zeichenebene, Feldebene, Dokumentebene vorkommen.Die Fehlerrate nimmt mit jeder Ebene exponentiell zu. Als Fehler oder Probleme kannes beispielsweise geben:

    Nicht gefunden: das Feld steht auf dem Dokument wurde aber nicht erkannt Falsch gefunden: das Lieferdatum wurde als Rechnungsdatum interpretiert Falsch gelesen: 12.08.2004 wurde als 12.03.2004 erkannt Fehlerhafterweise gefunden: auf dem Dokument fehlt die Information, trotzdem wird

    aber ein Wert geliefert. Normierung beachten: Sind 12.08.2004 und 12-8-04 identisch? Andere Beispiele: Goethestr. Goethe Strae oder ++49 7531 874259 7531

    874259 Felder haben unterschiedliches Gewicht: Adresse hat mehr Zeichen als ein Betrag /

    besteht ein Datum aus einem oder aus drei Feldern?

    Automatisches LernenSinnvoll bei vielenverschiedenenDokumententypen

    Reduziert den Erstaufwandbeim SetupFhrt zu untransparentemVerhalten

    Schwer zu optimieren undzu pflegen

    Funktioniert bei derInformationsextraktion nureingeschrnkt

    Regelbasiertes LernenSinnvoll bei geringer odermittlerer Anzahl vonDokumententypen

    Dokumentanalyse durchqualifiziertes PersonalEinfach zu verstehen und zuoptimieren

    Kann auch spezielleSonderflle behandeln

    Funktioniert sowohl bei derKlassifikation als auch bei derInformationsextraktion

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    20/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 20 von27

    In einer automatischen Nachverarbeitung kann unter Zuhilfenahme von Kontextwisseneine Korrektur von Fehlern vorgenommen werden. In einem geometrischen Kontext

    werden Betrge besonders behandelt oder es wird ein Liniensystem anhand derErkennung gebildet. Dieses erlaubt es solche Erkennungsunterscheidungen wie z.B. bei9 oder G, , oder I, o oder O vorzunehmen. Im logischen Kontext lassen sichGro- und Kleinbuchstabenworte eindeutig interpretieren. Beispielsweise wird H A L L[0 | O | o] eindeutig als HALLO erkannt. Als lexikalischer Kontext wird der Abgleichgegen ein Wrterbuch bezeichnet. Dies nennt man auch taxonomischer Ansatz.

    Die Taxonomie in Bezug auf Dokumente steht fr ein Klassifikationssystem, eineSystematik oder den Vorgang des Klassifizierens zur Schaffung von Ordnungs- undAblagestrukturen mit Beziehungen zwischen Klassen und den zugeordneten Objekten.In diesem Umfeld ist auch der Begriff Ontologie angesiedelt. Ontologien dienen der

    Bildung von Kategorien, denen Einzelobjekte zugeordnet werden. Zusammengehaltenwird eine Ontologie durch Interferenz- und Integrittsregeln, die die Struktur, dieBeziehungen und die Regeln selbst in einem geschlossenen kausalen System logischund nachvollziehbar definieren. Der Unterschied zwischen Taxonomie und Ontologie ist,dass die Ontologie ein Netzwerk von Informationen mit logischen Relationen darstellt,whrend die Taxonomie eine hierarchische Untergliederung bildet. In modernenSystemen kann man aber auch eine Taxonomie als hierarchische Abbildung einer aufRelationen aufgebauten Ontologie betrachten, die Restriktionen klassischerhierarchischer Ordnungsprinzipien, in denen sich ein Begriff oder ein Objekt immer nuran einer Position in einer Hierarchie befinden kann, gilt in IT-Systemen nicht mehr.hnliches gilt brigens auch fr hierarchisch aufgebaute Thesauri, wo mittels Crosslinksnach ISO 2788 die rein hierarchischen Zuordnungen durchbrochen werden knnen.Die Nomenklatur ist eine Anwendung der Taxonomie.

    Ein kontrollierter und/oder prfbarer Wortschatz, der als Auswahllisten und hierarchischeThesauri bereitgestellt wird, sichert die Einheitlichkeit der Indizierung. Im Gegensatz zuherkmmlichen Ablageorganisationen kann jedes Dokument mit mehreren Begriffenverbunden werden, was spter die Suche erheblich vereinfacht.

    Besondere Szenarien und Anwendungsbeispiele

    Die bisherigen Ausfhrungen zum Thema Capture werden abgeschlossen mit einigenkurzen Szenarien und Anwendungsbeispielen, wie sie uns in der Praxis begegnen..PosteingangslsungenDie mit am Hufigsten anzutreffende Anwendung in ECM-Lsungen ist die Verarbeitungdes Posteingangs. Sie ist auch eine der Anwendungen, die auf Grund derVerschiedenartigkeit der Belege mit die hchsten Anforderungen an das Capturing stellt.Automatisierte Posteingangserfassung mit maschineller Indizierung dient zurberwindung des Flaschenhalses der Erfassung. Bei diesen Anwendungen ist immerder Umfang der Automatisierbarkeit zu prfen. Organisation besonders bei stufenweiserEinfhrung, Zeitpunkt der Bereitstellung, Abhngigkeit von der Verfgbarkeit und

    Prozentsatz richtig erkannter Daten und Aufwand fr Korrekturen sind Punkte, denenbesondere Aufmerksamkeit geschenkt werden muss. Wo es mglich ist, sind alleEinflussmglichkeiten auf selbst erstelltes Schriftgut (Vordrucke, Formulare,

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    21/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 21 von27

    Individualbriefe) auszunutzen. Letztendlich sind alle rechtlichen Grundlagen wieUnterschriften, Papiervernichtung und Elektronisches Posteingangsbuch (zertifizierteZeitstempel) sorgsam zu bercksichtigen. Ein einheitlicher Postkorb ist das, was die

    Anwender eigentlich wollen. Das bedeutet:

    Alle Nachrichten aus den Quellen Posteingang, Vorgangsbearbeitung, interne E-Mail, Internet-Mail, Fax, Datenbankrecherchen, Sprachaufzeichnung etc. in nureinem Posteingangsordner

    Der Medienbruch zwischen derzeit verschiedenen Ordnern (man muss wissen, wodie Information ist) soll vermieden werden.

    Eine einheitliche, strukturierte Benutzeroberflche mit Dokumentenmanagement-Funktionalitt soll angeboten werden.

    RechnungseingangsverarbeitungEine Anwendung mit sehr viel Einsparungspotenzial ist die Verarbeitung voneingehenden Rechnungen. Hier werden nach dem Scannen die Rechnungen einerDokumentenanalyse unterzogen, diverse Daten extrahiert und abschlieend inVerbindung mit dem bestehenden ERP-System die Rechnungen eingebucht. Als Datenwerden extrahiert:

    Kopfdaten (Identifizieren des Buchungsvorgangs, Lieferant, Rechnungsdatum,Whrung etc.)

    Positionsdaten (Artikelangaben, Menge, Einzelpreis, exakte Kontierungsangaben,Steuerangaben, Beschreibung, Zahlungsbedingungen, Skonto etc.)

    Zusatzangaben (Kostenstelle, Auftragsdaten, Projektdaten, Aufteilungsschlssel etc.)Schwierigkeiten, die eine 100%ige automatische Verbuchung behindern tauchen dannauf, wenn Rechnungen von noch nicht bekannten Kunden eingehen, noch keineKunden-Nummer angelegt ist, das Rechnungs-Layouts sich gendert hat oder groeSammelrechnungen geteilt werden mssen.

    Scannen mit elektronischer SignaturGenerell werden elektronische Rechnungen durch die elektronische Signatur effizienter.Denn nur dadurch ist gewhrleistet, dass die Vorsteuer abgezogen werden darf (UStG14), dass umfangreicher Papieraustausch (teilweise zustzlich zur elektronischen

    Rechnung) und Aufwendungen fr Papierhandling (Portokosten) vermieden werden. Essind Lsungen sowohl fr Ein- als auch fr Ausgangsrechnungen verfgbar.Fr die Nutzung der elektronischen Signatur beim Scannen wird verlangt, dass diekorrekte Verarbeitung, Indizierung und Qualittskontrolle jedes Einzeldokuments durchdas Scan-Personal mit der persnlichen Signaturkarte besttigt wird. Welchen Wert hatdiese Signatur? Sie gilt nur als Besttigung, dass vollstndig und lesbar erfasst wurde.Es gibt keine Beziehung zum Absender bzw. Nutzer des Dokuments. DieseVorgehensweise ist bei Organisationen, die der Sozialgesetzgebung unterliegenbindend.Die elektronische Signatur verbreitet sich zunehmend, die Signatur findet zunehmendAkzeptanz, besonders bei elektronischen Rechnungen. Es besteht bereits ein groes

    Angebot an Produkten. Die ffentliche Verwaltung ist Vorreiter bei Fachanwendungen.

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    22/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 22 von27

    E-Mail-ManagementE-Mail-Management rckt immer strker in den Fokus der Anwender. Immer mehreigenstndige Produkte kommen auf den Markt. Noch beherrschen reine E-Mail-Archivierungslsungen den Markt, stellen jedoch eine Sackgasse dar. Langsam wirdden Anwendern bewusst, dass sie weitere Insellsungen schaffen und eine Integrationin vorhandene Ablagen in Kunden-, Vorgangs- oder Sachakten bentigen. DieBrokommunikationsprogramme quellen ber und werden gleichzeitig immer grer undkomplexer. Der Spam-Anteil bzw. der Anteil an unntigen Mails und der Aufwand fr dieSystemadministration steigen. Bei E-Mails ist die Identifikation deraufbewahrungspflichtigen, der aufbewahrungswrdigen und der brigen Dokumentebesonders aufwndig, insbesondere wenn private Nutzung erlaubt ist. Hufig werden E-Mails und/oder Attachements gedruckt und dann abgelegt.Verschiedene Alternativen werden bei Anwendern eingesetzt. Die vollstndige

    Archivierung liefert mit Sicherheit Konformitt mit den rechtlichen Erfordernissen, bietetdie Mglichkeit der Prozessintegration und hat kaum Einfluss auf die Arbeitsweise derNutzer. Sie ist aber zugleich umfangreichste, aufwndigste und damit meistkostenintensivste Lsung. Die vollstndige Archivierung mit Separierung der Anlagenfhrt zu wesentlicher Reduzierung der Mailboxgren, erhht damit die Performanceund bentigt weniger Hardware. Bei der selektiven Archivierung werden nicht immer allerechtlichen Anforderungen erfllt. Nach einem Crash des Mailsystems ist eineZuordnung der archivierten Anhnge zu Mails meist schwierig. Ein Offline-Rckgriff aufdie Anhnge ist nicht mglich. In der Realitt finden sich natrlich auch Kombinationender Verfahren. Alle diese Verfahren knnen anwender- oder system-getriebeneingesetzt werden.

    Fax als Scannen an entferntem OrtEin Fax-Gert ist eigentlich nichts anderes als ein Scanner. An einem entfernten Ortwerden Dokumente in ein Faksimile-Format gebracht und an einen Empfngerverschickt. Da diese Dokumente bereits in digitaler Form eingehen, knnen sie beientsprechender Infrastruktur vollautomatisch erfasst werden. Dies fhrt zu erheblichenEinsparungen durch weniger Kosten fr Ausdrucke, Wegfall der Zeit beim Scannen,Reduzierung der Zeit fr Indizierung und Arbeitsvorbereitung. Als zustzlicher Nutzenergibt sich kein Medienbruch, kein Zeitverlust bei der Weiterverarbeitung derSchriftstcke, Prozessoptimierung und Nutzung aktueller technischer Mglichkeiten desECM-Systems.

    Modulares Scan-SubsystemHierunter ist ein Subsystem zu verstehen, dass auf einem Bus einzelne Module, dieber Profile gesteuert, zugeschaltet oder nicht genutzt werden, den vollstndigenErfassungsprozess bis zur bergabe an Folgesysteme erledigt. Bei diesem System-Aufbau legt der Administrator zentral fest, welche Arbeiten an den entfernten Standortenerledigt werden sollen. Die Dokumente knnen sofort nach dem Scannen bermitteltwerden oder sie knnen in der entfernten Niederlassung weiterverarbeitet werden.Mitarbeiter vor Ort, die mit den Dokumenten vertraut sind, bernehmen die Indexierungund Validierung.Vorteile dieses konzernweiten Schriftgutmanagements sind z.B. in einem echten Einsatz

    eine einheitliche Plattform fr die unterschiedlichen Anforderungen derTochterunternehmen, ausreichende Flexibilitt trotz einheitlicher Plattform, um eine

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    23/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 23 von27

    Vielfalt von Anforderungen abdecken zu knnen, Minimierung des Wartungsaufwandesund der Ausfallzeiten sowie die schnelle Reaktion auf neue Anforderungen.

    Zentrales vs. dezentrales ScannenGenerell lassen sich beim Scannen zwei Strategien unterscheiden. Bei der zentralenErfassung gibt es eine Stelle im Unternehmen, wo die Post erfasst wird (Scan- oderPost-Stelle). Bei der dezentralen Erfassung gibt es einige bis zu einer Vielzahl vonScannern, die ber das Unternehmen verteilt oder sogar in ausgelagerten Stellen (z.B.Baustellen, Filialen) installiert sind. Die entsprechenden Sachbearbeiter erfassen dieBelege vor Ort.Zentrale Posteingangslsungen machen bei hherem Papieraufkommen Sinn. Dietechnische Auslegung der Lsung einschlielich redundanter Komponenten ist an einerStelle konzentriert. Eine hhere Qualitt bei der Erfassung durch spezialisiertes

    Personal ist sicher gestellt. Ein entsprechendes Know-how fr dieDokumentenerfassung kann aufgebaut werden. Dies ist besonders dann wichtig, wenndas Unternehmen eine Strategie der frhen Erfassung verfolgt und alle Informationenelektronisch den Mitarbeitern zur Verfgung stellen will.Dezentrales Scannen macht dort Sinn, wo eine verteilte Unternehmensstruktur mitzahlreichen Standorten zu finden und die Dokumente erst nach der Bearbeitung erfasstwerden.Als Sonderfall sind hier Multifunktionsgerte wie kombinierteKopierer/Fax/Drucker/Scanner-Systeme zu nennen. Diese ermglichen unabhngig vonspezialisierten zentralen oder dezentralen Scan-Strecken die Erfassung von kleinerenDokumentenbestnden.

    Frhes, paralleles, sptes ScannenJe nach Zeitpunkt des Scannens im Prozess der Erfassung und Sachbearbeitungunterscheidet man in frhes, paralleles und sptes Scannen.Beim frhen Scannen erfolgt die Wandlung des Papierdokuments in ein elektronischesDokument vor der eigentlichen Bearbeitung. Dazu muss beim Scannen bereitsmindestens eine Basisindizierung und eventuell eine elektronische Signatur erfolgen.Die weitere Bearbeitung des dem Dokument zugrunde liegenden Vorgangs kann dannelektronisch erfolgen. Das frhe Scannen ist die Basis fr komplett elektronischuntersttzte Workflows, elektronische Aktenlsungen, papierlose Sachbearbeitung u..Beim spten Scannen erfolgt der Scan-Vorgang erst nach Bearbeitung des

    Dokuments. Hufig wird bei der Bearbeitung ein Barcode oder eine eindeutig zuidentifizierende Nummer auf das Dokument angebracht. Dann kann durch einenErkennungsvorgang das Dokument nach dem Scannen direkt einer Anwendungzugeordnet und automatisch indiziert werden.Es sind auch Mischformen des frhen und spten Scannens denkbar. Beim parallelenScannen wird das Dokument am Arbeitsplatz des Bearbeiters bearbeitet, gescannt undindiziert.

    Einbindung von MultifunktionsgertenMultifunktionsgerte wie kombinierte Kopierer/Fax/Drucker/Scanner-Systeme (MFP =Multi Function Printer) knnen innerhalb eines ECM-Systems als dezentrale Scanner

    Einsatz finden. Ein MFP versendet automatisch gescannte Dokumente in das ECM-System und dessen Workflow. Die Indexkriterien/Metadaten werden anhand vonausgewhlten Profilen (z.B. Rechnung) manuell erfasst. Die Vorteile bei der Nutzung

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    24/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 24 von27

    solcher Gerte in einem ECM-System sind, dass es das MFP erlaubt, Papierdokumentein Informationen umzuwandeln, die sich auf einfache Weise in alleGeschftsanwendungen integrieren lassen und dass bestehende Komponenten genutztwerden knnen.Allerdings eignet sich ein MFP nur fr kleine Scan-Mengen und fr eine einfacheIndizierung. Am MFP selbst ist keine Prfung der Scan-Qualitt mglich (beschrnkteDisplays). Fr eine komplexere Indizierung, Workflow-Steuerung und Qualittsprfungist Zusatzsoftware erforderlich. Als Problempunkte sind generell zu nennen:

    Ist eine Schnittstelle zu ECM-Systemen oder Zusatzsoftware vorhanden? Wie wird die Lieferung von nicht indizierten Dokumenten in empfangende Systeme

    (z.B. ECM-System) geregelt? Wie wird das Nachscannen bei schlechter Qualitt durchgefhrt?

    BuchscannenBcher zu scannen erfordert eine komplett andere technische Vorgehensweise alsDokumentenscannen. Anders als bei herkmmlichen Flachbettscannern liegt das Buchbei den Buchscannern nicht mehr mit seinen Seiten nach unten auf einer Glasplatte. DerGrund liegt verstndlicherweise darin, dass dieses zustzliche von oben mit einemDeckel beschwert zu sein den Buchrcken zu stark belastet und das Buch beschdigtwerden knnte. Deswegen liegt das Buch bei den Auflichtscannern meist in einerBuchwippe und die Seiten werden von oben gescannt. Das vermeidet starkeGebrauchspuren nach der Digitalisierung eines Werkes. Da zu scannende Seiten sonicht plan liegen knnen, werden erhhte Anforderungen an die Imageverarbeitung

    bezglich der Bildqualitt gestellt.Buchscanner sind grundstzlich in drei verschiedene Kategorien einzuteilen. ManuelleBuchscanner (Auflichtscanner oder adaptierte Flachbettscanner), halbautomatischeoder vollautomatische Buchscanner. Whrend man bei den manuellen Buchscannerndie Seiten von Hand umblttert, haben vollautomatische Gerte dafr verschiedeneMechanismen. Es gibt Buchscanner, die bis zu Vorlagen der Gre DIN A0 verarbeitenknnen.

    SonderformateAn dieser Stelle soll auf zwei besondere Formate bzw. Speicheranforderungeneingegangen werden.

    Die Speicherung von Plnen und Karten wird meist von Spezialanwendungenabgedeckt. Diese sind ausgelegt fr die Verwaltung und Darstellung von Plnen undDokumentationen zu technischen Projekten und stellt deswegen Funktionen bereit, dieein DMS nur eingeschrnkt abbilden kann, z.B. bersichtliche Projektverwaltung,Archivierung der Plne und Dokumentationen, detaillierte Ablage aller Planbeschreibenden Daten, komplette Versionsverwaltung, Adressbuch mit zahlreichenSchnittstellen, vordefinierter und ad-hoc-Planversand, nachvollziehbare Dokumentationaller Planbewegungen, konsequente Terminverfolgung, Plankopfdatenaustausch mitCAD-Systemen, leistungsfhiger Viewer zum Betrachten und Drucken, Druckenvordefinierter und frei erstellbarer Listen sowie Anbindung von Plottern bzw. Plot-/Repro-Betrieben.

    Deswegen ist es empfehlenswert, die Plne in diesem Spezialsystem zu belassen. DieSpezial-Funktionen und die Archivierung in Verbindung mit Plnen bleiben dort.Rckgriffe auf Plne sollen bei Bedarf direkt aus dem DMS durchgefhrt werden.

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    25/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 25 von27

    DICOM (Digital Imaging and Communications in Medicine) ist ein weltweiter offenerStandard zum Austausch von digitalen Bildern in der Medizin. Er standardisiert sowohl

    das Format zur Speicherung von Bilddaten, als auch das Kommunikationsprotokoll zumAustausch der Bilder. Fast alle Hersteller medizinisch bild gebender Systeme wie z.B.Digitales Rntgen, Computertomographie oder Sonografie implementieren den DICOM-Standard in ihren Gerten. Dadurch wird im klinischen Umfeld Interoperabilitt zwischenmedizinischen Systemen verschiedener Hersteller erreicht.

    Scan-OutsourcingEine mittlerweile sehr gebruchliche Weise Dokumente zu erfassen, ist die Vergabedieser Ttigkeit auer Haus. Dies versteht man unter dem Begriff Outsourcing.Outsourcing ist eine langfristige und hufig endgltige Vergabe von Leistungen an einenexternen Dienstleister, die bisher selbst erstellt wurden oder sonst selbst erstellt werden

    mssen. Scan-Outsourcing ist die Vergabe von Scan- und Erfassungs-Leistungen aneinen externen Dienstleister.Die auf dem Markt prsenten Dienstleister bieten eine komplette Palette an:Arbeitsvorbereitung (Entklammern, Gltten, Sortieren), Scannen, Indizierung, Abgleichmit dem ERP-System des Kunden (z.B. mit Bestelldaten), bertragung derBuchungsstze in das ERP-System, Qualitts- und Vollstndigkeitskontrolle undNachbehandlung (z.B. Vernichtung) der Belege.Doch ohne ausreichende Vorbereitung wird die Einbeziehung eines externenDienstleistungsunternehmens nicht erfolgreich sein. Es sind grundlegende Fragen zuklren (z.B. Welches Ziel wird verfolgt? Ist es unternehmenspolitisch durchsetzbar? Istdas Volumen ausreichend? Sind die Prozesse berhaupt abgrenzbar?). Die eigenenProzesse mssen mit Spezifikation der Schnittstellen, Angaben zur Dokumentenstrukturund zu Benutzergruppen dokumentiert werden. Generelle Anforderungen und geforderteService Levels mssen festgelegt werden. Eine Wirtschaftlichkeitsbetrachtung solltendurchgefhrt werden und Angebote sollten eingeholt und verglichen werden.blicherweise wird Outsourcing an einen Dienstleister vergeben, der die Aufgaben inseinen Rumlichkeiten durchfhrt. Es gibt aber auch die Variante des InhouseOutsourcing. In diesem Fall bernimmt der Dienstleister praktisch die Scan-Stelle desAuftraggebers mit seinem Personal oder er bringt sogar seine Scanner mit.

    Altakten-Scannen

    Bei der Neueinrichtung einer ECM-Lsung stellt sich oft die Frage, wie knnen alteBestnde bernommen werden. Natrlich knnen diese eingescannt werden. Da es sichhierbei meist um sehr groe Bestnde handelt, sollte dies konzeptionell gut durchdachtwerden. Grundstzlich bieten sich folgende Varianten an: der gesamter Altbestand wirdgescannt, der Altbestand ab einem bestimmten Stichtag wird gescannt, die Aktenwerden abhngig von geschtzter Zugriffshufigkeit gescannt oder sie werden ondemand d.h. bei Zugriff gescannt.Fr die bernahme groer Altaktenbestnde sollte stets ein externer Dienstleisterherangezogen werden. Es lohnt sich nicht, hierfr die Infrastruktur und Prozesse imHaus bereitzustellen (Hard- und Software, Personal, Raum).

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    26/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Kunde: eb Thema: ECMCapture Version: 1.0Datei: ECM_Capture_Kff_2009.docx Autor: Kff Status: Fertig

    PROJECT CONSULT GmbH 2009 Datum: 15.03.2009 Seite: 26 von27

    Fazit / Ausblick aktuelle Entwicklungen

    Abschlieend sollen ein paar Fragen mitgegeben werden. Mal sehen wie sich dieAnwender, die Hersteller und der gesamte Markt verhlt.

    PDF/A als DAS Langzeitarchivformat?! Viele Capture-Systeme liefern beim Scannennoch TIFF

    Ist Farbe beim Scannen rechtsrelevant? Bentigen wir den Begriff des Elektronischen Originals wo in IT-Systemen meistens

    mit Kopien gearbeitet wird? Bleibt es bei nur zwei fhrenden internationalen Capture-Basistechnologie-

    Anbietern? Wird sich der Markt fr automatische Klassifikation noch weiter konsolidieren?

    Wie lange bleibt die Erfassung von Papier noch wichtig, wenn der Trend zu immermehr elektronisch originr entstandenen Dokumenten geht? Nur das Scannen outsourcen oder gleich die ganze Lsung auer Haus geben?

    Fachlich kann festgestellt werden:

    Capture hat sich zu einer eigenstndigen Disziplin entwickelt sowohl fr dieBelieferung von ECM-Systemen und Archiven als auch fr die Lieferung von Datenan operative Systeme.

    Die automatische Klassifikation ist praxistauglich, besonders wenn die Ergebnissemit vorhandenen Daten abgeglichen werden knnen.

  • 7/25/2019 [DE] ECM: Capture | Dr. Ulrich Kampffmeyer | Hamburg 2009

    27/27

    ECM - CaptureDr. Ulrich Kampffmeyer

    Autor

    Dr. Ulrich Kampffmeyer, Jahrgang 1952, ist Grnder und Geschftsfhrer derPROJECT CONSULT Unternehmensberatung GmbH, Hamburg, eine derfhrenden produkt- und herstellerunabhngigen Beratungsgesellschaften frECM Enterprise Content Management, BPM Business Process Management,Knowledge Management, Records Management, Collaboration, Archivierung,Enterprise 2.0 und Information Management.

    Er beriet namhafte Kunden aller Branchen im In- und Ausland bei derKonzeption und Einfhrung von ECM-Lsungen.

    Als Grnder und langjhriger Vorstandsvorsitzender nationaler undinternationaler Branchenverbnde prgte er wesentlich den deutschen Marktfr ECM. Dr. Kampffmeyer ist Mitglied in mehreren internationalenStandardisierungsgremien im Umfeld des Workflow-, Dokumenten- und

    Records-Management.Dr. Kampffmeyer ist anerkannter Kongressleiter, Referent und Moderator zu Themen wie elektronischeArchivierung, Records Management, Dokumentenmanagement, Workflow, Rechtsfragen, Business Re-Engineering, Wissensmanagement und Projektmanagement. Auf zahlreichen nationalen undinternationalen Kongressen und Konferenzen wirkte er als Keynote-Sprecher mit. Er wurde mehrfach vonder ComputerWoche zu den 100 wichtigsten Persnlichkeiten der deutschen IT-Branche gezhlt. Voninternationalen Verbnden erhielt er zahlreiche Auszeichnungen fr sein Wirken als ECM Mentor inEuropa.

    Autorenrecht und CopyRightAutor: Dr. Ulrich Kampffmeyer

    PROJECT CONSULT Unternehmensberatung GmbHBreitenfelder Str. 17D-20251 Hamburg

    Tel.: 040 / 460 762 20Fax: 040 / 460 762 29E-Mail: [email protected]

    Web: www.PROJECT-CONSULT.com PROJECT CONSULT Unternehmensberatung GmbH 2009. Alle Rechte vorbehaltenDer gesamte Inhalt ist, sofern nicht gesondert zitiert, ein Originaltext des Autors. Jeglicher Abdruck, auchauszugsweise oder als Zitat in anderen Verffentlichungen, ist durch den Autor vorab zu genehmigen. DieVerwendung von Texten, Textteilen, grafischen oder bildlichen Elementen ohne Kenntlichmachung der

    Autorenschaft ist ein Versto gegen geltendes Urheberrecht. Belegexemplare, auch bei auszugsweiserVerffentlichung oder Zitierung, sind unaufgefordert einzureichen.


Recommended