+ All Categories
Home > Documents > ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS...

ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS...

Date post: 27-Oct-2019
Category:
Upload: others
View: 6 times
Download: 0 times
Share this document with a friend
20
ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- DATA-TECHNOLOGIEN Dr. Hidir Aras, FIZ Karlsruhe, 9.11.2018, DGI-Praxistagung 2018
Transcript
Page 1: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG-DATA-TECHNOLOGIEN

Dr. Hidir Aras, FIZ Karlsruhe, 9.11.2018, DGI-Praxistagung 2018

Page 2: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG-DATA-TECHNOLOGIEN

Einführung

TDMLab

- Systemarchitektur

- KNIME, Search & Analytics

- Skalierbare Services für TDM

- Beispiele

Fazit

Page 3: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

EINFÜHRUNG

▪ Patentinformationen

▪ Patent Search & Retrieval

▪ Big Data, Komplexität, die 3 V‘s (Volume, Variety, Velocity)

▪ Unterschiedliche Anforderungen, Use Cases und Expertise je nach Branche

▪ Anwendertypen

Page 4: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

TDMLAB – PROJEKT

DGI-Praxistagung 20184

▪ Drittmittelprojekt, gefördert vom BMBF, 2J Laufzeit

▪ Ziele:

▪ Big-Data-Plattform zur Abfrage, Analyse und Visualisierung von Patentinformationen

▪ Virtuelle Laborumgebung für Text- und Data-Mining (TDM), Erlernen/Erproben neuer Methoden

▪ Schwerpunkte:

▪ Patentanalyse / TDM

▪ Skalierbarkeit

▪ Scientific Workflows

Page 5: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

TDMLAB – SYSTEMARCHITEKTUR

DGI-Praxistagung 20185

▪ Data-Ingest aus unterschiedlichen Quellen

▪ Big Data Processing & Analytics mit Hadoop,

Spark

▪ Integration unterschiedlicher Workflows in

KNIME

▪ Suche über Search-API

▪ Data-Pipelines

▪ Visuelle Interaktion / Reporting

Page 6: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

TDMLAB – INTEGRATION DER FIZ SEARCH-API

DGI-Praxistagung 20186

• Zugang zu qualitativ hochwertigen, granular strukturierten

wissenschaftlichen Literatur- und Patentdatenbanken über ein RESTful API

• Suchfunktionalität vergleichbar umfangreich wie auf STN (chemische

Struktursuche, Textsuche, Codes)

• Anwendungsszenarien:

• Search, Retrieval und Alerting Anwendungen aus in-house Systemen

• Text- und Datamining Anwendungen (KNIME) und Analyse Tools

Page 7: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

FIZ Karlsruhe Custom Nodes

TDMLAB - ERWEITERUNG DER KNIME ANALYTICS PLATTFORM

7

▪ KNIME provides tools (nodes) for processing data, e.g. ETL (Extract Transform Load) and analysis

▪ FIZ developed specific KNIME nodes for e.g. searching, annotating and structuring of patents

Page 8: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

BEISPIEL: WORKFLOW ZUR TEXTANALYSE

8

ANALYZESEARCH VISUALIZE

PreProcessing-Workflow:

DGI-Praxistagung 2018

Page 9: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

TDMLAB - SEARCH & ANALYTICS (1)

9

• KNIME

• Generic Nodes

• Custom Nodes

• ElasticSearch: Aggregations, Significant Terms, Graphs

• Anwendung auf annotierte Daten

Page 10: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

TDMLAB - SEARCH & ANALYTICS (2)

Run scalable process Query Results Visualize Results

▪ Configure, deploy and run scalable services from KNIME

Page 11: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

• Skalierbare Analyseprozesse:

• Annotationen

• Patentanalyse mittels ML/TDM-Verfahren

− Trendanalyse, Patent Landscapes, Technologieanalyse (Whitespots, Hotspots)

− etc

• Eingesetzte TDM-Methoden - Beispiele:

• Clustering, Topic Extraction

• Entity Extraction und Linking

• Deep Learning (DL) z.B. Word Embeddings

TDMLAB – SKALIERBARE ANALYSEPROZESSE UND METHODEN

DGI-Praxistagung 201812

Page 12: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

Automatische Strukturierung des Patenttextes und Extraktion relevanter Informationen:

▪ Schneller Zugriff auf Patentsektionen und Segmente der Description, der Claims

▪ Effiziente und präzise Suche

▪ Ausnutzung für weitere TDM-Tasks wie z.B.

Term Extraction, Trendanalyse etc.

13

TDMLAB – STRUKTURIERUNG UND ANNOTATION DER VOLLTEXTE

DGI-Praxistagung 2018

Meta-data

Claims

Abstract

DescriptionTitle

Page 13: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

TDMLAB – ANNOTATIONEN: “ENHANCING THE VALUE OF PATENT RECORDS”

DGI-Praxistagung 201814

▪ Keyterm Extraction: Extraktion relevanter Phrasen mittels linguistischen und statistischen Methoden

▪ Numeric Analyzer: Erkennung und Normalisierung numerischer Werte physikalischer und

chemischer Größen

▪ Claim Structure Analyzer: Analyse der hierarchischen Struktur der Claims

▪ Description Text Segmentation: Segmentierung des Textes der Detailed Description

Table #Documents

Life Science Patents 3.159.043

CSR Annotations 1.106.713

KT Annotations 2.294.634

OSCAR4 Annotations 1.583.454

Patseg Annotations 1.764.374

Annotation Statistics:

Page 14: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

Patent Entity Knowledge BaseEntityPatent

InchiKey:

BEISPIEL: CHEMICAL ENTITY ANNOTATION & LINKING

15

▪ Annotation chemischer Entitäten in Patenttexten, z.B. Description, Claims und automatische Verlinkung ▪ Graph-basierte Exploration

DGI-Praxistagung 2018

Page 15: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

BEISPIEL: BIG DATA ANALYTICS ZUR TRENDANALYSE

16

Analyse und Erkennung technologischer Trends mittels Machine Learning (Topic Detection, Clustering)

Run TDM workflow on Hadoop for 30,000

Patents

Area: Textiles and Papers

Topic Extraction

Query: textiles, papers,...

Hadoop

Page 16: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (1)

1. Anfrage zum Thema „Information Security“ über IPC/CPC-Codes z.B.− H04L0009 (secret or secure communication)− H04W0012-00 (Security arrangements: access security or fraud detection;

Authentication: verifying user identity or authorization; Protecting privacy oranonymity)

− H04H0060-23 (using cryptography: encryption, authentication or key distribution)

2. Retrieval der Ergebnisdokumente3. Analyse der Domäne

Relevante Fragen zur Patentanalyse:− Welche Erkenntnisse erhält man aus den analysierten Patenten?− Welche Trends sind in der Domäne “Information Security” erkennbar? − Welche technologischen Schwerpunkte sind ersichtlich?

Ergebnisse

Domänenspezifische Suchanfrage

Analyse

DGI-Praxistagung 201817

Page 17: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (2)

▪ Task:

▪ Entdecke neue Technologiefelder in den Inventions

▪ Definition einer “Technology Area” bzw. “Technical Field”:

▪ Repräsentiert den Technologiebereich zu dem eine Erfindung gehört

▪ Spiegelt den Anfang des Textes im Main Claim wider

▪ Das Segment erlaubt die Exploration nach relevanten Dokumenten

DGI-Praxistagung 201818

Patent DocumentsPatSeg

Technology Hotspots Map

Technological Area Hotspots

Extract “Technical Field” segments

Extract significant terms andphrases

▪ Create Co-occurrence network graph

▪ Apply “Community Detection Algorithm” fordetermining the final topics

Retrieve patent documents

Page 18: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3)

Visualisierung der “Technology

Hotspots” für die Information

Security Domäne

DGI-Praxistagung 201819

Page 19: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

FAZIT

DGI-Praxistagung 201820

▪ In Patenten ist wertvolles Wissen vorhanden, das sonst nirgends publiziert wurde

▪ Auch außerhalb der klassischen IP-Welt haben Patentinformationen daher einen

besonderen Wert, den es auszuschöpfen gilt

▪ Big-Data Technologien und neue maschinelle Lernverfahren wie Deep Learning helfen bei

der semantischen Erschließung und Verknüpfung mit externen Wissensquellen

▪ Workflows und APIs erlauben die Integration spezifischer Lösungen zur Patentanalyse in

„in-house“ Umgebungen

▪ Data Science Umgebungen erlauben hierbei das Erlernen und Erproben neuer Methoden

und das Anwenden existierender Modelle auf eigen Problemfälle

Page 20: ANALYSE VON PATENTDATEN MITTELS WORKFLOWS UND BIG- … · documents. BEISPIEL: BIG DATA ANALYTICS ZUR TECHNOLOGIEANALYSE (3) Visualisierung der “Technology Hotspots” für die

These documents are intended for presentation purposes only.

Copyright lies with FIZ Karlsruhe.

Any distribution or use of these documents or part thereof is

subject to FIZ Karlsruhe's express approval.

© FIZ Karlsruhe – Leibniz-Institut für Informationsinfrastruktur GmbH

© FIZ Karlsruhe 2018Leibniz-Institut für Informationsinfrastruktur GmbH

www.fiz-karlsruhe.de

Contact

VIELEN DANK!

Dr. Hidir ArasProjektleiter TDMBereich IT, Entwicklung und angewandte Forschung

+49-7247 808-306

[email protected]


Recommended