Post on 29-Apr-2019
transcript
SIAK-Journal ndash Zeitschrift fuumlr Polizeiwissenschaft und polizeiliche Praxis
Vogl Armin et al (2015)
Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich
SIAK-Journal minus Zeitschrift fuumlr Polizeiwissenschaft und polizeiliche Praxis (2) 77-85
doi 1073962015_2_G
Um auf diesen Artikel als Quelle zu verweisen verwenden Sie bitte folgende Angaben
Vogl Armin et al (2015) Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich SIAK-Journal minus Zeitschrift fuumlr Polizeiwissenschaft und polizeiliche Praxis (2) 77-85 Online httpdxdoiorg1073962015_2_G
copy Bundesministerium fuumlr Inneres ndash Sicherheitsakademie Verlag NWV 2015
Hinweis Die gedruckte Ausgabe des Artikels ist in der Print-Version des SIAK-Journals im Verlag NWV (httpnwvat) erschienen
Online publiziert 92015
-
77
SIAK JOURNAL 22015
Armin Vogl Mitarbeiter der Abteilung II3 (Grenzkontrolle) im Bundesministeshyrium fuumlr Inneres
georg neubAuer Senior Scientist und Projektleiter am Austrian Institute of Technology
HermAnn Huber Studienassistent an der Technischen Universitaumlt Wien
Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich
Groszlige Migrationsbewegungen sind heute eines der vordringlichsten Probleme fuumlr die soziooumlkonomische Stabilitaumlt in Ziellaumlndern von Primaumlrmigration und insbesondere in der EU Einerseits drohen die Demografien der primaumlren Fluchtlaumlnder an der Masse der ankommenden Fluumlchtlinge zu zerfallen (Bsp syrische Fluumlchtlinge im Libanon) und andererseits sind die sozialen Strukturen der europaumlischen Unionslaumlnder nicht fuumlr eine derartige Anzahl von Migranten vorbereitet Aus diesem Grund werden soziale Medien (hier Twitter) als Informationsquellen immer wichtiger Sie koumlnnen Flucht- und Zielshylaumlndern mehr Vorbereitungszeit verschaffen sodass diese human auf kuumlnftige Migrashytionsstroumlme reagieren koumlnnen Soziale Medien sind grundsaumltzlich geeignet Stimmungsshybilder von Bevoumllkerungsgruppen widerzuspiegeln Die Problematik diese Stimmungen und das dadurch veraumlnderte Kommunikationsverhalten zu messen wurde in einer Zusammenarbeit zwischen Wissenschaftlern des Austrian Institute of Technology (AIT) und dem oumlsterreichischen Bundesministerium fuumlr Inneres untersucht
1 einfuumlHrung Migrationsausloumlsende Ereignisse sind sehr komplex und zunaumlchst oft nur von lokaler Bedeutung Aus diesem Grund erreichen sie in den internationalen Medien geringe Aufmerksamkeit Soziale Medien insbeshysondere Twitter koumlnnen diesem Problem in mehrerlei Hinsicht entgegenwirken Sie sind sehr gut geeignet Stimmungsbilder der Bevoumllkerung in Migrationsausgangsshybzw Transitlaumlndern zu erkennen Fuumlr den Migrationsbereich kann es von groszligem Vorteil sein die vorhandenen Daten aufshyzugreifen und daraus potenziell migrashytionsausloumlsende Ereignisse abzuleiten Der Schutz der Privatsphaumlre und die ausshyschlieszligliche Verwendung von frei zugaumlngshylichen Daten sind fuumlr einen sensiblen Beshyreich wie die Migration von besonderer
Bedeutung Der wichtigste Aspekt in dieshysem Zusammenhang ist dass migrationsshyausloumlsende Ereignisse immer Massenphaumlshynomene sind Beitraumlge von Einzelpersonen zu einem Thema sind demnach voumlllig irshyrelevant Ausschlaggebend ist die Teilnahme der kritischen Masse was sich in erhoumlhtem Kommunikationsverhalten in bestimmten Regionen niederschlaumlgt Einzelne Indivishyduen deren Name Geschlecht politische Einstellung etc sind fuumlr die Ereigniserkenshynung unerheblich In erster Instanz sind selbst die Inhalte (Texte Bilder Links etc) nachrangig Zunaumlchst steht eine regionale punktuelle Anhaumlufung von Interaktionen im Mittelpunkt Erst wenn diese Anhaumlushyfung als solche erkannt wurde werden die Inhalte an Domaumlnenexperten fuumlr eine tiefergehende Einschaumltzung weitergeleitet
-SIAK JOURNAL
22015
Eine automatisierte Vorab-Kategorisieshyrung der Ereignisse ist zwar denkbar auf Grund der heterogenen Daten (verschieshydene Sprache Abkuumlrzungen Doppeldeushytigkeiten etc) ist eine Qualitaumltskontrolle durch geschultes Fachpersonal ausdruumlckshylich empfehlenswert
In dieser Forschungsarbeit werden geoshyund zeitbasierte Haumlufigkeiten in oumlffentlich zugaumlnglichen Twitterdaten am Beispiel Aumlgypten untersucht Die grundsaumltzliche Fragestellung lautet Kann man auf Grund der durchschnittlichen Haumlufigkeit von Twittermeldungen in einem Gebiet Ruumlckshyschluumlsse auf Ereignisse und uumlber die grundsaumltzliche Stimmungslage der dorshytigen Bevoumllkerung ziehen Die Ergebnisse der Studie in Aumlgypten legen nahe dass ndash ohne die Inhalte der Twittermeldungen zu kennen ndash ein solcher Ruumlckschluss unter Beshyachtung einiger Einflussfaktoren prinzipishyell moumlglich ist Fuumlr tiefergehende Analysen der Stimmungslage bspw Sentiment oder Emotion sind Einblicke in den Inhalt der Nachrichten unerlaumlsslich Dieser Aspekt soll in einer weiterfuumlhrenden Forschungsshyzusammenarbeit untersucht werden
Ausgeloumlst durch Naturkatastrophen mishylitaumlrische Konflikte oder wirtschaftliche Probleme ist Migration eine sehr volatile Domaumlne Ihre Auswirkungen sind immer wieder Teil politischer Diskussionen Fuumlr nahezu alle industrialisierten Laumlnder und insbesondere fuumlr die EU ist Migration eine der groumlszligten Herausforderungen der Gegenshywart Wie Collet (Collet 2013) schreibt wurden 10 aller Einwohner der damashyligen EU-27 nicht in einem Mitgliedstaat der EU geboren Aus diesem Grund sind viele Laumlnder an einer Harmonisierung der Immigrationspolitik interessiert (Givens Luedke 2004) Dieser Schritt erfordert zunaumlchst aber eine Uumlbereinkunft hinsichtshylich der Sachlage Messdaten in Bezug auf Migrationsstroumlme sind oft inkonsistent
veraltet oder nicht existent (Zagheni et al 2014) Beer ua (Beer et al 2010) machen darauf aufmerksam dass uumlberdies auch Umfang und Vollstaumlndigkeit in vielen Faumllshylen nicht gegeben sind Neue Medien die insbesondere uumlber mobile Endgeraumlte geshynutzt werden koumlnnen hier einen wichtigen Beitrag leisten Die Moumlglichkeit Inhalte wie Text Bilder oder Videos mit geograshyfischen Positionsdaten auszustatten kann fuumlr die Migrationsdomaumlne von groszliger Beshydeutung sein (Noulas et al 2011)
In dieser Arbeit wird die Veraumlnderung der Tweethaumlufigkeit in Aumlgypten zwischen Herbst 2013 und Fruumlhlingsbeginn 2014 in Bezug auf politische oder gesellschaftliche Ereignisse retrospektiv untersucht Die Veraumlnderungen koumlnnten als Indikatoren fuumlr soziale Instabilitaumlten dienen und helshyfen migrationsausloumlsende Komponenten fruumlhzeitig zu erkennen Rechtzeitige Idenshytifikation von bevorstehenden Migrationsshystroumlmen ist wichtig um potenziell betrofshyfene Zielstaaten in ihren Vorbereitungen zu unterstuumltzen Dazu gehoumlren etwa die rechtzeitige Bereitstellung von Such- und Rettungsteams oder Entscheidungshilfe hinsichtlich eventueller polizeilicher oder humanitaumlrer Maszlignahmen Ein moumlglicher Ansatz ist Signale von sozialen Medien als Indikator fuumlr auszligergewoumlhnliche Ereigshynisse zu verwenden wie zB ein zunaumlchst nicht erklaumlrbarer Anstieg von Twitter-Nachrichten zu bestimmten Zeiten Insshybesondere die Verwendung von mobilen Geraumlten die zusaumltzliche Geo-Informatioshynen bereitstellen bietet eine Vielzahl von Moumlglichkeiten um die Entwicklung von kritischen Ereignissen zu untersuchen
Ein Beispiel fuumlr die Analyse von Daten aus sozialen Medien sind Krawalle wie sie im Jahr 2011 in Groszligbritannien stattshyfanden Uumlber soziale Medien konnten im Nachhinein nuumltzliche Daten uumlber die
78
-
22015 SIAK JOURNAL
Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al
2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist
Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie
79
-SIAK JOURNAL
22015
genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden
2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen
Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen
gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen
Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten
3 DAten Als informAtionsshyroHstoff
31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy
80
-
22015 SIAK JOURNAL
tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden
Quelle nach Ackoff 1989
Wissen
implizit
explizit
Information
Daten
In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen
32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-
Abb 1 Vereinfachte Darstellung der
mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr
Wissenspyramide1 die eigentliche Analyse abzulegen
81
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-
77
SIAK JOURNAL 22015
Armin Vogl Mitarbeiter der Abteilung II3 (Grenzkontrolle) im Bundesministeshyrium fuumlr Inneres
georg neubAuer Senior Scientist und Projektleiter am Austrian Institute of Technology
HermAnn Huber Studienassistent an der Technischen Universitaumlt Wien
Wissensrohstoff Daten Soziale Netzwerke als Indikator fuumlr Lageentwicklungen im Migrationsbereich
Groszlige Migrationsbewegungen sind heute eines der vordringlichsten Probleme fuumlr die soziooumlkonomische Stabilitaumlt in Ziellaumlndern von Primaumlrmigration und insbesondere in der EU Einerseits drohen die Demografien der primaumlren Fluchtlaumlnder an der Masse der ankommenden Fluumlchtlinge zu zerfallen (Bsp syrische Fluumlchtlinge im Libanon) und andererseits sind die sozialen Strukturen der europaumlischen Unionslaumlnder nicht fuumlr eine derartige Anzahl von Migranten vorbereitet Aus diesem Grund werden soziale Medien (hier Twitter) als Informationsquellen immer wichtiger Sie koumlnnen Flucht- und Zielshylaumlndern mehr Vorbereitungszeit verschaffen sodass diese human auf kuumlnftige Migrashytionsstroumlme reagieren koumlnnen Soziale Medien sind grundsaumltzlich geeignet Stimmungsshybilder von Bevoumllkerungsgruppen widerzuspiegeln Die Problematik diese Stimmungen und das dadurch veraumlnderte Kommunikationsverhalten zu messen wurde in einer Zusammenarbeit zwischen Wissenschaftlern des Austrian Institute of Technology (AIT) und dem oumlsterreichischen Bundesministerium fuumlr Inneres untersucht
1 einfuumlHrung Migrationsausloumlsende Ereignisse sind sehr komplex und zunaumlchst oft nur von lokaler Bedeutung Aus diesem Grund erreichen sie in den internationalen Medien geringe Aufmerksamkeit Soziale Medien insbeshysondere Twitter koumlnnen diesem Problem in mehrerlei Hinsicht entgegenwirken Sie sind sehr gut geeignet Stimmungsbilder der Bevoumllkerung in Migrationsausgangsshybzw Transitlaumlndern zu erkennen Fuumlr den Migrationsbereich kann es von groszligem Vorteil sein die vorhandenen Daten aufshyzugreifen und daraus potenziell migrashytionsausloumlsende Ereignisse abzuleiten Der Schutz der Privatsphaumlre und die ausshyschlieszligliche Verwendung von frei zugaumlngshylichen Daten sind fuumlr einen sensiblen Beshyreich wie die Migration von besonderer
Bedeutung Der wichtigste Aspekt in dieshysem Zusammenhang ist dass migrationsshyausloumlsende Ereignisse immer Massenphaumlshynomene sind Beitraumlge von Einzelpersonen zu einem Thema sind demnach voumlllig irshyrelevant Ausschlaggebend ist die Teilnahme der kritischen Masse was sich in erhoumlhtem Kommunikationsverhalten in bestimmten Regionen niederschlaumlgt Einzelne Indivishyduen deren Name Geschlecht politische Einstellung etc sind fuumlr die Ereigniserkenshynung unerheblich In erster Instanz sind selbst die Inhalte (Texte Bilder Links etc) nachrangig Zunaumlchst steht eine regionale punktuelle Anhaumlufung von Interaktionen im Mittelpunkt Erst wenn diese Anhaumlushyfung als solche erkannt wurde werden die Inhalte an Domaumlnenexperten fuumlr eine tiefergehende Einschaumltzung weitergeleitet
-SIAK JOURNAL
22015
Eine automatisierte Vorab-Kategorisieshyrung der Ereignisse ist zwar denkbar auf Grund der heterogenen Daten (verschieshydene Sprache Abkuumlrzungen Doppeldeushytigkeiten etc) ist eine Qualitaumltskontrolle durch geschultes Fachpersonal ausdruumlckshylich empfehlenswert
In dieser Forschungsarbeit werden geoshyund zeitbasierte Haumlufigkeiten in oumlffentlich zugaumlnglichen Twitterdaten am Beispiel Aumlgypten untersucht Die grundsaumltzliche Fragestellung lautet Kann man auf Grund der durchschnittlichen Haumlufigkeit von Twittermeldungen in einem Gebiet Ruumlckshyschluumlsse auf Ereignisse und uumlber die grundsaumltzliche Stimmungslage der dorshytigen Bevoumllkerung ziehen Die Ergebnisse der Studie in Aumlgypten legen nahe dass ndash ohne die Inhalte der Twittermeldungen zu kennen ndash ein solcher Ruumlckschluss unter Beshyachtung einiger Einflussfaktoren prinzipishyell moumlglich ist Fuumlr tiefergehende Analysen der Stimmungslage bspw Sentiment oder Emotion sind Einblicke in den Inhalt der Nachrichten unerlaumlsslich Dieser Aspekt soll in einer weiterfuumlhrenden Forschungsshyzusammenarbeit untersucht werden
Ausgeloumlst durch Naturkatastrophen mishylitaumlrische Konflikte oder wirtschaftliche Probleme ist Migration eine sehr volatile Domaumlne Ihre Auswirkungen sind immer wieder Teil politischer Diskussionen Fuumlr nahezu alle industrialisierten Laumlnder und insbesondere fuumlr die EU ist Migration eine der groumlszligten Herausforderungen der Gegenshywart Wie Collet (Collet 2013) schreibt wurden 10 aller Einwohner der damashyligen EU-27 nicht in einem Mitgliedstaat der EU geboren Aus diesem Grund sind viele Laumlnder an einer Harmonisierung der Immigrationspolitik interessiert (Givens Luedke 2004) Dieser Schritt erfordert zunaumlchst aber eine Uumlbereinkunft hinsichtshylich der Sachlage Messdaten in Bezug auf Migrationsstroumlme sind oft inkonsistent
veraltet oder nicht existent (Zagheni et al 2014) Beer ua (Beer et al 2010) machen darauf aufmerksam dass uumlberdies auch Umfang und Vollstaumlndigkeit in vielen Faumllshylen nicht gegeben sind Neue Medien die insbesondere uumlber mobile Endgeraumlte geshynutzt werden koumlnnen hier einen wichtigen Beitrag leisten Die Moumlglichkeit Inhalte wie Text Bilder oder Videos mit geograshyfischen Positionsdaten auszustatten kann fuumlr die Migrationsdomaumlne von groszliger Beshydeutung sein (Noulas et al 2011)
In dieser Arbeit wird die Veraumlnderung der Tweethaumlufigkeit in Aumlgypten zwischen Herbst 2013 und Fruumlhlingsbeginn 2014 in Bezug auf politische oder gesellschaftliche Ereignisse retrospektiv untersucht Die Veraumlnderungen koumlnnten als Indikatoren fuumlr soziale Instabilitaumlten dienen und helshyfen migrationsausloumlsende Komponenten fruumlhzeitig zu erkennen Rechtzeitige Idenshytifikation von bevorstehenden Migrationsshystroumlmen ist wichtig um potenziell betrofshyfene Zielstaaten in ihren Vorbereitungen zu unterstuumltzen Dazu gehoumlren etwa die rechtzeitige Bereitstellung von Such- und Rettungsteams oder Entscheidungshilfe hinsichtlich eventueller polizeilicher oder humanitaumlrer Maszlignahmen Ein moumlglicher Ansatz ist Signale von sozialen Medien als Indikator fuumlr auszligergewoumlhnliche Ereigshynisse zu verwenden wie zB ein zunaumlchst nicht erklaumlrbarer Anstieg von Twitter-Nachrichten zu bestimmten Zeiten Insshybesondere die Verwendung von mobilen Geraumlten die zusaumltzliche Geo-Informatioshynen bereitstellen bietet eine Vielzahl von Moumlglichkeiten um die Entwicklung von kritischen Ereignissen zu untersuchen
Ein Beispiel fuumlr die Analyse von Daten aus sozialen Medien sind Krawalle wie sie im Jahr 2011 in Groszligbritannien stattshyfanden Uumlber soziale Medien konnten im Nachhinein nuumltzliche Daten uumlber die
78
-
22015 SIAK JOURNAL
Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al
2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist
Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie
79
-SIAK JOURNAL
22015
genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden
2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen
Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen
gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen
Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten
3 DAten Als informAtionsshyroHstoff
31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy
80
-
22015 SIAK JOURNAL
tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden
Quelle nach Ackoff 1989
Wissen
implizit
explizit
Information
Daten
In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen
32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-
Abb 1 Vereinfachte Darstellung der
mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr
Wissenspyramide1 die eigentliche Analyse abzulegen
81
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-SIAK JOURNAL
22015
Eine automatisierte Vorab-Kategorisieshyrung der Ereignisse ist zwar denkbar auf Grund der heterogenen Daten (verschieshydene Sprache Abkuumlrzungen Doppeldeushytigkeiten etc) ist eine Qualitaumltskontrolle durch geschultes Fachpersonal ausdruumlckshylich empfehlenswert
In dieser Forschungsarbeit werden geoshyund zeitbasierte Haumlufigkeiten in oumlffentlich zugaumlnglichen Twitterdaten am Beispiel Aumlgypten untersucht Die grundsaumltzliche Fragestellung lautet Kann man auf Grund der durchschnittlichen Haumlufigkeit von Twittermeldungen in einem Gebiet Ruumlckshyschluumlsse auf Ereignisse und uumlber die grundsaumltzliche Stimmungslage der dorshytigen Bevoumllkerung ziehen Die Ergebnisse der Studie in Aumlgypten legen nahe dass ndash ohne die Inhalte der Twittermeldungen zu kennen ndash ein solcher Ruumlckschluss unter Beshyachtung einiger Einflussfaktoren prinzipishyell moumlglich ist Fuumlr tiefergehende Analysen der Stimmungslage bspw Sentiment oder Emotion sind Einblicke in den Inhalt der Nachrichten unerlaumlsslich Dieser Aspekt soll in einer weiterfuumlhrenden Forschungsshyzusammenarbeit untersucht werden
Ausgeloumlst durch Naturkatastrophen mishylitaumlrische Konflikte oder wirtschaftliche Probleme ist Migration eine sehr volatile Domaumlne Ihre Auswirkungen sind immer wieder Teil politischer Diskussionen Fuumlr nahezu alle industrialisierten Laumlnder und insbesondere fuumlr die EU ist Migration eine der groumlszligten Herausforderungen der Gegenshywart Wie Collet (Collet 2013) schreibt wurden 10 aller Einwohner der damashyligen EU-27 nicht in einem Mitgliedstaat der EU geboren Aus diesem Grund sind viele Laumlnder an einer Harmonisierung der Immigrationspolitik interessiert (Givens Luedke 2004) Dieser Schritt erfordert zunaumlchst aber eine Uumlbereinkunft hinsichtshylich der Sachlage Messdaten in Bezug auf Migrationsstroumlme sind oft inkonsistent
veraltet oder nicht existent (Zagheni et al 2014) Beer ua (Beer et al 2010) machen darauf aufmerksam dass uumlberdies auch Umfang und Vollstaumlndigkeit in vielen Faumllshylen nicht gegeben sind Neue Medien die insbesondere uumlber mobile Endgeraumlte geshynutzt werden koumlnnen hier einen wichtigen Beitrag leisten Die Moumlglichkeit Inhalte wie Text Bilder oder Videos mit geograshyfischen Positionsdaten auszustatten kann fuumlr die Migrationsdomaumlne von groszliger Beshydeutung sein (Noulas et al 2011)
In dieser Arbeit wird die Veraumlnderung der Tweethaumlufigkeit in Aumlgypten zwischen Herbst 2013 und Fruumlhlingsbeginn 2014 in Bezug auf politische oder gesellschaftliche Ereignisse retrospektiv untersucht Die Veraumlnderungen koumlnnten als Indikatoren fuumlr soziale Instabilitaumlten dienen und helshyfen migrationsausloumlsende Komponenten fruumlhzeitig zu erkennen Rechtzeitige Idenshytifikation von bevorstehenden Migrationsshystroumlmen ist wichtig um potenziell betrofshyfene Zielstaaten in ihren Vorbereitungen zu unterstuumltzen Dazu gehoumlren etwa die rechtzeitige Bereitstellung von Such- und Rettungsteams oder Entscheidungshilfe hinsichtlich eventueller polizeilicher oder humanitaumlrer Maszlignahmen Ein moumlglicher Ansatz ist Signale von sozialen Medien als Indikator fuumlr auszligergewoumlhnliche Ereigshynisse zu verwenden wie zB ein zunaumlchst nicht erklaumlrbarer Anstieg von Twitter-Nachrichten zu bestimmten Zeiten Insshybesondere die Verwendung von mobilen Geraumlten die zusaumltzliche Geo-Informatioshynen bereitstellen bietet eine Vielzahl von Moumlglichkeiten um die Entwicklung von kritischen Ereignissen zu untersuchen
Ein Beispiel fuumlr die Analyse von Daten aus sozialen Medien sind Krawalle wie sie im Jahr 2011 in Groszligbritannien stattshyfanden Uumlber soziale Medien konnten im Nachhinein nuumltzliche Daten uumlber die
78
-
22015 SIAK JOURNAL
Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al
2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist
Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie
79
-SIAK JOURNAL
22015
genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden
2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen
Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen
gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen
Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten
3 DAten Als informAtionsshyroHstoff
31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy
80
-
22015 SIAK JOURNAL
tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden
Quelle nach Ackoff 1989
Wissen
implizit
explizit
Information
Daten
In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen
32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-
Abb 1 Vereinfachte Darstellung der
mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr
Wissenspyramide1 die eigentliche Analyse abzulegen
81
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-
22015 SIAK JOURNAL
Entstehung dieser Unruhen gesammelt werden (GlasgowFink 2013) Als fruumlhes Beispiel fuumlr den Nutzen von sozialen Meshydien wird oft die Notlandung des US-Airshyways-Flugs 1549 im New Yorker Hudson River angegeben (15012009) Bevor die traditionellen Nachrichtenkanaumlle uumlber das Ungluumlck berichteten wurden auf Twitter schon die ersten Nachrichten und Bilder publiziert (Beaumont 2009) Diese fruumlhshyzeitig verfuumlgbaren Informationen sind dazu geeignet Entscheidungstraumlgern eine zushysaumltzliche Bewertungsgrundlage zu geben und weisen daruumlber hinaus einige Vorteile gegenuumlber ndash von traditionellen Medien beshyreitgestellten ndash Informationen auf Speziell im Notfall- und Katastrophenmanagement ist die Analyse von Massenverhalten hilfshyreich Sie kann eine weitere Entscheidungsshygrundlage bei der strategischen Planung darstellen (Chae et al 2014) Die Studie von Schaust ua (Schaust et al 2013) hat am Beispiel des Hurrikans Sandy ebenfalls gezeigt dass die von der Bevoumllkerung in Twitter generierten Daten lagebildrelevant sein koumlnnen Im Gesundheitssektor geshylang es Anzeichen fuumlr den Ausbruch der Schweinegrippe H1N1 bereits 1ndash2 Woshychen fruumlher zu erkennen als es Gesundshyheitseinrichtungen uumlber traditionellen Kashynaumllen moumlglich war Fuumlr Ereigniserkennung besonders relevant sind geo- bzw ortscoshydierte Daten Diese wurden von Ferrari ua (Ferrari et al 2011) genutzt um das Mobilitaumltsverhalten von Buumlrgern der Stadt New York zu analysieren Mit Hilfe der Ergebnisse wurden regionale Verkehrsshykonzepte auf die Beduumlrfnisse der Einshywohner abgestimmt Ortsbezogene Daten aus sozialen Medien haben uumlberdies dazu gefuumlhrt Unterschiede zwischen Wochenshyenden und Arbeitstagen oder Hotspots zu bestimmten Uhrzeiten aufzudecken Um bevorstehende Ereignisse auf Grundlage von raum-zeitlichen Daten zu identifizieshyren entwickelten Kraft ua (Kraft et al
2013) Methoden zur Echtzeitereignisershykennung Interessierte Personen koumlnnen dadurch zeitnah uumlber den Ereigniseintritt informiert werden Auf Grund der sehr fruumlshyhen Erkennung bringt der Einsatz sozialer Medien einen zusaumltzlichen Vorteil gegenshyuumlber traditionellen Medien mit sich Kallus (Kallus 2014) sammelte Daten aus offenen Internetquellen wie etwa Nachrichtenporshytalen Blogs oder sozialen Medien und unshytersuchte sie auf Hinweise auf potenzielle zukuumlnftige Ereignisse Am Beispiel des Staatsstreichs in Aumlgypten konnte gezeigt werden dass eine Evidenz fuumlr die Vorhershysagekapazitaumlt dieser Kanaumlle vorhanden ist
Zagheni ua (Zagheni et al 2014) hashyben gezeigt wie es moumlglich ist Migrashytionsstroumlme aus geo-codierten Daten zu erkennen Die Autoren verweisen auf die Tatsache dass uumlblicherweise Volkszaumlhshylungen verwendet werden um Migrationsshystroumlme indirekt zu schaumltzen Sowohl uumlber die Zeit zwischen den Volkszaumlhlungen als auch uumlber juumlngste Entwicklungen der Gegenwart liegen aber oft keine Daten vor In der Untersuchung von Zagheni ua (Zagheni et al 2014) wurden uumlber zwei Jahre hinweg geo-codierte Tweets von uumlber 500000 Personen aus OECD-Mitgliedstaaten analysiert Durch zeitshyliche Gliederung in Vier-Monats-Schritten konnten Ruumlckschluumlsse auf Migrationsbeshywegungen zwischen einzelnen Laumlndern gezogen werden Am deutlichsten konnten Bevoumllkerungsabwanderungen aus krisenshygeschuumlttelten Laumlndern wie Griechenland oder Irland gemessen werden Diese Meshythode koumlnnte dabei helfen Wendepunkte in Migrationsszenarien zu erkennen und das Verstaumlndnis der Beziehung zwischen interner und internationaler Migration zu verbessern (Weber et al 2014) All diese Beispiele zeigen wie hoch der Informashytionsgehalt von Daten aus sozialen Meshydien prinzipiell ist und wie vielseitig sie
79
-SIAK JOURNAL
22015
genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden
2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen
Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen
gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen
Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten
3 DAten Als informAtionsshyroHstoff
31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy
80
-
22015 SIAK JOURNAL
tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden
Quelle nach Ackoff 1989
Wissen
implizit
explizit
Information
Daten
In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen
32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-
Abb 1 Vereinfachte Darstellung der
mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr
Wissenspyramide1 die eigentliche Analyse abzulegen
81
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-SIAK JOURNAL
22015
genutzt werden koumlnnen Damit das Potenshyzial aber vollstaumlndig ausgeschoumlpft werden kann braucht es nicht nur geeignete IT-Werkzeuge und Datenanalyse-Know-how sondern auch umfassendes domaumlnenspeshyzifisches Fachwissen Denn erst durch eine Interpretation der Analyseergebnisse durch fachkundiges Personal koumlnnen Hyshypothesen bestaumltigt oder widerlegt werden
2 migrAtionspotenziAle in soziAlen meDien Besonders seit dem bdquoArabischen Fruumlhlingldquo haben Krisensituationen in Nordafrika im Nahen Osten in den Laumlndern suumldlich der Sahara sowie in Suumldasien eine uumlberwaumllshytigende Migrationswelle mit einer stetig wachsenden Zahl von Fluumlchtlingen vershyursacht Die europaumlischen Gesellschaften kaumlmpfen mit den soziooumlkonomischen Ausshywirkungen dieser Krisen und suchen daher nach politischen Loumlsungen die sowohl der humanitaumlren Verantwortung als auch dem Schutz ihrer demografischen und wirtshyschaftlichen Strukturen Rechnung tragen
Die Quelllaumlnder illegaler Migration wershyden laufend auch von Experten des Bunshydesministeriums fuumlr Inneres (BMI) auf Migrationspotenziale untersucht Bei akushyten Ereignissen ist es jedoch schwer an sishytuationsbezogene Daten zu kommen Von besonderer Bedeutung fuumlr die Migration ist die emotionale Situation von potenshyziellen Migranten in den betroffenen Laumlnshydern Analog dazu ist auch die gegenwaumlrshytige Situation jener Laumlnder von Interesse in denen die Fluumlchtlinge Primaumlrschutz sushychen Ziellaumlnder muumlssen auf groszlige Fluumlchtshylingsstroumlme gut vorbereitet sein um entshysprechende Kapazitaumlten zu schaffen und humanitaumlre Erstmaszlignahmen einleiten zu koumlnnen Im Moment scheinen die Behoumlrshyden der europaumlischen Mitgliedstaaten nicht umfassend vorbereitet zu sein Aus diesem Grund muumlssen neue Informationsquellen
gefunden werden um moumlgliche migrashytionsausloumlsende Vorfaumllle besser beobachten zu koumlnnen Ob und in wie weit ein Vorfall migrationsausloumlsend ist oder nicht haumlngt stark von der Situation und insbesondere auch von der emotionalen Lage vor Ort ab Aus diesem Grund ist es essentiell uumlber die Hintergruumlnde so fruumlh als moumlglich Beshyscheid zu wissen
Europa bewegt sich langsam in Richshytung einer bdquosanfteren weniger polizeishylichen Reaktionldquo zur Bekaumlmpfung der illegalen Migration ist aber buchstaumlblich mit dem groszligen Zustrom innerhalb kurshyzer Zeit uumlberfordert Vor allem die suumldshyliche Grenze zu Italien steht einer stark steigenden Migrationswelle gegenuumlber Als in den ersten drei Monaten des Jahres 2014 mehr als 20000 illegale Migranten auf offener See gerettet und an die italieshynische Kuumlste gebracht werden mussten entstand in der suumlditalienischen Region Sizilien eine soziooumlkonomische Krise Sowohl die Auswirkungen von groszligen Migrationsbewegungen als auch Szenashyrien in denen hunderte Menschen ertrinshyken koumlnnen durch raschere und ortsbeshyzogene Information gemildert werden Rechtzeitige Alarmierung der Such- und Rettungsteams an der italienischen Kuumlste wuumlrde eine der Situation angepasste und rasche Reaktion ermoumlglichen wodurch potenziell tragische Unfaumllle auf See vershymieden werden koumlnnten
3 DAten Als informAtionsshyroHstoff
31 Der Analyseprozess Zu einer erfolgreichen Datenanalyse gehoumlren viele verschiedene Bausteine Der wichshytigste Baustein sind zunaumlchst die Daten selbst Gemaumlszlig dem Modell von Ackoff (Ackoff 1989) in Abbildung 1 (siehe Seishyte 81) sind sie der Rohstoff zur Informashy
80
-
22015 SIAK JOURNAL
tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden
Quelle nach Ackoff 1989
Wissen
implizit
explizit
Information
Daten
In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen
32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-
Abb 1 Vereinfachte Darstellung der
mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr
Wissenspyramide1 die eigentliche Analyse abzulegen
81
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-
22015 SIAK JOURNAL
tionsgewinnung Gezielte Aufbereitung der Daten fuumlhrt zu der Entstehung von neuer Information welche durch weitere Verarshybeitungsprozesse in vielen Faumlllen zu Wisshysen verdichtet werden kann Durch Ergaumlnshyzung eines Kontexts wird aus den Zeichen und Ziffern der untersten Ebene zunaumlchst also Information So werden etwa aus der Zahl bdquo17ldquo durch Hinzufuumlgen des Kontextes bdquoTemperaturmesswertldquo beispielsweise bdquo17deg Celsiusldquo Ein zeitlicher und geografischer Kontext kann in die Wissensstufe fuumlhren in welcher die Information dann ihre Anshywendung findet (Beispiel 17deg C im Jaumlnner in Wien sind uumlblicherweise viel zu warm) Interessant ist der Vergleich zwischen der obersten und der untersten Ebene der Pyshyramide Wissen als historisch aumlltestes Eleshyment ist schwer zu beschreiben und in Doshykumenten zumeist implizit verpackt Daten hingegen als wesentlich juumlngeres Konzept koumlnnen leicht notiert werden und haben einen eher mathematisch expliziten Chashyrakter Waumlhrend der Schritt von Daten zu Informationen bereits mit relativ einfachen Mitteln zu bewerkstelligen ist gestaltet sich die Schaffung der naumlchsten Ebene etshywas schwieriger In vielen Faumlllen ist dieser Schritt auf automatischem Weg uumlberhaupt nicht mehr durchfuumlhrbar und muss durch menschliche Akteure getaumltigt werden
Quelle nach Ackoff 1989
Wissen
implizit
explizit
Information
Daten
In der Industrie wurde Datenanalyse bzw Data Mining vor allem durch groszlige Warenhausketten bekannt Sie haben damit begonnen Einkaumlufe ihrer Kunden groszligshyflaumlchig nach Gemeinsamkeiten zu untersushychen Signifikante Korrelationen zwischen einzelnen Produktgruppen wurden dann als Grundlage fuumlr neue Angebote oder alternatives Shopdesign herangezogen In den eher isolierten Datenspeichern der Warenhausketten ist die Datenqualitaumlt tenshydenziell hoch Artikelnummern Zeit und Ort des Kaufes sind bekannt und koumlnnen abgerufen werden Das Datenformat kann in diesen Faumlllen vom Unternehmen selbst bestimmt werden Im Gegensatz dazu ist die Qualitaumlt von Daten aus frei zugaumlngshylichen Quellen und insbesondere sozialen Medien kaum bis gar nicht beeinflussbar Datenerfassung und Aufbereitung sind auf Grund von unkontrollierbarer Inhomogeshynitaumlt und Dynamik eine groszlige Herausforshyderung Auf technischer Ebene gilt es also zunaumlchst Werkzeuge zur Hand zu haben welche die Extraktion und Aufbereitung von Daten garantieren koumlnnen Wenn dieser Schritt bewaumlltigt wurde kann die geschafshyfene Datengrundlage genutzt werden um in der Wissenspyramide aufwaumlrts zu steigen
32 Werkzeuge Um die Inhomogenitaumlt und Dynamik von Rohdaten besser kontrollieren zu koumlnnen hat das AIT die Plattform Ubicity erstellt Ubicity ist in der Lage Daten parallel aus unterschiedlichen Internetquellen entgeshygenzunehmen sie aufzubereiten und fuumlr die spaumltere Analyse geordnet abzuspeishychern Die hoch performante Architektur ermoumlglicht die Aufnahme von mehr als 80000 Nachrichten pro Sekunde Je nach Einsatzzweck werden entgegengenom-
Abb 1 Vereinfachte Darstellung der
mene Daten abhaumlngig von ihrem Zustand durch flexibel schaltbare Aufbereitungsshymodule geschleust um sie schlieszliglich fuumlr
Wissenspyramide1 die eigentliche Analyse abzulegen
81
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-SIAK JOURNAL
22015
Fuumlr einen initialen Test hat das Sysshytem von Oktober 2013 bis Maumlrz 2014 (mit kurzen Unterbrechungen) mehr als 400 Mio Tweets uumlber die frei zugaumlngshyliche Twitter-Schnittstelle aufgenommen Insgesamt konnten Daten uumlber 98 Tage hinweg ohne Unterbrechung entgegengeshynommen werden Das entspricht nahezu allen Tweets die uumlber Geraumlte wie Smartshyphones oder Tablets mit GPS-Positionsshydaten abgegeben wurden Etwa eine Mio Tweets wurden innerhalb der aumlgyptischen Landesgrenze abgesetzt und dienten als Ausgangsmaterial fuumlr die gegenstaumlndige Untersuchung Zunaumlchst wurden die Twitshyterhaumlufigkeit und insbesondere das -vershyhalten der Benutzerinnen und Benutzer etwas genauer untersucht Tageszeit- oder wochentagabhaumlngige Schwankungen koumlnshynen regional unterschiedlich ausfallen und muumlssen in die Analyse miteinbezogen werden In einem weiteren Schritt wurden etwaige Schwankungen zwischen urbanen und ruralen Gebieten am Beispiel der Staumldshyte Alexandria und Kairo im Vergleich zum gesamten Staatsgebiet verglichen Vershybreitungsgrad sowie Unterschiede in der technischen Infrastruktur koumlnnten die Zushyverlaumlssigkeit der Daten deutlich beeinflusshysen Um eine Korrelation zwischen Stadt und Land feststellen zu koumlnnen wurden schlieszliglich migrationsrelevante Ereignisse mit der Twitter-Haumlufigkeitskurve uumlberlashygert und der Pearson Korrelationskoeffizishyent berechnet
Quelle Neubauer et al 2014
Abb 2 Haumlufigkeitsklassen TweetsTag2
25
20
15
10
5
0
6001
ndash700
070
01ndash8
000
8001
ndash900
090
01ndash1
0000
1000
1ndash11
000
1100
1ndash12
000
1200
1ndash13
000
1300
1ndash14
000
1400
1ndash15
000
1500
1ndash16
000
gt160
00
33 Ergebnisse Im Histogramm von Abbildung 2 werden die 98 verfuumlgbaren Tage verschiedenen Haumlufigkeitsklassen zugeordnet Die Zushyordnung erfolgt auf Basis der Anzahl von abgesetzten Tweets pro Tag Die Tage der Klasse bdquo7001ndash8000 TweetsTagldquo streuen uumlber den gesamten Untersuchungszeitshyraum von Oktober bis Maumlrz Daraus laumlsst sich ein Trend fuumlr einen durchschnittlichen Erwartungswert ableiten Im Schnitt wurshyden pro Tag also etwa 7000ndash8000 GPS-kodierte Tweets in Aumlgypten abgegeben Im Gegensatz dazu sind die Tage in den Klassen um 13000 TweetsTag deutlich kompakter um den Jahreswechsel angeshysammelt Die deutlich erhoumlhte Kommushynikation in diesem kurzen Zeitraum im Vergleich zu den uumlbrigen Tagen und den zu erwartenden Durchschnittswert ist ein interessanter Aspekt der als Grundlage fuumlr weitere Analysen herangezogen wershyden kann Fuumlr Details zur Vorgehensweise siehe auch Neubauer Huber und Jager (Neubauer et al 2014)
Im naumlchsten Schritt wurde untersucht inwieweit sich das Twitterverhalten in Stadt und Land unterscheidet eine wichshytige Kenngroumlszlige fuumlr Migrationsanalysen Als Referenz wurden die zwei groumlszligten Staumldte Aumlgyptens herangezogen Kairo und Alexandria stellen zusammen 143 der 85-Millionen-Bevoumllkerung Aumlgyptens Mit Hilfe der geo-basierten Abfrage in Ubicity wurden die Stadtgrenzen uumlber Satellitenshybilder angenaumlhert Die Tweets der Staumldte und jene des gesamten Landes wurden anshyschlieszligend jeweils anhand des zugehoumlrigen Medians normalisiert Dadurch ist eine Uumlberlagerung der Kurven (Polynomialshyfunktion fuumlnfter Ordnung) und somit ein relativer Vergleich moumlglich Im Dishyagramm in Abbildung 3 (siehe Seite 83) ist ein aumlhnlicher Kurvenverlauf der Uumlbershylagerung bereits deutlich erkennbar Die
82
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-
SIAK JOURNAL 22015
Quelle Neubauer et al 2014
Korrelationskoeffizienten bestaumltigen die-Egypt Normalized Cairo Normalized Alexandria Normalized Poly (Egypt Normalized) Poly (Cairo Normalized) Poly (Alexandria Normalized)
Tweets in Egypt
Num
ber
of T
wee
ts
Timeline
Abb 3 Anzahl der geo-codierten Tweets im gesamten aumlgyptischen Landesgebiet sowie in Kairo und Alexandria
sen Trend (Aumlgypten-Kairo 097 Aumlgypten-Alexandria 093 Kairo-Alexandria 089)
In Tabelle 1 werden die wichtigsten stashytistischen Angaben zum Twitterverhalten in den gemessenen Gebieten dargestellt
Quelle Neubauer et al 2014
TweetsTag Aumlgypten Kairo Alexandria
Durchschnitt 98419 15695 12365 Median 89635 16960 11340 Maximum 168370 24990 20480 01 Quantil 67131 9820 7796 025 Quantil 72040 11110 9108 075 Quantil 125513 19930 16133 09 Quantil 139712 21214 18081
sozialen Medien sehr nahe Schnee auf den Pyramiden gab es zuletzt vor uumlber
Tab 1 Statistische Angaben zum Vergleich der Tweethaumlufigkeit in den jeweils untersuchten Gebieten
Anhand der Trendanalyse ist ein Anstieg der Tweethaumlufigkeit ab Ende November 2013 zu erkennen welche bis Anfang Jaumlnner 2014 wieder abflacht Auf Grund von Wartungsarbeiten liegen leider keine durchgaumlngigen Aufzeichnungen vor Der Trend zeigt jedoch einen deutlichen Ruumlckshygang und erneute Stabilisierung nach dem Jahreswechsel Der deutliche Anstieg ist houmlchstwahrscheinlich durch mehrere Ershyeignisse zu erklaumlren Zunaumlchst wurde in diesem Zeitraum die Muslimbruderschaft von der Regierung Aumlgyptens als terrorisshytische Organisation eingestuft was zu ershyheblichem Aufruhr in der Bevoumllkerung fuumlhrte Die zweite Komponente steht in keiner Verbindung zu politischen Vorshykommnissen und wurde daher erst anshyhand der Analyse einzelner Tage entdeckt welche mit nahezu 17000 Tweets weit uumlber dem Durchschnitt lagen Am 13 Deshyzember 2013 wurde der Nahe Osten und insbesondere Aumlgypten mit heftigem Schneeshyfall konfrontiert Dieses seltene meteoroshylogische Ereignis legt einen Zusammenshyhang mit erhoumlhter Kommunikation in den
100 Jahren Diese ersten Untersuchungen geben schon deutliche Hinweise auf einen Zusammenhang zwischen erhoumlhtem Komshymunikationsverhalten und bestimmten Vorkommnissen wie dem mehrwoumlchigen politischen Umbruch sowie dem auszligershygewoumlhnlichen Schneefall
4 ConClusio Fuumlr genauere Aussagen muss in zukuumlnfshytigen Untersuchungen die Stabilitaumlt des Twitter-Datenumfangs uumlber der Zeit untershysucht werden Morstatter ua (Morstatter et al 2013) haben eine Schwankung von Top-Hashtags zwischen der oumlffentlichen Twitter-Schnittstelle und der Grundgeshysamtheit festgestellt Ob und wie Twitter eine Gewichtung bei der Datenlieferung vornimmt ist derzeit im Detail nicht beshykannt Seitens des Unternehmens werden diesbezuumlglich keine naumlheren Angaben geshymacht Fuumlr eine feinere Aufloumlsung ndash raumlumshylich und zeitlich ndash muss diese Variable noch naumlher untersucht werden Ungeachtet dessen ist es ndash wie beschrieben ndash trotzdem moumlglich Veraumlnderungen und Tendenzen bereits unter gegebenen Voraussetzungen abzuleiten Fuumlr den Migrationsbereich ist die automatisierte Erkennung von Ershyeignissen uumlber soziale Medien eine vielshy
83
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-SIAK JOURNAL
22015
versprechende Moumlglichkeit Gerade die komplexen und weltweiten Auswirkungen von Ereignissen in diesem Sektor sind oft schwer durchschaubar Es bedarf hoher Aufmerksamkeit und Sensibilitaumlt releshyvante Vorkommnisse mit potenziellen Folshygen fuumlr globale Migrationsstroumlme wahrzushynehmen Wir haben gezeigt dass soziale Medien als Indikator zur Erkennung von potenziell relevanten Ereignissen gut geshyeignet sind Die detaillierte Analyse obshyliegt aber nach wie vor Domaumlnenexpershyten die individuell uumlber die tatsaumlchliche Bedeutung entscheiden muumlssen Die geshygenstaumlndliche Technologie kann in erster Instanz als zusaumltzliches Instrument zur Erhoumlhung der Reichweite und Verkuumlrzung der Reaktionszeit eingesetzt werden
Die hochdynamischen Inhalte und die sich staumlndig weiterentwickelnde Themenshylandschaft innerhalb sozialer Medien ershyzeugen einerseits eine erhoumlhte Komplexitaumlt bei der Informationsgenerierung Anderershyseits ist genau diese Dynamik ein wesentshyliches Unterscheidungsmerkmal gegenshyuumlber allen anderen Informationskanaumllen Sichtbar wird sie in unterschiedlichen Dimensionen Stimmungsbilder bzw die in den Texten transportierten Emotionen sind fuumlr die Migration ein besonders wichshytiger Aspekt Kaum ein anderes Medium ermoumlglicht eine solch unmittelbare Ableishytung von Stimmungsbildern wie die soziashylen Medien Insbesondere die Dynamik in Hinblick auf zeitliche und geografische
Veraumlnderung von Emotionen bieten vielshyversprechende Moumlglichkeiten zur Weitershyentwicklung und erlauben nuumltzliche Einshysichten in Migrationsprozesse Uumlberdies ist auch die Erkennung und Ausbreitung von Themen ein interessanter Aspekt ndash auch uumlber die Migrationsdomaumlne hinaus In Verbindung mit den bereits durchgeshyfuumlhrten quantitativen Analysen koumlnnten durch Einbeziehen der Nachrichteninhalte domaumlnenspezifische Ereignisse praumlziser und zeitnaher erkannt werden Sowohl die Granularitaumlt der Daten als auch die Komplexitaumlt des Analyseprozesses haumlngen stark vom Ziel des Vorhabens ab Erste Einsichten koumlnnen wie demonstriert beshyreits mit grundlegenden Methoden abgeshyleitet werden Von essentieller Bedeutung fuumlr die Lagebilderstellung ist jedoch die Betreuung des gesamten Analyseprozesses durch Domaumlnenexperten Es ist davon auszugehen dass die Ergebnisse nahezu immer durch fachkundiges Personal mit entsprechendem Hintergrundwissen intershypretiert werden muumlssen Erst durch diese Interpretation koumlnnen die gewonnenen Einsichten in den Wissensprozess der Organisation eingebettet werden Demshygegenuumlber stehen die technische Umsetshyzung und das damit verbundene Knowshyhow in den Bereichen IT Datenanalyse und Prozesskonzeption Die ausgewogene Kombination dieser beiden Aspekte ermoumlglicht durchgaumlngige sinnvolle und praxisbezogene Anwendungen
84
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85
-
22015 SIAK JOURNAL
1 Houmlhere Ebenen bauen jeweils auf der
darunterliegenden Ebene auf Waumlhrend
Daten explizit fuumlr sich stehen ist Wissen
implizit in einer Ansammlung von Daten
(zB Buchstaben Woumlrter Texte) vershy
packt 2 Die Klassen im Histogramm geben die
Menge an abgesetzten Geo-Tweets in
Aumlgypten an Die Houmlhe der Balken kennshy
zeichnet die Anzahl der Tage die in die
jeweilige Kategorie fallen
Quellenangaben
Ackoff Russel L (1989) From data to
wisdom Journal Of Applied Systems
Analysis (1) 3ndash9
Beaumont Claudine (2009) New York
plane crash Twitter breaks the news
again The Telegraph Online http
wwwtelegraphcouktechnologytwitter
4269765New-York-plane-crash-Twittershy
breaks-the-news-againhtml (April 30
2014)
De Beer JoopRaymer James et al
(2010) Overcoming the Problems of
Inconsistent International Migration
data A New Method Applied to Flows in
Europe European journal of populashy
tion = Revue europeenne de demographie
26 (4) 459ndash481 Online httpwwwpub
medcentralnihgovarticlerenderfcgiar
tid=2967706amptool=pmcentrezamprenderty
pe=abstract (April 28 2014)
Chae JunghoonThom Dennis et al
(2014) Public behavior response anashy
lysis in disaster events utilizing visual
analytics of microblog data Computers
amp Graphics (38) 51ndash60 Online http
linkinghubelseviercomretrievepii
S0097849313001490 (April 2 2014)
Collett Elizabeth (2013) Facing 2020
developing a new European agenda for
immigration and asylum policy mpi Mishy
gration Policy Institute Europe (1) 1ndash8
Ferrari LauraRosi Alberto et al
(2011) Extracting urban patterns from
location-based social networks Proceedshy
ings of the 3rd ACM SIGSPATIAL Intershy
national Workshop on Location-Based
Social Networks ndash LBSN rsquo11 New York
1 Online httpdlacmorgcitation
cfmdoid=20632122063226
Givens TerriLuedtke Adam (2004) The
Politics of European Union Immigration
Policy Institutions Salience and Harshy
monization Policy Studies Journal 32
(1)145ndash165 Online httpdoiwiley
com101111j1541-0072200400057x
Glasgow KimberlyFink Clayton (2013)
From push brooms to prayer books
Social media and social networks during
the London riots iConference 155ndash169
Online httpswwwidealsillinoisedu
handle214238382 (April 28 2014)
Kallus Nathan (2014) Predicting crowd
behavior with big public data Proceedshy
ings of the companion publication of the
23rd international conference on WWW
Companion rsquo14 625ndash630 Online http
dxdoiorg10114525679482579233
(April 28 2014)
Kraft ThomasWand Derek et al (2013)
Less After-the-Fact Investigative visshy
ual analysis of events from streaming
twitter IEEE Symposium on Large-
Scale Data Analysis and Visualization
(LDAV) 95ndash103 Online httpieeex
ploreieeeorglpdocsepic03wrapper
htmarnumber=6675163
Morstatter FredPfeffer Juumlrgen et al
(2013) Is the Sample Good Enough
Comparing Data from Twitterrsquos Streamshy
ing API and Twitterrsquos Firehose Proceedshy
ings of ICWSM Online httparxivorg
abs13065204
Neubauer GeorgHuber Hermann et al
(2014) Detecting events in Egypt based
on geo-referenced tweets Interdisciplinshy
ary Information and Management Talks
Poděbrady Noulas AnastasiosScellato Salvatore et
al (2011) An Empirical Study of Geoshy
graphic User Activity Patterns in Fourshy
square Proceedings of the Fifth Internashy
tional AAAI Conference on Weblogs and
Social Media 570ndash573 Online http
wwwaaaiorgocsindexphpICWSM
ICWSM11paperviewFile28313241
(April 28 2014)
Schaust SvenWalther MaximilianKaisser
Michael (2013) Avalanche Prepare
Manage and Understand Crisis Situashy
tions Using Social Media Analytics in
Comes TinaFriedrich Frank et al (Eds)
Proceedings of the 10th International
ISCRAM Conference Baden-Baden
852ndash857
Weber IngmarGarimella Kiran et al
(2014) Using Geolocated Twitter Data
to Study Recent Patterns of International
and Internal Migration in OECD Counshy
tries European Population Conference
2014 Budapest 1ndash9 Online http
epc2014princetoneduabstracts140809
Zagheni EmilioGarimella Venkata
Weber et al (2014) Inferring intershy
national and internal migration patterns
from Twitter data WWW rsquo14 Companion
1ndash6 Online httpdlacmorgcitation
cfmid=2576930 (April 28 2014)
85