Christoph Kappes' posterous

Christoph Kappes' posterous

Christoph Kappes  //  Internet-Unternehmer, Berater und Coach, kurz gesagt. Mehr über mich auf http://www.fructus-gmbh.de/ und die "richtigen Artikel" im Blog http://www.fructus-gmbh.de/blog.

Jan 11 / 11:55am

Google Analytics, Nächste Runde

Nachtrag 17.1.2011: Dieser Beitrag ist heute in einer redigierten Fassung beim Fachinformationsdienst ibusiness erschienen.

Nachtrag 12.1.2011 einer Pointe, die das im Artikel unten geschilderte Problem noch einmal auf andere Weise beleuchtet. Die Website des hamburgischen Datenschutzbeauftragten erfüllt dessen eigene Anforderungen nicht:

Beim Ansurfen der Website www.datenschutz-hamburg.de wird die IP-Adresse des Nutzergerätes an die IVW übertragen, den IVW-Code sieht man mit jedem Browser in der Quellcode-Ansicht. Des weiteren setzt sie 2 persistente Cookies von hamburg.de, einer Mehrheitsbeteiligung des Axel-Springer-Verlages (ASV), Laufzeit 5 Jahre - leicht für jedermann herauszufinden, indem man erst die Website ansurft und dann im Browser die Cookie-Daten von site.hamburg.de ansieht.

Dass die Website die datenschutzrechtlichen Vorstellungen des Inhabers nicht erfüllt, hat der hamburgische Datenschutzbeaufragte hier heute im Blog von RA Stadler selbst bestätigt (Kommentar Nr. 9).

Wieder ein neues Kapitel in der nicht enden wollenden Geschichte von Google Analytics: "Google Analytics im Visier der Datenschützer" berichtet die F.A.Z.

Es ist sehr bedauerlich, dass Webanalyse und insbesondere Google Analytics in der breiten Öffentlichkeit durch die juristische Diskussion zwischen Datenschutzbeauftragten und Google sehr verzerrt dargestellt werden.

Profis wissen: Web-Analyse verfolgt nicht das Ziel, Nutzer auszuspionieren, weil man mit dem Spionieren kein Geld verdient. Geld verdient wird mit der möglichst paßgenauen, zielgruppengerechten Optimierung eines Internetangebotes. Wer als Anbieter ein werbefinanziertes Inhaltsangebot betreibt, muss die Anzahl der Seitenabrufe und viele weitere Parameter im Auge haben; wer als Anbieter einen Shop betreibt, sollte die Anzahl der Verkäufe kennen, die seine Landing Pages (mit-) erzeugen und wissen, welcher Teaser auf der Homepage gut angenommen wird. Dazu gehört auch, Abbruchraten auf der Website und Seitenfolgen zu betrachten, um erkennen  zu können, ob Site-Struktur, Design und -Inhalte gut sind. Es sind dutzende von Parametern, mit denen man eine Website analysiert. Leider geht im Falle Google Analytics die Diskussion um Sinn und Zweck von Webanalyse ein wenig durcheinander: Derjenige, der Webanalyse-Werkzeuge einsetzt, tut das zum eben dargestellten Zweck. Anders Google: Google sammelt auf diese Art Nutzungsdaten, um zielgruppenspezifische Werbung zu schalten. Nach welchen  Kriterien Google aussteuert, kann jedermann in seinem Google Dashboard sehen. Es ist sehr grob, was die Maschine schliesst, in meinem Fall etwa zehn Interessen. Diese Daten, so sagt Google jedenfalls, werden jedoch NICHT mit den Daten aus Google Accounts zusammengeführt, es sind zwei Datentöpfe. Dieser Fakt ist in Deutschland wohl weniger bekannt.

Zur maschinellen Web-Analyse gibt es für abstraktere Fragestellungen sehr sinnvolle Alternativen, z.B. Kundenbefragungen, Nutzerpanels, Expertengutachten etc. Für viele Detailfragen und dort, wo es auf Genauigkeit ankommt, gibt es aber keine Alternative: nur maschinell lässt sich mit vertretbarem Aufwand herausfinden, ob eine Artikeldetailseite in der Variante A bessere Verkäufe erzeugt als eine Variante B. Ob der Checkout-Prozess gut designt ist, erkennt man an Konversionsraten im Nachkommabereich, hier machen kleine Abweichungen und kleine Designänderungen mitunter grosse Umsatzdifferenzen aus. Und weil die meisten Unternehmen nur wenig Information über ihre Wettbewerber haben, messen sie die Änderungen der eigenen Website im zeitlichen Verlauf: ist ein bestimmter Wert diesen Monat besser als im letzten Monat, und besser als im Vorjahr? Hier kommt es darauf an, möglichst viele Messzeitpunkte mit immer denselben maschinellen Verfahren zu haben, um geringe Abweichungen erkennen und analysieren zu können. Ergo: Webanalyse ist kein technokratischer Unsinn, sondern ein unverzichtbares Werkzeug, um kundenorientiert Websites zu bauen. Journalisten, die über Webanalyse schreiben, sollten auch kurz den Sinn erklären; auch solche der F.A.Z. Ich kann mich nicht erinnern, in irgendeinem Medium mit Qualitätsanspruch mehr als einen Satzeinschub dazu gelesen zu haben. Das Teufelszeug hat nämlich auch für den Leser handgreifliche Vorteile: man findet die Dinge auch, die man kaufen will, und man findet die Inhalte, die man lesen will. Eine derartige kontinuierliche Produktoptimierung durch empirisches Messen und Ändern ist allerdings in der Zeitungswirtschaft wohl wenig verbreitet, weswegen der Gedanke dort ein wenig fremd vorkommen mag.

Trotzdem muss man derzeit feststellen, dass wir weit davon entfernt sind, daß das gesamte Web "von Google vermint" ist. Nein, man muß konstatieren, dass Google Analytics als Datenschutzthema von minderer Relevanz ist, als es durch die öffentliche Berichterstattung erscheint:

1.   Das Werkzeug ist seit mehreren Jahren auf knapp der Hälfte der 10 000 meistgenutzten deutschen Websites installiert (Quelle IdealObserver), ohne dass Mißbrauchsfälle bekannt wurden.

2.   Niemand außer Google kennt die Installationszahlen genau, die Anzahl der mit Analytics versehenen Websites liegt jedoch im Promillebereich aller Websites. Zum Vergleich: Es gibt in Deutschland 13+ Millionen registierte .de-Domains und vermutlich sind etwa 5% der weltweit 200 Millionen Websites aus Deutschland. Selbst wenn es also 100.000 Installationen in Deutschland gäbe, bei 10 Mio Websites ingesamt wäre der Marktanteil von Google bei 1%. Dabei kann man gleichzeitig davon ausgehen, dass Websitebetreiber mit wirklich sensiblen Daten vielfach nicht Analytics verwenden werden. Ein Psycho-Forum, eine Porno-Hardcore-Site, ein Nazi-Shop mit Google Analytics? Das wäre nicht klug.

3.   In diesem Zusammenhang sollte man auch wissen, dass Logfiles mit IP-Adressen aus verschiedenen Gründen gängige Praxis sind, wenngleich diese niemand in der Regel anbieterübergreifend zusammenführt.

4.   Schliesslich kann ich aus Dutzenden von Praxisprojekten berichten, dass wir schon bei einzelnen Unternehmen Schwierigkeiten haben, aus den Datenmassen, die Webanalyse-Tools liefern, die entscheidenden Key Performance Indikatoren herauszufinden; dabei interessiert der einzelne Nutzer nicht, sondern es geht eher um allerhöchste Aggregationsstufen wie die Conversion und die Besuchsfrequenz für Besuchersegmente. Kurz gesagt: Schon ein einzelner Online-Händler betrachtet Daten nicht auf der Ebene einzelner Nutzer, denn es ist wirtschaftlich sinnlos; für Google muß das erst recht gelten.  (Diese Feststellung hat natürlich keine Bedeutung für die Beurteilung der Rechtmässigkeit.)

5.   Der Problemkreis der Identifikation über die IP-Adresse gilt nicht für Nutzer mit dynamischer IP,  das dürften mindestens 90% der Nutzer sein. Hieraus folgt, dass nur 1% der Nutzer von der Plugin-Problematik betroffen sind, da Google nur für Browser mit einem Marktanteil von insgesamt 10% (wie Opera) kein Plug-In zur Verfügung stellt.

Die Diskussion hat einen sehr formalistischen Einschlag: Was die Speicherung von IP-Adressen angeht, mag Datenschützer Caspar recht haben, daß diese zunächst übermittelt und bei Google gespeichert werden. Google hat aber nun extra auf Wunsch der Datenschützer verschiedenen Anonymisierungsbefehle eingeführt, so etwa kann man durch den Parameter "aip:1" Analytics mitteilen, dass das letzte IP-Oktett entfällt. Dies bedeutet nach meinem Verständnis, dass der Browser die Daten zwar zunächst übermittelt, der Server sie dann aber anonymisiert, da ihm der Anonymisierungsbefehl "mitgegeben" wurde. Die Speicherung geschieht also zum Zwecke des Anonymisierens und  der Weiterverarbeitung derart anonymisierter IP-Adressen. Ich finde es sehr förmlich, wie Caspar hier argumentiert. Wenn Google sich an die eigene Implementierung hält (und das war hoffentlich der Sinn der Änderung), sind die IP-Adressen der Nutzer schon nach Sekundenbruchteilen NICHT mehr auf Googles Servern.

Ergo: Worum geht es materiell? Bei maximal ein Prozent der Websites wird bei einem Prozent der Nutzer die IP-Adresse an Google übertragen und - glaubt man Google - in Sekundenbruchteilen anonymisiert, sofern die Nutzer ein Opt-Out mit einem Plug-In gemacht haben.

Hinzu kommt, daß Diskussion und Stil auch nur in Maßen konstruktiv sind:

  • Auch ohne Änderungen der Software durch Google konnte, wer wollte, schon lange JEDE Analytics-Installation für JEDEN Browser anonymisieren, z.B. über einen Proxy oder über ein Javascript-Code-Snippet. Eine konstruktive Lösung wäre, alle Anwender darauf hinzuweisen. Warum machen Datenschützer dies nicht? Wissen sie es nicht besser? Warum steht es nicht in der Presse - hat es die Nerd-Szene noch nicht verlassen? Es ist ein Handgriff von Minuten, eine Analytics-Website auf den anonymisierten Modus umzustellen!
  • Es ist nach wie vor fraglich, ob eine IP überhaupt “personenbezogenes Datum” ist. Ich habe daran Zweifel, trotz der überwiegend anderslautenden Rechtsprechung: nur aufgrund der IP-Adresse ist jedenfalls nicht meine Person, sondern nur mein Gerät erkennbar. Konstruktiv wäre, einen solchen Fall einmal bis “oben” durchzuprüfen, siehe auch sehr lesenswerter Blogbeitrag von RA Stadler. Diese Rechtsunsicherheit besteht seit mehreren Jahren. Warum geht hier nichts voran? Ist Rechtssicherheit nicht auch das Ziel von Datenschützern, oder gehört es zum Geschäft, ihren aufsichtsbehördlichen Standpunkt möglichst lange zu vertreten und den Stand der Rechtsprechung in der Schwebe zu halten?
  • In der Sache ist aber auch diese Diskussion ein Verschwendung öffentlicher Ressourcen. Wie ich schon etwas versteckt hinter der FAZ-Paywall schrieb (Deeplink hier): "Mit der Verbreitung von mobilem Surfen und einer Vielzahl von Endgeräten, auf denen persönliche Dienste laufen, sowie der Tendenz zu festen IP-Adressen wird die Zuordnung von Geräten zu Personen jedoch immer eindeutiger. Plakativ gesagt: Während sich früher mehrere Menschen in einem Haushalt ein Endgerät mit einem dynamischen IP teilten, wird sich das Verhältnis so umdrehen, dass in zehn Jahren jede Person mehrere Endgeräte mit einer eindeutigen statischen Kennung hat. Diese drei Trends werden die Privatsphäre-Problematik verschärfen.wir werden so viele IPs bekommen, dass die ganze Diskussion anders geführt werden muss. Das sollte man diskutieren, und nicht die Anwendung 40 Jahre alter Datenschutznormen.
  • Seitens der Wirtschaft bzw. Analytics-Anwender sollte man sich die Frage stellen, ob die IP wirklich gebraucht wird. Nach meinem Verständnis – vielleicht liege ich da falsch – dient die statische IP nur der genaueren Geolocationserkennung. Eine vollständige IP ist für alle mir bekannten Webanalyse-Fälle nicht nötig. Wir wollen die Performance/KPIs der Site/von Seiten messen; dafür reicht ein Nutzersample mit Cookies. Warum wird hier nicht mal pragmatisch diskutiert und stattdessen eine Prinzipiendiskussion geführt?
  • Wirklich sinnvoll wäre es, wenn der auf jeder Website anzubringende Aufklärungstext kurz und verständlich wäre. Schneller Wurf von mir "Sie erklären sich durch die Benutzung dieser Website damit einverstanden, dass die aktuelle IP-Adresse Ihres Rechners an Google Inc. gesandt und zur anonymisierten Analyse dieser Website verarbeitet wird, falls Sie in Ihren Browser-Einstellungen Cookies erlaubt haben. (Hinweis nach § 13 Abs. 1 TMG)", mehr dazu schon hier.

Es wäre wünschenswert, wenn die Diskussion etwas sachlicher, pragmatischer und zielführender geführt würde. Mit einem öffentlichen Verhandlungsabbruch, verkündet in einer überregionalen Tageszeitung, und einer vagen Drohung von "empfindlichen Geldbußen", ist der Sache nicht genützt.