Gibt es evidenzbasierte IT-Sicherheit?

Hanno Böck
https://hboeck.de

Empfehlungen in Sachen IT-Sicherheit

Installiert ein Antivirenprogramm!

Quelle: BSI

Deinstalliert Euer Antivirenprogramm!

Robert O'Callahan, ehemaliger Mozilla-Entwickler.

Passwörter regelmäßig wechseln!

Quelle: FTC

Passwörter nicht regelmäßig wechseln!

Quelle: FTC

Wissenschaft

Sollten wir Entscheidungen - auch in Sachen IT-Sicherheit - nicht auf wissenschaftlicher Basis treffen?

Wissenschaft

Psychologie

"Social Priming"

Alter / Geschwindigkeit

Experiment: TeilnehmerInnen werden Worte vorgelegt, sie sollen daraus Sätze bilder.

Ergebnis: TeilnehmerInnen, die vorher Sätze mit Bezug zu Alter erhielten, laufen anschließend langsamer.

Bargh, Chen, Burrows (1996)

"File Drawer Problem"

oder Publication Bias

Schlechte Studien für Anfänger

  1. Suche eine interessant klingende, aber unsinnige Theorie.
  2. Führe Studie durch, die Theorie bestätigt.
  3. Wenn Theorie bestätigt wird: Publizieren. Andernfalls: Papierkorb.
  4. Andernfalls: Zurück zu Schritt 2.

Bei p-Wert von 0,05 im Schnitt 20 Studien nötig für signifikantes Ergebnis.

Schlechte Studien für Fortgeschrittene

  1. Suche eine interessant klingende, aber unsinnige Theorie.
  2. Führe Studie durch, die Theorie bestätigt.
  3. Falls Ergebnis nicht signifikant: Andere Analysemethoden probieren.
  4. Untergruppen analysieren. (Bspw. Frauen/Männer, Personen unter/über 20 etc.)

Bem (2000), in Wagenmakers, Wetzels, Borsboom, van der Maas (2011)

Gegenwind

  • Replication Bullies
  • Research Parasites
  • Replication Terrorists

OSF Reproducibility Project

Von 100 publizierten psychologischen Experimenten ließen sich nur 36 reproduzieren.

Gegenmaßnahmen

  • Studien replizieren, negative resultate publizieren.
  • Studienregister, registered reports (Methoden publizieren und im Idealfall Publikationsentscheidung treffen bevor Daten gesammelt werden).
  • Standardisierte / bessere statistische Methoden, höhere Signifikanzschwellen, Daten und Code mitveröffentlichen.

Wissenschaft

Die Mehrzahl der wissenschaftlichen Resultate ist falsch.

"Studien" alleine reichen nicht. Wir müssen nach methodischer Qualität und möglichen Fehlerquellen fragen.

IT-Sicherheit

Zero Days

"cold hard data"

Klingt fast wie Wissenschaft.

Kollissionsrate von Zero-Days

Wer einen Zero-Day besitzt, weiß nicht, ob andere bereits Informationen über die selbe Sicherheitslücke haben. Relevant für Risikoeinschätzung.

RAND-Report: 5 Prozent Kollissionsrate.

Daten

"We believe these data are relatively representative of what a sophisticated nation-state might have in its arsenal."

Datenherkunft

Unbekannte Firma, die im Report "BUSBY" genannt wird.

Probleme RAND-Report (1)

  • 20 - 30 Bugs wurden entfernt ("due to operational..."). Filterkriterien? Unklar.
  • Waren 207 + 20-30 Bugs alle Sicherheitslücken, die BUSBY besaß? Unklar.
  • Warum sollen wir glauben, dass BUSBY repräsentativ ist? Unklar.

Probleme RAND-Report (2)

  • Daten? Welche Daten eigentlich? Der Report enthält nur Schaubilder und Tabellen, aber keine Rohdaten.
  • Unter welchen Bedingungen wurden die Daten geteilt? Hatte BUSBY am Report mitgearbeitet? Möglicherweise sogar ein Publikationsveto gehabt? Unklar.

Interessenskonflikt?

Publication Bias?

BUSBY hat die Daten freiwillig geteilt.

Welche Daten hat BUSBY geteilt? Hat RAND andere Akteure angefragt, die vergleichbare Datensätze verfügbar haben?

Kollissionsrate

For a given stockpile of zero-day vulnerabilities, after a year, approximately 5.7 percent have been discovered by an outside entity.

Moment...

Wir wissen weder, wie viele Akteure es gibt, noch, wie viele Bugs die jeweiligen Akteure besitzen.

Die Kollissionsrate von 0days könnten wir nur berechnen, wenn wir Kenntnis über alle 0days von allen Akteuren in einem bestimmten Zeitraum kennen.

Kollissionsrate

Ideally, we would want similar data on Red (i.e., adversaries of Blue, or other private-use groups), to examine the overlap between Blue and Red, but we could not obtain that data. Instead, we focus on the overlap between Blue and the public (i.e., the teal section in the figures above) to infer what might be a baseline for what Red has. We do this based on the assumption that what happens in the public groups is somewhat similar to what happens in other groups. We acknowledge that this is a weak assumption, given that the composition, focus, motivation, and sophistication of the public and private groups can be fairly different, but these are the only data available at this time.

"Weak assumption"?

Anders ausgedrückt:

"Wir wollten eigentlich die Kollissionsrate von unbekannten 0days bestimmen. Da wir das nicht konnten haben wir eine völlig andere Frage beantwortet und hoffen, dass es niemand merkt."

Tests von IT-Sicherheitsprodukten

"Real World Protection Test"

Klingt fast so als würde hier unter realen Bedingungen getestet. Ist aber nicht so.

"Independent"

There was much debate as to how to support AV-Comparatives without compromising its most important quality, namely its neutrality. Payment must not be allowed to have any influence on test results.

The solution actually turned out to be very simple: if all manufacturers pay the same fee in order for their product to be tested, none of them can be advantaged or disadvantaged. In several cases it happens that a vendor is tested even if it do not apply for it. In this case, the costs will be covered either by the magazines or by other independent parties, which requested the results.

AV-Tests

Es gibt eine ganze Branche von AV-Testfirmen und Organisationen.

Fast alle werden aus der Antiviren-Branchen selbst finanziert.

Niemand tested mit realen Nutzern.

Wie würde man es richtig machen?

Medizin: RCTs

  • RCT (Randomized controlled trial)
  • Teilnehmer in mehrere Gruppen unterteilen (Beispiel: neues medikament, altes Medikament, Alternative zum Medikament wie bspw. Erährungsumstellung, Placebo-Kontrollgruppe).
  • Wenn möglich verblinden.

Keine Einzelstudien

  • Studien müssen repliziert werden.
  • Metaanalyse - Zusammenfassung mehrere Studien.
  • Auch hier: Problem Publication Bias - kenne ich alle Studien?

Das war eine vollständige auflistung aller RCTs zu Antivirenprogrammen und anderen IT-Sicherheitsprodukten.

FTC und Passwörter (1)

Im Januar 2016 verschickte die FTC einen Tweet, in dem sie das regelmäßige Wechseln von Passwörtern empfahl.

Lorrie Cranor von der FTC machte sich auf die Suche nach wissenschaftlichen Belegen für diese Empfehlung - und fand keine, dafür aber Belege für das Gegenteil.

FTC und Passwörter (2)

Gut: Die FTC fragt nach wissenschaftlichen Belegen.

Eher schlecht: Alle von der FTC angeführten Studien sind von eher schwacher Aussagekraft. Sie basieren alle auf Modellen oder Beobachtungsdaten (Korrelation != Kausalität).

Fazit

Die Debatte um wissenschaftliche Qualitätsstandards (Replikationen, Studienregister etc.) findet momentan in der Informatik und der IT-Sicherheitsforschung praktisch nicht statt.

In Sachen IT-Sicherheit gibt es bei vielen Fragen keine oder nur wenige, qualitativ miserable wissenschaftliche Belege.

Wir brauchen evidenzbasierte IT-Sicherheit auf Basis qualitativ hochwertiger Wissenschaft.