von Adrian Lobe

Wer soll sich das alles ansehen?

Um die Abermillionen Stunden an Bildmaterial aus der Videoüberwachung zu durchforsten, setzen Behörden weltweit vermehrt auf automatisierte Prozesse. So ist es heute möglich, Software gezielt nach bestimmten persönlichen Merkmalen suchen zu lassen. Die permanente Rasterfahndung wird so Realität.

In China sind nach Schätzungen rund 200 Millionen Überwachungskameras im (halb)öffentlichen Raum installiert: in Bahnhöfen, Shopping-Malls und sogar in Klassenzimmern. Die USA stehen dem nur in wenig nach. Die rund 30 Millionen Überwachungskameras zeichnen dort pro Woche vier Milliarden Stunden Videomaterial auf. So lange dauern 44 Millionen «Tatort»-Folgen (à 90 Minuten) oder 456’621 Kalenderjahre. Eine ganze Menschheitsgeschichte wird jede Woche dokumentiert und aus Speicherplatz- und Datenschutzgründen wieder gelöscht. Die Sichtung des Videomaterials ist eine Mammutaufgabe. Aber wer soll sich das alles ansehen?

Wichtige Sequenzen, etwa solche, die Details einer möglichen Straftat zeigen, rauschen bei einer Sichtung mit dem menschlichen Auge häufig einfach durch. Behörden auf der ganzen Welt setzen daher verstärkt auf Gesichtserkennungssysteme, welche die Videoaufnahmen in Echtzeit und automatisch mit biometrischen Datenbanken abgleichen können.

Indische Wissenschaftler haben nun ein Instrument entwickelt, mit dem anhand individueller Merkmale wie Grösse, Haarfarbe oder Geschlecht gezielt nach Personen in Videoaufzeichnungen gesucht werden kann; eine Suchmaschine für Videobilder. Softwareingenieure der Ahmedabad University trainierten dazu ein neuronales Netzwerk mit einem Datensatz, der über 100’000 Bilder von Personen aus verschiedenen Kameraperspektiven enthielt. Ein Bilderkennungsalgorithmus markierte die Silhouette von Personen und extrahierte Kopf- und Fusspunkte. Durch einen Abgleich der Pixel mit den Echtzeitkoordinaten errechnete der Algorithmus die Grösse der Person. Die Variable der Grösse fungierte als ein Filter, um die Zahl der Personen in dem Frame zu reduzieren. In einem zweiten Schritt zerlegte der Algorithmus den Datenkörper in einen Torso und legte einen Farbfilter über das Kleidungsstück. Die Bestimmung des Geschlechts erfolgte aufgrund der beiden Variablen Grösse und Kleidung. Wer über 1,80 Meter gross ist und dunkle Kleidung trägt, hat eine höhere Wahrscheinlichkeit, ein Mann als eine Frau zu sein, so die Annahme der Forscher.

Der Algorithmus soll 28 von 41 Personen korrekt erkannt haben, schreiben die Forscher in ihrem Paper. Das sieht nach einer stattlichen Fehlerrate aus. Berücksichtigt man jedoch die teils ungünstigen Lichtverhältnisse, ist dies für einen Algorithmus wiederum eine akzeptable Quote.

In einem Suchfenster kann man einfach einen Begriff eingeben – zum Beispiel «roter Lastwagen» –, dann durchkämmt die Software das Videomaterial und identifiziert per Objekterkennung den gesuchten Gegenstand.

Der Ansatz ist nicht neu. Das Start-up IC Realtech hat bereits vor einiger Zeit eine intelligente Videosuchmaschine namens Ella entwickelt, in der man in Videomaterial nach bestimmten Gegenständen suchen kann. Eine Art Google für Überwachungskameras. Die Software, die im Kameranetzwerk installiert wird, bricht das Videomaterial in Metadaten und sendet es an einen gesicherten Server. Dort werden die Metadaten von einem Deep-learning-Algorithmus analysiert und in suchbare Informationsstücke verwandelt. In einem Suchfenster kann man einfach einen Begriff eingeben – zum Beispiel «roter Lastwagen» –, dann durchkämmt die Software das Videomaterial und identifiziert per Objekterkennung den gesuchten Gegenstand. Für den Anwender heisst das: Man muss nicht mehr stundenlang Videomaterial sichten, um herauszufinden, wann der Tankstellenbetrüger mit dem Auto davonfuhr. Bei der Fahndung nach einem Bankräuber könnte man einfach die Täterbeschreibung in die Suchmaschine eingeben: männlich, 1,70 bis 1,80 Meter gross, dunkle Augen, südeuropäisches Aussehen.

Klar, dass so ein Werkzeug bei Kriminalisten auf offene Ohren stösst. Videoanalyse wird in den USA nach Fingerabdrücken und DNA als «dritte Forensik» («the third forensic») bezeichnet. Man müsste nur auf einen Knopf drücken, um nach vermissten Personen oder gesuchten Verbrechern zu suchen. Mittels geobasierter Livestream-Daten könnte man den Missetätern schnell auf die Schliche kommen. Allein, das ist eine relativ naive und gefährliche kriminalistische Vorstellung. Abgesehen von methodischen Mängeln und zugrundeliegenden Stereotypen – auch Frauen können über 180 Zentimeter gross sein und «männliche» Kleidung tragen – stellen sich bei solchen Instrumenten auch immer Fragen nach dem Datenschutz. Jeder Bürger, dessen Bewegungen im öffentlichen Raum von einer Überwachungskamera aufgezeichnet wird, würde durch eine visuelle Suche nach unbestimmten Merkmalen wie «rote Jacke» oder «braune Augen» zum Gegenstand einer permanenten Rasterfahndung.

Mit einer Suchmaschine für Überwachungskameras verhält es sich ähnlich: Jede Person würde zum suchbaren Objekt, jeder Merkmalsträger anlasslos gescreent, der Zweck von Speicherfristen konterkariert.

In Deutschland hob das Bundesverfassungsgericht in einer Entscheidung zur Rasterfahndung 2006 hervor, dass der damals gerügte Passus des Polizeigesetzes Nordrhein-Westfalen «verdachtslose Grundrechtseingriffe mit grosser Streubreite» vorsehe: «Es können alle Personen einbezogen werden, welche die Auswahlkriterien erfüllen, ohne dass es Anforderungen an die Nähe dieser Personen zur Gefahr oder zu verdächtigen Personen gibt.» Mit einer Suchmaschine für Überwachungskameras verhält es sich ähnlich: Jede Person würde zum suchbaren Objekt, jeder Merkmalsträger anlasslos gescreent, der Zweck von Speicherfristen konterkariert. Selbst wenn die gesuchte Person herausgefiltert würde, würden durch die undifferenzierte Auswertung des Videomaterials auch biometrische Merkmale Unbeteiligter zumindest für eine logische Sekunde erfasst, was unverhältnismässig ist.

Allein, Verhältnismässigkeit ist ein Rechtsgrundsatz, der in autoritären Regimen wenig Beachtung findet. Die chinesische Polizei setzt in Peking und Shanghai neuerdings ein System ein, das Menschen allein anhand ihrer Statur und ihres Ganges erkennt. Man kann nur hoffen, dass die Computervision nicht allzu scharf gestellt wird. Vielleicht hat die Datenexplosion aber auch ein eingebautes Datenschutzprogramm: In den kommenden Jahren werden so viel Daten erzeugt, dass sensible Information in Datenwolken verborgen bleiben. Privacy by Fehldesign sozusagen. Mehr Bilder schaffen nicht unbedingt mehr Klarsicht.