KI-gestützte Spam-Erkennung in Gmail ist die größte Sicherheitsverbesserung seit Jahren

Google Mail

Die Spam-Filter von Gmail können jetzt auch “feindliche Textmanipulationen” erkennen.

Der jüngste Eintrag im Google Security Blog beschreibt ein neues Upgrade der Spam-Filter von Gmail, das Google als “eine der größten Verteidigungsverbesserungen der letzten Jahre” bezeichnet. Bei dem Upgrade handelt es sich um ein neues Textklassifizierungssystem namens RETVec (Resilient & Efficient Text Vectorizer). Laut Google kann dieses System dabei helfen, “feindliche Textmanipulationen” zu verstehen – also E-Mails voller Sonderzeichen, Emoticons, Tippfehler und anderer Junk-Zeichen, die bisher zwar für Menschen lesbar, aber für Maschinen nur schwer verständlich waren. In der Vergangenheit konnten Spam-E-Mails mit Sonderzeichen die Abwehrmechanismen von Gmail leicht überwinden.

Unsere persönliche Erfahrung mit Google Mail ist, dass diese E-Mails in der ersten Jahreshälfte ein großes Problem darstellten, da E-Mails wie diese regelmäßig in unserem Posteingang landeten. Es scheint jedoch, dass das technische Upgrade von RETVec funktioniert, denn in den letzten Monaten waren solche E-Mails für mich überhaupt kein Problem mehr.

E-Mails wie diese waren so schwer zu klassifizieren, weil jeder Spam-Filter eine E-Mail mit dem Inhalt “Herzlichen Glückwunsch! Ihr Jackpot-Konto wurde mit 1.000 Dollar aufgefüllt”, aber das ist nicht der Inhalt der E-Mail. Ein großer Teil der Buchstaben sind “Homoglyphen” – wenn man in die unendlichen Tiefen des Unicode-Standards eintaucht, kann man obskure Zeichen finden, die aussehen, als wären sie Teil des normalen lateinischen Alphabets, es aber in Wirklichkeit nicht sind.

Zum Beispiel ist der Betreff “𝐂𝐡𝐞𝐜𝐤_𝐘𝐨𝐮𝐫_𝐀𝐜𝐜𝐨𝐮𝐧𝐭” seltsamerweise fett gedruckt, nicht weil er fett gedruckt ist, sondern weil er Unicode-Zeichen wie das ” Mathematische fette große C” verwendet. Das ist ein mathematisches Symbol, das für Menschen wie der Buchstabe “C” aussieht, aber der Spam-Filter-Roboter sieht es als mathematisches Symbol und versteht die englische Bedeutung nicht. Je genauer man sich eine solche E-Mail ansieht, desto schlimmer wird sie: In “C0NGRATULATIONS” ersetzt eine Null eines der “O”-Zeichen, die unterstrichenen Buchstaben in “Jᴀ̲ᴄ̲ᴋ̲pot” sind so seltsam, dass sie nicht einmal in der Unicode-Suche auftauchen, und viele Leerzeichen wurden durch Punkte oder Unterstriche ersetzt. Das Ergebnis ist, dass ein Spam-Filter sich dieses heiße Durcheinander einer E-Mail ansieht und im Grunde aufgibt. (Warum unleserliche E-Mails standardmäßig im Posteingang und nicht im Spam landen, ist unverständlich)

Google sagt, RETVec sei da, um den Tag zu retten: “RETVec ist so trainiert, dass es gegen Manipulationen auf Zeichenebene wie Einfügen, Löschen, Tippfehler, Homoglyphen, LEET-Substitution und vieles mehr resistent ist. Das RETVec-Modell wurde auf der Grundlage eines neuartigen Zeichenkodierers trainiert, der alle UTF-8-Zeichen und -Wörter effizient kodieren kann. Dadurch funktioniert RETVec sofort in mehr als 100 Sprachen, ohne dass eine Nachschlagetabelle oder eine feste Vokabulargröße benötigt wird”.

Google sagt, dass Effizienz hier eine große Rolle spielt. Alternative Ansätze, die eine “feste Vokabulargröße” oder eine “Nachschlagetabelle” für Homoglyphen verwenden, sind ressourcenintensiv in der Ausführung. Stellen Sie sich eine Liste aller möglichen Schreibweisen und Falschschreibungen von “Glückwunsch” vor, bei denen ein oder mehrere Zeichen durch Zahlen, mathematische Symbole, Kyrillisch, Hebräisch oder Emoticons ersetzt werden, und Sie erhalten eine nahezu endlose Liste. Google behauptet, dass RETVec nur 200.000 “statt Millionen von Parametern” enthält. Während Googles Spam-Filter-Cloud wahrscheinlich groß genug ist, um alles zu verarbeiten, ist dieses Programm so klein, dass es sogar auf einem lokalen Gerät laufen könnte. RETVec ist Open Source und Google hofft, dass es die Welt von Homoglyph-Angriffen befreien wird, so dass es eines Tages sogar in Ihrem lokalen Kommentarbereich laufen könnte.

RETVec scheint ähnlich wie das menschliche Lesen zu funktionieren: Es ist ein TensorFlow-Modell des maschinellen Lernens, das visuelle “Ähnlichkeit” nutzt, um die Bedeutung von Wörtern zu erkennen, anstatt den tatsächlichen Zeicheninhalt. Googles Ähnlichkeits-Demo verwendet dieselbe Technologie, um Bilder von Katzen zu erkennen. Es scheint also durchaus möglich, daraus das beste optische Zeichenerkennungssystem der Welt zu machen. Offensichtlich hat dieser Ansatz zu großen Verbesserungen geführt, wie Google mitteilt: “Durch das Ersetzen des vorherigen Text-Vektorisierers des Gmail-Spam-Klassifizierers durch RETVec konnten wir die Spam-Erkennungsrate im Vergleich zur Baseline um 38 Prozent verbessern und die False-Positive-Rate um 19,4 Prozent senken. Darüber hinaus wurde durch den Einsatz von RETVec die TPU-Nutzung des Modells um 83 % reduziert, was den Einsatz von RETVec zu einer der größten Verteidigungsverbesserungen der letzten Jahre macht”.

Google hat RETVec nach eigenen Angaben “seit einem Jahr” intern getestet und bereits auf Ihr Gmail-Konto ausgerollt.

-

Vorheriger Artikel Nächster Artikel

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

CAPTCHA eingeben * Das Zeitlimit ist erschöpft. Bitte CAPTCHA neu laden.