Anne erklärt das Internet: CAPTCHAs, reCAPTCHAs und der Turing-Test

Ein Captcha verlangte eben von mir die Eingabe des Wortes "Entensaft". Bin irritiert.
@Buddenbohm
Max. Buddenbohm

Heute erkläre ich mal etwas, das sowieso schon alle verstanden haben und weitestgehend doof finden, nämlich CAPTCHAs. Eigentlich wollte ich mal woanders über CAPTCHAs schreiben, nämlich in dem bislang ungeschriebenen Artikel darüber, warum ich Blogspot doof finde (Spoileralert: Ein Grund sind die vermaledeiten CAPTCHAs, die mich schon  mehr als einmal erfolgreich vom Kommentieren abgehalten haben), aber da sich die schriftliche Niederlegung dieses Rants anscheinend noch ein bisschen verzögert, schreibe ich einfach jetzt schon über CAPTCHAs und das andere dann eben irgendwann später.

Interessanterweise ist die CAPTCHA-Thematik nämlich gar nicht so uninteressant. Zunächst einmal aber ist sie ärgerlich und um hier sofort mit der Wahrheit rauszurücken und jeden Verdacht der Objektivität von mir zu weisen: Ich hasse CAPTCHAs! CAPTCHAs sind die ekligen Pickel jeder Bloggerplattform! Sie gehören verboten, ausgemerzt und geächtet! Aber natürlich gibt es sie nicht ohne Grund und grundsätzlich ist der Grund ihrer Existenz erst mal nachvollziehbar und gar nicht ganz so doof.

CAPTCHAs sollen böse Internetbots davon abhalten, doofe Sachen zu tun, indem man für Maschinen vermeintlich unlösbare Aufgaben in den Weg stellt und hofft, dass die Bots daran scheitern, der Mensch jedoch nicht.* Die Idee ist also erst mal gut und soll vor bösem Kommentarspam oder unbefugtem Zugriff auf Nutzerkonten schützen.

Leider werden auch Bots schlauer und das, was vor ein paar Jahren noch als effektiver Spamschutz durchging, konnte dann auch irgendwann automatisiert gelöst werden und musste dementsprechend undurchschaubarer werden. Und genau da liegt eines der Probleme: Ein Spamschutz, der auch für Menschen teilweise unlösbar ist, ist zwar immer noch wirksam gegen Bots, wirkt sich aber auch gerne demotivierend auf den Menschen aus, der zum dritten Mal die falschen Buchstaben eintippt, weil man es einfach verdammt noch mal nicht mehr lesen kann. Ich hatte schon CAPTCHAs, auf denen die Buchstaben so verzogen waren, dass sie an den Seiten aus dem Feld herausragten und dementsprechend nicht mehr identifizierbar waren. Bei anderen CAPTCHAs drücke ich mehrere Male auf den Refresh-Button, bis tatsächlich mal eine Buchstabenkombination kommt, die ich als einigermaßen intelligenter Mensch noch entziffern kann.

Mögen diese CAPTCHAs noch so wirksam sein, nach einer guten Lösung für das Problem sieht das nicht aus.

Es gibt aber auch immer Alternativen. Auf vielen Blogs ist es mittlerweile üblich, einfach eine Frage zu beantworten, die für einen Menschen ganz leicht lösbar ist, einen automatisierten Bot aber durchaus aus dem Konzept bringen kann. Gelegentlich wird hierfür eine Prise Allgemeinwissen vorausgesetzt und ob das immer und langfristig vor Spambots schützt, kann ich nicht sagen. Für den Menschen bedeutet es zwar immer noch, dass man etwas eingeben muss, das frustrierende Entziffern willkürlicher Buchstaben bleibt aber aus und ein Wort, das man kennt, tippt sich eben immer noch leichter.

Eine andere zumindest theoretische Lösung, von der ich nicht weiß, ob sie irgendwer mal umgesetzt hat und wie hoch die Erfolgsquote ist, sah folgendermaßen aus: Spambots befüllen bekanntlich Eingabefelder, die sie so vorfinden, automatisiert. Sie wissen nicht, was sich dahinter verbirgt und machen einfach mal. (Eventuell ist es komplizierter und die Bots sind auch hier mittlerweile schlauer.) Ein Vorschlag zur Spambotbekämpfung sah so aus, ein zusätzliches Eingabefeld einzubauen, dass zwar automatisch befüllt werden kann, aber für den (menschlichen) Nutzer nicht sichtbar ist. Die Idee ist dann, dass Spambots dieses Feld sicherheitshalber mal mit irgendeinem Unsinn befüllen, ein Mensch aber gar nicht in die Verlegenheit kommt, da das Feld für ihn nicht existiert.

Anstatt also den Bot daran zu erkennen, dass er etwas nicht tun kann, erwischt man ihn dabei, wie er etwas tut, was er eigentlich gar nicht tun dürfte. Man überlistet ihn mit seinem eigenen Übereifer beim Ausfüllen der Felder, während der Nutzer einfach nichts tun muss, um als Mensch erkannt zu werden.

Wie gesagt, ob dieses Konzept irgendwann umgesetzt wurde und ob nicht auch hier Bots lernfähig genug sind, um sich auch an dieser Hürde irgendwann vorbei zu mogeln, ich weiß es nicht. Interessant ist es allemal und zeigt sehr schön, wo die Schwachstellen bei automatisierten Spambots liegen.

"Wir müssen testen, ob du ein Mensch bist." Und dann sagen einem die Captchas hinterher nie, was bei dem Test herausgekommen ist.
@HappySchnitzel
Sue Reindke

Überhaupt läuft das alles ja auf die Frage hin, wie man Mensch und Maschine überhaupt noch unterscheiden kann. Diese Frage scheint heutzutage schon allein ob solcher Spamärgernisse hochaktuell, sie ist aber tatsächlich schon etwas älter. 1950 schlug Alan Turing einen Test vor, um herauszufinden, ob eine Maschine ein mit dem Menschen vergleichbares Denkvermögen hat. Dieser Test heißt dementsprechend Turing-Test und läuft einem, wenn man es sich mal genauer anguckt, mittlerweile dauernd über den Weg, zum Beispiel, wenn ich mich mit Siri oder Anna von der IKEA-Homepage unterhalte, Menschen lassen sich von künstlicher Intelligenz sehr gerne übers Ohr hauen, weil wir viel zu sehr damit beschäftigt sind, Aktionen nach ihrem Sinn hin zu interpretieren.

Dazu einen Schwank aus meinem Leben: Im Rahmen einer kleinen Kollegenchallenge habe ich mal an einer Lösung für ein “Vier gewinnt”-Spiel programmiert. Ich kam zwar nicht besonders weit, aber meine Implementation konnte am Ende doch mehr als nur zufällig irgendwo Steine reinwerfen und war damit ein bisschen schlauer als vorher, aber immer noch nicht besonders schlau. Tatsächlich lag die Stärke des Programms anderswo, nämlich in der Schwäche des Menschen, hinter jedem Zug eine Motivation zu vermuten. Obwohl ich wusste, was das Programm konnte und dementsprechend auch wusste, wann es rein zufällig agierte, neigte ich immer noch dazu, hinter jedem Zug eine Absicht zu vermuten. Zwar handelt es sich in diesem Fall um einen eher einfachen Fall von künstlicher Intelligenz (na ja, “Intelligenz”), der mit einem richtigen Turing-Test, bei dem eine Unterhaltung simuliert werden soll, nicht mehr viel zu tun hat. Zu befürchten bleibt aber, dass der Mensch mit dem ein oder anderen Trick einfacher zu überlisten ist, als wir das gerne hätten. (Ein Experiment, das in die gleiche Richtung geht, ist übrigens das sogenannte “Chinesische Zimmer”.)

Aber zurück zu den CAPTCHAs, deren Name tatsächlich ein Akronym ist, das für Completely Automated Public Turing test to tell Computers and Humans Apart steht. (Ach guck, da isser wieder, der Turing-Test.)

Ein bisschen etwas positives lässt sich nämlich doch sagen. Google zum Beispiel hat sich nämlich überlegt, diese kleinen Plagegeister zu nutzen und jeden CAPTCHA-Entzifferer als menschliches OCR einzusetzen. Deswegen sieht man bei CAPTCHAs von Google-Diensten gerne zwei Wörter. Das Geheimnis ist hier: Nur eines der Wörter ist das eigentliche CAPTCHA. Dieses Wort ist bekannt und kann abgeglichen werden. Das andere Wort stammt (vereinfacht gesagt) aus einem abgescannten Text und konnte von der automatischen Texterkennung nicht eindeutig erkannt werden. Diese Leistung wird jetzt von uns Menschen übernommen, die zu Hause vorm Rechner sitzen und einfach nur einen Artikel auf einem Blog kommentieren wollen. Aus meiner ganz subjektiven Erfahrung würde ich behaupten, dass dabei die “offiziellen” CAPTCHAs meist schwerer zu entziffern sind als die “richtigen” Wörter, was natürlich auch daran liegt, dass die einen absichtlich unleserlich gestaltete willkürliche Buchstabenfolgen sind, während letztere meist nur ein bisschen zu verwaschen für die OCR-Software sind, ansonsten aber ganz normale Wörter.

CAPTCHA

Man rate, welches Wort das CAPTCHA ist und welches aus einem Text stammt.

Dies erklärt auch, warum es manchmal reicht, nur eines der Wörter einzutippen, denn tatsächlich wird ja nur eines abgeglichen und geprüft. Das andere ist Zusatzleistung im Dienste der Menschheit (oder zumindest im Dienste von Google). Mittlerweile nutzt Google dieses Prinzip auch, um unleserliche Hausnummern auf Street View entziffern zu lassen.

Diese Erweiterung des CAPTCHA-Prinzips ist auch als reCAPTCHA bekannt und auch wenn sich jetzt jeder selber überlegen muss, ob er es gut oder schlecht findet, dass er von Google als menschliches OCR missbraucht wird, ohne das zu wissen, so sehe ich hier ganz subjektiv und höchstpersönlich zumindest einen nachvollziehbaren Nutzen dieses nächtlichen Wadenkrampfes vieler Blogkommentarfunktionen.

Nach wie vor hoffe ich aber darauf, dass es irgendwann eine brauchbare Lösung gibt, und ich nie wieder meinen Rechner anbrüllen muss, weil ich zum dritten Mal eine unleserliche Buchstabenfolge nicht richtig eintippen kann. Und die Hoffnung stirbt ja bekanntlich zuletzt.

 

* Was fehlt: CAPTCHAs, die Trolle vor unlösbare Aufgaben stellen. Ein Weg in die richtige Richtung könnte sein, als Lösungsworte nur flauschige Begriffe zu verwenden. Wer trollt schon noch effektiv, wenn er gerade “kitten”, “rainbow” oder “cupcake” eingeben musste.**

** OMG, mit der Idee werd ich noch reich!!!!11!einself

13 comments

  1. Christian

    FYI: ich arbeite ziemlich erfolgreich mit dem zusätzlichen Eingabefeld – es wird brav von geschätzt 80% der Bots ausgefüllt, was dazu führt, dass ich 80% des Spam-Mülls gar nicht mehr sehen, denn jeden, der auf den Trick rein fällt lösche ich automagisch.

  2. Johannes Mirus

    Als ich vor Unzeiten mal ein Gästebuchscript programmierte, setzte ich auch auf Spamvermeidung mit Hilfe eines versteckten Eingabefeldes. Es funktionierte leidlich, weil die Spambots auch irgendwann erkannten, dass da ein Feld irgendwo mit einer CSS-Eigenschaft ausgeblendet wird. Dann habe ich auf eine Rechenaufgabe gesetzt (einfache Addition mit einstelligen Ziffern), das ging voll in die Hose. Danach probierte ich die Möglichkeit aus, den aktuellen Monat als Zahl eingeben zu lassen (z.B. 4 für April), das funktionierte schon besser, aber die Bots haben einfach geraten und bei einem Bereich von 1 bis 12 ist das ziemlich leicht.

    Was dann am Ende tatsächlich funktionierte, war, den aktuellen Monat einfach als Wort eingeben zu lassen (“April”). Simpel, effektiv. Leider scheiterten daran dann einige Nutzer.

    Zurück zu Captchas: Die haben ja nicht nur das Katz-Maus-Problem, dass die Spammer intelligenter werden. Captchas stellen auch eine sehr effektive Hürde für behinderte Personen dar, insbesondere natürlich für Sehbehinderte. Dieses Thema anzugehen bedeutet, den Bots wieder eine Tür zu öffnen. Da capo.

    Die mir am meisten sympathische Spamverhinderungsmöglichkeit hat übrigens die geschätzte Kollegin Serotonic: “Wer schrieb Goethes Faust?” Darüber musste ich allerdings beim ersten Mal etwas länger nachdenken.

  3. Herr Rau

    Das WordPress-Plugin Antispam Bee benutzt unter anderem die Methode mit dem verdeckten Eingabefeld. Filtert fast alle Spams raus, aber einer pro Woche kommt durch (und wird auf andere Art abgefangen).

    Ansonsten volle Zustimmung, auch bei Blogspot. Da macht das Kommentieren keinen Spaß.

    • Anne

      Danke für den Tipp. Und jetzt hab ich gerade noch den Link zum Fischadlerstream an meinen Vater geschickt. Man findet ja immer wieder tolle Sachen in diesem Internet.

  4. Ralf

    Der Vollständigkeit halber: nicht Google hat sich die reCAPTCHAs ausgedacht um mal wieder die Menschheit über’s Ohr zu hauen, sondern ein Herr Namens Luis von Ahn. Er widerum hat reCAPTCHA 2009 an Google verkauft.

  5. sven

    Re-Captcha ist kaputt. Forem Spam Tools wie Xrumer kommen ohne Probleme an denen vorbei.
    Hatte ich neulich, da gab es hunderte neue Nutzer an einem tag, und alle kamen am reCaptcha vorbei.

    Super funktioniert eine handgemachte Frage, wie oben erwähnt, alternativ auch Fragen, wie man sie aus dem Fernsehen kennt:

    Beispiele:
    Wer bringt die Ostereier?
    Der Weihnachtsmann, der Osterhase oder die Zahnfee?

    Welches Tier macht Miau?
    Eine Schlange, eine Giraffe oder eine Katze?

    Bitte schreiben Sie die Antwort in dieses Feld:

    Die sind so im Einsatz, funktionieren sensationell gut. Fernsehfragen sind der Super-Geheimtipp für dieses Problem.

  6. Frische Brise

    Ich habe die Captcha- Abfrage ausgeschaltet, damit leichter kommentiert werden kann.

    Leider muss ich dadurch täglich ziemlich viel Spam- Kommentare ertragen und löschen.

    Nervt mich ziemlich, aber was tut man icht alles für seine Leser*innen ;-)

  7. der Dennis

    Das Captcha Wettrüsten (Describe what love feels like in 200 words) wird natürlich unausweichlich zu fortschrittlicher AI führen. Die uns vermutlich am Ende vernichten wird.

    Siehe auch (shameless self plug) diesen Post aus 2009, in dem ausserdem Kätzchen vorkommen…

  8. Pingback: Farben, USA, Captchas, Thailand, Stalking, Hoeneß – 1ppm – Blog von Johannes Mirus
  9. Pingback: Schöner Suchen, Teil 7 | Ach komm, geh wech!

Post a comment

You may use the following HTML:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>