Wayati FAQ
(Unterschied zwischen Versionen)
(→Textmenge) |
(→Tweet-Analyse) |
||
Zeile 13: | Zeile 13: | ||
Der Algorithmus untersucht hauptsächlich die Struktur der Tweets. Der Inhalt wird nicht bewertet, daher funktioniert der Algorithmus sprachunabhängig. Zum Beispiel werden Tweets schlecht bewertet, wenn Aufzählungen von Usern, viele Hashtags oder Wörter, die nur aus Großbuchstaben bestehen. Auch Tweet-übergreifend erkennt der Spamchecker, wenn jemand komplette Tweets ständig wiederholt oder den gleichen Text an verschiedene User schickt. | Der Algorithmus untersucht hauptsächlich die Struktur der Tweets. Der Inhalt wird nicht bewertet, daher funktioniert der Algorithmus sprachunabhängig. Zum Beispiel werden Tweets schlecht bewertet, wenn Aufzählungen von Usern, viele Hashtags oder Wörter, die nur aus Großbuchstaben bestehen. Auch Tweet-übergreifend erkennt der Spamchecker, wenn jemand komplette Tweets ständig wiederholt oder den gleichen Text an verschiedene User schickt. | ||
- | == Tweet-Analyse == | + | == Tweet-Analyse (Struktur) == |
Für die Untersuchung werden lediglich die letzten 20 Tweets herangezogen. Das reicht aus, um eine Bewertung abzugeben und ermöglicht es, Verhaltensänderungen schnell zu erkennen. Der Vorteil besteht auch darin, dass die letzen 20 Tweets mit einer einzigen Twitter-Abfrage ermittelt werden können und somit eine Analyse mit geringem Aufwand schnell möglich ist. | Für die Untersuchung werden lediglich die letzten 20 Tweets herangezogen. Das reicht aus, um eine Bewertung abzugeben und ermöglicht es, Verhaltensänderungen schnell zu erkennen. Der Vorteil besteht auch darin, dass die letzen 20 Tweets mit einer einzigen Twitter-Abfrage ermittelt werden können und somit eine Analyse mit geringem Aufwand schnell möglich ist. | ||
Zeile 55: | Zeile 55: | ||
=== Textmenge === | === Textmenge === | ||
Ein wichtiges Unterscheidungsmerkmal zwischen guten und schlechten Twitterern ist das Verhältnis zwischen Text und anderen Elementen wie Hashtags, User-Refs, Links usw. Je weniger Text die Updates enthalten, umso uninteressanter ist der User. | Ein wichtiges Unterscheidungsmerkmal zwischen guten und schlechten Twitterern ist das Verhältnis zwischen Text und anderen Elementen wie Hashtags, User-Refs, Links usw. Je weniger Text die Updates enthalten, umso uninteressanter ist der User. | ||
+ | |||
+ | == Tweet-Verhalten == | ||
+ | Unter Tweet-Verhalten wird bewertet, wie viele Tweets ein User schreibt, ob er überhaupt welche geschrieben hat, wann der letzte geschrieben wurde (ist er noch aktiv?), ob er ständig die gleichen Tweets postet. | ||
+ | |||
+ | === Tweets/Day === | ||
+ | Es wird davon ausgegangen, dass ein "normaler" Mensch kaum hunderte Tweets pro Tag über einen längeren Zeitraum hinweg schreibt. Tatsächlich gibt es aber Accounts, über die pro Tag mehr als 1000 Tweets gepostet werden und das über einen Zeitraum von mehr als 200 Tagen. Das dürfte nur einem Bot gelingen und ich glaube nicht, dass jemand soviele Tweets von einem einzelnen User erhalten oder gar lesen möchte. | ||
+ | |||
+ | === Tweetwiederholung === | ||
+ | W#hrend bei der Struktur-Analyse geprüft wird, ob einzelne Elemente wiederholt auftreten, werden hier komplette Tweets verglichen und entsprechend schlecht bewertet, wenn es zu häufigen Mehrfachposts kommt. | ||
+ | |||
+ | === Tweets gesamt === | ||
+ | Ob ein User folgenswert ist oder nicht, kann man erst beurteilen, wenn er eine gewissen Menge an Tweets geschrieben hat. Wenn jemand überhaupt keine oder insgesamt weniger als 10 Tweets geschrieben hat, ist dieser Wert schlecht. | ||
+ | |||
+ | === Letzter Tweet === | ||
+ | Natürlich gibt es viele Leute, die das Interesse an Twitter verloren haben. Je älter der letzte gepostete Tweet ist, umso schlechter ist der Wert hier, wobei man erst nach einer Inaktivität von 6 und mehr Wochen mit der schlechtesten Note in diesem Punkt bedacht wird. | ||
+ | |||
+ | == Folgeverhalten == | ||
+ | Beim Folgeverhalten geht es darum, herauszufinden, ob ein User zurück folgt oder extrem vielen Leuten folgt und auf diese Weise versucht, die Anzahl seiner Follower möglichst schnell in die Höhe zu treiben. | ||
+ | |||
+ | === Folgerate === | ||
+ | Hier wird das Verhältnis zwischen Friends und Follower berechnet. Liegt diese bei 80% und höher, ist die Chance sehr hoch, dass der User auch seinen Followern folgt. | ||
+ | |||
+ | === === | ||
== User Informationen (Profil) == | == User Informationen (Profil) == |
Version vom 13:17, 22. Sep. 2009
Inhaltsverzeichnis |
Wayati.com
Was ist der Zweck von Wayati.com?
Wayati.com ist ein WebService, mit dem man Spammer aus seiner Friendlist herausfiltern kann. Um herauszufinden, ob es sich bei einem Twitter-Account um einen Spammer bzw. Annoying User handelt, wurde ein spezieller Algorithmus entwickelt, der aufgrund der Struktur der Tweets erkennen kann, ob und wie lästig ein Twitter-User ist.
Darüber hinaus ist Wayati.com als Technikstudie gedacht, wobei es darum geht, eine sinnvolle Klassenbibliothek für PHP zu entwickeln, mit der man schnell und möglichst komfortabel komplexe Webanwendungen erstellen kann.
Wayati.com ist noch in der Entwicklung. Bisher ist es nur möglich, einzelne Benutzer von dem Dienst bewerten zu lassen.
Was bedeutet Wayati?
Wayati ist ein Kunstwort und ist die Abkürzung für "Waste ya (your) time". Twitter ist ein Zeitvertreib, dessen praktischer Nutzen für viele beschränkt ist, selbst wenn er für wenige durchaus vorhanden ist. Wayati.com hat das Ziel, diese potentielle Zeitverschwendung angenehmer zu machen, in dem die lästigen Nervensägen entfernt werden, um den Spaßfaktor zu erhöhen.
Wie funktioniert die Spam-Erkennung?
Der Algorithmus untersucht hauptsächlich die Struktur der Tweets. Der Inhalt wird nicht bewertet, daher funktioniert der Algorithmus sprachunabhängig. Zum Beispiel werden Tweets schlecht bewertet, wenn Aufzählungen von Usern, viele Hashtags oder Wörter, die nur aus Großbuchstaben bestehen. Auch Tweet-übergreifend erkennt der Spamchecker, wenn jemand komplette Tweets ständig wiederholt oder den gleichen Text an verschiedene User schickt.
Tweet-Analyse (Struktur)
Für die Untersuchung werden lediglich die letzten 20 Tweets herangezogen. Das reicht aus, um eine Bewertung abzugeben und ermöglicht es, Verhaltensänderungen schnell zu erkennen. Der Vorteil besteht auch darin, dass die letzen 20 Tweets mit einer einzigen Twitter-Abfrage ermittelt werden können und somit eine Analyse mit geringem Aufwand schnell möglich ist.
Um den Server (und auch Twitter) zu entlasten, werden die Ergebnisse zwischengespeichert und nur dann neu berechnet, wenn der zu untersuchende User neue Tweets gepostet hat. Diese Information kann man bereits der User-Information entnehmen, die daher bei jedem Aufruf neu abgefragt wird.
Folgende Tests werden durchgeführt:
Generelle Struktur
Die Tweets werden in Einzelteile zerlegt und es wird untersucht, ob User, Links, Hashtags und "Geschrei", also Wörter, die nur aus Großbuchstaben bestehen und länger als drei Buchstaben sind (Abkürzungen) vorkommen. Zusammenhängender Text wird als ein Element betrachtet.
Zum Beispiel "@userxy Bei uns regnet es heute. #wetter" besteht aus drei Elementen: User, Text, Hashtag (UTH) Die meisten bestehen nur aus Text (T) oder Text, Hashtag (TH), User, Text (UT) oder Text, Link (TL) oder Text, Link, Hashtag (TLH) und weisen somit eine recht übersichtliche Struktur auf.
Typische Spam-Tweets sehen so aus: "easy money making: http://tinyurl.com/ltjqvt @bbqmaven @Chodidees @TheAngryDude @hownottowrite". Die Elemente sind Text, Link, User, User, User, User (TLUUUU) Besonders nervig ist zum Beispiel folgendes: "RT @LouisLeBeau: #MM best @LavaLampLV @Oscar_LeChat @Dunkin_the_Cat @TPPCtv @zeepeters @Lorenzothecat @buschpetproduct @MyTuxedoCat @MaxTheD": RT, User, Hashtag, Text gefolgt von 9 Usern (RUHTUUUUUUUUU)
Der Struktur-Test bewertet die durchschnittliche Länge dieser Strukturbeschreibungen.
Gleiche Wörter
Wenn Wörter (auch Hashtags) - auch über mehrere Tweets hinweg - ständig vorkommen, dann besteht der Verdacht, dass sich entweder jemand ständig wiederholt oder für einen Dienst oder ein Produkt geworben wird. Je häufiger gleiche Wörter wiederholt werden, umso schlechter ist die Bewertung.
Gleiche Links
Ein noch deutlicheres Zeichen für Spam ist es, wenn ein Link ständig wiederholt wird.
User Refs
Zu den nervigsten Spammern gehören diejenigen, die Tweets mit langen Listen von Usern verschicken. Der Zweck ist mir nicht ganz klar. Jedenfalls bekommen alle diesen Tweet zu sehen, die in der Liste aufgeführt sind. Es gibt aber auch Spam-Account-Gruppen, die automatisch generierte Tweets erstellen und nur User dieser Gruppe in die Tweets integrieren.
Spam Refs
Wurde ein User bereits als Spammer identifiziert und taucht in Tweets eines anderen Users auf, wirkt sich das negativ auf denjenigen aus, der (vorgeblich) mit solchen Spam-Accounts kommuniziert. In der Regel tauchen solche Spammer nur bei anderen Spammern auf, um diese ebenfalls zu promoten, weil sie zum Beispiel vom gleichen Initiator stammen.
Eigener Nick
Auch wenn ein User seinen eigenen Namen ständig in Tweets einbaut, ist das ein Indiz für Spam. Das kommt ebenfalls häufig bei denjenigen vor, die lange Listen mit Nicks automatisiert verbreiten.
Hashtags
Hashtags sind sinnvoll, um Hinweise auf den Inhalt der Tweets zu geben und haben eine Meta-Funktion. Wer es allerdings damit übertreibt, macht sich verdächtig. Von Spammern werden Hashtags hauptsächlich dazu missbraucht, bei bestimmten Schlagwörtern möglichst gut gefunden zu werden.
"Geschrei"
Texte, die hauptsächlich aus Großbuchstaben bestehen, werden generell als laut und störend empfunden.
Tweet ohne Text
Wer einfach nur Links, User oder Hashtags postet, ohne weitere Erklärungen in Textform. Hierunter fallen ebenfalls die bereits erwähnten User-Listen.
Textmenge
Ein wichtiges Unterscheidungsmerkmal zwischen guten und schlechten Twitterern ist das Verhältnis zwischen Text und anderen Elementen wie Hashtags, User-Refs, Links usw. Je weniger Text die Updates enthalten, umso uninteressanter ist der User.
Tweet-Verhalten
Unter Tweet-Verhalten wird bewertet, wie viele Tweets ein User schreibt, ob er überhaupt welche geschrieben hat, wann der letzte geschrieben wurde (ist er noch aktiv?), ob er ständig die gleichen Tweets postet.
Tweets/Day
Es wird davon ausgegangen, dass ein "normaler" Mensch kaum hunderte Tweets pro Tag über einen längeren Zeitraum hinweg schreibt. Tatsächlich gibt es aber Accounts, über die pro Tag mehr als 1000 Tweets gepostet werden und das über einen Zeitraum von mehr als 200 Tagen. Das dürfte nur einem Bot gelingen und ich glaube nicht, dass jemand soviele Tweets von einem einzelnen User erhalten oder gar lesen möchte.
Tweetwiederholung
W#hrend bei der Struktur-Analyse geprüft wird, ob einzelne Elemente wiederholt auftreten, werden hier komplette Tweets verglichen und entsprechend schlecht bewertet, wenn es zu häufigen Mehrfachposts kommt.
Tweets gesamt
Ob ein User folgenswert ist oder nicht, kann man erst beurteilen, wenn er eine gewissen Menge an Tweets geschrieben hat. Wenn jemand überhaupt keine oder insgesamt weniger als 10 Tweets geschrieben hat, ist dieser Wert schlecht.
Letzter Tweet
Natürlich gibt es viele Leute, die das Interesse an Twitter verloren haben. Je älter der letzte gepostete Tweet ist, umso schlechter ist der Wert hier, wobei man erst nach einer Inaktivität von 6 und mehr Wochen mit der schlechtesten Note in diesem Punkt bedacht wird.
Folgeverhalten
Beim Folgeverhalten geht es darum, herauszufinden, ob ein User zurück folgt oder extrem vielen Leuten folgt und auf diese Weise versucht, die Anzahl seiner Follower möglichst schnell in die Höhe zu treiben.
Folgerate
Hier wird das Verhältnis zwischen Friends und Follower berechnet. Liegt diese bei 80% und höher, ist die Chance sehr hoch, dass der User auch seinen Followern folgt.
User Informationen (Profil)
Für die Bewertung werden einige User-Informationen herangezogen, an denen man ebenfalls einige Anhaltspunkte erhalten kann, ob ein User folgenswert ist oder nicht.
Diese Informationen sind leicht zu manipulieren und haben daher nur einen schwachen Einfluss auf die Gesamtbewertung.
Nickname
Bisher wird nur überprüft, ob ein Nickname ausschließlich aus Großbuchstaben besteht. Weitere Tests wie etwa die Länge oder das Vorhandensein von Vokalen werden noch hinzukommen.
Verifiziert
Zur Zeit werden hauptsächlich Prominente von Twitter verifiziert, d.h. auf Echtheit überprüft. Zwar ist das nur ein schwaches Kriterium, wurde aber der Vollständigkeit halber erst einmal mit aufgenommen. Später, wenn sich auch reguläre User verifizieren lassen können, wird dieser Punkt wesentlich interessanter werden.
Favoriten
Das Anlegen von Favoriten ist in der Regel eine Aktion, die nicht von Bots durchgeführt wird. Wer also viele Favoriten angelegt hat, ist mit hoher Wahrscheinlichkeit kein Bot, sondern jemand, der sich auch inhaltlich mit den Tweets anderer auseinandersetzt.
Bild
Viele benutzen das Vorhandensein eines Profilbildes als Indikator dafür, ob jemand folgenswert ist oder nicht und daher wird dieses Kriterium mit berücksichtigt.