Warum sind Auto-Tagger für bspw. MS Sharepoint nur bedingt nutzbar?
Auto-Tagger werden für verschiedene Portal- und CMS-Systeme angeboten. Da ich in letzter Zeit in vielen Kundenterminen in meiner Funktion als Berater um meine Meinung gefragt wurde, dachte ich mir, ich schreibe diese in einem kurzen Blog-Post zusammen.
Was sind eigentlich Auto-Tagger?
Um das Auffinden von Informationen zu verbessern, wird gerne auf eine facettierte Suche - wie sie von Amazon bzw. Zalando bekannt ist - zurückgegriffen [1]. Hierzu wird eine Taxonomie erstellt, mit der später Inhalte, wie Office Dokumente (Word, Excel, Powerpoint, PDF, etc.) verschlagwortet werden. Dieses Verschlagworten bzw. Taggen ist meines Erachtens besonders effektiv, wenn es von einem Menschen gemacht wird, da strenggenommen nur dieser die Schlagworte genau zuweisen kann. Falls der Schlagwortbaum jedoch etwas umfangreicher geraten ist, benötigt die Verschlagwortung sodann ein wenig Zeit und das Wissen über die Taxonomie. Viele Kunden fragen inzwischen, ob dies nicht automatisiert durchführbar ist.
Wie funktioniert ein Auto-Tagger?
Die einfachste Variante arbeitet mit Boolscher Algebra. Sprich falls Wort X und Wort Y auftauchen, dann setze Tag X. Neben der boolschen gibt es noch die Möglichkeit einer linguistischen Analyse. Hierbei stehen 2 Herangehensweisen zur Verfügung, bei der Ersten werden Tags basierend auf den Tags ähnlicher Dokumente gesetzt. Bei der Zweiten werden die Tags aus dem Dokument selbst ermittelt, meistens unter Zuhilfenahme von Wikipedia um die Ergebnisse zu verbessern. In diesem Bereich wird nach wie vor vielerlei erforscht. Diese Verfahren erzielen aktuell jedoch nur eine Genauigkeit von etwa 70% [2][3]. Hier sei jedem im Übrigen empfohlen, sich die Verschlagwortung bekannter deutscher Zeitschriften anzusehen. Diese wird automatisiert durchgeführt und passt meiner Auffassung nach des Öfteren nicht immer optimal. Innerhalb eines Intranets muss auch bedacht werden, dass die Menge von vorhanden Dokumenten meistens viel kleiner als im Vergleich zu einer Zeitung ist und die Genauigkeit bei der linguistischen Analyse steigt mit Anzahl der verfügbaren Informationen.
Fazit
Wird die boolsche Variante eingesetzt, macht dies meines Erachtens nur Sinn, wenn die Dokumente sinnvolle Meta-Tags enthalten. Diese könnten bspw. über einen Produktschlüssel an einer fixen Position in der Datei bereitgestellt werden oder mit Properties in Office Dokumenten bzw. PDFs. Den Text selbst mit If-Then-Else-If-Konstrukten zu analysieren mag vielmehr an Don Quijote im Kampf gegen die Windmühlen erinnern. Generell ist davon auszugehen, dass die manuelle Verschlagwortung die bessere Alternative ist. Reicht jedoch eine Trefferquote von ca. 70% aus und man eher annehmen muss, dass die Benutzer falsch taggen, dann kann auch ein Auto-Tagger sinnvoll sein. Dieser würde sich ebenfalls zur Vorbelegung der Tags eignen.