Unsere Stärke? Datensammlung und Textanalyse!

Uns interessiert bei Konsumentenäußerungen das "Was?" mehr als das "Wie viel?" - Insius ist forschungsgetrieben und entwickelt Softwareprodukte und Services, um themenrelevante Textbeiträge im Web aufzufinden, zu sammeln sowie inhaltlich tiefgreifend auszuwerten.


Datensammlung

Umfang: Insius arbeitet nicht mit einem vordefinierten Quellenset, sondern simuliert Suchverhalten zu Keywordkombinationen als Grundlage für das Finden und Sammeln von Inhalten. Dadurch erhalten Sie den maximalen Umfang an Ergebnissen, verpassen keine wichtigen Beiträge und erhalten dennoch genau die, die relevant sind - denn nur das, was informationssuchende Nutzer im Web finden, kann diese auch beeinflussen.

Vollständige Beiträge: Anstatt RSS-Feeds auszuwerten und somit nur Ausschnitte von Kommentaren und Beiträgen zu erhalten, greift die Insius Datensammlung auf komplette Webseiten zu. Dabei kommen Computer Vision-Verfahren zum Einsatz, um informationstragende Inhaltsblöcke zu erkennen und diese von irrelevanten Boilerplate Blöcken wie Seitennavigationen, Werbeeinblendungen oder Umfragen zu trennen.

Duplikat- und Spamerkennung: Durch die Duplikaterkennung werden kopierte, abgeschriebene oder mehrfach veröffentlichte Meinungen identifiziert und entfernt, sodass diese das Ergebnis nicht verfälschen können. Das Verfahren ist dabei so robust, dass auch Veränderungen am Text die Identifikation des Duplikats nicht verhindern können.

Erkennung nutzergenerierter, themenrelevanter Web-Beiträge

Nutzergenerierte Inhalte:

Im Internet finden sich sowohl Beiträge, die von Nutzern im privaten Kontext veröffentlicht wurden (User Generated Content) als auch redaktionelle Beiträge. Oft treten beide Arten gemischt auf derselben Webseite auf, so z.B. als Nutzerkommentare unter einem redaktionellen Artikel oder als Kundenbewertung neben einer Produktbeschreibung. Um zielgerichtet die Nutzermeinung auswerten zu können, ist es notwendig, beide Arten unterscheiden zu können. Insius ist in der Lage, automatisiert Nutzerkommentare von redaktionellen Beiträgen zu unterscheiden und damit nur genau die Inhalte auszuwerten, die wirklich für Sie relevant sind.

Themenrelevante Inhalte: Oft sind zu untersuchende Themen über Keywords nicht eindeutig abgrenzbar. Beispielsweise finden sich Beiträge zum Keyword "Continental" im Bereich Versicherungen, Flugverkehr oder Automobil. In der Regel werden dann Boolesche Abfragen (Continental AND (Reifen OR Auto) NOT (Versicherung OR Fluglinie)) formuliert, um einen Ausschnitt der relevanten Beiträgen zu finden. Aufgrund der Komplexität menschlicher Sprache birgt dies jedoch das Risiko, dass Sie entweder zu viel oder zu wenig finden. Mittels Maschinenlernverfahren ist Insius in der Lage, die Themenrelevanz ohne Nutzung fehleranfälliger Boolescher Suchanfragen zu bestimmen und Ihnen nur die relevanten Ergebnisse zu liefern.

Sentimentanalyse

 

Domänenspezifische Sentimentanalyse: Sentimentanalyse ist fehleranfällig, wenn die unterschiedliche Bedeutung von Begriffen in verschiedenen Bereichen (Domänen) ignoriert wird. Aus diesem Grund unterscheiden die Insius Algorithmen zwischen Domänen: Während eine "lange Akkulaufzeit" positiv ist, kann eine "lange Wartezeit" negativ sein. Natürlich werden auch Verneinungen wie z.B. in "nicht teuer" erkannt und in diesem Fall als positiv gewertet.

Sentiment auf Aussagen- und Konzeptebene: Gegenüber marktüblichen Sentimentanalysen wird bei Insius das Sentiment (positiv, negativ, neutral) nicht auf Beitragsebene ermittelt. Wir sind der Ansicht, dass Nutzerbeiträge im Web in der Regel nicht in ihrer Gänze eindeutig nur einer Polarität zugeordnet werden können. Deshalb erkennen unsere Algorithmen stattdessen mittels Natural Language Processing-Techniken (NLP) einzelne Merkmale (sog. Konzepte) sowie Aussagen, die von Nutzern hervorgehoben werden, und ordnen diesen entsprechend die Tonalität zu.

Treiberanalyse: Über die Bestimmung von Konzepten hinaus kann mittels der Insius-Treiberanalyse die Frage beantwortet werden, warum ein bestimmtes Konzept positiv oder negativ wahrgenommen wird. Die Kenntnis der genauen Ursache ermöglicht es Ihnen, Handlungsempfehlungen zu entwickeln.

Abbildung der Wahrnehmung als Network Map

Unter Einsatz von Natural Language Processing-Techniken (NLP) wird ermittelt, welche Konzepte für Verbraucher im Netz besonders wichtig sind und Themen beschreiben. Die Stärke der Themen lässt sich direkt aus der Nähe des Konzeptes zum Zentrum der Network Map ablesen. Je wichtiger das Thema, desto näher befindet sich das Konzept am Zentrum der Map.

Abbildung von Denk- und Begründungsstrukturen

Verbraucher, die sich online äußern, verfügen über bestimmte Denk- und Begründungsstrukturen, über die für sie verschiedene Themen miteinander verknüpft sind. Die Insius Verfahren ermöglichen es, aus Mustern, die erst bei Auswertung einer größeren Zahl von Äußerungen sichtbar werden, genau diese Strukturen abzuleiten und zu visualisieren. In Kommunikations­maßnahmen können dann Konzepte angesprochen werden, die von Verbrauchern mit möglichst vielen weiteren positiven Konzepten verknüpft sind.