Sie benötigen Daten?

Wir unterstützen Sie projektbezogen oder kontinuierlich mit unseren Verfahren bei der Sammlung und Bereinigung öffentlicher Webdaten und liefern Ihnen Datensätze "schlüsselfertig" im von Ihnen gewünschten Format.

Gründe :

Sie haben einen Anwendungsfall oder eigene Tools zur Analyse, aber Ihnen fehlen die nötigen Web- und Social Media Daten? Sie benötigen kurzfristig oder projektbezogen textuelle Web- und Social-Media Daten ? Das Anbinden von APIs kommt nicht in Frage? Maximale Datenqualität ist für Sie oberstes Gebot?

"Garbage-In-Garbage-Out" verhindern

Jede Analyse ist nur so gut wie die Datengrundlage, auf der sie operiert. Wir streben an, maximalen Umfang und Datenqualität durch eine Kombination modernster Information Retrieval und Extraction-Verfahren zu gewährleisten:

Datensammlung

Anstatt statische Quellensets zur Datensammlung zu verwenden, sammelt Insius von Suchmaschinen auffindbare Daten und setzt fokussierte Crawler ein. Damit kann ein maximaler Datenumfang gewährleistet werden.

Inhaltserkennung

Insius ist mittels Maschinenlern- und Computer Vision-Verfahren in der Lage, irrelevante Bereiche wie Seitennavigationen, Werbung von Webquellen auszuschließen und somit inhaltstragende Textbeiträge in Webseiten zu erkennen.

Themenerkennung

Keywordkombinationen wie z.B. "Continental AND (Reifen OR Automobil) NOT (Fluglinie OR Versicherung)" sind nur begrenzt in der Lage, die Themenrelevanz von Suchanfragen zu gewährleisten. Entweder Sie erhalten zu wenige relevante oder zu viele irrelevante Ergebnisse. Durch den Einsatz von spezifischen Information Retrieval-Verfahren kann gewährleistet werden, dass Sie die Beiträge zu den Themen erhalten, die Sie wirklich interessieren.

UGC Erkennung

Inbesondere wenn Sie sich für die Stimme der Verbraucher im Netz interessieren, stehen Sie in der Regel vor dem Problem, dass sich nutzergenerierte Inhalte (UGC - User-generated Content) mit redaktionellen Inhalten vermischen. Mittels lernfähiger Algorithmen ist die Insius Datensammlung in der Lage, redaktionelle von nutzergenierten Inhalten mit hoher Treffergenauigkeit zu trennen und somit zu gewährleisten, dass Sie die Stimme messen, die Sie wirklich interessiert.