Wie gut ist Ihr Chatbot?

9senses
Chatbot Audit

Mittlerweile sind KI-basierte Chatbots allgegenwärtig. Manchmal funktionieren sie erstaunlich gut, indem sie innerhalb weniger Sekunden wertvolle Antworten liefern und uns so eine halbe Stunde in der Warteschleife eines Callcenters oder die mühsame Websuche nach benötigten Informationen ersparen. Jedoch geraten wir leider auch nicht selten an einen „KI-Assistenten“ der unsere Bedürfnisse nicht versteht, uns in endlose Frage-Antwort-Schleifen verwickelt und uns am Ende mit dem Gefühl zurücklässt, wertvolle Zeit mit einem Tool verschwendet zu haben, dem unsere Probleme völlig egal sind.

Vor diesem Hintergrund haben wir das 9senses Chatbot Audit entwickelt, ein standardisiertes Tool zur Prüfung der Performance von KI-gestützten Chatbots- im Vergleich zu dem, was technisch möglich ist. Auf Basis unserer sorgfältig entwickelten und getesteten Methodik analysieren wir Ihren Bot und liefern Ihnen eine klar verständliche Bewertung und zeigen Verbesserungsmöglichkeiten auf. Die Lieferzeit dieses Black-Box Audits beträgt 5 Arbeitstage.

How the Chatbot Audit works

Use Case-Entwicklung
Bot mit offener Suche
Internal / login bot
Chatbot Audit
Audit Scope
Übersetzungstest
Executive Briefing
Delivery time: 5 workdays
Goals
Target users
Access credentials
Languages and scope
Audit-ready context
Use cases delivered by you
You provide the scenarios
  • Reflects real internal priorities
  • Built on known pain points
  • Fast to hand over
Use cases by 9senses
We design the scenarios
  • Neutral, outside-in perspective
  • Realistic end-user wording
  • Surfaces blind spots you may miss
A defined and agreed test set
What are your opening hours?
I'd like to cancel my order.
Do you deliver to Austria?
¿Puedo pagar con factura?ES
Tested from a user perspectiveSame questions, real chatbot
50%Answer quality 20%Geschwindigkeit 15%Interface 15%Dialog
4.2Overall Score

Recommendations

Intent recognition Content Mapping Hallucination Control Completion
01Walkthrough

Explain the score and the findings together

02Prioritize

Rank the actions by impact and effort

03Decide

Agree next steps or a deeper follow-up

Configure your audit

Select the options that fit for your situation:

  • Testing multiple languages
  • Bots with broad scope or access restrictions
  • Executive debriefing by 9senses
  • Use cases developed by us (recommended for an unbiased analysis)

Briefing and access

We collect the context needed to test realistically: goals, target users, relevant topics, languages, exclusions, and logins or test access where required.

  • Goals and audience
  • Access and boundaries
  • No deep system handover

Develop the use cases

Use cases either come from you or are designed by 9senses. Each route has clear advantages — and both end as one agreed, realistic test set.

  • Customer scenarios capture real priorities
  • 9senses scenarios add the outside-in view
  • Merged into one set before testing

Run the black-box audit

The agreed questions are asked from the user's side. We score answer quality, speed, interface behaviour and dialog quality, with a language check when selected.

  • Answer quality leads the score
  • Speed, interface and dialog quality
  • Observable behaviour only

Report and recommendations

The findings become a compact report: a weighted score profile across every tested dimension, plus strengths, gaps and prioritized recommendations.

  • Weighted score profile
  • Strengths and gaps
  • Prioritized improvements

Optional review session

9senses can walk through the findings with decision-makers, clarify implications and turn the audit into concrete next steps or a deeper follow-up.

  • Executive walkthrough
  • Clarify implications
  • Plan next steps

Level 1 Audit

Eine unabhängige, externe Prüfung des beobachtbaren Verhaltens Ihres Chatbots. Für Level 1 ist kein Zugang zu internen technischen Systemen notwendig. Durchführung innerhalb von 5 Arbeitstagen.

→ Click to purchase your audit

Level 2 Audit

Eine maßgeschneiderte vertiefte Analyse, z.B. der technischen Architektur, Retrieval-Systematik, Governance, Compliance und Business Value. Unbedingt empfohlen, wenn Level 1 gravierende Probleme zutage fördert.

→ Contact us to learn more 

Level 1 Audits durchgeführt

Avg. Rating

Lowest Rating

Highest Rating

FAQs - Häufige Fragen und Antworten

Was ist ein Chatbot Audit?

Ein Chatbot Audit ist eine strukturierte Bewertung des Verhaltens eines Chatbots. Es kann als Black-Box-Audit (Level 1) durchgeführt werden, bei dem ausschließlich das beobachtbare Verhalten analysiert wird, oder als Open-Box-Audit (Level 2), bei dem zusätzlich Value-Generierung, Strukturen und Verhalten auf Basis detaillierter technischer Einblicke bewertet werden.

Warum ist ein Chatbot Audit sinnvoll?

Chatbots sind häufig der erste Kontakt für Interessenten und Kunden und beeinflussen direkt Kundenerfahrung, Markenwahrnehmung und operative Effizienz. Ein Chatbot-Audit identifiziert Schwächen, bevor daraus Reputations- oder Geschäftsrisiken entstehen. Es definiert den Startpunkt und zeigt die Richtung für Optimierungspotenziale auf.

Wer sollte ein Chatbot Audit in Betracht ziehen?

Organisationen, die KI-gestützte Chatbots für Kundenservice, Vertrieb, Onboarding, Support oder interne Mitarbeiteranwendungen einsetzen, sollten ein Chatbot-Audit ins Auge fassen.

Welchen Umfang hat ein Level 1 Chatbot Audit?

Das Level-1-Chatbot-Audit umfasst strukturierte Use-Case-Tests, Halluzinations-Stresstests, Analysen von Weiterleitungs- und Eskalationsverhalten, Beobachtung der Dialogführung sowie optional eine Prüfung der Mehrsprachigkeit.

Ein Chatbot wird anhand folgender Dimensionen bewertet: Antwortqualität (50 % Gewichtung), Geschwindigkeit (20 %), Benutzeroberfläche (15 %) und Dialogqualität (15 %). Daraus ergibt sich eine Gesamtnote.

Hier finden Sie ein vollständiges Auditbeispiel.

Welche Methodik wird im Level 1 Chatbot Audit angewendet?

Das Audit baut auf dem 9senses KI Audit Framework auf. Es umfasst praxisnahe Funktionstests, Edge-Case-Szenarien (z. B. mehrdeutige oder ungültige Eingaben), Halluzinations-Stresstests und Konsistenzprüfungen.

Jede Dimension wird auf einer standardisierten Skala von 1–5 bewertet und zu einer Gesamtnote aggregiert, um Vergleichbarkeit und Objektivität sicherzustellen.

Weitere methodologische Erläuterungen finden Sie im Auditbeispiel.

Wie werden Halluzinationen im Level 1 Audit erkannt?

Halluzinationen – d.h. die Erzeugung unzutreffender oder erfundener Inhalte – stellen ein erhebliches Reputations- und Compliance-Risiko dar. Unser Audit beinhaltet gezielte Halluzinations-Stresstests.

Dabei werden bewusst ungültige Referenzen, Tippfehler und mehrdeutige Eingaben eingebracht, um zu prüfen, ob der Chatbot Informationen erfindet oder rückversichernde Nachfragen stellt. Bewertet werden Entitätsvalidierung, Grounding-Verhalten und Eskalationslogik.

Prüft das Chatbot Audit auch auf Compliance (EU AI Act, DSGVO)?

Level 1 beinhaltet eine erste Prüfung offer, erkennbarer Indikatoren (KI-Kennzeichnung, Transparenzelemente, Datenschutzhinweise) sowie die Barrierefreiheit der Seite, auf welcher der Bot eingebunden ist.

Eine vollständige regulatorische und Governance Analyse – einschließlich Dokumentations- und Architekturprüfung – kann als Bestandteil eines Level 2 Chatbot Audits durchgeführt werden.

Ist das Level 1 Chatbot Audit eine technische Prüfung?

Nein. Das Level-1-Chatbot-Audit ist eine verhaltensbasierte Black-Box-Bewertung. Es analysiert beobachtbares Systemverhalten aus Nutzer- und Governance-Perspektive, ohne interne Architektur, Trainingsdaten, Retrieval-Systeme oder die Sicherheitsinfrastruktur zu prüfen.

Im Level 1 Audit berichten wir auch über technische Aspekte die wir aufgrund des beobachteten Verhaltens erkennen können. Technische Detailanalysen können Teil des Level-2-Audits sein.

Welche Informationen werden für einen Chatbot Audit benötigt?

Für Level 1 benötigen wir in erster Linie Zugang zur Live-Chatbot-Oberfläche sowie ein Briefing zum Nutzungskontext (z. B. Zielsetzung, Zielgruppe, unterstützte Sprachen). Interne Systemdokumentationen oder Konfigurationszugänge sind für das Audit nicht erforderlich. Im Falle von Bots mit geschlossener Benutzergruppe benötigen wir zusätzlich einen Testzugang. Wenn Sie die Option „Use Case Entwicklung“ nicht buchen, stellen wir Ihnen ein Formular zur Beschreibung Ihrer Use Cases zur Verfügung. Falls Sie die Option gewählt haben, entwickeln wir geeignete Testszenarien auf Basis Ihres Briefings und stimmen diese vor Durchführung des Audits mit Ihnen ab.

Wenn Sie keine Use-Case Zusatzoption buchen, erhalten Sie von uns eine Ausfüllhilfe mit der Sie uns zu testende Use-Cases übermitteln. Wählen Sie die Zusatzoption Use-Case Entwicklung, entwickeln wir die Use-Cases und lassen diese vor Durchführung von Ihnen sichten.

Wie lang dauert ein Chatbot Audit?

Das Level-1-Chatbot-Audit wird innerhalb von fünf Arbeitstagen nach Erhalt des Briefings und – falls erforderlich – der Zugangsinformationen abgeschlossen.

Wenn Sie die Option „Use Case Entwicklung“ buchen, planen Sie bitte zusätzlich zwei Arbeitstage für die Erstellung der Testfälle ein.

Wie sichern Sie die Vertraulichkeit?

Alle Aktivitäten und Ergebnisse werden grundsätzlich vertraulich behandelt. Berichte und Ergebnisse werden nur mit den jeweiligen Kunden geteilt. Davon ausgenommen sind (anonymisierte) numerische Ergebnisse für unser Best-in-Class Benchmarking.

Welche Optionen können zusätzlich gebucht werden?

Das 9senses Level 1 Chatbot Audit kann an Ihre Bedürfnisse angepasst werden. Zusätzlich zur Basisversion stehen folgende Optionen zur Verfügung:

  • Use Case-Entwicklung
    In der Grundversion benötigen wir 3-5 relevante Geschäftsfälle als Testszenarien durch Sie zur Verfügung gestellt, abhängig von den Zielsetzungen Ihres Bots (z.B. Serviceabwicklung, Produktinformation, usw.). Falls Sie es bevorzugen würden, dass wir diese Testszenarien für Sie erarbeiten, wählen Sie bitte diese Zusatzoption.

  • Prüfung von Bots mit offener Suche
    Falls Ihr Chatbot nicht nur Informationen von Ihrer eigenen Datenbasis bezieht, sondern auch auf Seiten von Drittanbietern oder im offenen Internet sucht, wählen Sie bitte diese Zusatzoption.

  • Bots mit Login-Voraussetzung
    Wenn Ihr Chatbot nur über einen Zugang (Login) erreichbar ist, wählen Sie bitte diese Option. Wir benötigen in diesem Fall einen Testaccount auf Ihrem System.

  • Testen von Mehrsprachigkeit
    Wir überprüfen den Bot auf Mehrsprachigkeit, dazu gehören Aspekte wie Sprachwechsel, Konsistenz und Übersetzungsqualität (aktuell nur für gewisse Sprachen verfügbar - siehe Zusatzoptionsauswahl).

  • Executive Briefing
    Buchen Sie eine 30-minütige managementorientierte Erläuterung und Einordnung der Ergebnisse.

Diese Optionen ermöglichen eine Anpassung an Architektur, Risikoprofil und Governance-Anforderungen.

Was ist der Unterschied zwischen Level 1 und Level 2?

Das Level 1 Audit basiert auf der externen Prüfung des beobachtbaren Verhaltens während unserer Testszenarien aus Benutzersicht.

Das Level 2 Audit basiert auf einer maßgeschneiderten, vertieften Analyse, z.B. der technischen Architektur, Retrieval-Systematik, Governance, Compliance und Business Value.

Wann sollte man ein Level 2 Audit durchführen?

Ein Level 2 Audit ist dann sinnvoll, wenn der Chatbot in einem Level 1 Audit in den Kategorien Antwort- oder Dialogqualität einen geringen Wert von unter 3,5 erzielt. Mittels einer tiefergehenden Analyse können wir so die technischen Hintergründe konkret nachvollziehen und gezielte Handlungsoptionen aufzeigen.

Ebenso ist ein Level 2 Audit sinnvoll, wenn der Bot in einem geschlossenen Nutzerkontext (z. B. für Kunden oder Mitarbeitende) eine zentrale Funktion mit entsprechendem Geschäftsrisiko übernimmt.

Können auch LLM-basierte (z.B. auf Basis ChatGPT) Chatbots geprüft werden?

Ja. Das 9senses Chatbot Audit ist auf regelbasierte Bots, Retrieval-Augmented-Generation-Systeme (RAG) sowie Large-Language-Model-basierte Assistenten anwendbar. Die Methodik konzentriert sich auf beobachtbare Leistung, Containment-Verhalten, Halluzinationsrisiken und Governance – nicht auf die technische Implementierung.

Mit Eliza reden

This is a faithful representation of the 1966 Eliza version created by Joseph Weizenbaum. It was reproduced by Anthony Hay in C++ based on the original 1965 code and ubpdated by behavior transcripts of the final version.

Loading ELIZA…

Note: The paper version emulates Joseph Weizenbaum's original 1966 ELIZA as it ran on the CTSS time-sharing system (IBM 7094) at MIT, accessed via an IBM Selectric-based hardcopy terminal. On CTSS the question mark served as the line-delete (line-kill) control character, so it could not appear in typed input — and the DOCTOR script accordingly produced no question marks. They are therefore suppressed here, on both sides of the conversation. The green "terminal" version enables question marks instead; it represents a glowing CRT display of a kind that did not exist for ELIZA in 1966 and evokes a later era of computing.

M

Play Chess like 1997 (Deep Blue Style)

Here's our simulation of Deep Blue. You can play against Stockfish (able to run on a laptop today with similar strength compared to Deep Blue). Bonus:: you can replay the legendary 1997 rematch where Deep Blue won against Garry Kasparov.

Loading Deep Blue…
M