Back to Portfolio Zurück zum Portfolio
Bachelor Thesis Bachelorarbeit

AI Trust in Veterinary Chat Services KI-Vertrauen in veterinärmedizinischen Chatdiensten

How do agent identity and source citations affect user trust, credibility, and willingness to follow advice? Wie beeinflussen Agentenidentität und Quellenangaben Vertrauen, Glaubwürdigkeit und die Bereitschaft, Ratschlägen zu folgen?

Leuphana University Leuphana Universität
August 2025 August 2025
Preregistered Präregistriert
Grade: 1.0 Note: 1,0
754414
Raw → Clean Sample Roh → Bereinigt
4
Countries (UK·DE·AT·CH) Länder (UK·DE·AT·CH)
10
Weeks to Complete Wochen bis Abschluss
1.0
Final Grade Endnote
The Finding Das Ergebnis

Same advice. Different label. +4.4% perceived expertise. Gleicher Rat. Anderes Label. +4,4% wahrgenommene Expertise.

Changing the chatbot's name from "Zähnchen Bot, AI Dental Assistant" to "Lena Bauer, Veterinary Assistant" increased credibility scores — without changing a single word of the actual advice. Die Umbenennung des Chatbots von „Zähnchen Bot, KI Dentalassistent" zu „Lena Bauer, Tiermedizinische Assistentin" erhöhte die Glaubwürdigkeitswerte — ohne ein einziges Wort des eigentlichen Ratschlags zu ändern.

The takeaway: In high-stakes contexts like pet health, social cues beat transparency features. Trust isn't built by showing sources — it's built by feeling human. Das Fazit: In sensiblen Kontexten wie Tiergesundheit schlagen soziale Signale Transparenzfunktionen. Vertrauen entsteht nicht durch Quellenangaben — sondern durch menschliche Wirkung.
Human Label Wins Menschliches Label gewinnt
+4.4% expertise, +2.9% trustworthiness with identical content +4,4% Expertise, +2,9% Vertrauenswürdigkeit bei identischem Inhalt
Citations Help (Modestly) Zitate helfen (mäßig)
Small boost for both AI and human agents Kleiner Schub für KI- und menschliche Agenten
Trust Drives Action Vertrauen treibt Handlung
81% of willingness explained by trust alone 81% der Handlungsbereitschaft durch Vertrauen erklärt

Try the Experiment Probiere das Experiment

I built the chat interface that 414 pet owners interacted with. Same conversation, two different identities. See the difference yourself. Ich habe die Chat-Oberfläche gebaut, mit der 414 Tierbesitzer interagierten. Gleiches Gespräch, zwei verschiedene Identitäten. Sieh den Unterschied selbst.

Three Visualizations That Tell the Story Drei Visualisierungen, die die Geschichte erzählen

Two Levers, One Pattern Zwei Hebel, ein Muster
20% trimmed means by condition (Likert 1-7) 20% getrimmte Mittelwerte nach Bedingung (Likert 1-7)
Interaction plot showing expertise and trustworthiness by agent type and citation presence
Both factors work independently. The human label raises the baseline; citations add a small nudge on top. The parallel lines mean citations don't help AI more than human — contrary to my hypothesis. Beide Faktoren wirken unabhängig. Das menschliche Label hebt die Baseline; Zitate geben einen kleinen zusätzlichen Schub. Die parallelen Linien zeigen, dass Zitate KI nicht mehr helfen als Menschen — entgegen meiner Hypothese.
The Causal Chain Die Kausalkette
Standardized path coefficients (β) with 95% CI, 10,000 bootstraps Standardisierte Pfadkoeffizienten (β) mit 95% KI, 10.000 Bootstraps
Mediation analysis showing path from credibility to trust to willingness
Credibility feeds trust (β = .79). Trust drives willingness (β = .81). The indirect effect (.64) shows that trust is the bridge between "I believe this" and "I'll act on it." Full mediation confirmed. Glaubwürdigkeit speist Vertrauen (β = ,79). Vertrauen treibt Bereitschaft (β = ,81). Der indirekte Effekt (,64) zeigt, dass Vertrauen die Brücke zwischen „Ich glaube das" und „Ich handle danach" ist. Vollständige Mediation bestätigt.
Trust Predicts Action Vertrauen sagt Handlung voraus
414 data points, linear fit by agent type 414 Datenpunkte, lineare Anpassung nach Agententyp
Scatter plot showing relationship between trust and willingness to follow advice
Each dot is a participant. The tight fit and parallel regression lines show that the trust-action mechanism works identically for both AI and human agents. The label changes where you start, not how you behave. Jeder Punkt ist ein Teilnehmer. Die enge Anpassung und parallelen Regressionslinien zeigen, dass der Vertrauen-Handlung-Mechanismus für KI und menschliche Agenten identisch funktioniert. Das Label ändert den Startpunkt, nicht das Verhalten.

Pet owners don't trust AI chatbots for health advice. I wanted to know: what actually builds that trust?

Tierbesitzer vertrauen KI-Chatbots nicht bei Gesundheitsratschlägen. Ich wollte wissen: Was baut dieses Vertrauen wirklich auf?

I tested two specific design choices:

Ich testete zwei spezifische Designentscheidungen:

Agent Identity — Does it matter if users think they're talking to "AI" or "a human assistant"?

Agentenidentität — Macht es einen Unterschied, ob Nutzer glauben, mit „KI" oder „einer menschlichen Assistentin" zu sprechen?

Source Citations — Does showing where the advice comes from (AVMA guidelines, veterinary journals) help build credibility?

Quellenangaben — Hilft es der Glaubwürdigkeit, wenn gezeigt wird, woher der Rat stammt (AVMA-Richtlinien, veterinärmedizinische Zeitschriften)?

I ran a preregistered experiment with 414 pet owners from the UK, Germany, Austria, and Switzerland. Each person interacted with a simulated veterinary chat service preparing them for their dog's dental cleaning, then reported how credible, trustworthy, and actionable they found the advice.

Ich führte ein präregistriertes Experiment mit 414 Tierbesitzern aus Großbritannien, Deutschland, Österreich und der Schweiz durch. Jede Person interagierte mit einem simulierten Veterinär-Chatdienst zur Vorbereitung auf die Zahnreinigung ihres Hundes und berichtete dann, wie glaubwürdig, vertrauenswürdig und umsetzbar sie den Rat fanden.

Bottom line: The "human" label won decisively. Citations helped, but not as much as expected. And trust was the key mechanism that turned perception into willingness to act.

Fazit: Das „menschliche" Label gewann eindeutig. Zitate halfen, aber nicht so stark wie erwartet. Und Vertrauen war der Schlüsselmechanismus, der Wahrnehmung in Handlungsbereitschaft umwandelte.

Design: 2×2 between-subjects experiment

Design: 2×2 Between-Subjects-Experiment

Factor 1: Agent Identity (AI vs Human)
Factor 2: Citation Presence (Yes vs No)

Faktor 1: Agentenidentität (KI vs Mensch)
Faktor 2: Quellenangaben (Ja vs Nein)

Data Cleaning Pipeline:Datenbereinigungspipeline:

754 Recruited via Prolific Rekrutiert über Prolific
682 After manual quality review Nach manueller Qualitätsprüfung −72
652 Completed surveys Abgeschlossene Umfragen −30
475 Passed manipulation & attention checks Manipulations- & Aufmerksamkeitschecks bestanden −177
424 Non-straight-liners Keine Straight-Liner −51
414 Final sample (no time outliers) Endstichprobe (keine Zeitausreißer) −10

Measures:Messinstrumente:

Perceived Credibility (Ohanian, 1990) — 6 items, α = .86/.90
Trust in Automation (Jian et al., 2000) — 3 items, α = .93
Willingness to Follow Advice (Komiak & Benbasat, 2006) — 3 items, α = .79

Wahrgenommene Glaubwürdigkeit (Ohanian, 1990) — 6 Items, α = ,86/,90
Vertrauen in Automatisierung (Jian et al., 2000) — 3 Items, α = ,93
Bereitschaft, Ratschlägen zu folgen (Komiak & Benbasat, 2006) — 3 Items, α = ,79

Analysis:Analyse:

Robust 2×2 ANOVA (20% trimmed means, WRS2 package)
Sequential mediation with 10,000 BCa bootstraps (lavaan)
Multi-group SEM for moderated mediation

Robuste 2×2-ANOVA (20% getrimmte Mittelwerte, WRS2-Paket)
Sequentielle Mediation mit 10.000 BCa-Bootstraps (lavaan)
Multi-Gruppen-SEM für moderierte Mediation

Hypothesis Testing Summary:Zusammenfassung der Hypothesentests:

H1 ✓ Supported H1 ✓ Bestätigt
Citations increase perceived expertise Zitate erhöhen wahrgenommene Expertise
Q = 5.07, p = .026
H2 ✓ Supported H2 ✓ Bestätigt
Human label → higher credibility Menschliches Label → höhere Glaubwürdigkeit
Q = 16.67, p = .001
H3 ✗ Not Supported H3 ✗ Nicht bestätigt
Citations help AI more than human Zitate helfen KI mehr als Menschen
Q = 0.65, p = .423
H4 ✓ Supported H4 ✓ Bestätigt
Credibility → Trust Glaubwürdigkeit → Vertrauen
β = .79, p < .001
H5 ✓ Supported H5 ✓ Bestätigt
Trust → Willingness Vertrauen → Bereitschaft
β = .81, p < .001
H6 ✗ Not Supported H6 ✗ Nicht bestätigt
Moderated mediation by agent Moderierte Mediation nach Agent
Δ = −0.11, p = .459

Key Numbers:Wichtige Zahlen:

Human expertise: 6.21 vs AI: 5.95 (+4.4%)
Human trustworthiness: 5.98 vs AI: 5.81 (+2.9%)
Indirect effect (Cred→Trust→Will): β = .64, 95% CI [.54, .76]
Direct effect (Cred→Will): β = .10, ns — full mediation

Menschliche Expertise: 6,21 vs KI: 5,95 (+4,4%)
Menschliche Vertrauenswürdigkeit: 5,98 vs KI: 5,81 (+2,9%)
Indirekter Effekt (Glaub→Vertr→Ber): β = ,64, 95% KI [,54, ,76]
Direkter Effekt (Glaub→Ber): β = ,10, ns — vollständige Mediation

Research & AnalysisForschung & Analyse

R / RStudio lavaan (SEM) WRS2 (robust stats) G*Power

Data CollectionDatenerhebung

SoSciSurvey Prolific AsPredicted

Stimulus DevelopmentStimulus-Entwicklung

HTML/CSS/JS GitHub Pages PHP redirect

AI AssistanceKI-Unterstützung

Gemini 2.5 Pro