Bachelor Thesis Bachelorarbeit

AI Trust in Veterinary Chat Services KI-Vertrauen in veterinärmedizinischen Chatdiensten

How do agent identity and source citations affect user trust, credibility, and willingness to follow advice? Wie beeinflussen Agentenidentität und Quellenangaben Vertrauen, Glaubwürdigkeit und die Bereitschaft, Ratschlägen zu folgen?

Leuphana University Leuphana Universität

August 2025 August 2025

Preregistered Präregistriert

Grade: 1.0 Note: 1,0

754→414

Raw → Clean Sample Roh → Bereinigt

Countries (UK·DE·AT·CH) Länder (UK·DE·AT·CH)

Weeks to Complete Wochen bis Abschluss

1.0

Final Grade Endnote

The Finding Das Ergebnis

Same advice. Different label. +4.4% perceived expertise. Gleicher Rat. Anderes Label. +4,4% wahrgenommene Expertise.

Changing the chatbot's name from "Zähnchen Bot, AI Dental Assistant" to "Lena Bauer, Veterinary Assistant" increased credibility scores — without changing a single word of the actual advice. Die Umbenennung des Chatbots von „Zähnchen Bot, KI Dentalassistent" zu „Lena Bauer, Tiermedizinische Assistentin" erhöhte die Glaubwürdigkeitswerte — ohne ein einziges Wort des eigentlichen Ratschlags zu ändern.

The takeaway: In high-stakes contexts like pet health, social cues beat transparency features. Trust isn't built by showing sources — it's built by feeling human. Das Fazit: In sensiblen Kontexten wie Tiergesundheit schlagen soziale Signale Transparenzfunktionen. Vertrauen entsteht nicht durch Quellenangaben — sondern durch menschliche Wirkung.

Human Label Wins Menschliches Label gewinnt

+4.4% expertise, +2.9% trustworthiness with identical content +4,4% Expertise, +2,9% Vertrauenswürdigkeit bei identischem Inhalt

Citations Help (Modestly) Zitate helfen (mäßig)

Small boost for both AI and human agents Kleiner Schub für KI- und menschliche Agenten

Trust Drives Action Vertrauen treibt Handlung

81% of willingness explained by trust alone 81% der Handlungsbereitschaft durch Vertrauen erklärt

Try the Experiment Probiere das Experiment

I built the chat interface that 414 pet owners interacted with. Same conversation, two different identities. See the difference yourself. Ich habe die Chat-Oberfläche gebaut, mit der 414 Tierbesitzer interagierten. Gleiches Gespräch, zwei verschiedene Identitäten. Sieh den Unterschied selbst.

Human Version Menschliche Version AI Version KI-Version

The Evidence Die Evidenz

Three Visualizations That Tell the Story Drei Visualisierungen, die die Geschichte erzählen

Two Levers, One Pattern Zwei Hebel, ein Muster

20% trimmed means by condition (Likert 1-7) 20% getrimmte Mittelwerte nach Bedingung (Likert 1-7)

Interaction plot showing expertise and trustworthiness by agent type and citation presence

Both factors work independently. The human label raises the baseline; citations add a small nudge on top. The parallel lines mean citations don't help AI more than human — contrary to my hypothesis. Beide Faktoren wirken unabhängig. Das menschliche Label hebt die Baseline; Zitate geben einen kleinen zusätzlichen Schub. Die parallelen Linien zeigen, dass Zitate KI nicht mehr helfen als Menschen — entgegen meiner Hypothese.

The Causal Chain Die Kausalkette

Standardized path coefficients (β) with 95% CI, 10,000 bootstraps Standardisierte Pfadkoeffizienten (β) mit 95% KI, 10.000 Bootstraps

Mediation analysis showing path from credibility to trust to willingness

Credibility feeds trust (β = .79). Trust drives willingness (β = .81). The indirect effect (.64) shows that trust is the bridge between "I believe this" and "I'll act on it." Full mediation confirmed. Glaubwürdigkeit speist Vertrauen (β = ,79). Vertrauen treibt Bereitschaft (β = ,81). Der indirekte Effekt (,64) zeigt, dass Vertrauen die Brücke zwischen „Ich glaube das" und „Ich handle danach" ist. Vollständige Mediation bestätigt.

Trust Predicts Action Vertrauen sagt Handlung voraus

414 data points, linear fit by agent type 414 Datenpunkte, lineare Anpassung nach Agententyp

Scatter plot showing relationship between trust and willingness to follow advice

Each dot is a participant. The tight fit and parallel regression lines show that the trust-action mechanism works identically for both AI and human agents. The label changes where you start, not how you behave. Jeder Punkt ist ein Teilnehmer. Die enge Anpassung und parallelen Regressionslinien zeigen, dass der Vertrauen-Handlung-Mechanismus für KI und menschliche Agenten identisch funktioniert. Das Label ändert den Startpunkt, nicht das Verhalten.

Research Overview Forschungsübersicht

Pet owners don't trust AI chatbots for health advice. I wanted to know: what actually builds that trust?

Tierbesitzer vertrauen KI-Chatbots nicht bei Gesundheitsratschlägen. Ich wollte wissen: Was baut dieses Vertrauen wirklich auf?

I tested two specific design choices:

Ich testete zwei spezifische Designentscheidungen:

Agent Identity — Does it matter if users think they're talking to "AI" or "a human assistant"?

Agentenidentität — Macht es einen Unterschied, ob Nutzer glauben, mit „KI" oder „einer menschlichen Assistentin" zu sprechen?

Source Citations — Does showing where the advice comes from (AVMA guidelines, veterinary journals) help build credibility?

Quellenangaben — Hilft es der Glaubwürdigkeit, wenn gezeigt wird, woher der Rat stammt (AVMA-Richtlinien, veterinärmedizinische Zeitschriften)?

I ran a preregistered experiment with 414 pet owners from the UK, Germany, Austria, and Switzerland. Each person interacted with a simulated veterinary chat service preparing them for their dog's dental cleaning, then reported how credible, trustworthy, and actionable they found the advice.

Ich führte ein präregistriertes Experiment mit 414 Tierbesitzern aus Großbritannien, Deutschland, Österreich und der Schweiz durch. Jede Person interagierte mit einem simulierten Veterinär-Chatdienst zur Vorbereitung auf die Zahnreinigung ihres Hundes und berichtete dann, wie glaubwürdig, vertrauenswürdig und umsetzbar sie den Rat fanden.

Bottom line: The "human" label won decisively. Citations helped, but not as much as expected. And trust was the key mechanism that turned perception into willingness to act.

Fazit: Das „menschliche" Label gewann eindeutig. Zitate halfen, aber nicht so stark wie erwartet. Und Vertrauen war der Schlüsselmechanismus, der Wahrnehmung in Handlungsbereitschaft umwandelte.

How I Tested It Wie ich es getestet habe

Design: 2×2 between-subjects experiment

Design: 2×2 Between-Subjects-Experiment

Factor 1: Agent Identity (AI vs Human)
Factor 2: Citation Presence (Yes vs No)

Faktor 1: Agentenidentität (KI vs Mensch)
Faktor 2: Quellenangaben (Ja vs Nein)

Data Cleaning Pipeline:Datenbereinigungspipeline:

754 Recruited via Prolific Rekrutiert über Prolific

↓ 682 After manual quality review Nach manueller Qualitätsprüfung −72

↓ 652 Completed surveys Abgeschlossene Umfragen −30

↓ 475 Passed manipulation & attention checks Manipulations- & Aufmerksamkeitschecks bestanden −177

↓ 424 Non-straight-liners Keine Straight-Liner −51

↓ 414 Final sample (no time outliers) Endstichprobe (keine Zeitausreißer) −10

Measures:Messinstrumente:

Perceived Credibility (Ohanian, 1990) — 6 items, α = .86/.90
Trust in Automation (Jian et al., 2000) — 3 items, α = .93
Willingness to Follow Advice (Komiak & Benbasat, 2006) — 3 items, α = .79

Wahrgenommene Glaubwürdigkeit (Ohanian, 1990) — 6 Items, α = ,86/,90
Vertrauen in Automatisierung (Jian et al., 2000) — 3 Items, α = ,93
Bereitschaft, Ratschlägen zu folgen (Komiak & Benbasat, 2006) — 3 Items, α = ,79

Analysis:Analyse:

Robust 2×2 ANOVA (20% trimmed means, WRS2 package)
Sequential mediation with 10,000 BCa bootstraps (lavaan)
Multi-group SEM for moderated mediation

Robuste 2×2-ANOVA (20% getrimmte Mittelwerte, WRS2-Paket)
Sequentielle Mediation mit 10.000 BCa-Bootstraps (lavaan)
Multi-Gruppen-SEM für moderierte Mediation

Full Statistical Results Vollständige statistische Ergebnisse

Hypothesis Testing Summary:Zusammenfassung der Hypothesentests:

H1 ✓ Supported H1 ✓ Bestätigt

Citations increase perceived expertise Zitate erhöhen wahrgenommene Expertise

Q = 5.07, p = .026

H2 ✓ Supported H2 ✓ Bestätigt

Human label → higher credibility Menschliches Label → höhere Glaubwürdigkeit

Q = 16.67, p = .001

H3 ✗ Not Supported H3 ✗ Nicht bestätigt

Citations help AI more than human Zitate helfen KI mehr als Menschen

Q = 0.65, p = .423

H4 ✓ Supported H4 ✓ Bestätigt

Credibility → Trust Glaubwürdigkeit → Vertrauen

β = .79, p < .001

H5 ✓ Supported H5 ✓ Bestätigt

Trust → Willingness Vertrauen → Bereitschaft

β = .81, p < .001

H6 ✗ Not Supported H6 ✗ Nicht bestätigt

Moderated mediation by agent Moderierte Mediation nach Agent

Δ = −0.11, p = .459

Key Numbers:Wichtige Zahlen:

Human expertise: 6.21 vs AI: 5.95 (+4.4%)
Human trustworthiness: 5.98 vs AI: 5.81 (+2.9%)
Indirect effect (Cred→Trust→Will): β = .64, 95% CI [.54, .76]
Direct effect (Cred→Will): β = .10, ns — full mediation

Menschliche Expertise: 6,21 vs KI: 5,95 (+4,4%)
Menschliche Vertrauenswürdigkeit: 5,98 vs KI: 5,81 (+2,9%)
Indirekter Effekt (Glaub→Vertr→Ber): β = ,64, 95% KI [,54, ,76]
Direkter Effekt (Glaub→Ber): β = ,10, ns — vollständige Mediation

Tech Stack Technologie-Stack

Research & AnalysisForschung & Analyse

R / RStudio lavaan (SEM) WRS2 (robust stats) G*Power

Data CollectionDatenerhebung

SoSciSurvey Prolific AsPredicted

Stimulus DevelopmentStimulus-Entwicklung

HTML/CSS/JS GitHub Pages PHP redirect

AI AssistanceKI-Unterstützung

Gemini 2.5 Pro