AI ügynökök produkcióban: ne demó legyen, hanem rendszer
LLM-demóból élet-rendszer: retrieval-pipeline, kiértékelés, guardrails és költségkontroll, ahogy mi csináljuk a projekteken.
LLM-demóból élet-rendszer: retrieval-pipeline, kiértékelés, guardrails és költségkontroll, ahogy mi csináljuk a projekteken.
Szakmai ellenőrzés:Mező Dezső· Alapító · Mérnök, DField Solutions· 2026. ápr. 18.
A legtöbb „AI agent” project, amit látunk, úgy kezdődik, hogy valaki ChatGPT-n legyárt egy ígéretes demót, aztán három hónap múlva senki nem tudja, miért hallucinál, miért drága, és miért esik szét az első valódi felhasználónál. A probléma nem az LLM-mel van. A probléma a rendszerszemlélet hiányával van.
Az alábbi cikkben végigvesszük, hogyan szállítunk mi olyan AI-ügynököket, amelyek valódi produkciós rendszerként működnek: minden release előtt eval-el átmennek, van rájuk költség-SLA, és monitorozható, hogy mikor tér el a viselkedés a várt trendtől.
A legtöbb hallucinációs problémát nem a „nagyobb modell” oldja meg, hanem a retrieval. Ha a kontextus benne van a promptban, a modellnek nincs dolga kitalálni dolgokat. Hibrid retrieval (BM25 + vector + reranker) és gondos chunk-stratégia 80%-ban lefedi az ügyfélhibák halmazát.
Építünk egy golden-set-et az ügyfél adataiból, 50–200 kérdéssel, és ezt futtatjuk CI-ben minden release előtt. LLM-as-judge + faktuális regressziós tesztek. Ha a minőség-trend megtörik, nem deploy-olunk.
// Eval CI step
import { runEvals } from "@dfield/eval";
const result = await runEvals({
suite: "support-copilot",
model: process.env.MODEL_VERSION,
thresholds: { accuracy: 0.88, factual: 0.95, latencyP95Ms: 1800 },
});
if (!result.passed) {
throw new Error(`Eval failed: ${result.failures.join(", ")}`);
}Input oldalon PII-scrubber, prompt-injection-detektor (kulcsszó + LLM-classifier). Output oldalon JSON-schema validáció, tiltott témák szűrése. Ez nem cosmetic, ez megvédi a brand-et.
A guardrails a legolcsóbb biztosítás: alig növeli a latency-t, viszont a sértő / nem-biztonságos kimenetek 99%-át kiszűri.
Nem minden kérdésre kell GPT-4o-s válasz. Routing a kérdés tipusa szerint: egyszerű FAQ → kis modell + cache. Komplex reasoning → nagy modell. 3–5x költségcsökkentés reálisan elérhető.
OpenTelemetry + saját dashboard: tokens in/out, latency P50/P95/P99, minőségi metrikák (accuracy, refusal rate), költség per user. Ha egy metrika elromlik, azonnal látjuk és riadó szól.
Az AI rendszer nem különbözik egy rendes backend-szolgáltatástól abban, hogy ugyanolyan mérnöki fegyelmet igényel. Ha ennek a cikknek a keretei szerint szeretnél indulni — írj, egy hét alatt futó prototípust tudunk mutatni a te adataidon.

Szerző
Alapító, DField Solutions
Fintechtől kreátor-toolingig építek produkciós termékeket — startupoknak és vállalatoknak egyaránt, Budapesttől San Franciscóig.
Folytatás