2026. április 08.·9 perc olvasás

AILLMRAGProdukció

AI ügynökök produkcióban: ne demó legyen, hanem rendszer

LLM-demóból élet-rendszer: retrieval-pipeline, kiértékelés, guardrails és költségkontroll, ahogy mi csináljuk a projekteken.

Legutóbb ellenőrizve2026. április 15.• new

Szerző Mező DezsőAlapító, DField Solutions

MegosztásX LinkedIn#

Szakmai ellenőrzés:Mező Dezső· Alapító · Mérnök, DField Solutions· 2026. ápr. 18.

A legtöbb „AI agent” project, amit látunk, úgy kezdődik, hogy valaki ChatGPT-n legyárt egy ígéretes demót, aztán három hónap múlva senki nem tudja, miért hallucinál, miért drága, és miért esik szét az első valódi felhasználónál. A probléma nem az LLM-mel van. A probléma a rendszerszemlélet hiányával van.

Az alábbi cikkben végigvesszük, hogyan szállítunk mi olyan AI-ügynököket, amelyek valódi produkciós rendszerként működnek: minden release előtt eval-el átmennek, van rájuk költség-SLA, és monitorozható, hogy mikor tér el a viselkedés a várt trendtől.

1. Retrieval: ha csak ez van, már nyertél

A legtöbb hallucinációs problémát nem a „nagyobb modell” oldja meg, hanem a retrieval. Ha a kontextus benne van a promptban, a modellnek nincs dolga kitalálni dolgokat. Hibrid retrieval (BM25 + vector + reranker) és gondos chunk-stratégia 80%-ban lefedi az ügyfélhibák halmazát.

Chunk méret 300–800 token, overlap 15–20%.
Reranker (bge-reranker, Cohere rerank-3) drasztikus minőségugrás.
Mindig küldünk forráshivatkozást — ha nincs találat, refuse.

2. Eval: a „úgy néz ki, jó” már nem jó

Építünk egy golden-set-et az ügyfél adataiból, 50–200 kérdéssel, és ezt futtatjuk CI-ben minden release előtt. LLM-as-judge + faktuális regressziós tesztek. Ha a minőség-trend megtörik, nem deploy-olunk.

// Eval CI step
import { runEvals } from "@dfield/eval";

const result = await runEvals({
  suite: "support-copilot",
  model: process.env.MODEL_VERSION,
  thresholds: { accuracy: 0.88, factual: 0.95, latencyP95Ms: 1800 },
});

if (!result.passed) {
  throw new Error(`Eval failed: ${result.failures.join(", ")}`);
}

3. Guardrails: PII, prompt injection, output-schema

Input oldalon PII-scrubber, prompt-injection-detektor (kulcsszó + LLM-classifier). Output oldalon JSON-schema validáció, tiltott témák szűrése. Ez nem cosmetic, ez megvédi a brand-et.

A guardrails a legolcsóbb biztosítás: alig növeli a latency-t, viszont a sértő / nem-biztonságos kimenetek 99%-át kiszűri.

4. Költségmenedzsment: LLM-router + cache

Nem minden kérdésre kell GPT-4o-s válasz. Routing a kérdés tipusa szerint: egyszerű FAQ → kis modell + cache. Komplex reasoning → nagy modell. 3–5x költségcsökkentés reálisan elérhető.

5. Megfigyelés: minden kérdés mérve

OpenTelemetry + saját dashboard: tokens in/out, latency P50/P95/P99, minőségi metrikák (accuracy, refusal rate), költség per user. Ha egy metrika elromlik, azonnal látjuk és riadó szól.

Zárszó

Az AI rendszer nem különbözik egy rendes backend-szolgáltatástól abban, hogy ugyanolyan mérnöki fegyelmet igényel. Ha ennek a cikknek a keretei szerint szeretnél indulni — írj, egy hét alatt futó prototípust tudunk mutatni a te adataidon.

MegosztásX LinkedIn#

Szerző

Mező Dezső

Alapító, DField Solutions

Fintechtől kreátor-toolingig építek produkciós termékeket — startupoknak és vállalatoknak egyaránt, Budapesttől San Franciscóig.

RÓLUNK →Beszéljünk →

Folytatás

2026. ápr. 14.·7 perc olvasás

MCP (Model Context Protocol): mit jelent az LLM-ügynökök jövőjére

Az MCP az utolsó év legfontosabb ügynök-standardja. Mit jelent a gyakorlatban, hol használjuk, és miért érdemes mellé állni 2026-ban.

Tovább

2026. márc. 05.·9 perc olvasás

GDPR + AI: felhasználói adattal tanítani 2026-ban — mit szabad, mit nem

„A user-ek adatával tanítunk” — egyetlen mondat, amit a legtöbb startup baj nélkül kimond, de mainstream 2026-ban GDPR-ajtót nyit. Itt a konkrét checklist.

Tovább

2026. febr. 18.·8 perc olvasás

EU AI Act magyar SaaS-oknak: mit kell tenni 2026-ban

AI Act éles. Kit érint, milyen szint, milyen határidők — és a három dolog, amit most mindenképpen érdemes elkezdeni.

Tovább

Inkább építenénk együtt?

Beszéljünk a projektedről. 30 perc, nincs kötelezettség.

Beszéljünk