Az első buktató: a magyar nyelvű katalógus-szövegek minősége vegyes. Egyes termékeknél a leírás 2 mondat, másoknál 2 oldal. Bevezettünk egy 'tartalom-quality' score-t minden termékre, és a kevés-tartalmú termékeknél a chatbot proaktívan emberhez irányít.
A második: hallucination-edge case-ek. Az eval-szet 80 ticket-en 95% pontosság, de a vakon kihúzott 200 production-traffic ticket-en csak 87%. A különbség: a production-en sokkal többféle kérdés-megfogalmazás. Iteráltunk a system prompton, és bevezettünk egy 'confidence threshold' mechanizmust — ha a retrieval top-1 cosine similarity 0,7 alatt, automatikus átirányítás.
A harmadik: költségmonitorozás. Az első hetekben a token-felhasználás vártnál 40%-kal magasabb volt — kiderült, hogy a system prompt minden retrieval után újra elment, ami feleslegesen hosszú context. Bevezettünk prompt caching-et, és a havi LLM-költség 28%-kal csökkent.