
Warum ich den Chunk in meinem RAG-System auf 1500 Tokens gesetzt habe
Die Migration auf bge-m3 brachte ein 8192 Tokens Limit. Dennoch habe ich das Chunk-Limit bewusst auf 1500 Tokens gesetzt, um die semantische Schärfe zu bewahren.
Blog
Strategien und technische Lösungen, um Power Pages mit modernen Webframeworks und Cloud-Technologien zu erweitern und komplexe Geschäftsprozesse umzusetzen

Die Migration auf bge-m3 brachte ein 8192 Tokens Limit. Dennoch habe ich das Chunk-Limit bewusst auf 1500 Tokens gesetzt, um die semantische Schärfe zu bewahren.

Ich hatte die Textaufteilung bereits eingebaut und sah trotzdem weiter den Kontextfehler. Erst als ich den Tokenrahmen und die Spezialtoken mitgedacht habe, wurde die Ursache sichtbar.

Ich wollte die Qdrant Daten im Browser sehen, ohne die Datenbank öffentlich zu machen. Lokal nutze ich Traefik, in Produktion öffne ich nur einen SSH Tunnel und lasse Qdrant intern.

Ich wollte den Weg von der Extension bis zur Speicherung sichtbar machen. Mit Bull Board und Dozzle habe ich Queue Status und Container Logs direkt im Browser und kann Fehler jetzt viel schneller einordnen.

Der Frontend Container war gebaut, lief und war trotzdem unhealthy. Die Ursache war eine kleine Alpine Falle: BusyBox Wget suchte localhost zuerst über IPv6 und nginx lauschte nur auf IPv4.

Der 401 Fehler beim Ingest kam nicht vom JWT selbst, sondern von einem kleinen Architekturbruch. Issuer, JWKS und Host Header mussten dieselbe öffentliche Sicht auf Zitadel haben.