Serveis tècnics maig del 2026

Polim els pressupostos de Cerrajería Carlos Rodríguez amb IA — i sense treure les seves dades del servidor

Polim els textos dels pressupostos de Cerrajería Carlos Rodríguez amb un assistent d'IA al seu programari de gestió — sense treure les dades del servidor.

Quan els pressupostos delaten que es van fer amb pressa

En una empresa de serveis tècnics, el pressupost i la factura són la cara escrita de la marca. El client final potser no es fixa en el pany que es va instal·lar, però sí que llegeix el text que rep. I aquell text, tan bon punt el redacten persones diferents en moments diferents, deixa de sonar a la mateixa empresa.

A Cerrajería Carlos Rodríguez, els pressupostos sortien de vegades amb pressa, de vegades amb detall, gairebé mai amb consistència. No era una manca de criteri de l’equip: era el cost invisible d’haver d’escriure un paràgraf professional al final d’un dia atenent obertures, vandalismes i urgències. El client rebia descripcions desiguals, tornava amb dubtes, i la imatge de l’empresa quedava sempre per sota del treball real que es feia al carrer.

El que vam decidir abans de construir

La resposta natural era integrar un assistent d’IA dins del seu programari de gestió, connectat a algun dels grans proveïdors al núvol. Funciona, ho fa ja moltíssima gent i és el que probablement els hauria proposat qualsevol altre.

Però abans de començar els vaig explicar què suposa aquesta decisió quan les dades no són les teves sinó les dels teus clients. Cada vegada que algú prem el botó per millorar un text, el contingut del pressupost — amb el nom del client, la seva adreça, què vam fer al seu portal a les 3 de la matinada i quant li vam cobrar — s’envia a un proveïdor que no controlem, subjecte als seus termes, els seus subcontractistes i les seves polítiques d’ús de dades per a entrenament.

L’Alejandro no s’ho havia plantejat. Pocs clients ho fan — no és la seva feina. Tan bon punt ho va sentir, la resposta va ser immediata: “no, això no”. I d’allà va sorgir la decisió de fer-ho al seu propi servidor.

Què fa l’assistent exactament

Al costat del camp de descripció de cada pressupost o factura, dins del programari de gestió que ja feien servir cada dia, va aparèixer un botó: millorar text. Aquell botó és tot el canvi visible.

L’usuari teclea la descripció com sap, com té temps, sense barallar-se amb la prosa.
Prem el botó.
L’assistent retorna la mateixa idea, reescrita amb to professional i coherent amb la resta de pressupostos de l’empresa.
L’usuari aprova o edita el resultat abans de desar. L’última paraula sempre és humana.

Zero formació. Zero pestanyes noves per obrir. Zero canvis en el flux de treball. La IA apareix exactament on hi havia la fricció.

Com està muntat

El model. Qwen 2.5 3B. Un model petit i eficient, més que suficient per reescriure un paràgraf en espanyol amb to professional. Un model de 70B paràmetres seria desproporcionat per a aquesta tasca, consumiria més RAM i trigaria més per resposta sense aportar valor proporcional. Triar el model correcte per al problema és part de l’ofici.

El motor. Ollama. És un dels runtimes d’inferència local més sòlids del 2025-26: exposa una API HTTP a localhost:11434, gestiona la descàrrega i càrrega dels models, i s’opera amb la simplicitat de qualsevol servei Linux. La barrera tècnica per executar un model local petit s’ha esfondrat els darrers dos anys.

La integració. El programari de gestió fa una petició HTTP al motor Ollama que corre al mateix servidor, amb el text de l’usuari i una instrucció de to. Ollama torna el text reescrit. L’aplicació el mostra a l’usuari perquè aprovi o editi. Tot passa dins de la xarxa del client.

La conseqüència. Cap dada dels clients finals surt del servidor de Cerrajería. Cap proveïdor d’IA al núvol té accés als seus pressupostos. Zero cost per token, sense facturació variable. I si demà canvia la política d’algun proveïdor, l’assistent continua funcionant igual: no depèn de ningú.

Tres coses que vam aprendre

1. No sempre necessites el model més gran. Hi ha una inèrcia, alimentada pels titulars, a estirar del model més gran disponible per a qualsevol tasca d’IA. Però un 3B local fa aquesta feina perfectament. Triar el model proporcional al cas estalvia recursos, millora la latència i obre la porta al desplegament on-prem en màquines que l’empresa ja té.

2. L’usuari té l’última paraula. L’assistent suggereix; no autopublica. Aquell detall de disseny fa dues coses: redueix gairebé a zero el risc d’errors que arribin al client, i augmenta la confiança de l’equip en l’eina. Una IA que decideix sola és una IA que no fas servir; una IA que t’assisteix i et deixa revisar és una IA que es queda.

3. On-prem ja no és el que era. Fa cinc anys, servir un model local exigia maquinari car i coneixement de DevOps de nínxol. El 2025-26, amb Ollama i models petits eficients, servir IA al teu propi servidor és operativament similar a cridar una API al núvol. La barrera tècnica que justificava “envia-ho tot a OpenAI” s’ha esfondrat. Per a empreses que tracten dades sensibles, això canvia la conversa.

El que ve

L’assistent és en producció des de 2026 i continua iterant. En el roadmap immediat:

Estendre l’assistent a altres textos del programari de gestió: correus al client, descripcions de feines tancades, comunicacions internes.
Pujar a Qwen 2.5 7B si en algun cas el 3B es queda curt, mantenint el desplegament local.
Plantilles per tipus de feina (panys, blindatges, vandalisme, urgències 24h) perquè l’assistent afini encara més el to segons el context.

“El que volia jo era que els pressupostos no quedessin com sortien de vegades. El tema de les dades no se m'havia passat pel cap. Però tenien raó a treure-ho — això és el que esperes d'un partner. Avui tenim totes dues coses: textos professionals, i les nostres dades on han de ser.”

— Alejandro Rodríguez, Cerrajería Carlos Rodríguez