IA en procesos internos: guía para empresas medianas
Dónde aplica IA con ROI claro, dónde es marketing, y cómo evitar pagar OpenAI para hacer lo que un script bash hace mejor.
La pregunta "¿dónde aplico IA en mi empresa?" tiene dos respuestas malas y una buena. La primera mala respuesta es "en todo" — vas a gastar miles en LLMs para reemplazar tareas que un script de 20 líneas hace mejor. La segunda mala respuesta es "en nada porque es burbuja" — vas a perder oportunidades reales mientras tus competidores se mueven. La respuesta buena es: en problemas con tres características específicas.
Cuándo IA aplica con ROI claro
Los procesos donde IA paga lo que cuesta tienen las 3 siguientes características:
- Input no estructurado (texto libre, documentos, audio, imágenes). Si la entrada es estructurada (filas en una DB), no necesitás IA — necesitás SQL.
- Output con tolerancia a error humano-equivalente. Si necesitás 99.99% de precisión transaccional, IA no aplica todavía.
- Volumen alto o costo humano alto. IA tiene costo fijo de ingeniería. Para 50 ejecuciones al mes, no se paga sola.
Casos donde funciona (con ejemplos de ROI)
- Clasificación y enrutamiento de tickets de soporte. 1.500 tickets/mes, agente humano de primer nivel cuesta US$1.800/mes, IA cuesta ~US$80/mes en API + setup. ROI mes 1.
- Extracción de datos de facturas/contratos PDF. 800 documentos/mes manuales = 60h de trabajo, IA hace 95% en 2 horas humanas de revisión. Ahorro: ~58h/mes.
- Generación de respuestas a RFPs y propuestas. Plantilla + contexto de cliente = primer borrador en 5 min vs 4 horas manual. Cuidado con calidad — siempre revisión humana antes de enviar.
- Detección de fraude o anomalías en data. Reglas hard-coded no escalan a patrones cambiantes; modelos sí.
- Búsqueda semántica interna (intranet, documentación, código). Cualquier empresa con > 200 documentos internos gana.
- Onboarding técnico. Chatbot sobre tu documentación interna baja 40% de tickets a desarrolladores nuevos.
- Generación de reportes ejecutivos a partir de data en BI. Resumen mensual de 3 dashboards en 1 párrafo legible.
Casos donde NO funciona (o no todavía)
- Toma de decisiones financieras autónomas. Cualquier acción que mueva dinero requiere validación humana final.
- Reemplazo de soporte técnico avanzado. IA hace bien tier 1, mal tier 2, pésimo tier 3.
- Procesos con compliance estricto sin trazabilidad. Si el regulador te puede pedir "explicá esta decisión", IA puro no sirve — tenés que dejar trail auditable.
- Personalización de email "humana". Los clientes reconocen el patrón de IA en 3 emails. Daña relación.
- Análisis de data tabular estructurada. Excel, SQL o un script Python hacen el mismo trabajo más confiable y barato.
Costo real de un proyecto de IA interno
| Componente | Costo típico |
|---|---|
| Discovery + diseño solución | US$3.000–6.000 (1–2 semanas) |
| Desarrollo MVP funcional | US$8.000–18.000 (3–5 semanas) |
| API tokens (volumen típico mediana empresa) | US$80–400/mes |
| Mantenimiento y mejoras | US$600–2.000/mes |
| Setup observabilidad (Helicone, Langfuse) | US$0–80/mes |
Un proyecto típico tiene break-even a los 4–7 meses si ataca un proceso real. Si no llegás a break-even en 9 meses, hay un error de selección de caso.
¿Qué modelo elegir?
- Claude Sonnet / GPT-4o: default para 90% de casos. Calidad alta, latencia razonable, precio middle.
- Claude Haiku / GPT-4o-mini: alto volumen, tareas simples (clasificación, extracción básica). 10–20× más barato.
- Modelos open source (Llama, Mistral): cuando data no puede salir de tu infra. Self-hosted en GPU = US$500–2.000/mes piso.
- Embedding models (Voyage, OpenAI): para búsqueda semántica y RAG. Costo despreciable.
Errores comunes
- Empezar por el modelo más caro. Probá con Haiku/mini primero — el 60% de los casos no necesita más.
- No medir calidad de output. Tenés que tener un set de eval (50–100 casos) que corras antes de cada cambio de prompt o modelo.
- Sin guardrails. LLMs alucinan. Implementá validación de schema (Zod) en output JSON, retry con prompt corregido, y fallback a humano si falla 2 veces.
- RAG mal hecho. La calidad del RAG depende del chunking y la embedding strategy, no del modelo. Si tu RAG es malo, no es culpa del LLM.
- Compliance ignorado. Si tu data tiene PII, configurá Anthropic o OpenAI con DPA, o usá un proxy enmascarador.
Arquitectura base recomendada
Para 80% de casos internos: FastAPI/Express → LangChain/Vercel AI SDK → Anthropic/OpenAI → Postgres con pgvector para RAG → frontend liviano. Sumá Langfuse o Helicone para tracking. Total: 3–5 días de un dev senior para arquitectura base, después semanas según caso.
¿Conviene entrenar mi propio modelo?
Casi nunca. Fine-tuning solo paga si tenés > 50.000 ejemplos de buena calidad, problema muy específico, y la latencia/costo del modelo grande te bloquea. Para 99% de empresas medianas, prompting bueno + RAG vence al fine-tuning.
¿IA va a reemplazar a mi equipo de operaciones?
No. Va a redistribuir su tiempo. El equipo va a hacer menos tareas mecánicas (clasificar, transcribir, resumir) y más tareas de juicio (revisar excepciones, mejorar prompts, optimizar workflows). La empresa que entiende esto crece. La que despide ingenuamente, queda sin la persona que entiende el contexto cuando IA falla.
¿Cuánto tarda implementar el primer caso?
De discovery a producción: 4–6 semanas para un caso simple (clasificación, extracción), 8–12 semanas para un agente con tools y memory. Si te prometen menos, vas a tener un demo, no un producto en operación.
Lo que recomendamos
Empezá por un solo caso con ROI claro y medible. Idealmente: clasificación o extracción sobre data no estructurada de alto volumen. Presupuesto: US$12–18k. Timeline: 6 semanas. Medí ROI a 3 meses. Si paga, expandí a 2–3 casos más. Si no paga, no insistas — elegiste mal y es mejor parar que duplicar.
La gran trampa actual es perseguir agentes autónomos antes de tener un caso simple en operación. Empresas que arrancan con "agente full-autonomous" tardan 6 meses en darse cuenta de que el simple bot de clasificación les habría dado 80% del valor con 20% del esfuerzo.
n8n vs Make: cuál elegir para automatizar tu operación
La elección no es por precio ni por nodos disponibles. Es por quién va a mantenerlo en 18 meses.
Desarrollo a medida vs no-code: cuándo conviene cada uno
No es una guerra religiosa. Es una decisión de portfolio: dónde poner código propio y dónde apoyarte en herramientas.