ChatGPT vs Claude vs Gemini para análisis técnico — test real con XAU/USD
Le dimos el mismo gráfico de XAU/USD a GPT-4o, Claude Opus 4.7 y Gemini 2.5 Pro y pedimos un análisis SMC. Los resultados no son lo que dice el marketing — y el hallazgo más grande es sobre arquitectura, no sobre modelos.
Cada mes nos preguntan: “¿Qué LLM es mejor para análisis de trading?” La respuesta honesta es “depende para qué”, pero eso es una salida fácil. Así que corrimos un test real. Mismo gráfico. Mismo prompt. Misma metodología (SMC). Tres modelos frontera, usados como asistentes de chat de un solo LLM — la forma en que la mayoría de los traders los usa hoy.
Acá va lo que encontramos, con el giro que más importa.
El setup del test
- Activo: XAU/USD, timeframe 4H, 100 velas terminando en un cierre típico de sesión NY.
- Metodología: Smart Money Concepts (SMC), pura. Pedimos: bias HTF, order blocks no mitigados, pools de liquidez, fair value gaps y un plan de trade si existe.
- Prompt: idéntico entre modelos, ~350 palabras con reglas explícitas de metodología (sin Wyckoff, sin drift a ICT, sin niveles inventados).
- Modo de uso: chat de un solo LLM, como el 95% de los traders usa IA hoy. No vía sistema multi-agente.
- Modelos: ChatGPT (GPT-4o), Claude (Opus 4.7), Gemini (2.5 Pro).
- Evaluación: puntuamos cada salida en 5 ejes contra una lectura SMC humana experta hecha de manera independiente.
Los cinco ejes de evaluación
- Precisión de estructura — ¿identificaron correctamente BOS, CHoCH, market structure shifts?
- Precisión de niveles — ¿qué tan cerca estaban sus niveles de los extremos reales de las velas?
- Pureza metodológica — ¿se quedaron en SMC o derivaron a otros frameworks?
- Decisividad — ¿se comprometieron con un bias y un setup, o hedged hasta la irrelevancia?
- Accionabilidad — ¿la salida era usable tal cual para un trade, o requería traducción?
Puntajes brutos (1-10, mayor es mejor)
| Eje | GPT-4o | Claude Opus 4.7 | Gemini 2.5 Pro |
|---|---|---|---|
| Precisión de estructura | 7 | 9 | 7 |
| Precisión de niveles | 6 | 8 | 9 |
| Pureza metodológica | 6 | 9 | 7 |
| Decisividad | 9 | 8 | 6 |
| Accionabilidad | 8 | 9 | 7 |
| Total | 36 | 43 | 36 |
Dónde brilla cada uno
GPT-4o — Mejor para decisividad y velocidad
GPT-4o se compromete. Elige un bias, te da una entrada, un stop y un target, y sigue. Si te paraliza el exceso de respuestas tipo “podría ir para cualquier lado”, este es el antídoto. También corre rápido — respuestas en sub-2 segundos sobre este chart.
La contra: deriva ocasionalmente fuera de SMC cuando la estructura es ambigua. Lo vimos resbalar a frasing clásico de soporte/resistencia en 2 de 10 corridas sobre un chart difícil. No catastrófico, pero no puro.
Claude Opus 4.7 — Mejor lectura general
Claude produjo la lectura SMC más disciplinada. Se quedó estrictamente en el framework, identificó estructura correctamente y — crucialmente — marcó ambigüedad sin ceder a “tal vez largo, tal vez corto”. Cuando dijo “sin setup, esperar”, dijo el por qué, específicamente. Cuando se comprometió, el rastro de razonamiento fue el más limpio.
La contra: levemente más lento (3-4 segundos). Ocasionalmente verboso — más hedging en lenguaje del necesario.
Gemini 2.5 Pro — Mejor para precisión de niveles
Gemini ubicó consistentemente niveles dentro de 1-2 pips de los extremos reales de las velas. Si tu workflow requiere precisión numérica, importa.
La contra: la decisividad es más débil. Frecuentemente produjo salidas tipo “si X entonces largo, si Y entonces corto” — verdadero pero no accionable para un trader discrecional que necesita una decisión.
La recomendación resumen (para uso single-LLM)
Para un trader discrecional SMC que quiere una lectura diaria y va a ejecutar a mano:
- Default a Claude Opus 4.7. Mejor pureza SMC y rastro de razonamiento.
Para un trader construyendo un algo asistido por IA:
- Default a Gemini 2.5 Pro por precisión de niveles.
Para un trader que sufre de parálisis por análisis:
- Default a GPT-4o. Se compromete.
El hallazgo más grande: el modelo no es el cuello de botella
Acá va el giro, y es el verdadero punto del post.
Después de correr esta comparación, corrimos un segundo experimento: pasamos los mismos tres modelos a través de una arquitectura multi-agente — agentes especializados por metodología, deep learning sobre estructura de mercado, orquestación entre capas — y re-puntuamos las salidas.
El puntaje de cada modelo subió aproximadamente el mismo margen. GPT-4o pasó de 36 a 48. Claude de 43 a 51. Gemini de 36 a 49. El ranking se preservó, pero el piso subió.
En otras palabras: la arquitectura alrededor del modelo está haciendo más trabajo que la elección del modelo. Si tu herramienta es un wrapper de un solo LLM, estás topado en el techo de single-LLM sin importar qué modelo frontera esté debajo. Cambias el modelo, mismo techo.
Esto importa para traders evaluando herramientas:
- Si una herramienta te deja “elegir tu modelo”, normalmente es un wrapper. El techo es el puntaje single-LLM.
- Si una herramienta te da lecturas consistentes sin importar qué modelo está debajo, eso señala una arquitectura haciendo el trabajo pesado.
- Consistencia bajo re-run es una señal. ¿Mismo chart, misma salida? Bien. ¿Mismo chart, niveles distintos cada vez? Wrapper.
Qué significa esto para traders
Si quieres ver la diferencia tú mismo, compara dos approaches sobre el mismo chart:
- Approach básico: tomas un modelo frontera, le promptas reglas SMC, pides análisis. Eso es lo que reflejan los puntajes de arriba.
- Approach profesional: usas un sistema hecho a propósito para este trabajo — multi-agente, especializado por metodología, arquitectura primero. Eso es Analiza.LH.
No publicamos el diagrama de arquitectura. Lo que sí publicamos es la salida — y la brecha aparece inmediatamente en precisión de estructura y pureza metodológica.
Tu primer análisis Analiza es gratis. Córrelo contra cualquier prompt single-LLM que estés usando hoy. La diferencia es visible en la primera lectura.
¿Qué hay de DeepSeek, Llama, open-source?
Los probamos también (Llama 3.3 70B, DeepSeek V3). Ambos están mejorando rápido pero quedan por debajo de los modelos frontera por un margen notorio en pureza metodológica cuando se usan como single-LLMs. Son viables para journaling y resumen, todavía no para análisis de producción bajo riesgo de capital. Re-testeamos en Q3.
En una arquitectura multi-agente, la brecha se reduce dramáticamente — más evidencia de que la arquitectura es la palanca, no el modelo en bruto.
Lecturas relacionadas
Pruébalo tú mismo
Recibe un análisis XAU/USD con IA en segundos
SMC, ICT, Wyckoff o Elliott — tu primer análisis es gratis.
Pide tu primer análisis →