⌨ Navegación
Espacio siguiente en orden
↓ si hay vertical, luego →
→ siguiente tema (salta el vertical)
↓ ↑ dentro del tema actual
Las flechas en pantalla muestran las opciones
El ponente declara no tener conflictos de interés
relacionados con el contenido de este seminario.
Las herramientas mencionadas son de uso personal y código
abierto.
No existe vinculación comercial con ningún proveedor de IA.
Al finalizar, serás capaz de:
Soporte al diagnóstico diferencial, interpretación de pruebas, tareas administrativas...
Valoración crítica antes de aplicar respuestas de IA en la práctica clínica.
Método RECORD: distinguir instrucciones eficaces de las que no lo son.
Haz clic en cualquier bloque para saltar directamente
Ruptura
15 min
Fundamentos
45 min
Demos
40 min
Práctica
25 min
Cierre
20 min
Impacto emocional + Autodiagnóstico
15 minutos
¿Has usado alguna herramienta de IA
esta semana
para algo relacionado con tu práctica clínica?
Sí, regularmente
Alguna vez
Nunca
De 1 de cada 215 publicaciones
a 1 de cada 90 en dos años
El crecimiento supera al de COVID terapéutica
Diseño y construcción de la web de bibliometria: Ed Sperr
Un pediatra genera información para padres sobre gastroenteritis aguda. Revisa, adapta y entrega. Ahorro: 15 minutos.
Bajo riesgo Alto impacto
Un LLM sugiere una dosis de medicación. El clínico no verifica. La referencia citada... no existe.
Alucinación Sin verificación
La diferencia: cómo, cuándo y para qué usamos la herramienta.
Sin lenguaje común, la IA falla en consulta
10 minutos
El vocabulario mínimo para evaluar la IA con criterio clínico
Modelo de lenguaje grande. Predice la siguiente palabra. ChatGPT, Claude, Gemini
La instrucción que das a la IA. Calidad output = calidad prompt
IA que crea contenido nuevo. No busca, genera.
Cuando la IA inventa información falsa. ¡El riesgo crítico!
IA conectada a fuentes externas. Busca antes de responder. Perplexity, Open Evidence
IA que planifica y ejecuta tareas autónomamente. El siguiente nivel.
Modelo entrenado con datos masivos, adaptable a muchas tareas. Stanford 2021. Clave en el AI Act europeo.
Unidad mínima que procesa el modelo. Ni letra ni palabra. 1 token ≈ ¾ de palabra
Memoria de trabajo: cuánto puede leer y recordar a la vez. Límite real de la conversación
Implicación clínica: Estos 9 términos aparecerán en cada slide de evidencia. Guárdalos como referencia de trabajo.
GPT-4 aplicable al 71% de subtareas según revisión sistemática 2025
Li H, et al. J Med Internet Res. 2025;27:e71916
Large Language Model = sistema que genera texto basándose en patrones estadísticos
Sistema que
predice la siguiente palabra
basándose en patrones estadísticos de billones de textos.
Genera texto coherente
NO comprende
NO razona
Implicación clave: puede generar información falsa con total convicción ("alucinaciones") · Siguiente: evidencia cuantitativa en clínica real
En IA clínica, decidir con datos evita hype
15 minutos
Human-in-the-Loop: +6.5% manejo clínico, +119 s/caso (Goh 2025, n=1213)
Propone diagnósticos
Redacta informes
Sintetiza evidencia
Recopila datos
Verifica cada respuesta
Decide el plan
Empatiza con familia
Contextualiza
RCT Goh 2025 (n=1213): Médicos+GPT-4 mejoran +6.5% en manejo clínico (p<0.001), pero +119 s/caso
IA sola: 52.1% · con supervisión clínica: +4.88 pp en manejo (Wang 2026)
Juicio clínico: integra historia, exploración y contexto familiar
Empatía: comunicación adaptada al paciente y familia
Contexto: conoce al niño, su entorno y antecedentes
Decisión final: responsabilidad clínica y ética
Velocidad: procesamiento masivo de literatura y datos
Síntesis: resúmenes, borradores e informes estructurados
Precisión global: 52.1% diagnóstica (≈ no-especialista, Takita 2025)
Limitación: sin empatía, sin contexto real del paciente
Juntos: mejora de +4.88 puntos porcentuales en manejo clínico (Wang 2026, IC 95%: 0.65–9.12)
Wang 2026: RR 1.59 (NS), errores 26-36% pese a supervisión; Goh 2025 mejora con diseño explícito
IC 95%: 0.08-32.74 (NS)
Intervalo predicción: −31 a +41
A pesar de colaboración H+AI
Wang 2026 npj Digit Med
Médicos+GPT-4 (p<0.001)
Goh 2025 Nat Med RCT
La clave está en el DISEÑO → Sándwich / RECORD
Menos fricción cognitiva no siempre significa más seguridad clínica
Sesgo de automatización: aceptar la salida de la IA sin evaluación crítica.
Anclaje algorítmico: usar la primera recomendación como punto fijo del razonamiento.
Riesgo práctico: falsa confianza con errores plausibles.
Supervisión deliberada: hipótesis previa, contraste de evidencia y decisión argumentada.
Antídoto: documentar por qué aceptas o rechazas la sugerencia del modelo.
Meta-objetivo: evitar delegación progresiva y preservar competencia clínica.
Regla de oro: la IA reduce fricción cognitiva; la seguridad clínica exige recuperar fricción en puntos críticos.
Refs: Goh et al. JAMA Netw Open 2024; Wang et al. npj Digit Med 2026; Kahneman (proceso dual) como marco interpretativo.
¿Alguno ha tenido ya una experiencia usando IA en consulta?
Positiva
Negativa
Levantad la mano si queréis compartir (1-2 min)
→ Siguiente: evidencia específica para calibrar dónde confiar
52.1% en 83 estudios: ≈ médico no-especialista y 15.8 pp inferior al experto (Takita 2025)
IA ≈ médico no-especialista (p=0.93)
Inferior al especialista: −15.8 pp (p=0.007)
Takita 2025 · 83 estudios
Objetivas → ChatGPT-4o
Abiertas → ChatGPT-4
Triaje → Gemini (0.96)
Diagnóstico (top-1) → 👨⚕️ Humano
NMA JMIR 2025 · 168 artículos
Diagnóstico rural: 91.3% pediatra vs 87.3% GPT-3
(P=.47, no significativo)
Salud mental: F1 0.41 → 0.655
(P<.001, GPT-3.5→GPT-4)
Del Monte 2025 · Psiquiatría 2025
Implicación clínica: en diagnóstico, usar IA como segunda opinión supervisada; no como cierre autónomo.
Takita 2025 | Wang L et al. JMIR 2025 (NMA) | Del Monte 2025 | Psiquiatría 2025
Bibliográficas: hasta 91.4% fabricadas; clínicas: reducibles al 1.47% (Asgari 2025)
Referencias inventadas
Chelli 2024 · Nunca usar citas de IA sin verificar con DOI/PMID
Notas de consulta AP
Asgari 2025 npj Digit Med · 50 médicos, 12,999 frases
Regla de Oro pediátrica: verifica cada DOI en PubMed antes de incluir datos en informe o sesión clínica.
84-90% en exámenes teóricos, pero solo 52.1% en clínica real (Takita 2025, 83 estudios)
→ Si no medimos el daño, no podemos prevenirlo.
Dos estudios independientes muestran fallos graves en primeros auxilios y RCP
Acción: Educar activamente a las familias sobre las limitaciones de la IA en urgencias. Recomendar siempre llamar al 112.
168 estudios, 35.896 preguntas: el mejor modelo cambia según la tarea clínica
| Tarea clínica | Mejor modelo | SUCRA |
|---|---|---|
| Preguntas objetivas | ChatGPT-4o | 0.92 |
| Preguntas abiertas | ChatGPT-4 | 0.87 |
| Diagnóstico top-1 | 👨⚕️ HUMANO | 0.90 |
| Diagnóstico top-3 | 👨⚕️ HUMANO | 0.71 |
| Diagnóstico top-5 | Claude 3 Opus | 0.97 |
| Triaje y clasificación | Gemini | 0.96 |
Mensaje clave: En diagnóstico top-1, los humanos siguen siendo superiores. No hay modelo universal.
Wang et al. JMIR 2025 · NMA · 168 artículos · 35,896 preguntas · 3,063 casos
ICC 0.27 y acuerdo 14.8-29.6%: concordancia baja frente a revisores
"acuerdo pobre"
"entre el 14,8% y el 29,6%"
Acción: riesgo de sesgo siempre con revisión humana.
Refs:
Beber et al. JPOSNA
2026
* RAG (Retrieval-Augmented Generation): el modelo responde solo desde documentos proporcionados por el usuario. Reduce alucinaciones, pero no garantiza juicio crítico.
Prometedora en tareas acotadas; frágil con pacientes jóvenes y complejos
Dx rural pediátrico · GPT-3 fine-tuned · 500 casos
P=.47, NS · Mansoor, JMIRx Med 2025
Urgencias pediátricas · 80 casos reales · Turín
P<.05 · Del Monte, Front Digit Health 2025
Psiquiatría · 9.923 pacientes · 6 centros
GPT-4.0, P<.001 · Sun, JMIR Med Inform 2026
Trastornos conductuales de la infancia (F9)
Peor categoría diagnóstica junto a F6
Patrón: cuanto más estructurada la tarea, mejor rinde. Cuanto más juicio clínico y más joven el paciente, más lejos queda.
Escoliosis adolescente: 100× más rápido, pero sin reproducibilidad ni consenso entre modelos
IA: 7–48 s vs cirujano: 11–12 min
⚠️ Test-retest a 1 semana: todos los modelos dieron resultados distintos (κ ≈ 0)
ORL pediátrica: 100% en guías protocolizadas
⚠️ Misma herramienta en citas bibliográficas: 3–61% fabricadas según modelo
Cirujanos expertos: κ = 0.913
⚠️ Modelos de lenguaje: 1.6–10.2% (κ ≈ 0) — acuerdo por azar
La velocidad atrae, la fiabilidad importa, el consenso falta
Aktan et al. Diagnostics 2025 · Durgut & Dikici Eur Arch Otorhinolaryngol 2026 · Güneş et al. Diagn Interv Radiol 2025
Tres capas de riesgo: entrada, proceso y salida
Entrenamiento con datasets no representativos o incompletos
50% de estudios IA sanitaria con alto riesgo de sesgo
Inclusión/exclusión automatizada imperfecta
Amplifica patrones históricos: menos datos → menos detección
"Alucinaciones" de alta confianza para satisfacer el prompt
Sin señal de alerta: certeza idéntica al acierto
ACCIÓN CLÍNICA: Valide siempre en poblaciones infrarrepresentadas: pediátricos, ancianos y etnias minoritarias antes del despliegue clínico
Ejemplos pediátricos: dermatitis en piel oscura infradiagnosticada · TDAH en niñas invisibilizado por datos históricos sesgados
Hasanzadeh · npj Digit Med 2025 · DOI
Criterio único de seguridad: detectabilidad del error, no precisión del modelo
Elaboración propia · Lee Value Health 2025 · Asgari npj Digit Med 2025 · Takita npj Digit Med 2025 · Beber JPOSNA 2025 · Aktan Diagnostics 2025 · Bushuven J Med Syst 2023
RGPD manda hoy · AI Act en transición · PITL (WMA Porto 2025): el médico decide siempre
Hojas para familias · Sesiones clínicas · Traducciones ·
Resúmenes de guías
→ Cualquier IA comercial.
Revisar siempre el output
Diagnóstico diferencial · Consulta sobre manejo · Segundo parecer
Solo herramientas institucionales integradas en HCE. EIPD obligatoria. En enf. rara, el diagnóstico puede identificar al paciente
🟢 Local (Ollama) / EU (Mistral, Azure EU) — Máximo control ℹ️
🟡 US (OpenAI, Anthropic, Google) — DPF vigente, apelado TJUE ℹ️
🔴 China (DeepSeek, Qwen) — Incompatible RGPD ℹ️
☐ ¿Datos desidentificados? (6 pasos)
☐ ¿Privacidad activada en la herramienta?
☐ ¿Destino compatible con RGPD?
☐ ¿Familia informada del uso de IA?
☐ ¿Documentaré el uso en la HC?
☐ ¿He verificado el output antes de actuar?
Usar IA es legal y puede ser exigible — pero desidentifica, documenta y mantén el juicio crítico. La lex artis no cambia: cambia la herramienta
RGPD
·
EU AI Act
(Art. 4 en vigor feb 2025; alto riesgo en transición) ·
Ley
41/2002
·
WMA Porto 2025 (PITL)
⚠️ Marco normativo en evolución (Digital Omnibus en trámite).
Verificar con servicio jurídico.
De la evidencia a tu consulta: 5 decisiones prácticas
~25 minutos
Meta-análisis + IA ambiental: reducción de carga con matices
Calidad de notas IA+humano comparable a escritura manual
Captura conversación (con consentimiento)
Extrae síntomas, signos, diagnósticos
Genera documentación SOAP automáticamente
Requisito ético: consentimiento explícito antes de activar
Paradoja de productividad (Goodson 2025): los clínicos perciben ahorro de tiempo, pero las métricas cuantitativas no siempre lo confirman. Revisar ≠ auditar.
Balance neto: la documentación es la zona verde más clara. 35 pacientes/día × menos tiempo escribiendo = más tiempo mirando al niño.
Zhao et al. BMC Med Inform Decis Mak 2025 · Dave et al. 2025 · Goodson et al. Learn Health Sys 2025
4 dominios con evidencia 2025-2026 · Patrón: cribado > juicio clínico
| Dominio | Aplicación | Métrica clave | Nivel | Ref |
|---|---|---|---|---|
| 🩒 Neonatal | ROP screening · Hipoxemia perioperatoria | F1 0.89 · AUC 0.85 | Cribado | Zhang 2026 · Baek 2026 |
| 🔍 Dx precoz AP | Multi-agente: espondiloartritis axial | Sens 0.94 · Acc 0.86 | Soporte | Ji 2026 |
| 🧠 Salud mental | Detección riesgo suicida en mensajes | 99% detección · 89% genuino | Solo investigación | Qadir 2026 |
| 🎓 Educación | MCQs, simulación, simplificación | 94.5% MCQ · Variable en casos | Listo | Baskan 2025 |
Patrón: cuanto más estructurada la tarea → mejor rendimiento. Cuanto más cerca del juicio clínico → más supervisión necesita.
Estado del arte 2026: qué funciona, qué promete, qué evitar
| Dominio | Aplicación Top | Métrica clave | Madurez | Ref |
|---|---|---|---|---|
| 📋 Administrativo | Documentación clínica y notas de alta | SMD −0.71 · calidad comparable | ✅ Alto (Listo) | Zhao 2026 |
| 🎓 Educación | MCQs, simplificación para pacientes | 94.5% MCQs · variable en casos | ✅ Alto (Listo) | Baskan 2025 |
| 🔍 Diagnóstico | Enfermedades raras pediátricas | 62-64% top-3 · expertos 82% | ⚠️ Medio (Soporte) | Ilić 2025 |
| 🔬 Investigación | Cribado y síntesis de literatura | F1 0.92-0.98 · cribado artículos | ⚠️ Medio (Verificar) | Lee 2025 |
| 🧠 Salud mental | Triaje y detección riesgo suicida | 99% detección · 89% genuino | ❌ Bajo (Investigación) | Qadir 2026 |
Patrón: cuanto más cerca de la tarea mecánica → más maduro. Cuanto más cerca de la decisión clínica → más supervisión necesita.
RECORD estructura la pregunta · Callens lo valida · resultado: 32% → 100% adherencia
Barrera-Linares, 2024 · Restricciones y Diseño: lo que otros frameworks no cubren
Callens, Acta Clin Belg 2026 — revisión
narrativa:
RAG:
+10-16%
precisión,
−12-18%
alucinaciones
36 estudios pooled: 72% en exámenes
médicos
⚠️ Modelos menos precisos → más confianza
(correlación inversa)
🔧 Preview: En el Bloque 4, practicaremos RECORD con casos clínicos reales.
58 técnicas documentadas · cuatro con impacto reproducible en resultados clínicos
"Piensa paso a paso" antes de responder
Mejora en GSM8K (Wei et al., NeurIPS 2022)
Conectar a fuentes verificadas
Reducción de alucinaciones (Lewis et al., 2020)
Dar 2-3 ejemplos antes de la consulta. El formato importa más que las etiquetas.
Generar múltiples respuestas y votar la más frecuente (+17,9pp).
Atención: Cambios triviales (espaciado, puntuación) causan variaciones de hasta 76pp en precisión (Sclar et al., ICLR 2024)
Wei 2022 · Kojima 2022 · Wang 2023 · Sclar 2024 · Schulhoff 2024
GPTs (ChatGPT) · Gems (Gemini) · Proyectos (Claude)
Traductor clínico: convierte analíticas en lenguaje para padres
Codificador CIE-10: sugiere códigos a partir de tu texto libre
Preparador de sesiones: estructura casos clínicos para docencia
Revisor de informes: detecta inconsistencias y sugiere ampliación
1
Define rol + contexto
Usa RECORD o Callens como plantilla
2
Sube documentos de referencia
Protocolos, guías, formularios propios
3
Prueba con casos reales y ajusta
Iterativo — no sale perfecto a la primera
Limitación clave: Un GPT/Gem hereda las alucinaciones del modelo base — pero con tu formato, lo que las hace más creíbles y potencialmente más peligrosas
El 93% evalúa solo generalistas — tu caja tiene 3 niveles de confianza
| Nivel | Herramientas | Uso en consulta | Confianza |
|---|---|---|---|
|
🔒 RAG clínico Solo responde desde fuentes verificadas |
Open Evidence · Perplexity Pro · NotebookLM · Glass Health | Point-of-care, búsquedas con citas, chatear con tus PDFs | Alta |
|
🔍 Investigación académica Busca en papers reales, luego sintetiza con IA |
Consensus · Elicit · Scite · Semantic Scholar · PubMed.ai · Scholar Lab | Revisiones rápidas, extracción de datos, análisis de citas | Mod-Alta |
|
🤖 Fundacional Genera y busca — supervisión imprescindible |
ChatGPT · Claude · Gemini · DeepSeek* · Copilot | Redacción, resumen, adaptación, borradores clínicos | Variable* |
*Open-source (DeepSeek) iguala a propietarios en 125 casos · Especializados (MedFound, 176B) superan en 8 especialidades — solo el 6% los evalúa
Shool et al. BMC Med Inform Decis Mak 2025 · Sandmann et al. Nat Med 2025 · Liu X et al. Nat Med 2025
Taxonomía operativa en 3 niveles: valor clínico, riesgo dominante y barrera de seguridad obligatoria
RAG vs LLM base en rendimiento clínico
Evidencia empírica: desuso de habilidades sin práctica AI-off
Monitorización sistemática de rendimiento y deriva post-despliegue
Refs: Goh et al. JAMA Netw Open 2024; Budzyń et al. Lancet Gastroenterol Hepatol 2025; Liu et al. JAMIA 2025; Reglamento (UE) 2024/1689.
Retrieval-Augmented Generation: busca primero, genera después
SOLO a partir de lo leído
Liu et al. JAMIA 2025;32(4):605-615 · Masanneck et al. J Med Internet Res 2025
Cuatro preguntas → tres niveles de supervisión
Elaboración propia · Basado en la evidencia revisada en este seminario · Moulaei Int J Med Inform 2024
La IA te da velocidad. Estas cinco decisiones te dan seguridad.
| 1 | Empieza por documentación — evidencia sólida, riesgo bajo, impacto inmediato |
| 2 | Elige herramienta por cómo trabaja — ¿busca en fuentes o genera de memoria? |
| 3 | Estructura tus prompts — RECORD o Callens: rol + contexto + restricciones + salida |
| 4 | Exige fuentes verificables — sin RAG ni referencia comprobable, sin seguridad clínica |
| 5 | Delega lo verde · Supervisa lo amarillo · Prohíbe lo rojo |
La IA como asistente cognitivo: consumir ciencia, producir formatos, elegir herramienta
~12 minutos
Clic en cualquier parte para cerrar
Asistente cognitivo RAG de Google · Solo genera desde tus documentos · Gratuito
RAG puro: solo genera desde tus fuentes
Clic: ver interfaz
"Tu dosis periódica de evidencia científica"
12 patologías pediátricas · Último mes · Países OCDE · Ver búsqueda
Diapositivas para sesión clínica · Google Drive
Resumen visual narrado · YouTube
Cada cita incluye artículo y revista de origen · No alucina fuera de lo que le das · Verificable
Google NotebookLM · notebooklm.google.com · Gratuito · Máx. 50 fuentes por notebook
Herramientas reales y de uso diario organizadas por función
Semáforo Verde (Aportas la fuente)
Semáforo Verde (Fuentes Trazadas)
Semáforo Amarillo (Verificar)
Haz clic en cualquier tarjeta durante la presentación para abrir recursos en vivo
Ejercicio RECORD
20 minutos
Tres marcos, un mismo principio · La evidencia respalda cada componente
Razonamiento paso a paso → mejora consistente en tareas diagnósticas complejas
1–2 ejemplos de formato → 94–100% precisión en evaluación de inmunoterapia
+13% precisión media · −12 a 18% alucinaciones
Adherencia a protocolo: 32% → 100% · Mismo modelo, distinta pregunta
| Componente | RTF | BRAIN | RECORD |
|---|---|---|---|
| Rol / perspectiva | ✅ R | ✅ R | ✅ R |
| Contexto clínico | — | ✅ B | ✅ E+C |
| Tarea / objetivo | ✅ T | ✅ A | ✅ O |
| Restricciones | — | ✅ I | ✅ R |
| Formato salida | ✅ F | ✅ N | ✅ D |
| Escenario AP | — | — | ✅ E |
RTF: tareas simples · BRAIN: razonamiento diagnóstico · RECORD: pediatría AP
Callens S. Acta Clin Belg. 2026. doi:10.1080/17843286.2026.2613903 · Liu et al. JMIR 2025;27:e72644
Lo que nos llevamos para casa
10 minutos
Humano define → IA procesa → Humano verifica (innegociable)
Define estrategia · Elige herramienta · Formula pregunta correcta
Procesa datos · Genera borradores · Sintetiza evidencia · Busca patrones
Verifica hechos · Valida contexto · Decide y asume responsabilidad
La verificación humana al final NO es opcional
Al considerar el uso de una IA generativa como herramienta de apoyo en Pediatría de AP, ¿cuál representa su aplicación más segura?
✓ Respuesta: 5 — Bajo riesgo clínico, alto valor comunicativo, siempre con revisión del pediatra antes de entregar.
Según la paradoja "H+IA" presentada en el seminario, ¿cuál es el riesgo principal de añadir supervisión humana a las respuestas de IA?
✓ Respuesta: 2 — Meta-análisis Wang 2026: la supervisión humana no siempre mejora los resultados y puede dar falsa seguridad.
Humano define → IA procesa → Humano verifica. La responsabilidad siempre es tuya.
Marco conceptualRol · Escenario · Contexto · Objetivo · Restricciones · Diseño. La calidad del output depende del prompt.
Herramienta online · QR 1Elige herramienta por nivel de confianza, no por marketing. Trazabilidad ≠ evaluación crítica.
Herramienta online · QR 220 criterios: 10 sobre tu práctica (deskilling, anclaje, complacencia…) + 10 sobre la herramienta (regulación, sesgo, evidencia). Recomendada: 1×/trimestre.
Abrir herramienta · QR 34 recursos · 3 herramientas online · acceso libre en ernestobarrera.github.io
"Homines, dum docent, discunt"
La mejor forma de aprender es enseñando
Licencia CC BY-SA 4.0