Evaluación de calidad a partir del Conjunto Mínimo de Datos Básicos (CMBD) al alta hospitalaria.
Salvador Peiró
Instituto de Investigación en Servicios de Salud (iiss)
Texto de la ponencia presentada en el SEMINARIO SOBRE GESTION Y ASISTENCIA NEUROLOGICA (Granada, 20 de junio de 1998). Parte de los textos utilizados provienen de un proyecto de investigación financiado por la Ayuda FIS 96/1032 y la Ayuda 068/005/1995 de la Institució Valenciana d'Estudis i Investigacions (IVEI). Dirección para correspondencia: Institut d'Investigació en Serveis de Salut, Salvador Peiró, Plaza Maria Beneyto 2, 10. 46008 - VALENCIA. Tel:. +34 96 3920574; email: speiro@comv.es
EVALUACION DE RESULTADOS Y CALIDAD DE LA ATENCION MEDICA
Pese a que la necesidad de monitorizar la calidad de los cuidados hospitalarios es poco discutida, existe escaso acuerdo sobre la bondad de los diversos métodos para su monitorización. Si a ello se añade la preocupación por los costes administrativos de obtención de información y análisis, las cuestiones relevantes son ¿cómo puede evaluarse la calidad de forma válida y eficiente? ¿qué datos se requieren para llevar a cabo una evaluación significativa de la calidad? ¿cuanto cuesta?.
El concepto de calidad no es unidimensional y la valoración de la calidad debe comprender todo un rango de atributos y perspectivas. Hace tres décadas, Donabedian (1966) situó el ejercicio de medición de la calidad en la triada estructura, proceso, y resultado (Gráfico 1), una formulación que aun se emplea como marco conceptual. La evaluación del proceso, se refiere a aquello que los proveedores hacen a y para los pacientes y, en el otro sentido, como los pacientes buscan la atención médica y responden a las pautas terapéuticas recomendadas. El impacto de estos procesos sobre la salud de los pacientes es denominado resultado. Los resultados médicos son "aquellos cambios, favorables o no, en el estado de salud actual o potencial de personas, grupos o comunidades que pueden ser atribuidos a la atención sanitaria previa o actual" (Donabedian A, 1988). En una definición genérica, el estado de salud denota tanto los atributos físicos, como psicológicos, sociales o actitudinales de los pacientes. El análisis de los resultados (outcomes) de la atención de salud ofrece importantes oportunidades para valorar la efectividad y eficiencia de las prácticas médicas, tanto en los aspectos de evaluación de tecnologías como de evaluación de proveedores de servicios asistenciales.
En la gráfica 2 se muestran los resultados mas empleados en atención hospitalaria con algunos ejemplos de indicadores. La mortalidad, uno de los resultados más utilizados por su rotundidad y fácil disponibilidad, suele emplearse en diferentes ventanas temporales (durante el episodio de hospitalización o en plazos prefijados desde el ingreso o intervención, típicamente a los 30 días), en servicios con alta mortalidad o como supervivencia en periodos largos desde el diagnóstico, usual en oncología. Las complicaciones y otros sucesos adversos como los reingresos o las infecciones nosocomiales, son cada vez mas empleadas junto a (o en lugar de) la mortalidad, tanto por su mayor frecuencia como por una presumible mayor relación con problemas de calidad en la atención.
La estabilidad o mejoría de los sistemas fisiológicos es empleada típicamente en las unidades de cuidados críticos (normalización de iones, gases, frecuencia cardiaca, etc.), pero también como medidas intermedias de resultado (disminución de la presión arterial en mm Hg) o como resultado de pruebas funcionales (respiratorias, de esfuerzo). El estado o la capacidad funcional (muy empleado en rehabilitación, pero también en cardiología o neumología, con clasificaciones históricas como la de insuficiencia cardiaca de la New York Heart Association utilizada desde 1972, el funcionamiento psico-social o la calidad de vida relacionada con la salud, son esfuerzos para medir de forma más comprensiva los resultados para el paciente.
Hay que destacar que, aunque las medidas de resultado mas utilizadas en atención médica son los indicadores de sucesos adversos, probablemente como consecuencia de las conocidas dificultades para operativizar el concepto de salud, en los últimos años se asiste a un notable esfuerzo, sobre todo en patologías crónicas, para desarrollar medidas de resultado "positivo", especialmente los medidos en forma de calidad de vida relacionada con la salud). En los últimos años han cobrado importancia resultados como la satisfacción de los pacientes con la atención recibida y los de consumo de recursos.
Respecto a este último, en los hospitales es usual utilizar la estancia media por proceso como indicador de consumo global de recursos o, cada vez más, disponer de costes por proceso o grupos de proceso, como los Grupos de Diagnósticos Relacionados (GDR) (Fetter R et al, 1981). Este tipo de resultados, aunque en muchas ocasiones son definidos como el "producto" de la atención hospitalaria, debe considerarse resultados intermedios, ya que el resultado final de los centros no es el número de altas de cada tipo realizadas en un periodo, sino los "cambios, favorable o no, en el estado de salud actual o potencial de personas" atendidas en estos centros.
La evaluación a partir de las relaciones entre resultados y los procesos previos puede realizarse en condiciones ideales (v g, mediante un ensayo clínico aleatorio), o en las condiciones reales de realización de los procesos. Para el primer caso se ha acuñado el término de análisis de eficacia, mientras que para el segundo se utiliza el de análisis de efectividad. Desde la perspectiva que nos ocupa, el análisis de resultados permite realizar 2 tipos de comparaciones: entre tecnologías y entre proveedores*, *[Los proveedores, en este contexto, pueden ser médicos individuales o, mas frecuentemente, centros o servicios sanitarios. Las tecnologías pueden ser procedimientos diagnósticos o terapéuticos, fármacos, equipos o dispositivos, etc., pero también procedimientos organizativos (incluidos, por ejemplo, los sistemas de pago e incentivos) o formas de atención (a domicilio, sin ingreso, etc.).] y presume que resultados diferentes se deberán a diferencias en la efectividad (o calidad) de las tecnologías o de los proveedores (gráfico 3).
En evaluación de tecnologías se plantean preguntas del tipo ¿es efectivo el cateterismo de arteria pulmonar (tecnología) durante las primeras 24 horas de estancia en cuidados intensivos por determinadas causas para reducir la mortalidad (resultado)? (Connors et al, 1996). En la evaluación de proveedores las preguntas son del tipo ¿los pacientes intervenidos de by-pass coronario por diferentes cirujanos (proveedores) tienen diferencias en mortalidad en los 30 días siguientes a la intervención (resultado)? (Landon B et al, 1996), o bien, ¿existen diferencias en reingresos a los 30 días (resultado) entre los hospitales comarcales y universitarios (proveedores)? (Welch HG et al, 1992).
Las estrategias posibles para investigar o monitorizar problemas de calidad a partir de resultados adversos incluyen: 1) la identificación de casos individuales que merecen una revisión del proceso en busca de problemas ; 2) la medición de las tasas de obtenidas a partir de muchos casos.
Respecto a la primera estrategia, Rutstein et al (1976) propusieron la identificación de sucesos centinela, definidos como aquéllos que reúnen dos características: baja probabilidad de ocurrencia y alta probabilidad de ser atribuibles a un tipo de cuidado dado (o no dado). Los sucesos deberían ser elegidos por poseer una excelente validez a la hora de ser atribuidos a cuidados deficientes. Un ejemplo es el fallecimiento tras cirugía menor de bajo riesgo. Los sucesos centinelas se centran tanto en procesos específicos como en resultados. Aunque identifican individuos, es importante enfatizar que se dirigen a la identificación de situaciones con una probabilidad superior a la media de ser el resultado de un cuidado deficiente, pero la medición en si no hace un juicio acerca de la calidad en un caso particular. En definitiva, la estrategia de sucesos centinelas se basa en detectar situaciones (gráfico 4) en las que los resultados adversos son bastante improbables si se dan los cuidados técnicos aceptables.
El estudio de las tasas (ajustadas por riesgo previo) se basa en la medición de sucesos que en un caso individual no justifica un estudio detenido del proceso de atención, pues representan sucesos que pueden ocurrir incluso cuando la atención es excelente. Sin embargo, si una población dada (por ejemplo, la atendida en un servicio de neurología) tiene una tasa muy superior a la de una población de referencia (por ejemplo, la media de un conjunto de servicios), sí debería indagarse la presencia de problemas potenciales de calidad prevenibles.
Como ejemplo, en el gráfico 5 se presenta el porcentaje de mortalidad, con su intervalo de confianza, para el GRD 14 (AVC excepto IT) en los hospitales de la Comunidad Valenciana que oscila entre el 10 y casi el 30%. En la tabla 2 se muestran las odds ratio de mortalidad de estos hospitales, que muestran como algunos hospitales tienen una mortalidad 2 y 3 veces mayor que otros en este GDR.
Esta aproximación, en relación al abordaje centinela, tiene una mayor probabilidad de suceder por azar o como consecuencia de la inherente variabilidad en la práctica médica. Por tanto, la detección basada en tasas busca casos en los que los procesos técnicos de cuidados o el medio en que se desarrollan contribuyen a la aparición de mayor número de complicaciones o de resultados adversos del observado en poblaciones similares.
Durante la pasada década, la literatura científica recoge numerosos trabajos dirigidos a monitorizar la calidad de la atención hospitalaria basándose en la identificación de sucesos adversos a partir de bases de datos clínico-administrativas. Aunque la investigación de resultados fue un área de investigación académica durante varios años, la publicación de las tasas comparadas de mortalidad hospitalaria por la Health Care Financing Administration (HCFA) en 1987 y los años siguientes introdujo una atención sin precedentes hacia los hospitales y los datos de mortalidad y otros resultados médicos. La HCFA, comprometida hasta muy recientemente en la publicación de los datos comparativos de mortalidad, también emprendió un análisis de sus bases de datos con el fin de analizar el coste y la efectividad de las intervenciones médicas en la población atendida por Medicaid. Al mismo tiempo, la Joint Commission on Acreditation of Healthcare Organizations anunció la Agenda for Change, su iniciativa para reenfocar el control de calidad hospitalario sobre los resultados de la asistencia médica.
La contestación a este tipo de preguntas pasa por los diseños de investigación. Del diseño depende en buena parte la validez interna de la evaluación, sus posibilidades de generalización y, probablemente, es el aspecto fundamental de cualquier evaluación. El patrón oro de la evaluación en atención de salud es el ensayo aleatorio. La asignación aleatoria de los pacientes garantizaría que, por ejemplo, el grupo de los pacientes en los que se utilizó el catéter de Swann-Gantz no era diferente a los que no recibieron este tratamiento; o que los pacientes atendidos en los hospitales universitarios eran similares a los de los hospitales comarcales.
Este problema es esencial porque el objetivo de la evaluación es comparar la efectividad o la eficiencia de las tecnologías o los proveedores, y es esencial que las diferencias en resultados se deban a diferencias en su efectividad/eficiencia relativa, y no a diferencias en los pacientes que atienden.
EL PROBLEMA DE LAS DIFERENCIAS EN GRAVEDAD.
Precisamente, el problema fundamental al evaluar tecnologías o proveedores en función de sus resultados estriba en que tales resultados no dependen solamente de la efectividad o eficiencia de las tecnologías o proveedores, sino que también están influenciados por las características de los pacientes, esto es, por el riesgo previo que tenían los pacientes atendidos mediante una tecnología concreta o por un proveedor determinado, de obtener el resultado que se esta midiendo. A este riesgo previo se le suele llamar gravedad (severity), concepto que -en esta acepción- no debería ser interpretado sólo como riesgo de muerte, sino como probabilidad previa (derivada de las características del paciente y no de la atención recibida) de obtener el resultado que se esta midiendo, que puede ser mortalidad o cualquier otro suceso adverso, pero también calidad de vida, consumo de recursos o cualquier otro. Este marco puede representarse mediante un esquema (gráfico 6) en el que el riesgo derivado de la características previas del paciente (gravedad), mas la efectividad y eficiencia del proveedor, teniendo en cuenta el papel del azar, conducirán a diferentes resultados.
Por ejemplo, para el caso anteriormente mostrado de la mortalidad en el DRG 014, cuando se analiza el contenido de este GDR (tabla 2) puede verse como el tipo de diagnósticos incluidos es muy variable, y que la mortalidad es muy diferente para algunos de estos diagnósticos (gráfica 7). Obviamente, si por cualquier motivo (disponer de determinado equipamiento, ser un centro de referencia, existir servicios de neurocirugía,...) los pacientes atendidos en cada centro son diferentes, es lógico esperar que la mortalidad tambien lo sea.
En la tabla 3 se muestra, ordenados en función de la tasa de mortalidad, el porcentaje de diagnósticos que atendio cada uno de los hospitales analizados. Se ha sobremarcado en rojo los diagnósticos de alta mortalidad y en verde los de baja mortalidad. Puede verse que los hospitales que mantienen bajas cifras de mortalidad en el DRG 014 tienden a tener mas pacientes de los diagnósticos de baja mortalidad, mientras que los hospitales cuyas cifras de mortalidad eran elevadas, tienden a mantener una mayor proporción de pacientes en los grupos diagnósticos de elevada mortalidad.
La forma de abordar el problema de si las diferencias en resultados se deben la diferente gravedad de los pacientes o a diferencias en efectividad o eficiencia es la habitual en epidemiología cuando se quiere aislar el efecto de factores de confusión: ajustar (usualmente mediante la modelización multivariante) los resultados obtenidos, por aquellas características de los pacientes que definían su riesgo previo respecto al resultado que se utiliza. Así, y siguiendo con el ejemplo, si se construye un modelo multivariante respecto al riesgo de muerte, y se incorporan al modelo variables como la edad y el sexo (tabla 4) o, se añaden otras variables puede obtenerse el riesgo de muerte para cada centro controlando (asumiendo igualdad) en las variables incluidas (tabla 5). Como puede verse, la posición relativa de los centros varía sólo con el ajuste por edad y sexo, y cuando se controlan otros factores las posiones varian ostensiblemente, con centros que reducen o aumentan su mortalidad ajustada de forma importante.
Del mismo modo, si se quiere valorar diferencias en duración de la estancia (o cualquier otro resultado de interes: coste por proceso, reingresos, complicaciones,...) entre varios hospitales, pueden construirse modelos que incluyan el hospital y las variables de interés para cada unop de estos resultados (edad, comorbilidad, diagnóstico, procedimientos, etc.) y derivar el riesgo de prolongación de la estancia para cada hospital, asumiendo igualdad en los otros factores. Esta es la base para la construcción de sistemas de clasificación de pacientes o, generalizando ya que hay sistemas que no construyen grupos de pacientes, para los sistemas de ajuste de riesgos* [*El término sistema de clasificación de pacientes (SCP), es muy adecuado para algunos sistemas como los GDR o los Patient Management Categories (PMC) que construyen grupos. Sin embargo, es relativamente impropio para los métodos como el APACHE III o el Mortality Probability Model (MPM) que simplemente dan una puntuación de riesgo. El concepto de ajuste de riesgos (risk adjusting) es especialmente integrador, porque conceptualmente se plantea el mismo problema, aunque varíen técnicas y variables a seleccionar, cuando se quiere comparar los resultados de mortalidad entre hospitales que cuando se quiere comparar la estancia media o los costes por caso. Permite además reunir bajo un mismo marco otros conceptos que se emplean con contenidos variables según autores, como casuística (case mix), gravedad (severity), patologías (sickness), intensidad (intensity), complejidad (complexity), comorbilidad (comorbidity), carga de enfermedad (burden of disease) y algún otro.] que, simplificando, no son mas que sistemas que cuantifican la probabilidad que tienen los pacientes de obtener un determinado resultado. Esta probabilidad, y a efectos de los estudios de calidad, deberia ser la que deriva del propio paciente y no de las cosas que se le hacen o dejan de hacersele.
SISTEMAS DE AJUSTE DE RIESGOS
En la tabla 6 se presentan los sistemas de ajuste de riesgos mas conocidos: Grupos de Diagnósticos Relacionados (GDR) y algunas de sus variantes, las Categorías de Gestión de Pacientes (PMC) en sus diferentes versiones, el Disease Staging (DS) y otros sistemas basados fundamentalmente en la revisión de la historia clínica, como el Computerized Severity Index (CSI) o MedisGroups, sistemas diseñados para pacientes en unidades de cuidados críticos (APACHE, MPM, PRISM, TISS). Para ilustrar la tabla se han escogido sistemas conocidos o característicos de alguna aproximación, pero existen otros muchos (COMPLEX, SAPS, TISS-28, NEMS, AIM, RUGs, el modelo de mortalidad de la Health Care Financing Administration, etc.) que pueden ser de interés en determinadas áreas y también modelos específicos de un diagnóstico o un procedimiento. Igualmente, existen numerosos sistemas especificos para muchas patologías y sindromes, incluyendo los desarrollados para el coma, enfermedad de Parkinson, AVC, etc.
Un sistema de ajuste de riesgos se construye a partir de: 1) el resultado de interés que se pretende aislar de los factores de riesgo; 2) una unidad de análisis, que pueden ser episodios de hospitalización por un diagnóstico o todos los diagnósticos, estancias, procesos completos de cuidados u otras; 3) una ventana temporal para la identificación del resultado; 4) la información sobre el paciente que definirá su gravedad; y 5) el tratamiento de las diferencias en resultados debidas al azar. En función de estos parámetros se definirán los requerimientos de información, el momento de la toma de datos y otros aspectos del sistema.
Una primera aproximación a estos sistemas es preguntarse ¿que resultado que pretenden ajustar?, que, básicamente, puede ser un resultado de consumo de recursos (GDR, PMC, TISS) o un resultado clínico (DS, CSI, APACHE, MPM). El concepto de gravedad en cada caso puede ser muy diferentes. Así, un paciente con una puntuación APACHE muy elevada (elevado riesgo de muerte temprana) puede ser incluido un AP-DRG de bajo peso (bajo coste). La consecuencia directa es que emplear estos sistemas para controlar resultados diferentes a los de su diseño (por ejemplo, GDR para ajustar mortalidad) puede ser incorrecto.
Los requerimientos de información de cada sistema también serán diferentes en función del resultado. Así, mientras que los sistemas para ajustar resultados de consumo de recursos suelen ser construidos a partir de bases de datos clínico- administrativas tipo Conjunto Mínimo de Datos Básicos (CMBD), los sistemas para resultados clínicos suelen requerir datos provenientes de la historia clínica u otras fuentes primarias, lo que tiene implicaciones en su coste y factibilidad, pero también en su capacidad de predicción de riesgos y en su credibilidad clínica. Estos requerimientos influyen en las estrategias de construcción de los sistemas: los sistemas con altos requerimientos de información suelen basarse primordiálmente en el juicio clínico (construcción en base a la opinión de expertos), mientras que los sistemas soportados sobre el CMBD suelen ser derivados empíricamente mediante modelizaciones estadísticas.
En cuanto a los criterios de clasificación utilizados, hay que resaltar, en primer lugar, el papel otorgado al diagnóstico, que permite clasificar estos sistemas en diagnóstico-dependientes (GDR, PMC), en general vinculados a la medición de costes, y sistemas diagnóstico-independientes (APACHE, MPM), casi siempre vinculados a la medición de la mortalidad temprana, en la que la estabilidad de los sistemas orgánicos suele tener mas importancia que el diagnóstico. El papel otorgado a los procedimientos quirúrgicos mayores es también de importancia esencial si se pretende medir el consumo de recursos. Hay que señalar la existencia de numerosos sistemas específicos para un diagnóstico o grupo de diagnósticos.
La elección del momento en que toman los datos tiene también importantes implicaciones, ya que los sistemas sobre CMBD, que obtiene los datos al alta, no podrán fijar la secuencia temporal de parte de los eventos ocurridos durante la hospitalización, lo que conlleva importantes limitaciones para separar el riesgo debido a la comorbilidad previa del paciente, del riesgo que deriva de las complicaciones adquiridas en el hospital. Este aspecto es trascendental en las comparaciones entre proveedores (de costes, muerte, reingresos, etc.), ya que si se ajusta el riesgo que deriva, por ejemplo, de las infecciones nosocomiales, este no será tenido en cuenta, obteniéndose resultados similares de calidad o eficiencia en centros con tasas de infecciones nosocomiales muy diferentes.
Finalmente, y en cuanto al tipo de medida que ofrecen estos sistemas, algunos utilizan escalas continuas, en las que se valora el riesgo frente a un riesgo promedio (p.ej., en el RIS de los PMCs una puntuación de 1.15 implica un riesgo de intensidad en utilización de recursos un 15% mayor que el promedio) y tienen un sentido relativo obvio, mientras que otros sistemas utilizan escalas ordinales, que no implican tales referencias (en el CSI una puntuación 2 no implica el doble de riesgo que una puntuación 1) o construyen agrupaciones de base diagnóstica (GDR) estrictamente categóricas. En la tabla 7 se presenta una generalización de las diferencias esenciales entre los sistemas para ajuste de resultados clínicos y de costes.
GRAVEDAD
Siguiendo con el marco conceptual anterior, en la gráfica 8 se presentan las variables del paciente que configuran el concepto de gravedad. La edad es una característica predeterminada de los pacientes, fácilmente disponible, que puede ser un importante predictor de riesgos, en parte porque se asocia a otras características del paciente (determinados diagnósticos y comorbilidad) y en parte porque puede ser un predictor independiente de peores resultados (muerte, complicaciones, duración de la estancia), ya que los ancianos pueden requerir mayores períodos de recuperación y tener mayor riesgo de complicaciones. Cuando, como es usual, se emplean modelizaciones lineales (a mayor edad, mayor gravedad) hay que ser especialmente prudente en los grupos de edad muy avanzada, ya que existen evidencias de que, pese a su mayor riesgo de suceso adverso (mayor gravedad respecto a muerte u otros sucesos adversos) los clínicos pueden adoptar una actitud expectante de baja intensidad terapéutica (menor gravedad respecto a costes).
El sexo, otra variable fácilmente disponible y de gran importancia en los estudios epidemiológicos, ha mostrado poca relevancia como predictor de resultados hospitalarios a corto plazo y suele estar incluida en ningún sistema de ajuste de riesgos. Algunos estudios sobre variaciones en intensidad terapéutica en función del sexo sugieren, sin embargo, que puede tratarse de un grupo de peores resultados y menores costes que el promedio.
El diagnóstico principal -la casuística, en sentido estricto- presenta pocas dudas acerca de su importancia como predictor de riesgos, tanto sobre los resultados clínicos como sobre la utilización de recursos. El diagnóstico (Dx) principal puede ser insuficiente para ajustar algunos resultados y determinar su gravedad del Dx principal puede ser esencial en muchos casos (por ejemplo, el mismo cáncer presenta pronóstico y necesidades de recursos muy diferentes en función del estadío TNM). Este tipo de clasificación no es fácil en muchas patologías, aunque algunos sistemas como el Disease Staging están específicamente diseñados con esta finalidad. A efectos de comparaciones, cuando se evalúa la gravedad de un Dx puede ser complejo dilucidar si se debe al propio paciente o a un manejo inapropiado de su enfermedad (¿los pacientes de un servicio están más graves porque eran más graves o se han agravado por baja calidad de la asistencia?).
Por comorbilidad entendemos la presencia de enfermedades no relacionadas con el Dx principal. El prototipo de comorbilidad son las patologías crónicas (diabetes, hipertensión arterial, coronariopatía isquémica, bronquitis obstructiva crónica, etc.), aunque ocasionalmente pueden ser agudas. Los pacientes con comorbilidad difieren en sus resultados (duración de la estancia, reingresos, mortalidad) de los pacientes sin patologías añadidas y, como en el caso del Dx principal, no es suficiente con identificar la existencia de comorbilidad sino que hay que valorar su gravedad y extensión, en relación al resultado a medir y la ventana temporal del mismo. Para ello se han desarrollado diversos índices de comorbilidad como el de Charlson. Los sistemas de ajuste de riesgo pueden recoger puntuaciones especificas para la comorbilidad (por ejemplo, la subescala CRONICA del APACHE II) o incluirla para la construcción de grupos de pacientes (parejas de GDR de igual Dx principal separadas por comorbilidad). Como sucedía con el Dx principal, la comorbilidad aguda puede reflejar un manejo inapropiado de los pacientes, y las diferencias con las complicaciones (patologías relacionadas con el Dx principal o aparecidas durante el proceso de atención) no siempre es obvia. Sin embargo, esta diferencia es crucial para evaluar la eficiencia y la calidad de la atención, aspecto no siempre tenido en cuenta por los sistemas de ajuste de riesgo (por ejemplo, los GDR).
La estabilidad clínica refleja el estado fisiológico de los sistemas corporales del paciente mediante el examen de sus signos vitales (frecuencia cardíaca y respiratoria, presión arterial, ...), bioquímica (K, Na, creatinina, ...), parámetros hematológicos, gases sanguíneos y nivel de conciencia. Su inclusión es crítica en los sistemas que miden mortalidad en unidades de cuidados intensivos.
El estado funcional, aproximadamente la capacidad de realizar la actividades de la vida diaria, es otra variable de interés, no solo porque tiene una estrecha relación con el consumo de recursos de enfermería, aspecto clave de los costes en centros de largo tratamiento, sino por su relación con el pronostico. El estado psicológico, cognitivo y psicosocial ha sido reconocido como una variable trascendente en los resultados cuya incorporación a los sistemas de ajuste requeriría costosas entrevistas. Las características socio-culturales (nivel económico, estudios, raza y algunos factores asociados como los riesgos laborales, alcoholismo, toxicomanías, y hábitos de alimentación), la calidad de vida previa y las actitudes y preferencias del paciente (por ejemplo, rechazando cuidados agresivos, incumpliendo los tratamientos, ...) también se han mostrado como importantes predictores de resultados, tanto de consumo de recursos como clínicos, al menos en algunos grupos de pacientes.
LAS BASES DE DATOS CLINICO-ADMINISTRATIVAS.
Para el ajuste de riesgos se dispone de 3 fuentes básicas de información: 1) los datos tomados directamente del paciente en entrevistas ad hoc o durante la atención, 2) las historias clínicas y 3) las bases de datos clínico-administrativas. Cada una de estas fuentes tienen implicaciones en cuanto a coste, logística, factibilidad y confidencialidad, pero también en cuanto a su credibilidad clínica, validez percibida y posibilidades de utilización.
Las bases de datos clínico-administrativas, como el Conjunto Mínimo de Datos Básicos (CMBD), los registros de mortalidad, registros oncológicos y otras, suelen incluir a gran números de pacientes, servicios y médicos, aspecto del que derivan sus principales ventajas, aun a costa de importantes limitaciones que van desde la inexistencia de bases de datos con características de los pacientes en áreas clave de los servicios de salud (atención primaria, farmacia), la ausencia de variables relevantes para la evaluación, los problemas de calidad de la información, las dificultades para analizar pacientes a partir de bases de episodios de hospitalización y las dificultades legales para la combinación de registros (linkage). Como ejemplo, es poco probable obtener suficientes datos a partir del CMBD para evaluar el efecto de una tecnología sobre la mortalidad intrahospitalaria en el infarto de miocardio, ya que no constan datos relevantes como el tamaño del infarto, tiempo hasta el tratamiento trombolítico o el grado Killip, y las diferencias en mortalidad entre tecnologías podrían deberse a las diferencias de gravedad en los pacientes o a otros aspectos de la atención no relacionados con la tecnología en evaluación. En la tabla 8 se señalan las principales limitaciones del CMBD y el sistema de clasificación diagnóstica que le da soporte.
Limitaciones dela CIE9MC y guías de codificación. Los criterios esenciales para realizar un diagnóstico exacto son la etiología, la localización y las manifestaciones fisiopatológicas. Sin embargo, en la práctica clínica no siempre es posible (o deseable) llegar mas allá de un diagnóstico sindrómico y la adaptación a esta realidad clínica ha resultado en el desarrollo de clasificaciones diagnósticas no mutuamente excluyentes, aspecto que introduce importantes posibilidades de variabilidad en la asignación diagnóstica. El CMBD utiliza para la codificación de diagnósticos y procedimientos la CIE9MC, una adaptación de la 9ª revisión de la Clasificación Internacional de Enfermedades (CIE) que, a su vez, tiene su origen en la Classificatión of Causes of Death desarrollada por William Farr en 1855 y que desde 1940 es actualizada por la Organización Mundial de la Salud, siendo el principal objetivo de la CIE9MC adaptar para uso clínico una nomenclatura que se desarrolló para clasificar causas de muerte. En la tabla 9 se muestr a el tipo de información contenida en esta clasificación. La CIE9MC, que en Estados Unidos tiene fuertes implicaciones para el reembolso hospitalario, es actualizada periodicamente y su bondad, como sistema de clasificación diagnóstica para la atención hospitalaria, ha sido cuestionada por diversos autores.
Las principales críticas se centran en la propia nomenclatura de la clasificación que, en muchos casos, carece de definiciones clínicas operativas (por ejemplo, la clasificación recoge 37 códigos -de 4 y 5 dígitos- para diferentes tipos de anemia, pero no específica que nivel de hematocríto justifica el diagnóstico de anemia), lo que produce una asignación de códigos altamente variable y, además, su orientación mono-axial -sin duda útil para clasificar la causa principal de muerte- no recoge interacciones entre diagnósticos ni determinadas características de los pacientes de importancia pronóstica reconocida.
Relacionado con los anteriores, se hallan los problemas vinculados a las guías de codificación, manuales que intentan trasladar el lenguaje clínico usual -vago y sujeto a incertidumbre- a códigos ICD9CM, y que supone una fuente constante de sesgos de malaclasificación (p. ej.: un ingreso para biopsia hepática que es dado de alta con el diagnóstico de "sospecha de cáncer de hígado", será codificado como hepatocarcinoma, incluso si el diagnóstico anatomo-patológico -usualmente disponible varios días tras el alta- no se confirma).
Limitaciones derivadas de la disponibilidad de variables.- La mayor parte de los resultados vienen afectados por determinadas características de los pacientes que no siempre son recogidas en las bases de datos clínico-administrativas, como sucedía con el caso del infarto anteriormente comentado. En otras ocasiones, algunas variables pueden actuar en sentido inverso al esperado, como ya se comentó respecto a la edad, que suele ser buen predictor de costes, pero en grupos de pacientes muy ancianos los clínicos pueden adoptar una actitud expectante de bajo consumo de recursos que los modelos estadísticos desarrollados a partir de todos los pacientes no capturarán. La comorbilidad crónica parece comportarse también de un modo paradójico, ya que no suele ser recogida cuando el paciente tiene varios diagnósticos mas graves, comportándose en las modelizaciones como un factor protector de mortalidad. Finalmente, otras veces aparecen riesgos competitivos (por ejemplo, la mortalidad cuando se utiliza como medida de resultados el reingreso), que no siempre es posible ajustar.
Limitaciones derivadas de la calidad de los datos.- En el caso de estudios epidemiológicos, de evaluación de tecnologías o de utilización de servicios por la población, los aspectos clave de las bases de datos son la exhaustividad de los registros, la constancia de información clínica específica y la residencia de los pacientes. Los estudios de calidad del CMBD en el Sistema Nacional de Salud orientan hacia la existencia de una buena cumplimentación de las variables administrativas, con excepción de las relativas a la residencia, pero importantes problemas de volumen, calidad y especificidad en las variables clínicas, así como en la existencia de un alto grado de variabilidad en su cumplimentación por los distintos hospitales. Estos problemas, concentrados en las variables críticas para el ajuste de riesgos, pueden derivar en sesgos a la hora de valorar la efectividad o la eficiencia y afectar la validez de los estudios epidemiológicos o clínico-epidemiológicos.
En términos generales, las aplicaciones que requieran el uso de variables como la residencia y códigos diagnósticos y de procedimiento, sobre todo, si la especificidad de la codificación es importante (estudios de variaciones geográficas en la utilización de servicios, de evaluación de la efectividad de tecnologías o de calidad de la practica médica), pueden verse muy afectados, salvo que se seleccionen aquellos hospitales que mantienen mejores prácticas de codificación. Igualmente, la evaluación de la eficiencia hospitalaria a través de sistemas de ajuste de riesgos, como los GDR o las PMC, puede verse afectada. Hay que señalar, a este respecto, que estos sistemas minimizan el número de casos "no agrupables" a expensas de introducir heterogeneidad en cada grupo (por ejemplo, los ingresos quirúrgicos donde no consta el procedimiento pueden ser clasificados como ingresos médicos).
Los trabajos realizados sobre el UHDSS en Estados Unidos (EE.UU.) por el Institute of Medicine y otros al final de los 70, encontraron tasas de error en el diagnóstico principal respecto al que constaba en la historia clínica, superiores al 30%. Recientes estudios en este mismo país muestran proporciones de error en torno al 20%, indicando que el problema subsiste. Estos estudios no son comparables con la mayor parte de los trabajos en España, ya que evalúan la calidad del diagnóstico frente al que consta en la historia clínica y, por tanto, pueden cuestionar el diagnóstico existente en la base de datos. Se ha señalado, asimismo, que el porcentaje de errores varía ostensiblemente según diagnósticos (habiéndose señalado proporciones de error desde el 2% para la neumonía hasta el 45% de los casos para el infarto agudo de miocardio), áreas geográficas y hospitales. La calidad de la codificación de procedimientos, aunque menos estudiada, parece -en el entorno americano- ser mejor que la de los diagnósticos. Esto no debe sorprender, ya que de esta codificación (realizada mediante una clasificación diferente a la de procedimientos de la CIE9MC) se derivan los honorarios médicos, no incluidos en el pago por GDR, pero no necesariamente es generalizable a un entorno en que los médicos no cobran por acto.
En España, la mayor parte de estudios sobre calidad diagnóstica se han realizado en torno a la Encuesta de Morbilidad Hospitalaria ofreciendo valores de error en el diagnóstico principal respecto al que consta en el informe de alta superiores al 25% para todos los episodios y entre el 5% y el 16% para los casos en que constaba el diagnóstico. Dos estudios en CMBD hallaron tasas de errores en el diagnóstico principal del 12% y 2%, este último en un solo hospital. El único estudio hallado en España que, a semejanza de los estudios en EE.UU., evalúa el diagnóstico mediante la revisión de la historia clínica completa, y no solo del informe de alta, relata un 28% de cambios en la asignación del GDR respecto al que constaba en el CMBD del hospital.
Limitaciones derivadas de la estructura del CMBD y la captura de datos. A lo anterior hay que añadir la limitación del número de diagnósticos secundarios (4-9 en los CMBD en España), tal vez suficiente para los procesos agudos pero incapaz de recoger la complejidad de los pacientes con comorbilidad múltiple o con complicaciones, aspectos de reconocida importancia pronóstica y respecto a los costes. Así, el 50% de las altas del programa Medicare de EE.UU. tenía 5 diagnósticos incluidos y en algunos estudios en California, donde el UHDSS permite recoger hasta 25 diagnósticos secundarios, cerca del 10% de los casos los tenían completos, cifras a retener, en todo caso, para su comparación con el 7% de casos con 4 secundarios hallado en el CMBD de la Comunidad Valenciana en 1994. Se ha señalado que los cuadros crónicos son los mas obviados por los clínicos o los codificadores, dando lugar a los resultados paradójicos ya comentados en que la presencia de comorbilidad crónica -sólo recogida cuando el paciente no tiene comorbilidad aguda- se comporta como factor protector de mortalidad intrahospitalaria.
Un último problema se refiere a la naturaleza retrospectiva -al alta- de la toma de datos, que no permite distinguir si se trata de cuadros tratados durante la hospitalización o simplemente son enfermedades coexistentes (la valoración de la calidad varía si un paciente que ingresó para intervención tenía una infección al ingreso o la desarrolló en el hospital). Aunque se han desarrollado interesantes aproximaciones a este problema mediante técnicas cualitativas y algoritmos, todavía se esta lejos de una solución óptima.
Estas limitaciones conducen a una alta variabilidad en la asignación de códigos diagnósticos que se traslada a los sistemas de ajuste de riesgos y, al menos cuando existen incentivos para ello, estimula la búsqueda de las combinaciones diagnósticas mas rentables para los hospitales. Simborg definió como DRG-creep la práctica desarrollada por muchos hospitales de seleccionar los diagnósticos y sus combinaciones de modo que se maximizarán el reembolso económico, extremo evidenciado en numerosos estudios.
UTILIZACION COMPARATIVA DE RESULTADOS CONTROLADOS POR SISTEMAS DE AJUSTE DE RIESGOS.
En la gráfica se presentan las principales limitaciones de los sistemas de ajuste de riesgos. Los sistemas diseñados para el ajuste de costes por proceso intentan agrupar a diferentes tipos de pacientes en términos de su consumo esperado de recursos con el objetivo básico de implementar incentivos para mejorar la eficiencia (en el sentido de disminuir los costes unitarios) en el tratamiento de los diferentes grupos de pacientes. Los sistemas diseñados para ajustar la efectividad de la atención hospitalaria, tienen por objetivo permitir la formulación de juicios sobre la calidad de la atención prestada. Cualquiera de ellos, o las bases de datos creadas para su construcción, pueden tener interesantes usos clínicos y en salud pública. Aunque inicialmente todos los sistemas contienen suficientes limitaciones para requerir una interpretación prudente de los resultados de la evaluación, no es menos cierto que son una herramienta importante para permitir una comunicación productiva entre gestión y clínica y, en todo caso, la información que ofrecen es mejor que la anteriormente disponible.
Es posible utilizar aproximaciones que permitan soslayar, al menos parcialmente y no sin inconvenientes, algunos de las limitaciones de estos sistemas. Entre ellas se incluye la combinación de bases de datos diferentes (registros de mortalidad, registros informatizados de urgencias, ...) o de diversos años del CMBD para mejorar la información disponible, el diseño de algoritmos que permitan diferenciar entre comorbilidad y complicaciones o concentrar los análisis en determinados diagnósticos o procesos, aproximaciones especialmente útiles en la evaluación de la calidad hospitalaria. Los resultados de una evaluación serán, por tanto, mas fiables cuanto mas específico sea el marco conceptual empleado, mayor la calidad de los datos y mas rigurosa la metodología empleada en el análisis.
A nivel práctico, los responsables de la toma de decisiones (clínicas o de gestión) deberían considerar los sistemas de ajuste de riesgos como una fuente de información añadida a las ya disponibles y como ayuda extremadamente importante para reducir la incertidumbre en la toma de decisiones, pero no como el arbitro científico de la eficiencia o la efectividad hospitalaria y, por tanto, deberían valorar cuidadosamente que decisiones pueden ser tomadas a partir de esta información y cuando conviene extremar la prudencia. Esta actitud tiene un especial interés para impedir una rápida perdida de credibilidad de estos sistemas derivada de una utilización impropia. En todo caso, y aunque las aproximaciones a partir de bases de datos pueden no ser suficientes para juzgar la calidad o la eficiencia de una tecnología, casi siempre serán útiles para identificar problemas que requieren posterior estudio mediante audit medico u otros mecanismos.
De ahí la necesidad, en nuestro entorno, de continuar mejorando la calidad de las bases de datos, las metodologías de análisis y la evaluación del comportamiento de estos sistemas en nuestro entorno. En otro terreno, la evaluación del comportamiento de los agentes ante la disponibilidad y uso de información ajustada también presentara cada vez un mayor interés.