andreany muttu

No es oro todo lo que reluce. Cada mes se publican decenas de miles de artículos científicos. Sólo en la ISI Web of Knowledge dicen que tienen indexadas 22000 revistas periódicas cuyo ritmo de publicación es variable pero cuya media podría ser un número mensual. Hay mucha ciencia por ahí fuera, en efecto ¿pero tanta?

Y la respuesta es que posiblemente no, que hay una inflación de artículos realmente agobiante y que una mayoría de los trabajos que se publican son irrelevantes.
La mitad de las publicaciones científicas apenas llega a obtener media docena de citas a lo largo de los años. Desbrozar la ingente cantidad de publicaciones que nos inunda retrasa la localización de los trabajos realmente valiosos.
Si esto fuera así tendría al menos dos consecuencias negativas: que la ingente cantidad de artículos oculta los interesantes luego resulta fácil que algunos imprescindibles pasen desapercibidos al menos durante un tiempo y que cada vez es necesario invertir una mayor cantidad de tiempo en mantenerse al día en la revisión bibliográfica.

¿Cómo podemos comprobar si es cierto eso de que sobran artículos? Una forma razonable es estimando el impacto de los artículos en la comunidad científica donde el estadístico más razonable es el número de citas: a más citas, más relevante es el trabajo, más te han tenido en cuenta.

Empecemos un análisis simple. ¿Cuál es el número medio de citas por artículo? Lógicamente depende del año de publicación porque los artículos van acumulando citas con el tiempo y por la dinámica de la publicación es prácticamente imposible, por ejemplo, que algo publicado hace un mes tenga citas este año.

En la web mencionada hay estadísticas que iluminan este asunto y les reproduzco algunas básicas referidas a la última década (publicaciones desde 1997).

Para empezar, nuestra esperanza general de citas no es especialmente alta: de media, un trabajo es citado 8.8 veces al cabo de 10 años. Esta cifra, sin embargo, no es representativa por sí sola porque las citas varían mucho según el campo de conocimiento y es interesante ver que en cabeza están la biología molecular y genética (23.6 citas/artículo), la inmunología (19.1), la neurociencia (16.3) y la biología y bioquímica (15.1). A la cola están las ciencias sociales (3.5), la ingeniería (3.3), la matemática (2.6) y la informática (2.5).

¿Dan estas cifras una idea de lo dinámico del campo en cuestión? Lo dejo a su opinión.

El siguiente paso es que la media aritmética no es aquí un buen estadístico porque la distribución de citas está muy fuertemente sesgada. Veremos a continuación que podemos distinguir entre lo que podríamos llamar una ciencia influyente, poderosa, sexy, que muchos tienen en cuenta, y una ciencia oscura, muy oscura, muy oscura...
En la primera están, lógicamente los artículos más citados. Por ejemplo, un artículo titulado "Gapped blast and psi-blast: a new generation of protein database search programs" ha recibido 17567 citas en los últimos 10 años. Es el record porque en otros campos "apenas" llegan a las dos mil o tres mil. Y claro, para compensar esta minoría es necesario que haya algo en el otro extremo.

Para verlo mostraremos los percentiles que no son otra cosa que el número de citas que alcanza un cierto porcentaje de artículos. Aquí merece la pena centrarse en un año concreto, por ejemplo, el 2000, para el cual ya ha habido tiempo suficiente para que las aportaciones sean conocidas y se pueda hacer referencia a ellas.

A nivel general (todos los campos juntos, ver abajo) y para un trabajo publicado en el año 2000, sólo un 1% de los trabajos llega a las 115 citas y un privilegiado trabajo de cada mil llegará a las 328. Por campos la cosa varía, como es lógico. Aquí tienen una tabla resumen.

Más que fijarme en el orden de los campos me gustaría llamar la atención sobre que el 50% de los trabajos dificilmente será citado más de media docena de veces en su gris existencia impresa. En un muestreo más o menos aleatorio me salió que un 40% de los trabajos no son citados nunca. A lo cual hay que añadir que los que están a continuación probablemente lo deben en buena parte a autocitas, que no están descontadas de la estadística anterior.

No es difícil aceptar que la media docena de campos que están en cabeza son extremadamente activos en la ciencia del momento. Pero ¿alguien tiene alguna interpretación para la situación de la matemática como farolillo rojo en la lista? ¿O para el posible significado de la lista en sí?

andreany muttu

Monday, May 7, 2007

Ciencia oscura

No comments:

Post a Comment