Evaluación de la producción científica

13 de junio de 2009 - 07:25 - Universidad

Una mesa redonda en el contexto de la jornada sobre "La Investigación en Humanidades" de la Universidad de Zaragoza.

El Vicerrector de Política Académica, y antiguo decano de Filosofía y Letras, Miguel Ángel Ruiz Carnicer, comienza señalando dos cuestiones a tener en cuenta en la evaluación. Primero, que la especificidad y diversidad de las humanidades dificulta enormemente la tarea de ofrecer una evaluación sistemática y objetiva: una cuestión ésta que no debería sin embargo hacer desistir del empeño en desarrollar sistemas de evaluación adecuados, ni servir como excusa para no imponerse la disciplina de someterse a evaluación. Por otra parte, hay otro tipo de evaluación que han de tener presente los investigadores en humanidades aunque no se refleje directamente en los baremos, y que es la cuestión de la relevancia social del trabajo que hacemos. Es sabido que las humanidades no son disciplinas de aplicación práctica inmediata ni inciden directamente en la producción. Pero eso no ha de hacer que dejemos de cuestionarnos qué es lo que aportamos a la sociedad.

Genaro Lamarca, de Biblioteconomía y Documentación, ha investigado en historia del libro, y tiene experiencia como evaluador de revistas académicas. Se centra en la cuestión de cómo evaluar el sitio en el que publicamos nuestra investigación. Es algo que en general valoramos deficientemente en Humanidades. Los problemas son:
- La heterogeneidad de las Humanidades (en técnicas, objetos de estudio, etc.)
- El hecho de que la publicación en libros sea el medio favorecido. Los humanistas tendemos a publicar libros a ser posible: un medio de difusión atípico en otros ámbitos científicos. Y es difícil evaluar objetivamente un libro, o un capítulo de libro.
- No hay consenso sobre cómo se evalúa.
- La consciencia de la necesidad de evaluar es reciente: unos pocos años, seis, ocho. No hay nada asentado ni firme en este panorama.
Las ciencias sociales se encuentran en una situación similar, ligeramente mejor. Es en ciencias ("duras") donde están más asentados los métodos de evaluación: el JCR, citation index, un sistema muy criticado pero a la vez universalmente utilizado y de referencia para todos. Se sabe a qué atenerse: hay consciencia del factor de impacto de los artículos, mientras que en humanidades no sabemos nada y tenemos bajísima conciencia de estas cuestiones. Nadie sabe cómo evaluar los libros. Los criterios que se suelen aducir son variables y cambiantes: ¿mejor una editora internacional? Pero en algunas cuestiones no tiene sentido. Una editorial local es menos apreciada normalmente que una gran editorial española, pero a veces con criterio erróneo: para que un libro de humanidades se publique en una gran editorial española, normalmente deberá incluir algo más que investigación, si es que incluye investigación. La divulgación está aquí en terreno mejor. Hay varios índices de referencia en Humanidades, pero el problema es ese, que hay varios, no hay unanimidad. Está el Arts and Humanities Citation Index, el ERI, etc., todo poco representativo de la investigación española en humanidades, incluyen una mínima parte de revistas españolas. En España, el DICE, RES (con 200 revistas de entre más de 2000), RECIT, ERCE, MIAR, CARUS.... en Cataluña y Andalucía hay otros propios, etc. No hay herramientas unificadas para valorar el impacto de un artículo o una revista.
A medio plazo (10-15 años) podrá haber una buena herramienta, que apunta ahora, y que se ha diseñado en la Universidad de California: el Índice H, que establece una relación entre el número de documentos del autor y el número de citas recibidas por ellos. Por ejemplo, los premios Nobel (de ciencias, etc.) tienen todos un índice 40, o sea, 40 documentos citados cada uno 40 veces— o más alto. Este índice no discrimina entre libros y artículos. Es importante para tener un buen índice que los documentos estén accesibles en formato digital. Actualmente hay en España unas 1000 revistas académicas en formato digital. Pronto 3/4 partes estarán en este formato, y los libros serán accesibles a través de Google Books o Google Scholar. De la falta de consenso actual saldrá quizá un mejor consenso, posibilitado por este terreno hoy vacío, un consenso en torno a este índice H.

Susana Onega (de Filología Inglesa) habla de sexenios de investigación y de las acreditaciones de la ANECA para plazas de personal docente e investigador. En estas evaluaciones se aprecian en la práctica los problemas que ha señalado Lamarca. Se aprecia desde el principio una tendencia a aplicar a las Humanidades el calzador establecido por las ciencias; así, al principio ni siquiera aparecían libros como concepto evaluable en la ANECA. [!!!].
Comenzando por los sexenios. Formó parte S. O. de una comisión evaluadora de humanidades, regida por el decreto 11/11/2008, en cuyo apéndice se establecía elegir cinco publicaciones de investigación para su evaluación. Quedaban excluidos libros de texto, de divulgación, antologías, diccionarios comunes.... también actas de congresos, excepto cuando han sido posteriormente editadas con un proceso de revisión por pares. Siempre se aprecian disparidad de criterios de evaluación entre las personas de las diferentes comisiones. Hay áreas que quieren aplicar ERI (Filosofía), pero en filología no se podría. Este año se han enviado 200 y pico expedientes a tres evaluadores distintos: se tiene en cuenta la coincidencia relativa en la evaluación, y de haber gran disparidad se envía a un cuarto evaluador, mejorándose así la objetividad del procedimiento.
En la evaluación para Cátedras, otra comisión en la que ha participado, se sigue una normativa establecida por el Consejo de Universidades. Hay que obtener 80 puntos, de los cuales 55 son de investigación. Cada uno de los sexenios vale ya 15 puntos: con cuatro sexenios ya se tiene el máximo de investigación, pero a algunos les falta para llegar a los 80 puntos por insuficiencias en la docencia. Y hay 10 puntos de gestión. Se requiere un currículum diversificado; hay que hacer un poco de todo.
Para evaluar una publicación de una revista, se tiene en cuenta si está indexada o no, pero hay flexibilidad. En los libros es recomendable no presentar coediciones de actas recicladas como libro; la coedición divide la puntuación entre los coeditores, y en cualquier caso no se considerará si no hay un capítulo del propio editor o una introducción sustanciosa. Es mejor presentar publicaciones en solitario (en Humanidades), y de lo contrario explicar bien la participación propia. Sí se aceptan publicaciones hechas en España, pero sólo si hay revisión por pares. Hay que dedicar trabajo a justificar los "indicios de calidad" de las publicaciones: recopilar citas, reseñas, consecuencias, etc. que permitan apoyar la importancia de la publicación.

Mª Victoria Escribano hablará de la evaluación de proyectos de I+D. Comienza agradeciendo su eficacia al servicio de gestión de la investigación de la UZ, a Carmen Baras y su equipo, pues sin ellos sería imposible que la investigación de la Universidad estuviese donde está.
La encargada de la evaluación de proyectos I+D es la ANEP (Agencia Nacional de Evaluación y Prospectiva). Se parte de que la mejor situación para la investigación es trabajar en el marco de un equipo y un proyecto:
- Implica disciplina de trabajo en grupo,
- Exige planificación y previsión de resultados, así como seguir una línea coherente,
- Implica rendir cuentas tanto anualmente como al final de período de vigencia del proyecto: esto supone autocontrol y mejora el rendimiento.
Las fortalezas de la evaluación de I+D tal como actualmente se realiza son:
- La solvencia de la ANEP
- La publicidad y transparencia de los procedimientos
- Los mecanismos de control que se han establecido
- La capacidad de previsión para los investigadores, que al conocer los criterios previamente pueden adaptarse a ellos.
Hay 26 áreas científicas, cada una con su equipo de entre 4 y 8 personas que a su vez seleccionan a los evaluadores. Aquí no se distribuyen aleatoriamente los expedientes como en la ANECA, sino que son seleccionados los evaluadores de cada proyecto por los coordinadores. Hay una doble evaluación para garantizar la objetividad: primero una evaluación por pares, con ese evaluador escogido por la ANEP, y luego en una segunda vuelta en el Ministerio, donde otra serie de comisiones deciden el asunto de la concesión de financiación. Se cuida siempre de elegir evaluadores de universidades distintas a la que propone el proyecto; también en la segunda vuelta. Los criterios son conocidos, y lógicos:
- la capacidad del equipo investigador y su trayectoria
- el interés del proyecto
- la viabilidad de la propuesta (o sea, la viabilidad de que este equipo la pueda llevar a cabo)
Para los proyectos tipo C, los consolidados, el criterio que más pesa es la capacidad acreditada del equipo de investigación.
Podría haber interferencias del factor humano: animadversiones, etc., que distorsionasen la evaluación. Para ello se introduce la doble evaluación, y de haber disenso se acude a un tercer evaluador. Un intento de manipular artificialmente la evaluación dejaría en evidencia al propio evaluador. Y además cabe la presentación de alegaciones ante una evaluación negativa.
Debilidades del sistema:
- El engrosamiento artificial de los grupos con personas que no contribuyen realmente al trabajo en equipo, sólo por cubrir los parámetros.
- La solicitud de presupuestos desmesurados, que evidencian poco realismo y poco respeto para el uso que se da al dinero público.
- La poca incidencia de los resultados previos, fruto de proyectos anteriores, en la evaluación, a la hora de obtener el siguiente proyecto. Es difícil a veces esperar resultados inmediatos, pero en el caso de equipos de larga tradición ya debería poderse evaluar el impacto de su investigación a la hora de renovar la concesión de un proyecto.
Depende de nosotros, los investigadores, y de cómo participemos en el proceso de evaluación, el que éste sea eficaz y objetivo. Escribano se pronuncia claramente en contra de cualquier sistema de evaluación pretendidamente objetivo que suponga no tener en cuenta a los profesionales del área y basarse en parámetros automáticos y numéricos.

___________

En la discusión, el Decano de Filosofía y Letras observa que todo establecimiento de criterios lleva inmediatamente a la búsqueda de trampas y de distorsión de los resultados de investigación: en especial, el sistema de valorar citas lleva al establecimiento de corrillos de cita mutua, y citas artificiales. Con el problema de que en última instancia es imposible ponerse a distinguir citas auténticas de citas innecesarias, se apunta.

La Dra. Escribano, por llevar la contraria al Dr. Lamarca, arguye que en cada campo sí conocemos por experiencia propia cuáles son las mejores revistas; otra cosa es que se pueda publicar en ellas...

El Dr. Lamarca apunta otros problemas de la evaluación por citas: el efecto Mateo y el efecto Matilda. El efecto Mateo viene del Evangelio: a quien más tiene, más se le dará. Y a quien más se cita, más se le citará (es lo que en otra parte he llamado los torbellinos de información). El efecto Matilda se refiere a las camarillas de apoyo mutuo. Aunque aquí asegura la Dra. Onega, basándose en su experiencia, que "detectamos constantemente las camarillas".

El Dr. Marco critica la desconfianza respecto de la ANEP que supone el proceso de doble evaluación por parte del Ministerio. Antes la ANEP informaba, y el ministerio sólo jerarquizaba las prioridades según líneas estratégicas. Es un gasto y engorro excesivo. Y sería importante potenciar el seguimiento de los proyectos y los resultados obtenidos: ahora sólo se empieza a tener en cuenta esta cuestión tan necesaria. Como no hay seguimiento coherente de un equipo, y los evaluadores son distintos cada vez, los equipos pueden reciclar el mismo proyecto y seguir obteniendo financiación.... un problema. Recomienda también no obsesionarse con el citation index. Que ahora ya está muy cuestionado en USA; hay que intentar mantener la especificidad de las humanidades en los criterios.

El Dr. Mendívil sí defiende la doble evaluación. Son dos informes de evaluadores que se median, y a esa media se le suma la nota de la segunda evaluación efectuada por el Ministerio, que también es una media de dos informes. Es un sistema coherente, y además hay que tener en cuenta lo que se ha prosperado en cuanto a financiación y organización según se ha desarrollado el sistema I+D.

El Dr. García Landa observa que todo este proceso de evaluación de la calidad tiene fines administrativos en realidad; que quizá a vista de pájaro la calidad requiera otro tipo de perspectiva. Por supuesto estos sistemas de evaluación por citas, etc., son recientes y no existían hace sólo unos años, pero ¿cuál de los grandes pensadores del siglo XX, los que han revolucionado las disciplinas y abierto líneas realmente nuevas, sería evaluable por estos procedimientos? Quizá su efecto se vea a largo plazo, y no en el corto plazo que miden estos parámetros. (Se le apunta como contraejemplo el caso de Ramón y Cajal, que recientemente seguía siendo el español más citado en su área—pero en realidad no sé si sirve como contraejemplo o como ejemplo de lo dicho).

El Dr. Lamarca anota la conveniencia de publicar en revistas digitales, pues es una manera mucho mejor de visibilizar nuestras publicaciones.

El Vicerrector de Investigación se felicita por la mejora del sistema I+D desde sus inicios y la diferencia que ha supuesto con respecto a la situación anterior. Nadie aceptaría en las universidades un regreso a lo que había antes del establecimiento del sistema de los proyectos de investigación. Sean cuales sean los puntos mejorables, ha supuesto un gran avance en la investigación en España (que ahora sí cuenta a nivel mundial) y en el desarrollo de un sistema público de organización para la investigación.

I+D+I OT

Evaluación de la producción científica

Otros artículos en este blog:

0 comentarios