Citación de datos de abiertos

Entre las definiciones que recoge la Real Academia de la Lengua para el verbo citar está "nombrar o mencionar (algo o a alguien, espec. un texto o un autor). Al hablar de datos abiertos, esta palabra se utiliza para designar el proceso por el que se indica qué fuentes se ha utilizado para la creación de un determinado contenido. La citación de datos es crucial en el proceso de cualquier investigación, ya que proporciona un reconocimiento adecuado de las fuentes y facilita la identificación y reproducción de los resultados, además de fomentar la transparencia y la repetibilidad, concepto fundamental cuando se trata de experimentos en publicaciones científicas.

Andalucía, 06/08/2024
Vista lateral de un libro abierto con varias páginas en forma de abanico sobre un portátil también abierto en el que una de las tapas del libro se apoya sobre la pantalla y la otra sobre el teclado

La primera pregunta que quizás deberíamos hacernos es ¿qué es una cita? A lo que podríamos respondernos que es el proceso de agregar información a un texto u otro material que indicará de dónde proceden el o los recursos externos que se han utilizado para su creación. El ejemplo más clásico de esta práctica es la nota a pie de página que suele incluirse en cualquier escrito para especificar la fuente con la que se ha trabajado para desarrollar el material que se está escribiendo. Suele incluirse el título del documento, el nombre de su autor y dónde y cuándo se publicó.

La citación es una práctica ampliamente recomendable que favorece la reutilización de los datos, ya que indicamos a quien los está usando dónde puede encontrarlos, al mismo tiempo que se le permite sacar sus propias conclusiones sobre la confiabilidad de aquellos en función de las fuentes. En el mundo de la escritura, la citación se ha considerado importante durante mucho tiempo, ya que se considera parte del método académico y sus técnicas están plenamente integradas en la publicación.

Valor de la citación

En el caso de los datos, la importancia va en aumento, debido en parte a la creciente importancia de aquellos tanto en una publicación académica como en una de carácter político, pero también debido al reconocimiento del valor de la citación y a la aparición de herramientas que ayudan a citar con precisión. En la actualidad, su relevancia es evidente en el mundo del Big Data, del Machine Learning y de la  Inteligencia Artificial, pues es cada vez mayor el número de publicaciones que utilizan datasets públicos como conjuntos de entrenamiento de sistemas.

No parece necesario señalar que la creación de datos no es gratuita y que son varias las posibles razones que impulsan: un mandato público en busca de la transparencia requerida por la ciudadanía,  principios de carácter académico y divulgativo, un beneficio comercial o simplemente la autopromoción o el impulso del propio ego.

Por ello, dar crédito al creador y al proveedor de datos es parte de un ciclo de retroalimentación que fomenta la creación de más datos. Proporcionar una cita puede informar al creador que su trabajo ha sido útil y que seguir progresando en el mismo puede ser fructífero. El problema radica en que, aunque la cita de artículos se considera una medida de éxito, la cita de datos aún no tiene el mismo reconocimiento.

Data citation: a guide to best practice 

El documento 'Data citation: a guide to best practice', elaborado por la Oficina de Publicaciones (OP) de la Unión Europea (UE), es una guía práctica que incluye recomendaciones y buenas prácticas sobre cómo citar datos. Es evidente que cada día millones de personas utilizan, buscan, publican, reutilizan, y analizan datos. Y también lo es que, muy a menudo, una de las mayores dificultades con que se encuentran esos usuarios es hallar los datos correctos. Surge entonces la pregunta: ¿cómo se les puede ayudar? La respuesta está clara, y pasa por la citación de los datos.

Diferentes personas pueden llegar a conclusiones diferentes después de analizar los mismos datos. Pero los observadores necesitan saber qué datos se han utilizado, de dónde proceden y en qué se diferencian (si es que lo hacen) de los datos utilizados en otros análisis. Resulta importante proporcionar enlaces a estos datos de una manera sólida y repetible, abarcando tanto la garantía de que los creadores de datos reciban el crédito que les corresponde como la prevención de que otros reclamen los datos como propios. Debe garantizarse que se atiendan los intereses de todos los creadores de datos, de todos los usuarios de datos y del público en general cuando se utilicen esos datos.

En el capítulo 3 (Modalidad de reutilización de los documentos reutilizables) del Real Decreto 1495/2011, de 24 de octubre, por el que se desarrolla la Ley 37/2007, de 16 de noviembre, sobre reutilización de la información del sector público, para el ámbito del sector público estatal, el artículo 7, referente a las condiciones generales de puesta a disposición de los documentos reutilizables, recoge, entre otros, que "serán de aplicación las siguientes condiciones generales para todas las modalidades de puesta a disposición de los documentos reutilizables: citar la fuente de los documentos objeto de la reutilización".

Motivaciones para una adecuada citación de datos

Las citas de datos llevan al usuario a los datos utilizados, pero también a la metodología utilizada para su obtención, lo que puede ser de interés para evaluar su idoneidad y reducir los posibles sesgos que afectan al trabajo de los investigadores. Por ello, la citación permite una comprensión más profunda del alcance y la granularidad de los datos de origen y, en consecuencia, de la forma en que se han utilizado. 

Como ya hemos comentado, es lógico que los creadores de datos reciban el crédito que se merecen, como también lo es que los usuarios de esos recursos no deban atribuirse ese crédito cuando en realidad les corresponde a otros. La cita de datos es una indicación clara de que fueron generados por otra persona y que no deben confundirse con datos generados de manera automática.

Por otro lado, cuando los datos de un tercero forman parte de los datos de entrada de un experimento, resulta fundamental que la reproducción de los resultados utilice de manera exacta los mismos datos que ya usó el original. La cita de los datos permite que un investigador acceda a ellos y los tenga en cuenta en sus intentos de reproducir los resultados obtenidos originalmente. Del mismo modo, publicar los resultados de los estudios de una manera que permita citarlos sin ambigüedad permite que otros los reproduzcan. Todo ello contribuye a la solidez del proceso científico y analítico.

La disponibilidad de datos para su reutilización, finalmente, es en la actualidad un factor importante en la gestión de datos en muchos ámbitos. Y es que al citar los datos usados en el trabajo, se crea un inmenso catálogo distribuido de conjuntos de datos útiles, lo que posibilita que los usuarios puedan ver qué datos se han utilizado y, haciendo referencia a la cita, acceder a ellos y utilizarlos para otros fines, incluso aunque no tienen relación alguna. De manera similar, hacer que los datos sean citables mejora su disponibilidad para su reutilización.

Citas en un formato estandarizado

Es importante que la cita sea precisa, ya que se trata de un vínculo con dos extremos: el que tiene su raíz en el documento fuente y el extremo que está vinculado al conjunto de datos de destino. Y resulta que ambos son fundamentales.

La cita debe dejar claro exactamente qué datos del conjunto citado se han utilizado, ya que cuando se combinan varios conjuntos de datos en un análisis, debe quedar claro el origen de las diferentes contribuciones y las formas en que se han combinado.

El creador de una cita se enfrenta a la duda de si los datos usados son republicados a partir de otra fuente. En este caso se recomienda que la cita formal sea de los datos agregados, pero se debe comprobar que la fuente original es clara.

Es necesario también poder especificar los datos utilizados con precisión. No basta con decir que los datos se obtuvieron de un proveedor de datos en particular, ya que una gigantesca cantidad de selecciones de datos corresponden a esa descripción. Además, aunque la cita puede realizarse en un lenguaje natural, es más preciso que esto utilizar un esquema formal de denominación para que todos los usuarios estén de acuerdo en lo que significa una cita en particular.

Esta denominación de manera general toma la forma de cadenas cortas de caracteres que se denominan 'identificadores' (ejemplos de la vida cotidiana son las placas de matrícula de los vehículos o los números de pasaporte de las personas). Analizaremos a continuación las características y tipos de estos identificadores.

Características y tipos de identificadores

Las tres características claves que se pueden destacar son:

  • Se gestionan para permitir la persistencia
  • Permiten que el usuario tenga cierta seguridad de que cualquier identificador está asociado con la entidad correcta
  • Son procesables, de manera que se pueden enviar a un servicio en línea que devolverá algo más útil que la cadena del identificador. Normalmente debe expresarse como algún tipo de Identificador Uniforme de Recursos (URI, por sus siglas en inglés), que son el mecanismo estándar de Internet para identificar recursos lógicos y físicos y se reconocen al comenzar con el nombre de un 'esquema' y dos puntos, siendo el tipo más conocido es el URI (http o https), a menudo conocido como Localizador Uniforme de Recursos (URL, por sus siglas en inglés) y que actúa como una dirección web.

Entre los tipos de identificadores es obligado saber que existen numerosas 'familias', como por ejemplo el Identificador Estándar Internacional de Nombres (ISNI, por sus siglas en inglés), que identifica las identidades públicas de las partes involucradas en la creación de contenido, o el Identificador Abierto de Investigadores y Colaboradores (ORCID, por sus siglas en inglés), que reconoce a los autores y colaboradores en la comunicación académica. Otras familias se usan para identificar entidades arbitrarias (recursos digitales, objetos físicos e, incluso, conceptos abstractos).

En algunos casos, un proveedor de conjuntos de datos creará y mantendrá su propio sistema para identificar sus productos. Pero analicemos ahora dos de los esquemas más comunes: el sistema Handle y el Identificador de Objetos Digitales (DOI, por sus siglas en inglés).

El sistema Handle

Este mecanismo genérico se usa para asociar una cadena de identificador con una cosa, a través de un servicio de resolución que acepta la cadena y devuelve un bloque de datos que describe (a través de metadatos) la cosa y, si corresponde, un enlace a la cosa misma. La sintaxis de un Handle es bastante simple: prefijo/sufijo.

El sistema DOI

Está basado en el sistema Handle y añade una capa de gobernanza, tanto técnica como social. Se utiliza ampliamente en el mundo académico para artículos de revistas y conjuntos de datos. También ha encontrado aplicación en el espacio cinematográfico y televisivo para activos audiovisuales y entidades asociadas.
      
Las agencias de registro incluyen:

  • DataCite se especializa en DOI para conjuntos de datos y especifica un esquema de metadatos para estandarizar su descripción
  • Crossref actúa como agencia de registro y se ocupa de datos y publicaciones
  • Otras agencias DOI también registran conjuntos de datos y colaboran en la elaboración de estándares

En la actualidad, todos los nombres DOI tienen un prefijo que comienza con '10', pero esto está bajo revisión y es posible que se vean otros prefijos. Existe un servidor proxy web especializado que permite la resolución de nombres DOI.

Cabe recordar que la Oficina de Publicaciones de la Unión Europea (UE) es una agencia de registro dentro del sistema DOI y respalda la asignación de nombres DOI a publicaciones relevantes y otros tipos de contenido dentro de las instituciones de la UE. Además del servidor proxy web genérico administrado por The DOI Foundation al que se accede anteponiendo https://doi.org/ al nombre DOI, existe un proxy web específico de la UE administrado por la OP que funciona anteponiendo https://data.europa.eu/doi/. Además de establecer DOI para monografías, la OP ahora también los asigna a artículos en revistas, así como a conjuntos de datos.

Sistema de citación en data.europa.eu

Un ejemplo de citación dentro de la web data.europa.eu es el Callejero Digital de Andalucía Unificado (CDAU), un conjunto de datos geográficos de vías y portales de Andalucía, con estructura topológica, que permite situar en el territorio cualquier objeto geográfico (y sus variables asociadas) que posea dirección postal, con una aproximación a nivel de portal.

Las entidades básicas que se mantienen y actualizan con CDAU son las vías, los tramos de vías y los portales en los que reside la población (viviendas) o en los que se ejerce una actividad (establecimientos o locales), incluyendo todos los núcleos de población y los diseminados.

La citación de datos abiertos dentro del portal europeo ofrece cuatro opciones:

  • EU Data Citation (Junta de Andalucía, ‘Callejero Digital de Andalucía Unificado (CDAU)’, 2020 (updated 2024-06-18), accessed 2024-08-05, http://data.europa.eu/88u/dataset/https-pdpopendata-ckan-paas-junta-andalucia-es-datosabiertos-portal-dataset-2020202037ef812a-08a9-4028-b781-ee715138e378)
  • APA (Callejero Digital de Andalucía Unificado (CDAU). (2024). [Data set]. Junta de Andalucía. http://data.europa.eu/88u/dataset/https-pdpopendata-ckan-paas-junta-andalucia-es-datosabiertos-portal-dataset-2020202037ef812a-08a9-4028-b781-ee715138e378 (Original work published 2020)
  • Harvard (Anon, 2024. Callejero Digital de Andalucía Unificado (CDAU). Available at: http://data.europa.eu/88u/dataset/https-pdpopendata-ckan-paas-junta-andalucia-es-datosabiertos-portal-dataset-2020202037ef812a-08a9-4028-b781-ee715138e378 [Accessed August 5, 2024].)
  • Vancouver (Callejero Digital de Andalucía Unificado (CDAU) [Internet]. Junta de Andalucía; 2024 [cited 2024 Aug 5]. Available from: http://data.europa.eu/88u/dataset/https-pdpopendata-ckan-paas-junta-andalucia-es-datosabiertos-portal-dataset-2020202037ef812a-08a9-4028-b781-ee715138e378)

Más información