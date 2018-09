Google ha lanzado Dataset Search, una herramienta de búsqueda que permite acceder y consultar datos integrados en cualquier tabla o base de datos, siempre que la publicación del contenido se etiquete a través de estándares abiertos de indexación como scheme.org para describir la información de una web.

Dataset Search es capaz de localizar las conjuntos de datos sin importar donde se encuentren alojados, como se explica a través de una publicación en el blog oficial de Google.

A través de la herramienta se puede consultar información proveniente de cualquier dirección, ya se trate de direcciones públicas, bibliotecas digitales o webs personales de un autor.

El funcionamiento de Dataset Search es similar al de Google Académico –enfocado a la búsqueda de contenido y literatura de tipo científico-académica– y cualquier persona puede hacer uso de ellas, pues no se trata de una característica reservada para el ámbito académico. Las fuentes consultadas van desde organismos gubernamentales que hayan publicado en la Red hasta organizaciones especializadas de noticias como ProPublica.

Las búsquedas de ‘Dataset Search’ se basan en el estándares abiertos para describir la información publicada y así permitir que sea más fácilmente identificable por los buscadores, como son schema.org u otros que mantengan el formato de vocabulario establecido por el Consorcio ‘World Wide Web’ (W3C). Cualquiera que publique datos, puede describirlos y etiquetarlos mediante esta forma para hacer su búsqueda algo más sencillo mejorando el SEO de la página.

Las búsquedas han de ser claras y realizarse a través de formas que permitan que Google pueda entender bien el contenido de las páginas. Se recomienda utilizar un fichero de tipo ‘sitemap’ o listado de URL del sitio que el usuario quiera indexar para que el buscador pueda encontrar la dirección correspondiente.

El buscador Google también recoge en su blog de desarrolladores consejos para realizar búsquedas más efectivas, lo cual comprende el uso de etiquetas de búsqueda como ‘sameAs‘, para conjuntos de datos o descripciones de materiales republicados, o ‘isBasedOn‘, en el caso de que al republicarse los datos, estos se hayan cambiado de forma significativa. También ayuda acotar las búsquedas al indicar cuándo se publicó, cómo se recopilaron los datos o quién creó el contenido.

Dataset Search funciona en varios idiomas y Google pretende llevar la herramienta a nuevos idiomas próximamente. Esta iniciativa se recoge dentro de los esfuerzos de la empresa del buscador Google por hacer de los datos recogidos dentro de documentos o bases de datos en la Red algo más accesible.

Los conjuntos de datos son más fáciles de encontrar cuando proporciona información de apoyo, como su nombre, descripción, creador y formatos de distribución como datos estructurados.

El enfoque de Google para el descubrimiento de conjuntos de datos hace uso de schema.org y otros estándares de metadatos que se pueden agregar a páginas que describen conjuntos de datos. El objetivo de este marcado es mejorar el descubrimiento de conjuntos de datos de campos como ciencias de la vida, ciencias sociales, aprendizaje automático, datos cívicos y gubernamentales, y más.

Estos son algunos ejemplos de lo que puede calificar como un conjunto de datos:

Una tabla o un archivo CSV con algunos datos

Una colección organizada de tablas

Un archivo en un formato propietario que contiene datos

Una colección de archivos que en conjunto constituyen un conjunto de datos significativo

Un objeto estructurado con datos en algún otro formato que es posible que desee cargar en una herramienta especial para su procesamiento

Imágenes capturando datos

Archivos relacionados con el aprendizaje automático, como parámetros capacitados o definiciones de estructura de red neuronal

Todo lo que se parece a un conjunto de datos para ti

La implemetación es sencilla con microformatos:

<script type=”application/ld+json”>

{

“@context”:”http://schema.org/”,

“@type”:”Dataset”,

“name”:”NCDC Storm Events Database”,

“description”:”Storm Data is provided by the National Weather Service (NWS) and contain statistics on…”,

“url”:”https://catalog.data.gov/dataset/ncdc-storm-events-database”,

“sameAs”:”https://gis.ncdc.noaa.gov/geoportal/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510″,

“keywords”:[

“ATMOSPHERE > ATMOSPHERIC PHENOMENA > CYCLONES”,

“ATMOSPHERE > ATMOSPHERIC PHENOMENA > DROUGHT”,

“ATMOSPHERE > ATMOSPHERIC PHENOMENA > FOG”,

“ATMOSPHERE > ATMOSPHERIC PHENOMENA > FREEZE”

],

“creator”:{

“@type”:”Organization”,

“url”: “https://www.ncei.noaa.gov/”,

“name”:”OC/NOAA/NESDIS/NCEI > National Centers for Environmental Information, NESDIS, NOAA, U.S. Department of Commerce”,

“contactPoint”:{

“@type”:”ContactPoint”,

“contactType”: “customer service”,

“telephone”:”+1-828-271-4800″,

“email”:”[email protected]”

}

},

“includedInDataCatalog”:{

“@type”:”DataCatalog”,

“name”:”data.gov”

},

“distribution”:[

{

“@type”:”DataDownload”,

“encodingFormat”:”CSV”,

“contentUrl”:”http://www.ncdc.noaa.gov/stormevents/ftp.jsp”

},

{

“@type”:”DataDownload”,

“encodingFormat”:”XML”,

“contentUrl”:”http://gis.ncdc.noaa.gov/all-records/catalog/search/resource/details.page?id=gov.noaa.ncdc:C00510″

}

],

“temporalCoverage”:”1950-01-01/2013-12-18″,

“spatialCoverage”:{

“@type”:”Place”,

“geo”:{

“@type”:”GeoShape”,

“box”:”18.0 -65.0 72.0 172.0″

}

}

}

</script>