OpenRefine
OpenRefine | |||
---|---|---|---|
Información general | |||
Tipo de programa | software libre | ||
Idiomas | |||
Información técnica | |||
Programado en | |||
Versiones | |||
Última versión estable | 3.8.28 de julio de 2024 | ||
Archivos legibles | |||
| |||
Enlaces | |||
OpenRefine es una aplicación de escritorio de código abierto para la limpieza y transformación de datos a otros formatos, una actividad comúnmente conocida como data wrangling (disputa de datos).[1] Es similar a las aplicaciones de hoja de cálculo y puede manejar formatos de archivo como CSV, pero se comporta más como una base de datos.
Opera en filas de datos que tienen celdas debajo de columnas, similar a la forma en que operan las tablas de bases de datos relacionales. Los proyectos de OpenRefine constan de una tabla, cuyas filas se pueden filtrar utilizando facetas que definen criterios (por ejemplo, mostrar filas donde una columna determinada no está vacía).
A diferencia de las hojas de cálculo, la mayoría de las operaciones en OpenRefine se realizan en todas las filas visibles, por ejemplo, la transformación de todas las celdas en todas las filas en una columna,[2] o la creación de una nueva columna basada en datos existentes. Las acciones realizadas en un conjunto de datos se almacenan en el proyecto y se pueden 'reproducir' en otros conjuntos de datos. Las fórmulas no se almacenan en celdas, pero se utilizan para transformar los datos. La transformación se realiza solo una vez.[3] Las expresiones de fórmula se pueden escribir en General Refine Expression Language (GREL),[4] en Jython (es decir, Python) y en Clojure.[5]
El programa funciona como una aplicación web local: inicia un servidor web y abre el navegador predeterminado a 127.0.0.1:3333.
Usos
[editar]- Limpieza de datos desordenados: por ejemplo, si trabaja con un archivo de texto con algunos datos semiestructurados, se puede editar mediante transformaciones, facetas y agrupaciones para que los datos estén estructurados de forma limpia.[6]
- Transformación de datos : conversión de valores a otros formatos, normalización y desnormalización.
- Análisis de datos de sitios web: OpenRefine tiene una función de búsqueda de URL y un analizador HTML jsoup y un motor DOM.[7]
- Agregar datos al conjunto de datos recuperándolos de los servicios web (es decir, devolviendo json).[8] Por ejemplo, se puede utilizar para codificar direcciones en coordenadas geográficas.[9]
- Alineación con Wikidata (anteriormente Freebase[10]): esto implica reconciliación: mapear valores de cadena en celdas a entidades en Wikidata.[11]
Formatos soportados
[editar]La importación es compatible con los siguientes formatos:[12]
- TSV
- CSV
- Archivo de texto con separadores personalizados o columnas divididas por ancho fijo
- XML
- RDF (formatos de serialización RDF / XML y Notation3)
- JSON
- Hojas de cálculo de Google[13]
Si los datos de entrada están en un formato de texto no estándar, se pueden importar como líneas completas, sin dividir en columnas, y luego las columnas se extraen más tarde con las herramientas de OpenRefine. Se admiten archivos comprimidos y archivados (.zip, .tar.gz, .tgz, .tar.bz2, .gz o .bz2) y Refine puede descargar archivos de entrada desde una URL. Para utilizar páginas web como entrada, es posible importar una lista de URL y luego invocar una función de recuperación de URL.
La exportación se admite en los siguientes formatos:[14]
- TSV
- CSV
- Microsoft Excel
- Tabla HTML
- Hojas de cálculo de Google
- Exportador de plantillas: es posible definir una plantilla personalizada para la salida de datos, por ejemplo, como tabla MediaWiki.
Los proyectos completos de OpenRefine en formato nativo se pueden exportar como un archivo .tar.gz.
Desarrollo
[editar]OpenRefine comenzó su vida como Freebase Gridworks, desarrollado por Metaweb y ha estado disponible como código abierto desde enero de 2010.[15] El 16 de julio de 2010, Google adquirió Metaweb,[16] los creadores de Freebase, y el 10 de noviembre de 2010 renombró Freebase Gridwords Google Refine, lanzando la versión 2.0.[17] El 2 de octubre de 2012, el autor original, David Huynh, anunció que Google dejaría pronto de brindar apoyo activo a Google Refine.[18][19] Desde entonces, el código base ha estado en transición a un proyecto de código abierto llamado OpenRefine.[20]
Referencias
[editar]- ↑ «openrefine.github.com». openrefine.org.
- ↑ «Editing by transforming: Cell Editing wiki page from Refine documentation». Consultado el 18 de abril de 2012.
- ↑ «Comparison with spreadsheet software: Cell Editing wiki page in Refine documentation». Consultado el 18 de abril de 2012.
- ↑ General Refine expression language OpenRefine/OpenRefine Wiki GitHub.
- ↑ «Expressions: Refine documentation». Consultado el 18 de abril de 2012.
- ↑ «Screencast: Google Refine 2.0 - Introduction (1 of 3) - editing government data». Consultado el 18 de abril de 2012.
- ↑ «Stripping HTML: Refine documentation wiki page». Consultado el 18 de abril de 2012.
- ↑ «FetchingURLsFromWebServices wiki page: Refine documentation». Consultado el 18 de abril de 2012.
- ↑ «Screencast: Google Refine 2.0 - Data Augmentation (3 of 3) - using Openstreetmap Nominatim for geocoding and Freebase for augmentation». Consultado el 18 de abril de 2012.
- ↑ «Schema Alignment: Refine documentation wiki page». Consultado el 18 de abril de 2012.
- ↑ «OpenRefine documentation: Reconciliation». Consultado el 12 de marzo de 2017.
- ↑ «Importers: Refine documentation wiki page». Consultado el 18 de abril de 2012.
- ↑ «Changelog for 2.5». Consultado el 18 de abril de 2012.
- ↑ «Exporting: Refine documentation wiki page». Consultado el 18 de abril de 2012.
- ↑ «Google Code Archive - Long-term storage for Google Code Project Hosting.». code.google.com.
- ↑ «Google Official Blog: Deeper understanding with Metaweb». Consultado el 18 de abril de 2012.
- ↑ «Google Opensource blog: Announcing Google Refine 2.0, a power tool for data wranglers». Consultado el 18 de abril de 2012.
- ↑ «Google Groups». groups.google.com.
- ↑ «From Freebase Gridworks to Google Refine and now OpenRefine».
- ↑ google-refine - Google Refine, a power tool for working with messy data (formerly Freebase Gridworks) - Google Project Hosting.