Relative Scalability of NoSQL Databases for Genotype Data Manipulation


  • Arthur Lorenzi Almeida Departamento de Ciência da Computação da Universidade Federal de Juiz de Fora (DCC/UFJF).
  • Vinícius Junqueira Schettino Programa de Pós-graduação em Ciência da Computação da Universidade Federal de Juiz de Fora (PPGCC/UFJF).
  • Thiago Jesus Rodrigues Barbosa Programa de Pós-graduação em Ciência da Computação da Universidade Federal de Juiz de Fora (PPGCC/UFJF)
  • Pedro Fernandes Freitas Departamento de Ciência da Computação da Universidade Federal de Juiz de Fora (DCC/UFJF).
  • Pedro Gabriel Silva Guimarães Programa de Pós-graduação em Ciência da Computação da Universidade Federal de Juiz de Fora (PPGCC/UFJF).
  • Wagner Arbex Empresa Brasileira de Pesquisa Agropecuária (Embrapa) e Universidade Federal de Juiz de Fora (UFJF).



Database, NoSQL, Bionformatics, Data Science, SNP, Genotype


Genotype data manipulation is one of the greatest challenges in bioinformatics and genomics mainly because of high dimensionality and unbalancing characteristics. These peculiarities explains why Relational Database Management Systems (RDBMSs), the "de facto" standard storage solution, have not been presented as the best tools for this kind of data. However, Big Data has been pushing the development of modern database systems that might be able to overcome RDBMSs deficiencies. In this context, we extended our previous works on the evaluation of relative performance among NoSQLs engines from different families, adapting the schema design in order to achieve better performance based on its conclusions, thus being able to store more SNP markers for each individual. Using Yahoo! Cloud Serving Benchmark (YCSB) benchmark framework, we assessed each database system over hypothetical SNP sequences. Results indicate that although Tarantool has the best overall throughput, MongoDB is less impacted by the increase of SNP markers per individual.


Author Biography

Wagner Arbex, Empresa Brasileira de Pesquisa Agropecuária (Embrapa) e Universidade Federal de Juiz de Fora (UFJF).

Wagner Arbex possui graduação em Bacharelado em Matemática (Modalidade Informática) pela Universidade Federal de Juiz de Fora, mestrado em Sistemas e Computação pelo Instituto Militar de Engenharia e doutorado em Engenharia de Sistemas e Computação pela Universidade Federal do Rio de Janeiro. Atualmente é conselheiro da Associação Brasileira de Bioinformática e Biologia Computacional, professor adjunto da Universidade Federal de Juiz de Fora e analista científico da Empresa Brasileira de Pesquisa Agropecuária. Tem experiência na área de Ciência da Computação, com ênfase em Bioinformática, atuando principalmente nos seguintes temas: bioinformática, polimorfismo de base única (single nucleotide polymorphism), melhoramento genético animal, inferência difusa/nebulosa (fuzzy inference), modelagem computacional e aprendizado de máquina.


How to Cite

Almeida, A. L., Schettino, V. J., Barbosa, T. J. R., Freitas, P. F., Guimarães, P. G. S., & Arbex, W. (2018). Relative Scalability of NoSQL Databases for Genotype Data Manipulation. Revista De Informática Teórica E Aplicada, 25(2), 93–100.



Special Issue - Bioinformatics and Computational Biology

