BAPS5 3manual
BAPS5 3manual
BAPS5 3manual
Manual v. 5.3
http://www.abo.fi/mnf/mate/jc/smack_index_eng.html
1
Machine Translated by Google
Índice: Novos
recursos em poucas palavras......................................... .................................................. ...3
Introdução.............................................. .................................................. .........................3 Recursos
básicos da GUI do software ........................ .................................................. .........6 Entradas para
BAPS 5.................................. .................................................. ..............................9 Inserindo o
número máximo de populações, K.............. .........................................9 Agrupamento de
indivíduos........ .................................................. ......................... 10 formato
BAPS ............... .................................................. .......................................10 Dados pré-
processados ...... .................................................. .......................................11 Agrupamento
de grupos de indivíduos .................................................. ......................... 12 formato
BAPS ......................... .................................................. .........................12 Dados pré-
processados .......... .................................................. ..............................12 Agrupamento
treinado ............... .................................................. ..............................12 Agrupamento
espacial......... .................................................. ....................................... 13 Agrupamento de
dados moleculares vinculados.... .................................................. .........13 Mistura de indivíduos
com base no agrupamento de mistura ....................... .........................16 Mistura baseada em
agrupamento pré-definido......... .........................................17 Sobre os
resultados ......... .................................................. .................................................. ... ..18
Partição de mistura ................................................. .................................................. ....18
Partição de mistura................................................. .................................................. .....18
Tesselação de Voronoi e incerteza local ........................................ .........19 'Formas genéticas'
de populações ........................ .................................................. .........20 Plotar fluxo
gênico ......................................... .................................................. ..........21 Gráficos de
mutação: .................................. .................................................. .........................22 Exibindo
árvores de clusters.................. .................................................. ....23 Resultados numéricos no
arquivo de saída para agrupamento de misturas:................... ...............24 Resultados numéricos
no arquivo de saída para análise de mistura:........... .......................25
Instalação......................... .................................................. .........................................26
Referências......... .................................................. .................................................. .........26
2
Machine Translated by Google
1. Possibilidade de fazer clustering usando um número fixo de clusters, definido pelo usuário
(Tools-Enable Fixed K-Clustering). Ao escolher esta opção, você pode executar qualquer
uma das análises de mistura (e mistura subsequente) usando um valor pré-especificado
para o número de clusters ajustados aos dados.
2. Possibilidade de executar análises em paralelo usando vários computadores e uma
linguagem de script, consulte o manual separado no site do BAPS.
3. A análise da mistura é aprimorada aumentando a eficiência do
simulações, além de possibilitar a análise de misturas sob o modelo de ligação introduzido
por Corander e Tang (2007). O programa detecta automaticamente se a análise da
mistura foi feita usando o modelo de ligação e executa a mistura usando o modelo
apropriado. Os gráficos de mistura agora têm a possibilidade de mostrar apenas estimativas
de mistura significativas usando um limite especificado pelo usuário para os valores p (Use
o primeiro resultado de carregamento de arquivo - resultado de mistura para carregar o
arquivo de resultado para BAPS e, em seguida, Gráfico - Visualize o resultado de mistura e
defina o limiar do valor p de acordo com suas preferências).
4. Estimação e exibição gráfica de redes de fluxo gênico (Tang et al. 2009).
5. Novas parcelas que permitem a triagem de alelos de diferentes fontes ancestrais.
6. Possibilidade de comparar diretamente diferentes estruturas populacionais
determinadas a priori usando suas probabilidades posteriores (Tools-Partition Compare).
7. Possibilidade de usar árvores UPGMA e Neighbor-Joining para exibir relacionamentos
entre os clusters inferidos.
8. Exibições gráficas das 'formas genéticas' dos clusters inferidos em relação
à afinidade em relação aos demais clusters.
NB! O site do BAPS e este manual contém uma lista de publicações científicas, onde foram
introduzidos os métodos implementados no programa. Alguns métodos estão 'sob submissão' e
outros ainda estão 'em desenvolvimento', portanto, verifique se há atualizações. A maioria dos
novos recursos listados acima são discutidos em detalhes nos dois artigos: (1) Corander J,
Martinen P, Sirén J, Tang J. Modelagem Bayesiana aprimorada no software BAPS para aprender
estruturas genéticas de populações. BMC Bioinformática, 2008, 9:539.
(2) Tang J, Hanage WP, Fraser C, Corander J. (2009). Identificação de correntes no pool gênico
para populações bacterianas usando uma abordagem integrativa. Biologia Computacional PLoS,
5(8): e1000455.
Introdução
3
Machine Translated by Google
Com o BAPS 5 você pode agrupar dados moleculares e realizar análises de misturas.
A análise da mistura genética pode ser feita em:
De fato, em muitas aplicações com dados moleculares relativamente escassos, é aconselhável fazer
análises em ambos os níveis, quando informações auxiliares biologicamente relevantes estiverem
disponíveis para definir os grupos antes da análise da mistura (veja, por exemplo, Corander e Martinen
2006, para mais informações). . Ambos os tipos de análises de mistura genética podem ser feitos
usando um:
Dados os resultados de qualquer um dos modelos para análise de mistura genética, ou qualquer
divisão de um conjunto de indivíduos para um número de 'populações', você também pode fazer
inferências sobre eventos de mistura.
4
Machine Translated by Google
Análise de mistura genética com sequências ou Coentro J, Tang J. (2007). Análise Bayesiana da
loci ligados estrutura populacional baseada em informações
moleculares ligadas. Biociências Matemáticas, 205,
19-31.
Estimativas e gráficos para fluxo gênico entre Tang J, Hanage WP, Fraser C, Corander J.
populações inferidas (2009). Identificação de correntes no pool gênico
para populações bacterianas usando uma
abordagem integrativa. Biologia Computacional
PLoS, 5(8): e1000455.
Outros artigos do BAPS (versões 1.0 e 2.xe os Coander, J., Waldmann, P. e MJ
fundamentos matemáticos): Sillanpää. 2003. Análise Bayesiana de diferenciação
genética entre populações.
Genética 163: 367-374.
A ideia na GUI do BAPS 5 é exatamente a mesma do BAPS 4.14. Qualquer análise é realizada
clicando no botão correspondente e fornecendo a entrada necessária para os algoritmos escolhendo
determinados arquivos e alimentando valores para quaisquer campos abertos por
5
Machine Translated by Google
a GUI. Após a análise, o programa grava os resultados numéricos na janela de log e em um arquivo
de resultados, se tal tiver sido especificado pelo usuário. Se um nome de arquivo de resultados não
for especificado pelo usuário, o BAPS gravará automaticamente os resultados em um arquivo txt com
um nome semelhante ao nome do arquivo de dados usado. Dependendo da situação, o programa
também pode fornecer uma representação visual da mistura genética ou dos resultados da mistura
(isso geralmente é produzido automaticamente). Os gráficos podem ser salvos e abertos no programa
usando o formato interno, mas também podem ser exportados para vários formatos diferentes.
Um arquivo de resultados de formato interno (binário) é produzido cada vez que você executa uma
análise de agrupamento ou de mistura e opta por salvar os resultados quando o programa solicita
(este arquivo contém os valores numéricos necessários, por exemplo, para os gráficos e análises
subsequentes). Observe que isso não se refere ao arquivo de saída especificado no menu Arquivo,
onde os resultados são armazenados em formato de texto.
Dica: Recomendamos que você marque a opção “dados pré-processados” descrita na seção formato
de dados. Esta é uma opção de economia de tempo particularmente útil para análises de grandes
conjuntos de dados. Os arquivos pré-processados são compatíveis entre os módulos de agrupamento
de mistura espacial e não espacial, porém, se você carregar um conjunto de dados pré-processado
sem coordenadas para o módulo de agrupamento espacial, o programa solicitará um arquivo de coordenadas.
Existem cinco menus na GUI: Arquivo, Distâncias, Gráfico, Ferramentas e Ajuda. A parte de
documentação no menu Ajuda está inativa no momento, consulte este manual.
6
Machine Translated by Google
No menu Distâncias você pode produzir uma variedade de matrizes de distância genética entre os
agrupamentos obtidos em uma análise BAPS.
No menu Gráfico (veja a imagem abaixo) você pode produzir uma grande variedade de gráficos, alguns
dos quais estão disponíveis apenas para determinados tipos de análises. Observe que todos os gráficos
podem ser salvos no formato interno (.fig) ou exportados para vários formatos de arquivo usando o menu
na janela de gráficos. As opções gráficas são explicadas com mais detalhes na seção Resultados. As
seguintes funções estão disponíveis após o carregamento de um arquivo de resultado (binário) no BAPS:
3. Produzir gráficos mostrando as 'formas genéticas' dos clusters em relação uns aos outros, ver Tang
et al. (2009).
4. Produza uma rede de fluxo gênico para os clusters estimados a partir dos resultados da mistura,
veja Tang et al. (2009).
5. Exiba uma partição espacial dos resultados da análise de cluster espacial usando um
Tesselação de Voronoi.
6. Exiba gráficos em 3D mostrando quão fortemente o posterior é atingido localmente para as células
de tesselação de Voronoi (picos altos significam incerteza considerável sobre a origem da célula
em particular).
7. Desenhe uma árvore filogenética para os clusters usando qualquer um dos três disponíveis
medidas de distância.
8. Produza um 'gráfico de mutação' onde os alelos com suporte para uma ancestralidade diferente
dada uma solução de agrupamento podem ser explorados usando um limite para o fator log
Bayes definido pelo usuário. Se for encontrado suporte estatístico que exceda o limite, os alelos
correspondentes são gravados na janela de log e no arquivo de resultados, consulte Corander et
al. (2008).
7
Machine Translated by Google
1.Especifique o agrupamento a ser feito usando o número de agrupamentos que desejar. Observe que
o programa vai para um modo 'Fixed K' escolhendo esta alternativa, e então qualquer análise de
cluster solicitará os clusters de número fixo a serem usados. Se alguém deseja fazer clustering
usando um intervalo de valores de K (#clusters), basta executar a análise de cluster várias vezes,
fornecendo a entrada apropriada. Observe também que o programa solicita o número de execuções
replicadas a serem usadas na estimativa com qualquer valor K fixo. Isso aumenta a probabilidade
de encontrar o agrupamento ótimo posterior com esse valor. A saída do clustering com um número
fixo de clusters contém o valor log(ml) que pode ser usado para comparação das soluções de
clustering. Para detalhes sobre log(ml), veja os documentos do BAPS. No modo 'Not Fixed K', o
programa tratará o número de clusters desconhecido e solicitará ao usuário que especifique um
limite superior (ou uma faixa de limites superiores) para o número de clusters (consulte a seção
Inputs abaixo para obter detalhes ).
distinto dos dois primeiros, que são homogêneos. Da mesma forma, se o agrupamento for feito no
nível de indivíduos para o mesmo conjunto de dados e houver três indivíduos de cada população
amostral, um exemplo de arquivo de partição é o seguinte:
3 1
3. Carregue as figuras produzidas e salvas anteriormente usando o formato de arquivo .fig. Observe
novamente que todos os gráficos também podem ser exportados para uma variedade de formatos
usando o menu na janela de gráficos.
Aqui você encontra informações sobre o que o programa espera como entrada quando você clica em qualquer
um dos botões de análise, quando o programa não está no modo 'Fixed K'. Para esse modo, consulte também
as informações fornecidas acima para o menu Ferramentas. Para cada módulo de análise existem arquivos de
exemplo disponíveis no site do BAPS para todos os formatos de dados suportados possíveis. Exemplos incluem
casos haplóides, diplóides e tetraplóides.
9
Machine Translated by Google
Na prática, a maneira mais fácil de executar o programa várias vezes com K diferente é fornecer um vetor
de valores quando o programa solicitar o número máximo de clusters. Por exemplo, se você deseja executar
a estimativa com K=5, K=10 e K=15, a entrada correta seria: '5 10 15' (sem ':s).
Dica! Você pode preencher quantos valores K desejar na janela de entrada, por exemplo, duzentos. O
campo de entrada simplesmente se desloca para a direita quando é preenchido. Assim, a entrada pode ser:
10 10 10 10 10 10 11 11 12 12 12 12 12 12 12 13 13 13 13 13 13 13 13 13 13 13 etc.
O que o programa faz para cada valor de K (mesmo as réplicas do mesmo valor) é encontrar as partições
ótimas com k ÿ K, ele as armazena internamente e, após o processamento de todos os valores de K, ele
mescla os resultados armazenados de acordo com os valores logml.
Mesmo que valores de k pequenos sejam considerados a priori possíveis, eles podem ter um ajuste
extremamente ruim em comparação com os valores maiores, caso em que são ignorados nos resultados.
Partir de diferentes valores K é importante também no sentido de que K afeta a atribuição inicial da
simulação e, portanto, a possibilidade de encontrar apenas um modo local é reduzida quando a simulação
é iniciada muitas vezes a partir de diferentes atribuições iniciais. Faz sentido até mesmo iniciar a simulação
muitas vezes com o mesmo K, já que o algoritmo de otimização é estocástico e pode, portanto, resultar em
soluções diferentes em execuções separadas. Se um vetor de valores K for fornecido, o BAPS escreverá
sua saída com base na melhor solução encontrada. É necessário algum cuidado com K, por exemplo, o uso
de K=200 para um conjunto de dados de 250 indivíduos não seria, em geral, uma estratégia sábia.
Veja também a opção 'dados pré-processados', que é muito útil se você deseja executar o programa muitas
vezes e possui um grande conjunto de dados cujo pré-processamento leva muito tempo.
Após a conclusão da análise de agrupamento de misturas, você deve salvar o arquivo de resultados para
usá-lo posteriormente para reproduzir gráficos e realizar análises de misturas. Se você usou clustering de
mistura em nível de grupo, o BAPS precisará saber quantas linhas de um indivíduo são apresentadas nos
dados. Isso será solicitado a você antes que o salvamento seja feito. É responsabilidade do usuário certificar-
se de que os dados originais realmente continham o número determinado de linhas por indivíduo.
Formato BAPS:
Os arquivos de dados formatados em BAPS devem ser arquivos de texto ASCII simples. O arquivo de
entrada contém uma matriz de dados onde as colunas são separadas por espaços em branco ou tabulações.
As colunas da matriz correspondem aos loci em que os indivíduos foram observados. As linhas da matriz
correspondem aos indivíduos. Há uma coluna adicional na extremidade direita da matriz que contém em
cada linha o índice do indivíduo cujos alelos são apresentados na linha. Pode haver mais de uma linha por
indivíduo. Por exemplo, se os indivíduos são diplóides, deve haver duas linhas por cada indivíduo
correspondendo a dois alelos que podem ser observados em cada locus.
Os alelos podem ser indexados com qualquer valor inteiro não negativo, assim, por exemplo, com
microssatélites, você pode usar diretamente os comprimentos de repetição ou alguma codificação alternativa
dos alelos. Os índices de indivíduos, no entanto, devem começar com 1 para o
10
Machine Translated by Google
primeiro indivíduo e terminar com o valor que corresponde ao número total de indivíduos. O alelo ausente
em algum locus é indicado por qualquer número inteiro negativo, por exemplo –999 ou -9 (estes são
amplamente usados).
Se as populações amostrais dos indivíduos forem conhecidas, você pode inseri-las fornecendo dois
arquivos adicionais: um contendo os nomes das populações, o outro contendo os índices dos primeiros
indivíduos de cada população amostral. Essas informações tornarão a saída numérica e gráfica mais fácil
de investigar.
Os arquivos de exemplo a seguir com 10 loci microssatélites e 5 indivíduos estão incluídos no pacote
ExamplesDataFormatting.zip disponível no site do BAPS. Os dois últimos arquivos fornecem exemplos
sobre as informações da população amostral, que podem ser usadas com o formato de dados BAPS. No
exemplo, existem 3 populações de amostra, de modo que os indivíduos 1-2 pertencem à população de
exemplo 1, indivíduos 3-4 à população de exemplo 2 e o indivíduo 5 à população de exemplo 3.
Formato GENEPOP:
Consulte http://wbiomed.curtin.edu.au/genepop/help_input.html para obter informações gerais sobre o
formato GENEPOP. Os dados devem obedecer rigorosamente às regras mencionadas na referida página
quanto à pontuação e espaços vazios. Caso contrário, o BAPS pode se comportar inesperadamente.
Você pode usar códigos de alelos de 2 e 3 dígitos, o BAPS investigará o formato dos dados e agirá de
acordo. No entanto, todos os códigos de alelos em um arquivo de dados devem ter o mesmo número de
dígitos. Observe que quando você usa dados que estão no formato GENEPOP, você sempre precisa
fornecer dois alelos para cada indivíduo em cada locus. Se você deseja agrupar indivíduos haplóides,
você deve marcar o outro alelo de cada indivíduo em cada locus como ausente (00 ou 000). O BAPS usa
os rótulos dos primeiros indivíduos das populações como nomes para as populações.
NB! Não comece os rótulos da população amostral com a palavra 'pop', pois ela será interpretada
erroneamente como o separador da população amostral.
Dados pré-processados:
Antes que o ajuste do modelo possa começar, todos os dados devem ser pré-processados pelo BAPS.
Para grandes conjuntos de dados, o pré-processamento pode levar muito tempo, por exemplo, mais de
meia hora. Se você deseja analisar esses dados muitas vezes a partir de diferentes atribuições iniciais,
economiza algum tempo para salvar os dados após pré-processá-los uma vez. Da próxima vez, em vez
de começar do arquivo de dados original, comece com o arquivo pré-processado que você salvou
anteriormente.
NB! Dados pré-processados dentro de algum módulo de análise de mistura (qualquer um dos 6 botões)
devem ser usados SOMENTE dentro do mesmo módulo! Por exemplo, se um arquivo de dados pré-
processado em 'Agrupamento de indivíduos' for usado para 'Agrupamento de grupos de indivíduos', o
BAPS poderá produzir uma mensagem de erro ou a análise poderá produzir resultados errôneos, mesmo
que nenhum erro seja exibido no log -janela.
11
Machine Translated by Google
Formato BAPS:
O arquivo de dados é muito semelhante ao arquivo de dados usado no agrupamento de indivíduos, a
única diferença é que em vez de especificar o indivíduo, a última coluna contém o índice do grupo que
é a origem dos alelos na linha específica .
Os arquivos de exemplo a seguir com 10 loci microssatélites e 5 indivíduos estão incluídos no pacote
ExamplesDataFormatting.zip disponível no site do BAPS. O conteúdo desses arquivos é igual ao
fornecido para 'Agrupamento de indivíduos', exceto que a última coluna agora indica de qual população
de amostra uma determinada linha de dados é obtida. O último arquivo contém os nomes dos grupos
de amostra.
Assim, no exemplo, há novamente 3 populações de amostra, de modo que os indivíduos 1-2 pertencem
à população de exemplo 1, os indivíduos 3-4 à população de exemplo 2 e o indivíduo 5 à população de
exemplo 3. Observe que nenhum arquivo de índice é necessário para isso tipo de análise.
Formato GENEPOP:
Veja o formato GENEPOP acima no agrupamento de indivíduos. As populações nos dados definem os
grupos a serem agrupados.
Dados pré-processados:
Em vez de iniciar a partir do arquivo de dados de clustering em nível de grupo original, você pode
começar com o arquivo pré-processado que salvou depois de pré-processar os dados originais.
NB! Você não deve usar aqui arquivos pré-processados em 'Agrupamento de indivíduos'.
Agrupamento treinado
Para fazer o agrupamento de indivíduos treinados você deve fornecer dois arquivos de dados: um
contendo os indivíduos de referência cujas origens são conhecidas, o outro contendo as unidades
amostrais (indivíduos ou grupos de indivíduos) que você deseja agrupar. Ambos os arquivos devem
estar no formato GENEPOP (consulte o formato GENEPOP em Clustering of Individuals acima).
Indivíduos em uma população (separados por uma palavra 'pop') no arquivo de dados de referência
correspondem a indivíduos de uma única origem. No outro arquivo a palavra pop separa as unidades
amostrais. Assim, se você deseja agrupar indivíduos desconhecidos um por um, você deve escrever a
palavra 'pop' acima de cada linha que especifica um indivíduo no arquivo de dados da unidade amostral.
Em ambos os arquivos de dados, todos os indivíduos devem receber nomes. Esses nomes serão
necessários para o programa quando a saída for escrita.
Se houver alguma informação auxiliar disponível, que permita que ocorra um pré-agrupamento dos
dados amostrais em agrupamento treinado antes da análise da mistura, isso pode ser usado no BAPS
formatando o arquivo de dados amostrais GENEPOP de forma que os pré-grupos sejam separados por
a palavra 'pop'. Isso significa que o BAPS força sempre todos os indivíduos dentro de um único pré-
grupo a serem atribuídos à mesma população (uma linha de base ou uma nova população, dependendo
dos dados do marcador e dos valores de K usados como entrada para a análise). O uso desta estratégia
é discutido em Corander et al. (2006). Um exemplo de dados de amostra pré-agrupados em quatro
grupos está contido no arquivo a seguir, onde as informações moleculares são as mesmas do arquivo
de dados de amostra de exemplo acima:
A lógica por trás do uso do pré-agrupamento (ou 'unidades de amostragem') é que, se houver alguma
informação biologicamente relevante disponível que nos diga que alguns indivíduos devem ter a mesma
origem, ainda que desconhecida, então, ao agrupá-los, podemos para aumentar o poder estatístico para
detectar a origem correta. A disponibilidade de tais informações é muito dependente da espécie, e sua
confiabilidade deve ser determinada pelo usuário caso a caso.
Agrupamento espacial
A entrada para os módulos de agrupamento espacial é exatamente a mesma que nos casos acima de
'Agrupamento de indivíduos' e 'Agrupamento de grupos de indivíduos', exceto para os valores de
coordenadas que precisam ser fornecidos em um arquivo separado. O arquivo de coordenadas deve
ser ASCII simples com tantas linhas quantos forem os indivíduos ('Agrupamento espacial de indivíduos')
ou grupos ('Agrupamento espacial de grupos') no conjunto de dados moleculares. Se as coordenadas
estiverem faltando para um indivíduo ou um grupo, isso deve ser indicado por uma linha correspondente
no arquivo de coordenadas contendo dois zeros consecutivos. As colunas no arquivo de coordenadas
devem sempre ser separadas por tabulação.
Observe que os valores de coordenadas negativas também são aceitáveis, mas os zeros são reservados
para os casos com coordenadas ausentes. O arquivo de exemplo a seguir (incluído em
ExampleDataFormatting.zip disponível no site do BAPS) contém coordenadas para 10 casos, de modo
que os valores de coordenadas para o último caso sejam desconhecidos:
Conforme explicado em Corander et al. (2008a), a lógica do uso de informações espaciais é atribuir uma
distribuição prévia não uniforme biologicamente relevante sobre o espaço de soluções de agrupamento,
o que espera que os agrupamentos subjacentes sejam espacialmente suaves pelo menos até certo
ponto. Isso aumenta o poder de detectar corretamente a estrutura populacional subjacente e pode ser
usado para investigar a estrutura populacional também visualmente. Quando os dados moleculares são
muito extensos, espera-se que os modelos de agrupamento espacial e não espacial produzam resultados
altamente semelhantes.
13
Machine Translated by Google
Aqui o raciocínio da análise é o mesmo que para a análise de mistura genética usando marcadores não
ligados, exceto que o modelo Bayesiano usado leva em conta as dependências presentes entre os
“loci” (loci marcador ou sítios dentro de sequências alinhadas). As saídas deste módulo de software
também podem ser usadas no módulo de mistura.
O BAPS reconhece automaticamente a partir do arquivo de resultados se o modelo de ligação ou o modelo
de loci independente foi usado na análise de mistura genética e escolhe o modelo de mistura apropriado
quando o arquivo de resultado é carregado em uma análise de mistura.
A opção mais simples para usar dados de sequência de DNA haploide é armazenar as sequências em um
arquivo Excel. As lacunas de sequência e os nucleotídeos ausentes devem ser indicados por um traço (-).
A primeira coluna deve ter o cabeçalho ST na primeira linha, após o que os indivíduos são rotulados por
números inteiros linearmente crescentes nas linhas consecutivas (de 1 a n com n indivíduos no conjunto
de dados). Cada gene será representado por uma coluna na planilha Excel, de modo que a primeira linha
contenha os rótulos dos genes. Assim, a célula na linha i na coluna j+1 deve conter os dados de sequência
para o indivíduo i para o gene j-ésimo.
O arquivo de exemplo a seguir contém dados para 6 indivíduos com mais de 3 genes.
A 2ª opção para leitura em dados de sequência do tipo MLST é usar uma formatação semelhante à
aplicada nos bancos de dados MLST, juntamente com arquivos separados em formatação rápida para
cada gene. Com este formato é conveniente executar várias análises diferentes com diferentes
subconjuntos de genes incluídos. São necessários dois tipos de arquivos: 1) arquivo de perfil semelhante
aos obtidos por consultas ao banco de dados MLST, 2) arquivos de sequência formatados em fasta para
cada gene.
O arquivo de exemplo a seguir contém o perfil de 4 amostras, que são sequenciadas para um total de 6
genes:
NB! O arquivo de perfil deve ser delimitado por tabulações, com igual número de tabulações entre as
colunas.
Um arquivo de exemplo para um dos genes no arquivo de perfil acima (recA) é o seguinte:
NB! O identificador de sequência, por exemplo >RecA-1, deve corresponder ao nome do gene
correspondente no perfil e ao rótulo do indivíduo (estes dois são separados por um traço).
14
Machine Translated by Google
Após carregar o arquivo de perfil no BAPS, o programa pergunta quais espécies devem ser incluídas
na análise. Ao clicar na opção Selecionar tudo, todas as linhas do conjunto de dados são incluídas.
Depois disso, o usuário tem a possibilidade de escolher um intervalo de isolados (todos ou um
subconjunto deles). Quando a seleção dos isolados estiver concluída (todos os isolados a serem
incluídos estão na janela do lado direito), clique em OK. Em seguida, aparece uma janela para
selecionar os genes para a análise. Para cada gene escolhido, o BAPS exige que o usuário insira um
arquivo Fasta correspondente contendo as sequências alinhadas para todos os isolados incluídos. Os
nucleotídeos ausentes na sequência são, por padrão, indicados pelo ponto de interrogação (“?”) e as
lacunas de sequência indicadas pelo símbolo de traço (“-“). No entanto, ambos os tipos de informações
incompletas serão decodificados da mesma forma depois que os dados forem carregados e, portanto,
não serão distinguíveis. Por conveniência, é possível usar qualquer um dos dois símbolos para denotar
quaisquer bases desconhecidas.
Após todos os dados terem sido fornecidos para o BAPS, ele inicia o pré-processamento dos
arquivos. Recomendamos que você salve os dados pré-processados respondendo Sim à pergunta,
pois isso economiza muito tempo em análises repetidas do mesmo conjunto de dados. O BAPS
solicitará ao usuário que especifique o modelo de ligação e, para dados do tipo sequência, será mais
relevante usar o modelo de ligação de códons. Depois que o modelo de ligação é especificado, o
BAPS pergunta se os dados totalmente pré-processados devem ser salvos (novamente, recomendamos
que o usuário faça isso). Essa questão é levantada porque o modelo de ligação escolhido afetará a
formatação interna dos dados dependendo da eventual presença de valores ausentes. Ao executar
análises repetidas com os mesmos dados, o usuário pode carregar o conjunto de dados totalmente pré-
processado usando a opção 'Pré-processado' ao clicar no botão 'Agrupar com loci vinculados'. A opção
final é escolher o limite superior anterior K inserindo normalmente um intervalo de valores na janela.
Para obter detalhes sobre isso, consulte a seção 'Inserindo o número máximo de populações, K' no
início deste manual.
Como opção alternativa aos dados formatados em MLST, é possível ler dados vinculados no formato
BAPS. Quando o formato de dados BAPS é usado, os dados de sequência devem ser formatados: (1)
como dados de marcadores haploides para os outros módulos de agrupamento (consulte as seções
anteriores deste manual), o que corresponde a uma única linha de dados por indivíduo, ou ( 2) como
dados de marcadores diplóides que são faseados dentro de cada gene considerado, que corresponde
a duas linhas de dados por indivíduo, ou (3) como dados de marcadores tetraplóides que são faseados
dentro de cada gene considerado, que corresponde a quatro linhas de dados por indivíduo.
NB! Observe que, em contraste com o formato MLST, você precisa no formato BAPS para concatenar
as sequências de todos os genes considerados em um único e informar ao programa sobre os limites
dos genes em um arquivo separado (veja abaixo).
Você pode usar um formato baseado em sequência direta (caracteres) ou um formato de entrada de
dados numéricos. O formato numérico é obtido substituindo cada um de A,C,G,T por um inteiro único e
substituindo os eventuais traços por um inteiro negativo, como '-9'.
Assim, essa formatação será exatamente a mesma usada para dados de marcadores não vinculados
formatados em BAPS (consulte as seções anteriores). Os arquivos de exemplo a seguir mostram como
os arquivos de dados formatados de sequência (caractere) BAPS devem se parecer:
Exemplo de um arquivo de sequência haploide formatado em BAPS para agrupamento com loci.txt vinculado
Exemplo de um arquivo de sequência diploide formatado em BAPS para agrupamento com loci.txt vinculado
Exemplo de um arquivo de sequência tetraplóide formatado em BAPS para agrupamento com loci.txt vinculado
15
Machine Translated by Google
NB! Observe que deve haver um espaço entre o último elemento da sequência concatenada e o
índice individual.
No formato BAPS também é necessário informar ao programa sobre os limites dos genes.
Isso é feito fornecendo um arquivo separado onde o número de linhas é igual ao número de genes.
Em cada linha, os inteiros referem-se às colunas da matriz de dados que correspondem aos sítios do
gene na sequência concatenada. Zeros adicionais são usados para preencher as linhas para ter um
número igual de colunas. Um exemplo de arquivo especificando os limites do gene para a sequência
concatenada de um comprimento total de 750 bases, de três genes (200 sítios no 1º gene, 250 sítios
no 2º gene e 300 sítios no 3º gene) é o seguinte:
Exemplo de um arquivo especificando os limites do gene para uma sequência concatenada no formato BAPS.txt
Finalmente, os dados de marcadores ligados (e faseados) devem ser formatados como os dados de
sequência no formato numérico BAPS, ou seja, de forma análoga aos marcadores não ligados. Os
loci que representam o mesmo grupo de ligação devem ser ordenados linearmente de acordo com o
exemplo anterior referente à representação de sequências em vários genes.
Assim, para dados de marcadores, cada “gene” no exemplo anterior deve ser substituído por um
grupo de ligação, e os outros aspectos da formatação são mantidos iguais. O arquivo "mapa de
ligação" deve ser formatado exatamente como o arquivo de exemplo acima para limites de genes, de
modo que um local de sequência seja substituído por um locus. A opção de modelagem apropriada
para dados de marcadores vinculados é normalmente o modelo de ligação 'linear' (para dados de
sequência, a opção 'códon' é recomendada).
NB! O formato de dados BAPS oferece também a opção de fazer agrupamento de grupos de indivíduos
no módulo 'Agrupamento com loci vinculados'. Isso pode ser feito substituindo os rótulos inteiros
individuais na última coluna da matriz de dados por rótulos inteiros das populações correspondentes.
O arquivo de entrada para análise de mistura nesta opção é o arquivo binário de resultado do
agrupamento de mistura (salvo pelo usuário no final de qualquer módulo de análise de mistura).
NB! Observe que isso não é a mesma coisa que o arquivo de saída ASCII, onde os resumos de
resultados são escritos em um formato legível por editores de texto (Word, WordPad etc)!
Antes que a análise de mistura possa começar, você será solicitado a inserir o tamanho mínimo de
uma população que será levada em consideração quando a mistura for estimada.
O BAPS removerá então os indivíduos que pertencem a um cluster cujo tamanho é menor que o
número fornecido. Os indivíduos discrepantes removidos são exibidos na tela.
No BAPS 5, você também será perguntado o seguinte: 1) o número de iterações que são usadas para
estimar os coeficientes de mistura para os indivíduos, 2) o número de indivíduos de referência de
cada população, 3) o número de iterações que são usadas estimar os coeficientes de mistura para os
indivíduos de referência. Estes três
16
Machine Translated by Google
coisas afetam a precisão da estimativa. A primeira entrada determina o número de vezes que
os indivíduos nos dados são analisados usando diferentes frequências alélicas simuladas.
Quanto maior essa entrada, melhor a incerteza nas frequências alélicas é levada em
consideração. Um bom valor seria, por exemplo, 100. Para conjuntos de dados realmente
extensos, valores mais baixos podem ser usados de acordo com o tempo disponível para a
análise. A segunda e a terceira entrada são necessárias na simulação e estimativa de
indivíduos de referência. Esses indivíduos são usados para estimar o nível de mistura espúria
que pode ser atribuído à variação molecular na população estimada na análise de mistura
genética (ver Corander e Martinen 2006). Um bom valor para o número de indivíduos de
referência de uma população seria, por exemplo, 200.
Como a precisão dos coeficientes de mistura para os indivíduos de referência não é de grande
importância, o número de iterações usado para analisar esses indivíduos pode ser muito menor
do que o que foi usado na análise dos indivíduos nos dados.
Valores razoáveis seriam, por exemplo, algo entre 5 e 20. Geralmente, é uma boa ideia testar
primeiro com pequenas entradas para ver quanto tempo a análise leva e depois fazer uma
nova análise usando valores mais altos.
Se o usuário tiver uma boa idéia de como os indivíduos devem ser agrupados, por exemplo,
com dados de espécies puras e híbridas, a análise de mistura pode ser feita com base em
uma partição de indivíduos fornecida pelo usuário. Neste módulo há novamente duas
alternativas para fornecer a entrada para o programa: os formatos BAPS e GENEPOP. Se
você usar o formato BAPS, os arquivos de entrada são exatamente semelhantes aos usados
no agrupamento de indivíduos. No entanto, você também precisa fornecer um arquivo adicional
que contenha a partição dos indivíduos. O arquivo de partição contém tantas linhas quantos
os indivíduos nos dados. Em cada linha há um índice que identifica o cluster ao qual o indivíduo
pertence. Os índices dos clusters devem variar de 1 ao número total de clusters. O arquivo
abaixo contém uma partição de exemplo para um conjunto de dados com 10 indivíduos (eles
podem ser de qualquer nível de ploidia) que são atribuídos a priori em 3 populações.
Exemplo de um arquivo de partição para análise de mistura com base em populações.txt especificadas pelo usuário
NB! Também é possível estimar a mistura de indivíduos com relação a diferentes origens,
mesmo que a colocação desses indivíduos em diferentes agrupamentos não seja conhecida
e, portanto, eles não contribuem para as frequências alélicas de nenhuma população em
particular. Como exemplo, suponha que você tenha dois grupos de indivíduos de duas origens
diferentes e um terceiro grupo de indivíduos suspeitos de serem misturados entre duas origens
conhecidas (por exemplo, híbridos). Agora você deseja conhecer as proporções de mistura
dos indivíduos do terceiro grupo. Para fazer este tipo de análise no formato BAPS você só
precisa marcar o cluster (no arquivo de partição) daqueles indivíduos que não estão pré-
atribuídos a nenhum cluster como -1. No formato GENEPOP a análise é igualmente fácil.
Você apenas adiciona uma população extra no final do arquivo de dados que especifica os
indivíduos que não foram pré-atribuídos aos clusters. Antes de iniciar a análise, o programa
perguntará se a última população no arquivo de dados será usada para definir mais um cluster
em relação a quais proporções de mistura serão estimadas, ou se a
17
Machine Translated by Google
última população consiste em indivíduos que não contribuem para as frequências alélicas de
nenhum cluster.
NB! Para que esse tipo de análise de mistura seja razoável, você deve ter certeza de que as
populações especificadas pelo usuário realmente são geneticamente distintas, pelo menos até
certo ponto.
Sobre os resultados
Alguns gráficos são produzidos automaticamente pelo BAPS após a conclusão de uma análise.
No entanto, para acessar todas as opções gráficas, o usuário pode carregar um arquivo de
resultados no menu Arquivo-Carregar resultado, após o que várias opções ficarão disponíveis
no menu Gráfico, dependendo do tipo de arquivo carregado.
Partição de mistura
A saída gráfica do agrupamento de mistura é uma partição colorida das unidades agrupadas
(veja a imagem de exemplo abaixo), que é produzida automaticamente quando há no máximo
30 agrupamentos. Esta saída também está disponível no menu Figuras como a opção View
Partition –. Cada cluster recebe uma cor exclusiva no gráfico, mas a ordenação das cores é
arbitrária, portanto, não é possível comparar cores entre análises. Cada “unidade amostral” (um
indivíduo ou um grupo) que foi agrupado, é representado por uma barra vertical com a cor
correspondente ao agrupamento onde foi colocado. A largura das barras depende de quantas
delas precisam ser desenhadas. Se os nomes das populações amostradas foram fornecidos ao
programa (consulte a seção de formato de entrada), eles são impressos abaixo das barras
coloridas para indicar as origens das amostras. Os nomes aparecem na mesma ordem dos
dados e são impressos no meio do conjunto de barras que representam a população de amostra
específica. Na imagem do resultado do 'Agrupamento treinado' os indivíduos estão em tal ordem
que primeiro (da esquerda) vêm os indivíduos de referência com origens conhecidas e depois
deles vêm todos os outros indivíduos.
Partição de mistura
a ordenação é arbitrária entre as análises. Observe que aqui cada barra vertical colorida corresponde
necessariamente a um indivíduo, na mesma ordem dos dados originais fornecidos pelo usuário. As
barras verticais são divididas em várias cores quando há evidência da mistura, de modo que cada cor
corresponde a uma fonte ancestral (um cluster), e a proporção de uma determinada cor na barra vertical
corresponde à proporção do genoma estimado para ser representado por essa fonte. A imagem abaixo
fornece um exemplo de partição de mistura. Uma ferramenta gráfica para otimizar os gráficos de mistura
para clareza visual está incluída no software.
NB! Os gráficos de mistura exibidos por padrão após a estimativa mostram as estimativas posteriores
para todos os casos, independentemente dos valores p simulados. Os gráficos de mistura também
contêm a possibilidade de mostrar apenas estimativas de mistura significativas usando um limite
especificado pelo usuário para os valores-p (Use o primeiro resultado de carregamento de arquivo-
resultado de mistura para carregar o arquivo de resultado para BAPS e, em seguida, Gráfico - Visualize
o resultado de mistura e defina o limiar do valor p de acordo com suas preferências).
As tesselações de Voronoi são produzidas pelo módulo de agrupamento espacial quando há no máximo
30 agrupamentos nos dados (também acessível através do menu Gráfico com ou sem rótulos de dados).
Uma célula da tesselação corresponde à vizinhança física de um ponto de dados observado e é colorida
de acordo com a associação do cluster. Uma representação gráfica 3D da incerteza local posterior na
tesselação estimada está disponível no menu Gráfico como 'Incerteza local'. Esses gráficos são
considerados em detalhes em Corander et al. (2008a). Exemplos são fornecidos pelas imagens abaixo.
19
Machine Translated by Google
A função 'Changes of log likehood' no menu Graph pode ser usada para fazer uma
investigação baseada em modelo das 'formas genéticas' das populações estimadas
(clusters). Nesta ferramenta é possível escolher um cluster 'fonte' (um único cluster ou
vários) e então especificar um conjunto de clusters 'alvo', de modo que o BAPS calcule as
mudanças na probabilidade log marginal de ocorrência do modelo de cluster de mistura
usado quando um indivíduo é realocado do cluster de origem para um cluster de destino.
Esses valores são calculados para todos os indivíduos dos agrupamentos escolhidos e
estão relacionados às afinidades genéticas entre os agrupamentos. Além disso, a
composição genética de um cluster (ou seja, a população subjacente estimada) afetará a
forma da distribuição dos valores. Para fornecer pistas visualmente interpretáveis para
investigar como as populações se relacionam entre si de acordo com o modelo de mistura
e quão heterogênea uma população é a esse respeito, o BAPS estima curvas de densidade
não paramétricas a partir do conjunto obtido de mudanças de probabilidade marginal logarítmica.
20
Machine Translated by Google
A função Plot Gene Flow no menu Graph estima e desenha uma rede de clusters onde o
fluxo gênico é indicado por setas ponderadas, de modo que os pesos sejam iguais a
quantidades médias relativas de ancestralidade no cluster de origem entre os indivíduos
atribuídos ao cluster de destino. Esta função torna-se acessível, quando um arquivo de
resultado de uma análise de mistura é carregado através do menu Arquivo.
Para utilizar esta função, é necessário instalar o pacote GraphViz que é chamado pelo
BAPS para desenhar os gráficos. GraphViz pode ser baixado deste site: www.graphviz.org.
Ao escolher a função Plot Gene Flow –, o BAPS solicitará primeiro ao usuário que
especifique um limite para a significância dos valores p das estimativas de mistura. A
opção padrão é 0,05, que provavelmente será satisfatória para a maioria das análises.
Depois disso, o BAPS abre uma caixa de diálogo onde é fornecida a pasta que contém o
programa GraphViz (dot.exe). Em uma instalação típica do Windows, esse caminho é
\Program Files\ATT\GraphViz\bin. O BAPS produz agora uma janela gráfica, onde é
desenhada a rede de fluxo gênico estimado.
21
Machine Translated by Google
Gráficos de mutação:
A função 'Mutation plot' no menu Graph oferece a possibilidade de fazer para qualquer
indivíduo uma triagem de alelos que mostrem evidências conclusivas de uma ancestralidade
desviante. Esta função torna-se acessível quando um arquivo de resultado de agrupamento
de mistura é carregado por meio de Arquivo – Carregar resultado. A função abre primeiro
uma caixa de diálogo, onde deve ser dado o índice do indivíduo e um limiar de 'significação'.
O limite padrão é 2,3 (em uma escala logarítmica), que corresponde a um fator Bayes de pelo
menos 10 em favor de uma ancestralidade que se desvia da população (ou seja, cluster) à
qual o indivíduo foi atribuído na análise de mistura genética. Esses gráficos são considerados
em detalhes em Corander et al. (2008b).
Uma imagem de exemplo é mostrada abaixo, onde dois painéis são mostrados se os dados
forem diplóides, de modo que o painel inferior corresponda ao primeiro alelo e o painel
superior ao segundo alelo em cada locus. Os loci são mostrados na ordem em que estão no
arquivo de dados original. Uma barra colorida é mostrada para os loci com evidência maior
que o limiar para a hipótese de que o alelo em questão tem sua ascendência em outro lugar
que não na população (ou seja, cluster) ao qual o indivíduo foi atribuído na análise de mistura
genética. Os segmentos coloridos na barra correspondem às probabilidades posteriores de
cada possível origem ancestral do alelo sob uma distribuição anterior uniforme. Por exemplo,
se um indivíduo foi atribuído a um cluster azul na análise de mistura genética e a barra colorida
é totalmente verde, corresponde ao caso em que o
22
Machine Translated by Google
O fator de Bayes mostra para este alelo em particular uma evidência contundente para a
ancestralidade na população verde.
Ao especificar o arquivo de saída BAPS via Arquivo – Arquivo de saída, os resultados da triagem
de alelos são gravados no arquivo (eles também são mostrados na janela de log). Os resultados
para a imagem de exemplo são os seguintes:
16 1 3(3,1763) 5(2,767)
48 1 2(2,4618) 5(2,3355)
167 1 2(3,3364)
200 1 1(2.669)
231 1 5(2,3993)
51 2 3(4,0413)
As origens alternativas de um alelo são mostradas como índices de agrupamento, com a força da
evidência (fator log Bayes) entre parênteses. Por exemplo, no caso do exemplo, o fator log Bayes
é ~4,04 em favor da origem ancestral na população 3 para o segundo alelo no locus 51, que
corresponde à barra quase inteiramente azul no painel superior da imagem abaixo.
23
Machine Translated by Google
NB! É possível converter facilmente a tabela de log das mudanças de probabilidade marginal em
probabilidades posteriores condicionais para cada indivíduo. Isso pode ser feito transformando
cada elemento, digamos xic, em uma linha particular i de acordo com a fórmula: yic = exp(xic)/
[ÿc=1,…,k exp(xic)], onde ÿc=1,…, k refere-se à soma das k colunas na tabela (os k clusters
estimados). O valor yic refere-se à probabilidade condicional posterior de atribuir o indivíduo i ao
cluster c de acordo com os dados.
Uma lista de tamanhos das dez partições mais visitadas com seus valores de log(ml) é exibida.
Esses valores podem ser usados para estimar o número "correto" de clusters. Também é fornecida
uma probabilidade posterior para o número de clusters. Essa probabilidade é baseada no log(ml):s
das partições que foram visitadas durante a execução atual. A probabilidade deve ser apenas uma
estimativa aproximada. Para obter uma imagem melhor das probabilidades de diferentes números
de clusters, você deve executar o programa várias vezes fornecendo um vetor de valores para K
no início (consulte: Inserindo o número máximo de populações, K). Então a probabilidade seria
calculada com base nas melhores partições que foram visitadas durante todas as execuções.
Além disso, a opção de usar o modo 'Fixed K' é útil quando há muita incerteza em relação ao
número de clusters, pois você pode explorar facilmente uma faixa de diferentes valores K fixos e
os valores log(ml) associados.
Melhor partição:
Grupo 1: {7, 8, 31, 32, 33}
Grupo 2: {1, 2, 3, 6, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19,
20, 24, 25, 26, 27, 28, 29, 30, 34, 35, 36}
Grupo 3: {4, 5}
Grupo 4: {37, 38, 39}
Grupo 5: {21, 22, 23}
Grupo 6: {40, 41, 42}
1 2 0,311
3 0,419 0,516 4
0,543 0,632 0,355 5 0,598
0,683 0,394 0,505 6 0,710 1,021
0,667 0,677 0,807
Um exemplo do arquivo de resultado para análise de mistura realizada pelo BAPS 5 é dado abaixo.
Foram encontrados 5 clusters pelo algoritmo de agrupamento. O número na coluna i após o rótulo de
ID individual é a estimativa média posterior Bayesiana da proporção do genoma representado pelo
cluster i. Aqui, o primeiro indivíduo estimou coeficientes de mistura 0,05, 0,87 e 0,08 para o 1º, 3º e
4º agrupamentos. A coluna final fornece o valor p para o indivíduo. Este valor informa a proporção de
indivíduos de referência simulados da população em que o indivíduo foi originalmente agrupado
tendo o coeficiente de mistura ao agrupamento menor ou igual ao indivíduo. Por exemplo, o valor-p
para o primeiro indivíduo no exemplo é 0,43, o que significa que 43% dos indivíduos de referência
simulados da população 3 (a população na qual o indivíduo 1 foi agrupado pela primeira vez) tiveram
coeficiente de mistura para a população 3 menor ou igual para 0,87. Indivíduos com valor de p maior
que 0,05 são, por padrão, considerados como tendo evidência “não significativa” para a mistura. Aqui,
o indivíduo 1 não tem mistura “significativa”, enquanto os indivíduos 31, 561 e 562 têm mistura
“significativa”. Se um usuário deseja aplicar um limite de “significância” mais rigoroso, pode-se
simplesmente usar um limite mais baixo para os valores na coluna final.
25
Machine Translated by Google
NB! Lembre-se que quando os gráficos de mistura são desenhados por padrão, eles exibem todas as estimativas
posteriores dos coeficientes de mistura, independentemente do valor p. Conforme explicado na seção Gráficos
deste manual, os gráficos podem ser redesenhados através do menu Gráfico usando um limite (padrão 0,05), de
modo que os indivíduos com um valor p maior que o limite sejam mostrados com uma barra de cor única no
imagem (ou seja, nenhuma evidência para a mistura).
Instalação
O BAPS está atualmente disponível para os sistemas operacionais Windows 2000/XP/Vista, Mac OS X e Linux.
Também estamos desenvolvendo um sistema baseado em uma arquitetura de computação paralela com uma GUI
baseada em www.
Referências
26
Machine Translated by Google
Corander, J., Sirén, J. e Arjas, E. (2008a). Modelagem espacial bayesiana da estrutura genética
populacional. Estatísticas Computacionais, 23, 111-129.
Kass R, Raftery AE (1995) Fatores de Bayes. J Amer Stat Assoc 90: 773-795.
27