SBICafé
Biblioteca do Café

Computational intelligence and statistical learning applied to Coffea canephora

Show simple item record

dc.contributor.advisor Nascimento, Moysés
dc.contributor.advisor Sant’anna, Isabela de Castro
dc.contributor.advisor Cruz, Cosme Damião
dc.contributor.advisor Azevedo, Camila Ferreira
dc.contributor.advisor Nascimento, Ana Carolina Campana
dc.contributor.author Sousa, Ithalo Coelho de
dc.date.accessioned 2024-07-08T22:56:12Z
dc.date.available 2024-07-08T22:56:12Z
dc.date.issued 2022-05-02
dc.identifier.citation SOUSA, Ithalo Coelho de. Computational intelligence and statistical learning applied to Coffea canephora. 2022. 58 f. Tese (Doutorado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa - MG. 2022. pt_BR
dc.identifier.uri http://www.sbicafe.ufv.br/handle/123456789/14428
dc.description Tese de Doutorado defendida na Universidade Federal de Viçosa. pt_BR
dc.description.abstract Genomic prediction in Coffee breeding has shown good potential in predictive ability (PA), genetic gains and reduction of the selection cycle time. Many methodologies are used to predict the genetic merit, but some of them require priori assumptions that may increase the complexity of the model. Artificial neural network (ANN) has advantage to not require priori assumptions about the relationships between inputs and the output allowing great flexibility to handle different types of complex non-additive effects, such as dominance and epistasis. Despite this advantage, the biological interpretability of ANNs is still limited. In the elaboration of this research project, two basic questions were formulated. The first question, is it possible to estimate genetic parameters using ANNs? The second, is it possible to reduce the panel marker size with no penalty in predictive ability? For this, the analyzes were divided into two articles. In the first article, the aim was to estimate the heritability and markers effects for two traits in Coffea canephora using an additive-dominance architecture ANN and to compare it with genomic best linear unbiased prediction (GBLUP). In the second article, the aim was to evaluate the trade-off between density marker panels size and the PA for eight agronomic traits in Coffea canephora using machine learning (bagging and random forest) algorithms and comparing them with BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator) method. For both article, the data set consisted of 165 genotypes of Coffea canephora genotyped for 14,387 snp markers, after quality control analysis. For the first article the phenotypic data used was rust (Rus) and yield (Y). For the second article the phenotypic data is composed by vegetative vigor (Vig), rust (Rus) and cercosporiose incidence (Cer), fruit maturation time (Mat), fruit size (FS), plant height (PH), diameter of the canopy projection (DC) and yield (Y). In the first article we reduced the dimensionality of the data using bagging decision tree and then run 64,000 neural networks for each trait selecting the best architecture based on predictive ability for estimating the heritability, obtained results compatibles with those in literature. In the second article, 12 different density market panels were used to evaluate the effect of dimensionality reduction in PA. The common trend observed in the analysis shows an increase of the PA as the number of markers decreases, having a peak in most of the cases when used between 500 and 1,000 markers. In general, the worst results were obtained when used the full SNP panel density. The results of the second article indicate that the reduction of the number of markers can improve the selection of individuals at a lower cost. Computational Intelligence methods prove to be powerful tools for predicting genetic values, to estimate genetic parameters and to select markers. Keywords: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability. pt_BR
dc.description.abstract A predição genômica no melhoramento de café tem mostrado um grande potencial na capacidade preditiva (CP), da predição dos valores genômicos, ganhos genéticos e redução no tempo do ciclo de seleção. Várias metodologias são utilizadas para predizer o mérito genético dos indivíduos, porém algumas metodologias necessitam da informação a priori de efeitos de dominância e epistático, uma vez que seus efeitos devem ser inseridos no modelo utilizado. Redes Neurais Artificias (RNA) possuem a vantagem de não precisar inserir a priori os efeitos de dominância e epistático, permitindo lidar com diferentes tipos de efeitos não aditivos, sem a necessidade de saber a prior se tais efeitos existem ou não na população estudada. Apesar desta vantagem, a capacidade de estimar parâmetros genéricos através das RNA ainda são limitadas. No presente projeto de pesquisa, duas questões foram formuladas. A primeira questão se trata da possibilidade de estimar parâmetros genéticos utilizando RNA e a segunda questão da possibilidade em reduzir a densidade de painéis de marcadores sem que haja redução na CP. Para responder estas perguntas, foi desenvolvido dois artigos. No primeiro artigo, o objetivo foi estimar a herdabilidade e os efeitos dos marcadores por meio de RNA para duas características morfológicas de interesse agronômico de café canéfora (produção e resistência à ferrugem) com arquitetura genética aditiva-dominante e comparar com os resultados obtidos por meio do Genomic Best Linear Unbiased Prediction (GBLUP). No segundo artigo, o objetivo foi avaliar o equilíbrio entre a densidade dos painéis de marcadores utilizada e a CP obtida para oito características agronômicas de café canéfora utilizando algoritmos de Machine Learning (bagging e Random Forest). Os dados forma comparados com os resultados obtidos pela metodologia BLASSO (Bayesian Least Absolute Shrinkage and Selection Operator). O conjunto de dados, utilizado em ambos artigos, consiste em 165 plantas de café da espécie Coffea canephora (café canéfora) genotipados com 14.387 marcadores SNP (Single Nucleotide Polymorphisms), após o controle de qualidade. No primeiro artigo, as duas características fenotípicas avaliadas foram, resistência à ferrugem e produtividade. No segundo artigo, os dados fenotípicos consistem em vigor vegetativo, resistência à ferrugem, incidência de cercosporiose, tempo de maturação do fruto, tamanho do fruto, altura da planta, diâmetro da projeção da copa e produção. No primeiro artigo, a dimensionalidade dos dados foi reduzida utilizando o bagging e em seguida avaliou-se 64.000 redes neurais para cada característica. Foi selecionada a RNA que obteve a maior CP para, para através das informações obtidas por esta RNA se estimar a herdabilidade, obtendo resultados compatíveis com os encontrados na literatura. No segundo artigo, foram utilizados 12 densidade de painéis de marcadores diferentes para avaliar a relação entre a densidade do painel de marcador e a CP. É observado que à medida que o número de marcadores aumenta dentro de um intervalo de 25 até 500/1000 marcadores, a CP também aumenta, no entanto acima dessa quantidade de marcadores, quanto maior for o número de marcadores utilizados menor é a CP obtida. No geral, a CP possui menores valores quando utilizado todos os marcadores. Os resultados indicam que a redução da densidade até um certo nível no painel de marcadores pode melhorar a seleção de indivíduos com um menor custo. Diante do exposto, os métodos de computational intelligence provam ser ferramentas poderosas para predição de valores genéticos, estimação de parâmetros genéticos e seleção de marcadores. Palavras-chave: GBLUP. BLASSO. BAGGING. Random forest. GEBV. Marker effect. Heritability. pt_BR
dc.format 58 folhas pt_BR
dc.language.iso en pt_BR
dc.publisher Universidade Federal de Viçosa pt_BR
dc.subject Marcadores genéticos - Métodos estatísticos pt_BR
dc.subject Aprendizado do computador pt_BR
dc.subject Redes neurais (Computação) pt_BR
dc.subject.classification Cafeicultura::Genética e melhoramento pt_BR
dc.title Computational intelligence and statistical learning applied to Coffea canephora pt_BR
dc.title.alternative Inteligência computacional e aprendizado estatístico aplicados ao Coffea canephora pt_BR
dc.type Tese pt_BR

Files in this item

Files Size Format View Description
texto completo.pdf 1.715Mb application/pdf View/Open ou Pre-visualizar Texto completo

This item appears in the following Collection(s)

  • UFV - Teses [265]
    Universidade Federal de Viçosa - Teses

Show simple item record

Search DSpace


Sobre o SBICafé

Browse

My Account