Os ácidos clorogênicos (CGAs) são compostos químicos importantes de Coffea spp. para a qualidade da bebida, pois eles interferem na adstringência e podem alterar o aroma e sabor da bebida. Aproximadamente 310.000 ESTs de Coffea estão disponíveis e possibilitam o acesso à variabilidade nucleotídica da planta e o desenvolvimento de marcadores moleculares ligados à qualidade da bebida para as principais enzimas da via de biossíntese dos CGAs: PAL, C4H, 4CL, CQT e C3’H. Neste trabalho foram detectados polimorfismos dos tipos SNP, INDEL ou SSR dentro das sequências nucleotídidicas disponíveis no Protejo Genoma Café e no NCBI. As sequências de ESTs de CGAs foram clusterizadas pelo programa Codon Code Aligner, assim como a detecção de polimorfismos e validação dos mesmos (qualidade de cromatograma). Foram identificadas seis isoformas para PAL, uma para C4H, seis para 4CL, duas para CQT e duas para C3’H. Os contigs formados apresentaram um total de 248 polimorfismos (236 SNPs e 12 INDELs), sendo 201 na região codante (127 não sinônimos e 74 sinônimos). A frequência dos polimorfismos foi maior nas regiões UTRs (1pol/54pb), em relação à codante (1pol/81pb). A análise das sequências de C. arabica permitiu a identificação de 2 subgrupos diferentes de sequências, referentes aos seus genomas ancestrais (C. canephora e C. eugenioides). Foi observada a presença de 67,4% dos polimorfismos entre os grupos ancestrais e 32,6% dentro dos grupos em C. arabica. Esses resultados vêm permitindo definir genes tanto para estudos de expressão de homeólogos de CGAs como para o desenvolvimento de marcadores moleculares para o mapeamento genético.
Chlorogenic acids (CGAs) are important chemical compounds of Coffea spp. related to beverage quality as they affect its astringency and can change its aroma and flavor. About 310,000 Coffea Expressed Sequence Tags (ESTs) are available and provide access to the nucleotide variability of the plant and to the development of molecular markers linked to beverage quality for the main enzymes involved in biosynthesis of the CGAs: PAL, C4H, 4CL, CQT and C3’H. In this study we identified SNP, INDELS and SSR polymorphisms within the nucleotide sequences available from the Brazilian Coffee Genome database and from the NCBI. The EST sequences for CGAs were trimmed and clustered by the program Codon Code Aligner, and polymorphisms and their validation detected (chromatogram quality). We identified six isoforms for PAL, one for C4H, six for 4CL, two for CQT and two for C3’H. The contigs formed exhibited a total of 248 polymorphisms (236 SNPs and 12 INDELs), with 201 in the coding region (127 non-synonymous and 74 synonymous). The frequency of polymorphisms was greater in the UTR regions (1pol/54pb) in relation to the coding region (1pol/81pb). The analysis of C. arabica sequences allowed identification of two different subgroups of sequences, related to their ancestral genomes (C. canephora and C. eugenioides). The presence of 67,4% of the polymorphisms between the ancestral groups and 32,6% within the groups were observed em C. arabica . The characterization of nucleotide diversity on those genes is essential for further studies on differential expression of their homeologs, as well as the use of CGAs as molecular markers related to genetic mapping.