제주대학교 Repository

Analysis of Korean Native Pig Genome Using Full-Length Enriched cDNA Libraries

Metadata Downloads
Abstract
기능 유전체학 분야에서 full-length cDNA는 genome의 정확한 해석 및 유전자의 구조와 기능 분석을 위하여 필수적이다. 한국재래돼지의 11가지의 각기 다른 조직(대뇌의 신피질, 소뇌, 비장, 간장, 신장, 폐, 뇌간, 정소, 눈, 정자, 근육)으로부터 3가지의 다른 실험 방법(SMART, modified oligo-capping, cap-trapping)을 통하여 15개의 full-length enriched cDNA library가 성공적으로 제작되었다.
제작된 library의 특성과 유용성을 시험해보기 위해 SMART 방법과 modified oligo-capping 방법을 이용하여 제작된 비장, 신피질, 뇌간, 간장의 full-length enriched cDNA library로부터 생성된 총 3,390개 (3,210개의 5' sequence와 180개의 3' sequence)의 sequence가 단일염기다형성(SNP)과 전사시작위치(Transcriptional Start Site) 확인을 위하여 분석되었다. 뇌간, 간장, 비장, 신피질 library의 경우, 제한효소 처리 후 확인한 클론들의 평균 insert 길이는 각각 2 Kb, 1.8 Kb, 1.1 Kb, 1.1 Kb였다. 이들 library의 plaque forming unit 또는 colony forming unit은 평균적으로 1x 10^(6)을 나타내었다. 비장, 뇌간, 간장 library에서 가장 많이 발현된 유전자는 각각 β-globin, tubulin, albumin이었다. Full-length 클론들은 시작코돈을 포함하고 있으며, 비장, 신피질, 뇌간, 간장 library에서 full-length 클론이 차지하는 비율은 각각 60%, 40%, 80%, 70%로 추정되었다. 대뇌의 신피질과 간장 library에서 210개의 클론들을 임의적으로 선택하여 3' end 부분을 sequencing 하였을 때, 모든 클론들이 poly-A tail을 포함하고 있었다. 네 종류의 library에서 100개의 클론을 BLAST 분석하였을 때, 93%의 sequence (E value < 10^(-100))가 돼지나 다른 종과 일치되었다. 본 연구에서 제작된 library는 full-length 클론들을 생성하기 위해 제작되었으므로 85%의 클론이 현재 NCBI EST에 등록된 sequence보다 더 긴 5' end를 포함하는 sequence를 가지고 있으며, 돼지 유전자의 5' UTR 지역을 분석하는데 매우 유용함을 나타낸다.
In silico 분석 방법에 의한 SNP 분석을 위하여 Genbank trace file archive에서 50,000개의 돼지 EST(Expressed Sequence Tag) 크로마토그램을 검색하였고 본 연구에서 생성된 3,210개의 5' EST sequence와 병합하였다. Phred quality value가 30 이상인 sequence들을 선택하여 Phrap sequence assembly 프로그램을 이용하여 assemble하였다. Assembly 과정에서 8,118개의 contig가 생성되었다. 49개의 contig는 각 contig 내에 최소 두 개의 한국재래돼지 sequence와 두 개의 EST sequence를 포함하였다. 이들 중 Phrap 분석 후 최소 하나의 candidate SNP를 포함하는 7개의 contig가 선택되었다. 집단 분석을 통한 확인 실험을 진행하기 위하여 8개의 candidate cSNP가 채택되었다. 한국재래돼지 sequence를 제거하였을 때 7개의 contig 중에서 3개의 contig만이 cSNP로 추정되었고, 이는 유전적 변이를 증대시키기 위하여 유전적 자원으로써 한국재래돼지의 중요성을 나타낸다. 돼지 유전자의 genomic sequence 정보는 불충분하므로 이들과 밀접하게 연관된 종(Homo sapiens, Bos taurus, Mus musculus, Canis familiaris)으로부터 7개의 유전좌위에서 exon-intron 구조에 근거하여 PCR 프라이머를 제작하였고, 4종류의 돼지 품종(듀록, 요크셔, 랜드레이스, 한국재래돼지)에서 각각 다른 5마리의 동물로부터 PCR 산물을 얻었다. 140개의 샘플을 direct sequencing하여 분석한 결과 in silico SNP detection으로부터 발굴된 7개의 SNP에서 6개의 SNP가 확인(86% 정확도)되었고, 614bp 당 하나의 SNP꼴로 나타났다.
6개의 확인된 SNP와 더불어 네 가지 품종으로 구성된 20마리의 돼지로부터의 sequence 분석을 통하여 in silico 과정에서 확인할 수 없었던 7개의 SNP를 추가로 더 발견하였다. 이들 13개의 확인된 SNP는 338bp 당 하나의 SNP꼴로 나타났다. 동종 염기 간 변환(transition)이 92%로 8%가 나타난 이종 염기 간 변환(transversion)보다 더 많이 나타났다. 4종류의 돼지 품종의 다형성 변이(polymorphic variation)를 분석함으로써 13개의 확인된 SNP에서 대립 유전자 빈도가 측정되었다. 고정된 대립 유전자의 빈도가 듀록과 한국재래돼지보다 요크셔와 랜드레이스에서 상당히 높게 나타났으며 이는 요크셔와 랜드레이스의 경우 이 지역에서 유전적 homozygosity가 더 높음을 의미한다. Hyaluronidase(NM_213953)에서 position 717과 730의 두 SNP는 네 가지의 모든 종에서 모두 보여 지며 매우 polymorphic한 SNP임을 나타낸다.
Vitronectin (D61396)의 SNP(536번 위치)는 한국재래돼지를 제외한 듀록과 요크셔, 랜드레이스에서 monomorphic 하였다. 이에 반하여 β-globin (AY610360)의 SNP 15의 경우 한국재래돼지에서만 monomorphic 하였다. 이 결과는 비록 제한된 개체(20마리)에서 대립 유전자 빈도가 측정되었으나, 한국재래돼지 집단 내에서 특이적인 유전적 다양성이 존재함을 의미한다.
Neuronal and endocrine protein (M23654)의 경우, 한국재래돼지의 아미노산 126번 위치에서 3개의 뉴클레오타이드 결실이 확인되었다. 이 결실은 encode된 단백질의 secretogranin 도메인의 아미노산 valine을 제거한다. 코돈의 alternative splicing 때문에 일어난 이 결실은 본 연구에서 처음으로 확인되었다. 본 연구는 한국재래돼지에 있어서 방대한 규모의 EST sequencing이 본래의 polymorphism을 바탕으로 한 high-resolution gene-function 연구에 효과적으로 응용될 수 있음을 나타낸다.
전사시작위치를 분석하기 위하여 4개의 full-length enriched cDNA library에서 3,390개의 EST sequence를 CAP3 프로그램을 이용하여 assembly하였고 420개의 contig를 얻었다. 4개의 포유종물 종(Homo sapiens, Bos Taurus, Mus musculus, Sus scrofa)에서 각각 최소 5개 이상의 전사시작위치가 알려진 유전자 sequence를 검색하였으며, 이 중 E-value > 100 인 141개의 contig가 선택되었고 이 contig들의 유전자 sequence가 분석되었다. 40개의 contig sequence가 기준을 충족하였고 4개의 각기 다른 포유동물 종들과 비교하여 전사시작위치를 분석하였다. 예비 연구로써 Human T-cell leukemia virus type-1 binding protein (Tax1BP3) (NM_014604), NDRG family member 3 (NM_032013), Serine incorporator 1 (NM_020755), Thiosulfate sulfurtransferase (NM_003312), Polyubiquitin (M18159)의 다섯 가지 유전자의 전사시작위치 분석을 진행하였다.
본 연구에서 제작된 full-length enriched cDNA library의 대다수의 sequence의 5' 말단이 5' end 쪽으로 확장되었음에도 불구하고, sequence의 수가 제한되어 각각의 유전자의 전사시작위치로 결정짓기는 불가능하였다. 그러므로 Genbank에서 수집된 4개의 다른 종에서 5번 이상 나타난 유전자의 full-length sequence를 본 연구에서 제작된 full-length sequence와 align하였다. Human T-cell leukemiavirus type I binding protein 3 (Tax1BP3)의 경우 10개의 Sus scrofa sequence, 20개의 Bos taurus sequence, 20개의 Mus musculus sequence와 같은 위치에서 전사가 시작한다. NDRG family member 3 (NDRG3) 와 serine incorporator 1 (SERINC1) 유전자는 20개의 Mus musculus sequence와 같은 위치에서 전사가 시작하고, polyubiquitin (UBC)는 15개의 Homo sapiens sequence와 같은 위치에서 전사가 시작한다. 4개의 종으로부터 선택된 5개의 유전자들의 염기서열 중에서 Mus musculus sequence가 5' end 방향쪽에 더 많은 variation을 가지고 있음을 보여준다. thiosulfate sulfurtransferase (TST) 유전자의 경우, 모든 종에서 5' end 방향 쪽으로 가장 많은 variation을 보였다. 예비 실험에서 Mus musculus의 총 5 유전자 중 두 유전자(TAX1BP3, NDRG3)가 분석되었는데, 이 sequence들은 다른 종들의 sequence와 비교해 볼 때 약간 더 긴 것으로 나타났다. Bos taurus sequence는 다른 종의 sequence와 비교해 보았을 때 세 유전자(TAX1BP3, NDRG3, UBC) 에서 더 짧은 것으로 나타났다. Homo sapiens 의 NDRG3의 경우 Homo sapiens의 다른 유전자 sequence와 비교하였을 때 조금 더 짧았으나 Bos taurus의 다른 유전자 sequence와 비교하였을 때 조금 더 긴 것으로 나타났다. Homo sapiens의 다섯 유전자들 중에서 이 유전자만이 짧게 나타났다. 기능적 분석을 위하여 transcription factor binding site와 promoter 길이의 차이에 의한 유전자 발현의 상이성 분석에 대한 구체적인 결과의 도출을 위해서는 더 많은 분석이 요구된다. 결론적으로 본 연구에서 제작된 library의 대규모 분석은 돼지의 유전체 분석과 주석달기 연구에 유용한 정보로 이용될 것이다.
Full-length cDNAs are essential for the correct annotation of genomic sequences and the analysis of the structure and function of the genes in functional genomics era. Fifteen full-length enriched cDNA libraries were successfully constructed from 11 different tissues (neocortex, cerebellum, spleen, liver, kidney, lung, brainstem, testis, eye, sperm, and muscle) of Korean native pig employing three different methodologies (SMART, Modified oligo-capping, Cap-trapping).
To test the quality and usefulness of these libraries, a total of 3390 sequences (3210 5' sequences and 180 3' sequences) generated from sequences of four full-length enriched cDNA libraries of spleen, neocortex, brainstem and liver constructed by SMART and modified oligo-capping methods were analyzed for SNP identification and characterization of Transcriptional Start Sites (TSS). Average length of insert in the clones evaluated by restriction analysis was 2 Kb, 1.8 Kb, 1.1 Kb and 1.1 Kb for the brainstem, liver, spleen and neocortex libraries respectively. The plaque forming unit or colony forming unit of these libraries was found to be 1x 10^(6) on an average. When the start codon containing clones were considered as full-length clones, the percentage of full-length clones from the spleen, neocortex, brainstem and liver libraries were estimated to be 60%, 40%, 80% and 70% respectively. 93% of sequences from the four libraries were matched with sequences of either pig or other species with E value < 10^(-100) based on evaluation of 100 clones. Eighty five percent of clones from the four libraries had longer 5' end sequences than currently available NCBI EST sequences, suggesting that these libraries are very useful for characterization of 5' UTR regions of porcine genes.
For SNP identification by in silico analysis, chromatograms of 50,000 pig Expressed sequence tags (ESTs) retrieved from the Genbank trace file archive were combined with 3210 5' EST sequences from four libraries. Sequences with Phred quality value higher than 30 were chosen and assembled using the Phrap sequence assembly program. The assembly process generated 8118 contigs. Forty nine contigs were consisted of both a minimum of two Korean native pig sequences and two public EST sequences within each contig. Among these, seven contigs containing a minimum of one putative SNP from Phrap analysis were selected. Finally eight putative cSNPs were chosen for confirmation through population analysis. Only three of seven contigs remained putative cSNPs when Korean native pig sequences were removed, indicating the importance of Korean native pigs as a genetic resource to increase genetic variation. To confirm the putative cSNPs, PCR primers were designed for the 7 loci based on exon-intron structures of closely related species (Homo sapiens, Bos Taurus, Mus musculus and Canis familiaris), since genomic sequence information of porcine genes is hardly available and PCR products were generated from five different animals each from four different pig breeds (Duroc, Yorkshire, Landrace, Korean native pig). All primers successfully amplified, producing specific bands. Analysis of direct sequencing result from 140 samples revealed the confirmation of 6 out of 7 SNPs identified (86 % accuracy) from in silico SNP detection which yielded 1 SNP per 614 bp.
In addition to 6 confirmed SNPs, we identified the presence of 7 additional SNPs which were unidentifiable from the in silico process through the sequence analysis using four breeds of 20 pigs. The SNP detection frequency from these 13 confirmed SNPs was 1 SNP per 338 bp. Allele frequencies were calculated for 13 confirmed SNPs by analyzing polymorphic variations from four pig breeds. The frequency of fixed alleles was significantly higher (6 of 13, 46.1%) in Yorkshire than Duroc, Landrace and Korean native pig breeds, indicating genetic homozygosity is higher in Yorkshire for these regions.
In the neuronal and endocrine protein (M23654), the three nucleotide deletion was identified from an allele of the gene of Korean native pigs at amino acid position 126. This deletion removes the amino acid Valine from the Secretogranin domain of the encoded protein. We confirmed that the deletion was caused by alternative splicing due to NAGNAG motif.
Our study showed that a large scale EST sequencing from the Korean native pig can be effectively employed for high-resolution gene-function studies based on natural polymorphisms.
For the characterization of TSS, 3390 EST sequences from four full-length enriched cDNA libraries were assembled by CAP3 which yielded 420 contigs. Of these, 141 contigs with E-value<100 were selected and the gene sequences of these contigs were analyzed for the presence of minimum 5 gene sequences in each of the 4 mammalian species (Homo sapiens, Bos Taurus, Mus musculus and Sus scrofa). 40 of the contig sequences satisfied the criteria and were analyzed for the presence of TSS in comparison with four different mammalian species. Transcriptional start site analysis was performed for 5 genes, human T-cell leukemia virus type-1 binding protein gene (Tax1BP3) (NM_014604), NDRG family member 3 (NM_032013), Serine incorporator 1 (NM_020755), Thiosulfate sulfur transferase (NM_003312) and Poly ubiquitin (M18159) as a pilot study and similarities and differences between species were analyzed.
The full-length sequence of single gene appearing more than 5 times from four different species was aligned with our full-length sequence and the similarities the differences in the transcription start site of four mammalian species were analyzed. Among the sequences for 5 genes from 4 species, Mus musculus sequences showed more variation while reaching the 5' end. All the species showed maximum variation towards the 5' end for thiosulfate sulfur transferase (TST) gene. Sequences in Mus musculus for two of the genes (TAX1BP3, NDRG3) from the total of five genes analyzed in this pilot study are slightly longer in comparison with sequences from other species. The Bos taurus sequences are shorter for 3 genes (TAX1BP3, NDRG3, UBC) in comparison with sequences from other species. The Homo sapiens sequences for NDRG3 is little shorter when compared with the Homo sapiens sequences from other genes but is slightly longer than that of Bos taurus for that gene in comparison with other sequences. This is the only gene among 5 genes where the Homo sapiens sequences are short. Further analysis is required in determining transcription factor binding sites for functional analysis and effects due to difference in promoter length.
In conclusion large scale analysis of our libraries will provide useful information for pig genome analysis and annotation.
Author(s)
Vijaya Ramu Dirisala
Issued Date
2007
Awarded Date
2007. 2
Type
Dissertation
URI
http://dcoll.jejunu.ac.kr/jsp/common/DcLoOrgPer.jsp?sItemId=000000003846
Affiliation
제주대학교 대학원
Department
대학원 동물자원과학과
Advisor
김규일
Table Of Contents
Summary = 1
Ⅰ. Literature Review = 5
1. Porcine Genomics = 5
2. Genome mapping in pigs = 8
3. Full-length enriched cDNA libraries = 12
References = 23
Ⅱ.Construction and Analysis of Full-Length Enriched cDNA Libraries for the Korean Native Pig = 35
1. Introduction = 35
2. Materials and methods = 35
3. Results = 44
4. Discussion = 46
References = 58
Ⅲ. Pig cSNP Discovery using Full-Length Enriched cDNA Libraries = 61
1. Introduction = 61
2. Materials and methods = 62
3. Results = 67
4. Discussion = 69
References = 76
Ⅳ. Transcriptional Start Sites Elucidation from Full Enriched cDNA sequences = 81
1. Introduction = 81
2. Materials and methods = 82
3. Results = 83
4. Discussion = 83
References = 87
Degree
Doctor
Publisher
제주대학교 대학원
Citation
Vijaya Ramu Dirisala. (2007). Analysis of Korean Native Pig Genome Using Full-Length Enriched cDNA Libraries
Appears in Collections:
Faculty of Biotechnology > Animal Biotechnology
공개 및 라이선스
  • 공개 구분공개
파일 목록

Items in Repository are protected by copyright, with all rights reserved, unless otherwise indicated.