UniGene

From Opengenome.net

NCBI에서 개발한 유니진(UniGene)에서는 EST와 다른 mRNA 서열 및 유전체 DNA에 기능해석을 단 코딩 서열들(CDS)을
관련 서열의 하위 세트로 분류해 놓았다(Boguski & Schuler, 1995). 대부분의 경우 각 클러스터는 하나의 유전자에
의해 얻어진 서열로 구성되는데, 이 클러스터는 대체접합에 의해 생성된 전사체를 포함하고 있다. 그러나 어떤
유전자들은 두 개 이상의 클러스터에 의해 나타내어질 수도 있을 것이다. 이 클러스터들은 생물체에 따라 다르고 
최근에는 인간, 마우스, 랫, 힌줄까만송사리와 젖소에 대해서도 만들어져 있다. 이 자료들은 특별한 서열비교 
알고리즘에 근거한 자동화 과정을 사용하여 몇 단계에 걸쳐 만들어져 있다. 이 자료들은 특별한 서열비교 알고리즘에
근거한 자동화 과정을 사용하여 몇 단계에 걸쳐 만들어진다. 첫째, 염기 서열 내부에 미토콘드리아, 리보솜, 벡터 서열,
반복 요소, 낮은 복잡성 서열 등의 오염이 없는지 조사한다. 이렇게 선별검사가 끝난 서열은 적어도 100개의 염기를
포함하고 있어야 유니진으로 등록될 수 있다. mRNA와 유전체 DNA들은 먼저 유전자 링크로 클러스터된다. 두번째
서열 비교작업에 의해 EST들은 서로 연결되고 유전자 링크에도 연결된다. 이 단계에서 모든 클러스터들은 모아지고,
polyA 를 가진 하나의 서열을 포함하거나 클론의 3'말단으로부터 유래한다고 표시된 두 개의 EST를 포함하게 된다. 
마지막으로 연결이 안된 EST들과 크기 1의 유전자 클러스터들은 낮은 엄중도에서 다른 유니진 클러스터들과 비교한다.
유니진은 매주 갱신 되므로 클러스터를 구성하는 서열들도 바뀔 수 있다.