미상의 단백질을 위한 방향성 그래프 기반의 단백질 패밀리 식별 알고리즘
An Algorithm for Identifying Protein Family based on Directed Graph for Unknown Proteins
- 주제(키워드) 도움말 Clustering , Algorithm , Protein Family , Sequence Similarity , Graph
- 발행기관 강릉원주대학교 일반대학원
- 지도교수 도움말 이강만
- 발행년도 2015
- 학위수여년월 2016. 2
- 학위명 석사
- 학과 및 전공 도움말 일반대학원 컴퓨터공학과
- 실제URI http://www.dcollection.net/handler/kangnung/000000008132
- 본문언어 한국어
초록/요약 도움말
최근 데이터 저장 능력의 기술적 발전과 시퀀스 분석 기술인 NGS (Next Generation Sequencer) 의 등장은 획득할 수 있는 유전체 정보량을 급속도로 증가시켰다. 증가된 유전체 정보는 유전자의 기능 및 구조 예측에 활용된다. 시퀀스 기능 분석은 전체 유전체 시퀀스에서 어느 부분이 실제 기능을 하는지 확인하는 연구이다. 시퀀스 유사성은 공통의 기능을 갖는 단백질을 분류하는 연구에 사용된다. 기존의 생물 연구자들은 시퀀스 유사성을 이용하여, 수동적 방법의 실험으로 단백질 기능을 조사하였다. 수동적 방법의 실험은 생물분야 전문가가 직접 손으로 실험을 진행하기 때문에 많은 시간이 소비된다. 연구시간 증가는 유전체 시퀀스 분석 비용 증가로 이어진다. 비용 증가의 문제점을 해결하기 위해서는 컴퓨터를 활용한 자동화된 유전체 시퀀스 분석 방법이 필요하다. 본 논문은 Protein family 분류에서 기존 연구 방법보다 개선된 새로운 클러스터링 알고리즘을 제안한다. 제안한 Pf_cluster 알고리즘은 Pfam-A 데이터베이스에서 수동적으로 분석이 완료된 단백질과 Protein family 정보를 학습한다. 학습된 정보는 미상의 단백질(Unknown Protein)의 Protein family를 분류하는 것에 활용된다.
more목차 도움말
1. 서론 1
1.1 연구배경 1
1.2 연구목적 5
2. 관련연구 7
2.1 Protein family 7
2.2 유전자 클러스터 9
2.2.1 시퀀스 유사성 10
2.2.2 클러스터링 방법론 비교 13
2.3 시퀀스 기능과 family 분석을 위한 클러스터링 17
2.4 유전자 발현 분석을 위한 클러스터링 18
3. Pf_cluster 방법론 20
3.1 데이터 셋 20
3.2 Protein family 분류를 위한 유전자 클러스터링 알고리즘 24
3.3 그래프 탐색 및 클러스터 구성 27
3.3.1 가중치 적용 30
3.3.2 레벨과 너비 제한 적용 32
3.3.3 시퀀스 유사성의 우열 적용 34
3.3.4 레벨과 너비 및 시퀀스 유사성 우열 적용 36
3.4 클러스터의 Protein family 분류 38
4. 실험 및 결과 40
4.1 실험 구성 40
4.2 실험 검증방법 42
4.3 실험 결과 및 분석 44
4.3.1 데이터 셋 크기에 따른 비교 47
4.3.2 입력 파라미터 변화에 따른 비교 49
4.3.3 클러스터링 결과값 비교 52
4.3.4 클러스터링 성능 분석 53
4.3.5 알고리즘 성능 비교 56
5. 결론 57
참고문헌 59
Abstract 63
감사의글 65

