Bioinformatics Toolbox

 

Bioinformatics Toolbox

유전체 및 단백체 데이터를 읽고 분석하며 시각화합니다.

시작하기:

차세대 염기서열 분석

Bioinformatics Toolbox는 차세대 염기서열 분석을 위한 알고리즘과 시각화 기법을 제공합니다. 이 툴박스를 이용하면 염기쌍 수준의 해상도로 계산을 수행하면서 유전체 전체를 분석할 수 있습니다. NGS 브라우저를 이용하면 단일 말단 또는 쌍 말단 단편서열을 이용하여 단편서열 정렬을 시각화하고 조사할 수 있습니다. 다음 예제에 나타나 있듯이 사용자 지정 분석 루틴을 구축할 수도 있습니다.

단편서열 데이터의 저장 및 관리

차세대 염기서열 분석에 사용된 데이터 세트는 너무 커서 물리적 메모리에 담을 수 없는 경우가 많습니다. Bioinformatics Toolbox는 유전체 전체를 분석할 수 있는 특수한 데이터 컨테이너를 제공합니다.

BioIndexedFile 객체를 이용하면 염기서열, 주석, 데이터 세트에 대한 상호 참조 등 불균일한 크기의 항목들을 포함하는 텍스트 파일의 내용에 접근할 수 있습니다. 테이블, 플랫 파일 또는 SAM, FASTA, FASTQ 등의 응용프로그램 특정 형식에서 이런 객체를 생성할 수 있습니다.

BioMap 클래스는 염기서열 헤더, 서열 염기서열, 품질 점수, 정렬에 관한 데이터, 단일 참조 염기서열에 대한 매핑 등 단편서열에서 나온 정보를 저장합니다. 객체 속성과 메서드를 이용하여 BioMap 객체에 담긴 데이터를 탐색, 접근, 선별, 편집할 수 있습니다.

미세배열 데이터의 분석 및 시각화

앱 및 함수를 사용하여 다양한 데이터 형식으로 된 이미지를 획득, 시각화, 분석 및 처리할 수 있습니다.

미세배열 정규화

Lowess, 전역 평균, 중앙값 절대편차(MAD), 분위수 정규화 등 다양한 방법을 이용하여 미세배열 데이터를 정규화할 수 있습니다. 이러한 방법을 미세배열 칩 전체 또는 특정한 영역 또는 블록에 적용할 수 있습니다. 필터링 함수와 대체 함수를 이용하면 분석 및 시각화 루틴을 실행하기 전에 원시 데이터를 정리할 수 있습니다.

데이터 분석 및 시각화

Bioinformatics Toolbox를 이용하면 배경 조정을 수행하고, RMA(Robust Multi-Array Average)와 GCRMA(GC Robust Multi-Array Average) 절차를 이용하여 Affymetrix® 미세배열 프로브 수준 데이터로부터 유전자(프로브 세트) 발현 값을 계산할 수 있습니다. 원형 이진 분할(circular binary segmentation)을 적용하여 CGH 데이터를 정렬하고, 미세배열 실험에서 나온 유전자 발현 데이터에 대한 여러 가설검정의 오발견률을 추정할 수 있습니다. 여러 Affymetrix CEL 파일에 대한 프로브 강도에 대해, 또는 두 가지 다른 실험 조건에서 나온 유전자 발현 값에 대해 순위 불변 세트 정규화를 수행할 수도 있습니다.

미세배열 데이터를 시각화하는 데 사용되는 특수한 루틴에는 볼케이노 플롯, 상자 플롯, 로그로그 플롯, I-R 플롯, 미세배열의 공간 히트맵 등이 있습니다. G-분염 패턴으로 이디오그램을 시각화할 수도 있습니다.

Statistics and Machine Learning Toolbox의 루틴을 이용하여 결과를 분류하고 계층적 군집화 및 K-평균 군집화를 수행하며, 미세배열 데이터를 최적 리프 순서를 갖는 2차원 클러스터그램, 히트맵, 주성분 플롯, 분류 트리 등의 통계적 시각화를 통해 표현할 수 있습니다.

#

유의도 대비 유전자 발현 비율을 표시하는 미세배열 데이터의 볼케이노 플롯

질량 분석 데이터 분석

Bioinformatics Toolbox는 질량 분석 데이터 분석에 활용할 수 있는 함수들을 제공합니다. 이러한 함수들을 통해 SELDI, MALDI, LC/MS, GC/MS 데이터에 대해 전처리 및 분류하고 생물지표를 식별할 수 있습니다. 전처리 함수에는 기준선 조정, 평활화, 보정, 재추출 등이 있습니다. M/Z 축을 이용하여 원시 스펙트럼 데이터를 정렬하고 LC/MS, GC/MS 데이터에 대해 체류시간 정렬을 수행할 수 있습니다. 여러 개의 스펙트럼을 동시에 그릴 수 있습니다.

스펙트럼을 평활화, 정렬, 정규화하고, 이어서 분류 및 통계 학습 도구를 이용하여 분류기를 만들고 잠재적인 생물지표를 식별할 수 있습니다.

#

Bioinformatics Toolbox를 이용한 레이블 없는 단백체 및 대사체 분석

그래프 이론, 통계 학습 및 유전자 온톨로지

그래프 이론 및 시각화

Bioinformatics Toolbox를 이용하면 기본 그래프 이론을 희소 행렬에 적용할 수 있습니다. 상호작용 지도, 계층 구조 플롯, 경로 등 그래프를 생성, 관찰, 편집할 수 있습니다. 그래프에서 최단 경로를 파악 및 관찰하고, 유방향 그래프에서 순환이 있는지 시험하고, 두 그래프 사이의 동형사상 관계를 발견할 수 있습니다.

통계 학습 및 시각화

Bioinformatics Toolbox는 다음과 같은  Statistics and Machine Learning Toolbox의 분류 및 통계 학습 알고리즘을 이용합니다.

  • 서포트 벡터 머신(SVM) 및 k-최근접이웃 분류기
  • 교차 검증 실험을 설정하고 다양한 분류 방법의 성능을 측정하는 함수
  • 특징 선택, 매핑, 계층 구조 플롯 및 경로 표시를 위한 대화형 도구
통계 학습과 시각화

통계 학습 및 시각화

유전자 온톨로지

Bioinformatics Toolbox를 이용하면 MATLAB에서 유전자 온톨로지 데이터베이스에 액세스하고, 유전자 온톨로지 주석 파일을 구문 분석하며 선조, 후손 또는 친족 등 온톨로지의 부분 집합을 얻을 수 있습니다.

염기서열 분석

Bioinformatics Toolbox는 유전체 및 단백체 염기서열 데이터에 대한 염기서열 분석과 시각화 도구를 제공합니다. 다양한  염기서열을 정렬하고, 계통수를 구축하고 대화형 방식으로 보고, 편집하는 등 다양한 방식으로 분석할 수 있습니다.

염기서열 정렬

이 툴박스는 쌍단위 염기서열, 염기서열 프로파일, 다중 서열 정렬 등 염기서열 분석을 위한 함수, 객체, 메서드를 제공합니다. 여기에는 다음이 포함됩니다.

  • Needleman-Wunsch, Smith-Waterman, 프로파일 은닉 마르코프 모델 알고리즘 등 국소 및 전역 염기서열 정렬을 위한 MATLAB 표준 알고리즘 구현
  • 점진적 다중 서열 정렬
  • 정렬 결과 행렬의 시각적 표현
  • PAM, BLOSUM 행렬군 등의 표준 측정 행렬
  • 공통 서열 계산 및 서열 로고 표시

갤러리 탐색(이미지 3개)

염기서열 유틸리티와 통계학

Bioinformatics Toolbox를 이용하면 염기서열을 편집하고 분석하여 데이터를 더욱 깊이 있게 이해할 수 있습니다. 다음을 수행할 수 있습니다.

  • 유전 암호를 이용하여 DNA나 RNA 염기서열을 아미노산 서열로 변환
  • 염기서열에 대한 통계 분석 수행 및 염기서열 내 특정 패턴 검색
  • 제한 효소와 단백질 분해효소를 적용하여 염기서열에 대한 인 실리코 소화 수행 또는 시험 사례를 위한 임의의 염기서열 생성
  • RNA 염기서열의 최소 자유 에너지 2차 구조 예측

염기서열 시각화

Bioinformatics Toolbox를 이용하여 염기서열과 정렬을 시각화할 수 있습니다. GenBank 특징이 주석으로 달린 선형 또는 원형 염기서열 지도를 볼 수 있습니다. RNA 염기서열의 2차 구조를 시각화할 수 있습니다. 대화형 뷰어를 이용하여 쌍단위 및 다중 서열 정렬을 탐색하고 수정할 수 있습니다.

계통수 분석

Bioinformatics Toolbox를 이용하여 계통수를 만들고 편집할 수 있습니다. Jukes-Cantor, p 거리, 정렬 점수 또는 사용자 정의 거리법 등의 다양한 유사성 행렬을 이용하여, 정렬되거나 정렬되지 않은 뉴클레오타이드 또는 아미노산 염기서열 사이의 쌍단위 거리를 계산할 수 있습니다. 근린 결합, 단일 연결 및 완전 연결, 비가중 쌍별 평균 결합법(UPGMA) 등 다양한 기법의 계층 구조 연결을 이용하여 계통수를 구축합니다.

이 툴박스를 이용하여 계통수에 가중치를 부여하고, 뿌리를 재결정하고, 서브트리를 계산하고, 계통수의 표준 형식을 계산할 수 있습니다. 계통수 뷰어를 이용하면 가지치기, 순서 변경 및 이름 변경이 가능합니다. 또한 거리를 탐색하고 Newick 형식 파일을 읽거나 쓸 수 있습니다. MATLAB의 주석 도구를 이용하여 발표에 사용할 수 있는 수준의 계통수를 만들 수도 있습니다.

단백질 특징 분석

Bioinformatics Toolbox는 원자 조성, 등전점, 분자 질량 등 펩타이드 염기서열의 속성을 계산하는 루틴 등 단백질 염기서열 분석 기법을 제공합니다. 단백질 염기서열의 아미노산 조성을 파악하고, 효소로 단백질을 쪼개고, PDB 데이터에 대한 뼈대 플롯 및 라마찬드란 플롯을 만들 수 있습니다. Sequence Tool을 이용하면 아미노산 염기서열의 물성을 관찰할 수 있고 Molecule Viewer를 이용하여 3차원 분자 구조를 표시하고 편집할 수 있습니다.

데이터 가져오기 및 응용프로그램 배포

파일 형식 및 데이터베이스 액세스

생물학 데이터의 표준 파일 형식, 온라인 데이터베이스, 웹사이트 등에 액세스할 수 있습니다. Bioinformatics Toolbox으로 다음과 같은 작업이 가능합니다.

  • FASTA, PDB, SCF 등 표준 파일 형식에서 염기서열 데이터 읽기
  • Affymetrix DAT, EXP, CEL, CHP, CDF 파일, ImaGene® 결과 형식 데이터, Agilent® Feature Extraction Software 파일, GenePix® GPR 및 GAL 파일 등의 파일 형식에서 미세배열 데이터 읽기
  • GenBank, EMBL, NCBI BLAST, PDB 등의 온라인 데이터베이스에서 데이터 읽기
  • 단일 명령으로 NCBI Gene Expression Omnibus 웹사이트에서 직접 데이터 가져오기
  • NCBI 이디오그램 또는 UCSC 사이토밴드 텍스트 파일에서 세포유전학 분염 정보 읽기
  • MZXML 및 JCAMP-DX 파일에서 질량 분석 데이터 읽기

알고리즘 공유 및 응용 프로그램 배포

MATLAB 은 사용자의 데이터 분석 프로그램을 사용자 지정 소프트웨어 응용프로그램으로 변환할 수 있는 도구를 제공합니다. 이러한 도구에는 사용자 인터페이스, 비주얼 통합 개발 환경, 프로파일러 구축을 위한 개발 도구 등이 있습니다. MATLAB 응용 프로그램 배포 제품을 이용하면 사용자의 MATLAB 알고리즘을 기존의 C, C++, Java™ 응용 프로그램과 통합하고, 개발된 알고리즘과 사용자 지정 인터페이스를 독립된 응용 프로그램으로서 배포하며, MATLAB 알고리즘을 모든 COM 기반 응용프로그램에서 액세스할 수 있는 Microsoft® .NET 또는 COM 구성요소로 변환하고 Microsoft Excel® 애드인을 생성할 수 있습니다.

MATLAB을 BioPerl, SOAP기반 웹 서비스, COM 플러그인 등 널리 사용되는 생물정보학 도구와 통합할 수 있습니다.

알고리즘 공유 및 응용 프로그램 배포

알고리즘 공유 및 응용 프로그램 배포