118 215

Cited 0 times in

Identification of Subclass-Specific Biomarkers by Developing an Integrated Database of Breast Cancer

Other Title
유방암 통합데이터베이스 구축을 통한 하위분류별 바이오마커 동정
Authors
박, 인화
Degree
Master (2014)
Abstract
Breast cancer is one of the common diseases to Western female in times past but westernized life style leads to increased incidence of breast cancer in Asian female. Many risk factors like life style, family history and genetic factors can induce breast cancer. Microarray is widely used to measure the genetic factors of breast cancer. Microarray can analyze plenty of genes of multiple samples at once. Consequently many biomarkers that associated with breast cancer are introduced. Even though the results of microarray analysis are promising, the reusability of the results is not well studied yet.

Some of the institutes run the web sites that provide meta-analysis using publicmicroarray data to address this issue. The web sites provide the results of meta-analysis, which combine multiple results of individual data with similar hypothesis. They also provide some clinical information that can be utilized in analysis. However, the number of samples in the web sites is still limited. Moreover, they have a limit on providing sufficient clinical information which is necessary to efficient reuse of the microarray data for breast cancer research.

Therefore, the purpose of this study is to integrate various microarray data, restructure this data that can be reused for breast cancer research, and provide the results of meta-analysis using this data. For developing an integrated database, we first download the mRNA microarray data with their clinical information that related to breast cancer from three open repositories and develop a structurally well-organized database of breast cancer after in-depth curation of the downloaded data. Tables of the database are organized based on the GEO data explanation forms to build a structural database. After elaborate review about two clinical guidelines of breast cancer, we select variables that are clinically meaningful in order to provide detailed clinical information.

We next do meta-analysis with related variables to subclasses of breast cancer. For example, we selected ERBB2 status, which is one of the important markers in breast cancer, and “stage” information that classifies the cancer phase clinically. A Fisher’s p-value combined method is used for meta-analysis. Consequently we identified 52 and 54 differentially expressed genes (DEGs) regarding ERBB2 status and stage, respectively.

Network analysis of the DEGs was performed to check the relationship between the DEGs and other genes. And, gene ontology enrichment analysis is performed to identify the biological meanings of the DEGs. As a result, in case of ERBB2 positive class, TPRG1 that induces cancer was over expressed and tumor suppressor genes like MUCL1, CLCA2 and DLK1 were down expressed in ERBB2 negative class. In case of a high stage case, overexpression of cancer metastasis related genes including MMP12 and BCL2A1, CXCL5 are observed. On the other hand, FOS, which known as oncogenes, and TFF2, which is known to induce endocervicitis that closely associated to breast disease, are underexpreseed.

To check the classification accuracy of these genes, we use four classification methods including Linear Discriminant Analysis, Random Forest, K-Nearest Neighborhood, and Support Vector Machine. Among them the Random Forest showed the best performance in a 10-fold cross validation scheme.

In this study we developed a breast cancer specific database to identify DEGs for specific subclasses of breast cancer and tested the performance of these DEGs using several classification methods. For further study the experimental validation of these DEGs is needed and this database should be investigated for diverse breast cancer studies using the detailed clinical information, Moreover, diverse types of microarray data should be included in the database.

서양여성에게 흔히 나타나는 질병 중 하나였던 유방암이 서양화된 생활 습관에 따라 동양 여성에게서도 그 유병률이 높아지고 있다. 유방암의 발병에 영향을 끼치는 많은 요인들이 있는데 개인의 생활습관, 가족력, 유전적 요인들이 대표적이다. 그 중에서도 유전적 요인을 측정할 수 있는 실험적인 기법이 많이 있으며 한번에 많은 양의 시료를 검사할 수 있는 마이크로어레이 기법을 이용한 연구가 많이 이루어지고 있다. 그 결과로 유방암에 관련되어 있는 바이오마커들이 많이 알려져 있으며 이 분석 데이터들이 대규모의 공개 저장소에 저장되어 있으나 그 활용도가 떨어지고 있다. 이러한 한계를 줄이기 위해 일부 기관에서 공개된 데이터들을 이용하여 웹 기반의 메타분석을 제공하는 사이트를 만들어서 운영하고 있다. 비슷한 가설로 분석된 데이터를 모아 통합적으로 분석하는 메타분석을 제공하고 분석에 활용할 수 있는 여러 임상정보들을 제공하고 있으나 그 샘플 수에 한계가 있으며 유방암 특화적으로 만들어지지 않았다. 이에 공개되어 있는 유방암 관련 데이터를 효율적으로 활용할 수 있는 데이터베이스의 구축이 필요하다.

본 연구의 목적은 유방암에 관련된 mRNA 마이크로어레이 데이터들을 통합하여 유방암 연구에 사용될 수 있도록 재구조화 하며, 재구조화된 데이터들을 이용하여 메타분석이 가능하도록 하는 것이다. 데이터베이스 구축을 위해 세 개의 공개저장소에서 유방암관련 mRNA, 데이터와 그 임상정보들을 다운로드 받고 이를 자세히 검토 후 구조적으로 잘 정리하여 유방암 특화된 데이터베이스를 구축하였다. 구조적인 데이터베이스 구축을 위하여 GEO 데이터 설명형식을 바탕으로 테이블을 구성하였다. 시료의 자세한 임상정보를 제공하기 위해 두 기관에서 발행된 유방암 가이드라인에 따라 임상적으로 유의미한 변수를 선택하고 데이터들 간의 단위를 통일시켰다. 완성된 데이터베이스를 이용하여 시료정보에 포함되어있는 일부 변수를 하위분류로 선택하고 메타분석을 시행하였다. 하위분류로는 유방암에서 중요하다고 알려진 마커들 중 하나인 ERBB2 와 암의 단계를 분류하는 Stage를 선택하였다. 메타분석으로는 Fisher’s p-value combined 방법을 사용하였다. 그 결과 각각 52 개, 54 개의 차등발현유전자를 발견할 수 있었다.

이 차등발현유전자들과 다른 유전자들간의 상호작용을 확인하기 위한 네트워크분석을 시행하였고 이 유전자들의 생물학적 의미를 파악하기 위해서 gene ontology enrichment 분석을 시행하였다. 그 결과 ERBB2 DEGs 의 경우 Positive 군에서 암 유발유전자 TPRG1 가 과발현 되어 있었으며 Negative 군에서는 MUCL1, CLCA2, DLK1 과 같은 암 억제유전자의 발현량이 낮은 것을 확인할 수 있었다. Stage DEGs 의 경우 High 군에서 암 전이유발 유전자인 MMP12 와 암 유발과 연관되어 있는 BCL2A1, CXCL5 유전자들이 과발현 되어

있으며 Low 군에서는 발암유전자로 알려진 FOS 유전자와 유방암과 밀접한 연관이 있는 자궁암을 유발하는 TFF2 유전자의 발현량이 낮은 것을 확인하였다.

또한 이 차등발현유전자들의 하위분류 예측력을 확인하기 위해 Linear Discriminant Analysis, Random Forest, K-Nearest Neighborhood, Support Vector Machine 과 같은 네 가지 Classification 기법을 이용하여 이 유전자들의 분류성능을 평가하였다. 그 결과 Random Forest 기법에서 교차 타당화를 10 배로 시행한 것이 가장 성능이 좋은 것을 확인할 수 있었다.

본 연구에서는 위와 같은 방법으로 유방암에 특화된 데이터베이스를 구축하였으며 이를 이용하여 특정 하위분류의 차등발현유전자를 동정하고 각 유전자들이 하위분류를 잘 예측할 수 있는지 여러 방법을 통하여 확인하였다. 이 차등발현유전자에 대한 실험적인 검증이 추가로 필요하겠으나, 본 데이터베이스가 여러 임상변수들과 유전자발현정보 모두를 이용한 다양한 유방암 연구에 활용할 수 있으며 그 연구의 결과로 동정된 유전자들을 다양한 분자수준에서 검증하여 그 신뢰성을 높일 수 있을 것으로 예상된다.
Keywords
Breast cancerIntegrated databaseMicroarrayMeta-analysisSubclass of breast cancerDifferentially expressed genesClassification유방암통합 데이터베이스마이크로어레이메타분석유방암 하위분류차등발현유전자분류법
Appears in Collections:
Theses > Graduate School of Biomedical Sciences > Master
AJOU Authors
박, 인화
Full Text Link
Files in This Item:
16474.pdfDownload
Export
RIS (EndNote)
XLS (Excel)
XML

qrcode

해당 아이템을 이메일로 공유하기 원하시면 인증을 거치시기 바랍니다.

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

Browse