Cited 0 times in
Network-based analysis of human disease using the national health insurance service database
DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 윤, 덕용 | - |
dc.contributor.author | 정, 유진 | - |
dc.date.accessioned | 2019-12-24T06:28:51Z | - |
dc.date.available | 2019-12-24T06:28:51Z | - |
dc.date.issued | 2019 | - |
dc.identifier.uri | http://repository.ajou.ac.kr/handle/201003/17868 | - |
dc.description.abstract | As the size and diversity of medical big data increases in hospitals and public institutions, many researchers have actively conducted studies regarding them. In particular, the National Health Insurance Corporation (NHIC) provides support to help the research activity in medical sector by providing sample cohort databases. For decades, there have been lots of different disease networks constructed by using biological data such as genetic, genomic and proteomic databases, but there are few cases of establishing disease networks based on clinical data. In addition, the incompleteness of database and the exclusion of considering important risk factors for network construction introduce various limitations. Therefore, in this study, the sample cohort database provided by National Health Insurance Corporation was utilized and the diagnosis network was constructed with the correction of the risk factors that are important cause of disease. Moreover, the structural characteristics of the disease network and the centralities of diseases were analyzed to provide information on the diagnosis patterns and the importance of disease on the network. We defined the connectivity between diseases based on the assumption that the preceding disease is one of the risk factors for disease onset. The sex, age, and the date of diagnosis were corrected through exact matching and Fisher's exact test was performed to check the significance of connectivities. Communities were detected based on the Infomap algorithm and 5 centralities were calculated to analyze the role of the diseases. As a result, we constructed the network consisting of 839 diseases and 2,757 connections. The diseases that have been found to be the cause or result of various diseases ,such as epilepsy and agranulocytosis, had many connectivity on the network and the mental and behavioral disorders which are known to be mutually influential were connected to each other in the network. Disseminated intravascular coagulation was at high rank of all centralities and the highest at combined centrality. As a result of community detection, four representative communities which containing at least 30 diseases were detected, and each representative community was composed of disease pattern based on the claim data analysis rather than clustered by the factors such as KCD-6, sex, and age. By establishing the diagnosis network based on the claims data, we could reaffirm not only the known disease-disease relationships but also the disease characteristics by providing various patterns of diseases. | - |
dc.description.abstract | 현재 주요 병원 및 공공기관에서 의료 빅데이터의 규모와 다양성이 증가함에 따라 많은 연구자들이 빅 데이터 기반 의학 연구를 활발히 진행하고 있다. 오랜 기간 동안 유전자 데이터 및 단백질 데이터와 같은 생물학 기반 빅 데이터를 활용한 질병 네트워크 구축은 많았지만 임상 데이터 기반으로 질병 네트워크 구축을 한 사례는 적다. 뿐만 아니라 임상 데이터 기반으로 네트워크를 구축했더라도 데이터의 불완전성, 국내 환자에 대입하기 힘든 해외 데이터, 네트워크 구축 시 중요한 위험 인자 배제 등 여러 가지 한계점이 존재했다. 그래서 본 연구에서는 국민건강보험공단에서 제공하는 표본연구 데이터베이스를 활용하고 질병 발병에 중요한 원인이 되는 위험 인자들을 보정하여 국내 맞춤의 신뢰성 있는 질병 네트워크를 제공하고 더 나아가 질병 네트워크의 구조적 특징을 분석하여 질병의 패턴 및 중요성 정보를 제시하고자 한다. 선행질병이 후행질병 발병의 위험 인자로써 영향을 준다는 전제하에 국민건강보험공단 표본연구 데이터베이스의 2002년부터 2013년까지의 환자들의 발병 순차 데이터를 활용하여 질병간의 연결성을 분석하였다. 많은 질병의 발병 위험 인자인 성별, 나이 그리고 방문 시기를 정확 매칭을 통해 보정하고 피셔의 정확성 검정을 통해 유의성 검정을 거쳤다. 네트워크의 구조적 특징 및 질병의 역할을 분석하기 위해 커뮤니티 탐지와 중심성 계산을 진행하였다. 그 결과, 839개 질병과 2,757개의 연결성으로 이루어진 질병 네트워크를 구축하였다. 뇌전증, 무과립구증과 같이 여러 질병의 발병의 원인 또는 결과가 되는 것으로 밝혀진 질병들이 네트워크 상에서 많은 연결성을 가지고 있었으며 서로 영향을 많이 주는 것으로 알려진 정신 및 행동 장애 질병들 경우 네트워크 상에서도 서로 많이 연결된 것을 확인할 수 있었다. 5개의 중심성을 계산한 결과 파종성 혈관내응고가 모든 중심성에서 상위에 위치해있었고 통합 중심성에서도 가장 높은 것으로 나왔다. 커뮤니티 탐지 결과 4개의 대표 커뮤니티들을 발견할 수 있었고 각 대표 커뮤니티들은 질병 분류, 성별, 나이와 같은 요인들로 군집화 된 것이 아니라 보험 청구 데이터 분석에서 나온 질병 패턴 기반으로 구성된 것을 확인할 수 있었다. 국민건강보험공단 표본연구 데이터베이스 기반으로 질병 네트워크를 구축함으로써 기존 알려진 질병간의 연결성 또는 질병의 특성을 재확인하고 더 나아가 질병의 군집화 및 패턴을 다각도로 제공함으로써 임상의에게 진단에 대한 도움을 줄 도구로써 활용될 것으로 기대된다. | - |
dc.description.tableofcontents | I. 서 론 1
A. 연구의 배경 및 필요성 1 1. 네트워크 과학 1 2. 네트워크 의학 3 (A) 유전자 네트워크 3 (B) 단백질 네트워크 4 (C) 임상 네트워크 5 B. 연구의 목적 6 II. 연구대상 및 방법 7 A. 분석 대상 데이터 7 B. 한국표준질병사인분류 기반 질병 정의 9 C. 질병-질병 연결성 10 1. 질병간의 연결성 정의 및 빈도 10 2. 위험 인자 보정 11 3. 질병간의 연결성 유의성 검정 12 D. 질병 네트워크 구축 14 E. 질병 중심성 분석 15 1. 연결 중심성 15 2. 고유벡터 중심성 16 3. 근접 중심성 17 4. 매개 중심성 18 5. 통합 중심성 19 F. 질병 네트워크 커뮤니티 탐지 20 G. 프로그래밍 언어 22 III. 결과 23 A. 국민건강보험공단 표본연구 데이터베이스 분석 23 B. 질병 네트워크 27 C. 기존 진단 네트워크와 비교 33 D. 질병 네트워크 기반 질병 중요도 34 E. 질병 네트워크의 대표 커뮤니티 37 1. 정신질환 관련 커뮤니티 38 2. 호흡기질환 관련 커뮤니티 43 3. 암 관련 커뮤니티 46 4. 뇌질환 관련 커뮤니티 51 IV. 고 찰 55 V. 결 론 58 참고문헌 59 ABSTRACT 64 그림 1. 노드의 진입 차수와 출력 차수 예시 2 그림 2. 환자 발병 기록 선택편의 최소화 예시 8 그림 3. 선행질병 발병군과 비발병군 정확 매칭 과정 11 그림 4. 선행질병 → 후행질병 연결성의 이차원 분할표 13 그림 5. 중심성 종류별 중요도가 높은 노드 예시 19 그림 6. 대표커뮤니티1에 신생물 그룹 질병 분포 유의성 검정을 위한 이차원 분할표 21 그림 7. 질병 네트워크 28 그림 8. 파종성혈관내응[탈피브린증후군]과 연결된 질병 모음 34 그림 9. 질병 네트워크 내 4개의 대표 커뮤니티 37 그림 10. 정신질환 관련 커뮤니티 39 그림 11. 호흡기질환 관련 커뮤니티 43 그림 12. 암 관련 커뮤니티 47 그림 13. 뇌질환 관련 커뮤니티 52 표 1. 국민건강보험공단 표본연구 데이터베이스에서 사용한 테이블 및 열 정보 8 표 2. 국민건강보험공단 표본연구 데이터 변수별 수치 24 표 3. 한국표준질병·사인분류 대분류별 평균 전체 차수, 진출 차수 그리고 출력 차수 29 표 4. 상대위험도 상위 20 연결성 및 빈도 상위 20 연결성 30 표 5. 중심성별 상위 20개 질병 35 표 6. 정신질환 관련 커뮤니티에 속한 질병 정보 39 표 7. 호흡기질환 관련 커뮤니티에 속한 질병 정보 44 표 8. 암 관련 커뮤니티에 속한 질병 정보 48 표 9. 뇌 관련 장애 커뮤니티에 속한 질병 정보 53 수식 1 15 수식 2 16 수식 3 17 수식 4 18 수식 5 19 | - |
dc.language.iso | ko | - |
dc.title | Network-based analysis of human disease using the national health insurance service database | - |
dc.title.alternative | 국민건강보험공단 데이터를 이용한 네트워크 이론 기반 질병 패턴 분석 | - |
dc.type | Thesis | - |
dc.identifier.url | http://dcoll.ajou.ac.kr:9080/dcollection/jsp/common/DcLoOrgPer.jsp?sItemId=000000028800 | - |
dc.subject.keyword | the National Health Insurance Service of Korea sample cohort data | - |
dc.subject.keyword | network medicine | - |
dc.subject.keyword | disease patterns | - |
dc.subject.keyword | risk factors | - |
dc.subject.keyword | 국민건보험공단 데이터베이스 | - |
dc.subject.keyword | 네트워크 의학 | - |
dc.subject.keyword | 질병 패턴 | - |
dc.subject.keyword | 위험 인자 | - |
dc.description.degree | Master | - |
dc.contributor.department | 대학원 의학과 | - |
dc.contributor.affiliatedAuthor | 정, 유진 | - |
dc.date.awarded | 2019 | - |
dc.type.local | Theses | - |
dc.citation.date | 2019 | - |
dc.embargo.liftdate | 9999-12-31 | - |
dc.embargo.terms | 9999-12-31 | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.