A Study of Cancer-related Gene Exploration using PCA Logistic Regression

주성분 로지스틱 회귀분석을 이용한 암 발생 관련 유전자 탐색

  • Kang, Gil Mo (Department of Information Statistics, Dongeui University) ;
  • Kim, Kyu Kon (Department of Data Information Science, Dong-Eui University) ;
  • Kang, Changwan (Department of Data Information Science, Dong-Eui University)
  • 강길모 (동의대학교 데이터정보학과) ;
  • 김규곤 (동의대학교 데이터정보학과) ;
  • 강창완 (동의대학교 데이터정보학과)
  • Received : 2014.05.16
  • Accepted : 2014.06.19
  • Published : 2014.06.30

Abstract

In the area of epigenetics, DNA methylation analysis plays an important role for detecting cancer genes. The methylation ratio data is used for exploring the cancer genes because the methylation value of cancer patients is different from the values of normal persons. In this study, we used the methylation data of 92,609 genes and performed the K-means clustering. We found the 1390 genes which differentiate the cancer patients from the normal persons. But this results have no statistical significances. Then we reperformed the Mann-Whitney tests. As a result, we finally found the 132 genes for affecting the cancer. Moreover we could find the important index of genes through the principal component logistic regression.

후생유전학(epigenetics)에서 DNA 메틸화 측정은 암 발생 연구에 매우 중요한 역할을 하고 있으며 여기서 얻어지는 메틸레이션 비율데이터는 암 발생 관련 유전자 탐색의 핵심데이터이다. 왜냐하면 암환자 유전자의 메틸레이션 비율은 정상인과 다르게 나타나며 메틸화 이상이 암의 주요 발생 원인으로 밝혀졌기 때문이다. 본 연구의 목적은 이러한 암 관련 유전자 탐색 방법의 또다른 접근 방법을 제시하는데 있다. 본 연구에서 사용한 메틸레이션 데이터는 약 92,609개의 유전자에 대한 데이터로서 다음과 같은 분석 절차를 제시하였다. 분석 1단계로 먼저 K-means 군집 분석을 실행하여 정상인과 암환자를 구분 짓는 유전자 1390개를 걸러내었다. 그리고 나서 탐색적 분석을 보완하기 위해 다시 통계적 유의성을 지닌 유전자를 Mann-Whitney 검정을 이용하여 최종 암 발생 영향 유전자로 132개를 선택하였다. 마지막 단계로 주성분 로지스틱 회귀분석을 실시하여 영향 크기별 유전자를 발견 할 수 있었다.

Keywords

Acknowledgement

Supported by : 동의대학교

References

  1. Georgia Health Sciences University Cancer Center (2012). http://www.gru.edu/cancer/research.
  2. Hwang, Y. S., Kang, C., Kim, K. K., Choi, S. B. (2013). A Study of Exploring Disease-related Genes using Social Network Analysis, Journal of the Korean Data Analysis Society, 15(2), 677-684. (in Korean).
  3. Jeong, H. C., Cho, H. (2010). Comparison of the Significant Gene Detection Methods : Focus on EBAM and SAM, Journal of the Korean Data Analysis Society, 12(6), 3059-3072. (in Korean).
  4. Jung, J. W., Kim, S. A., Lee, S. H., Park, M. (2011). Classification Methods For Analyzing Gene-Gene Interactions, Journal of the Korean Data Analysis Society, 13(2), 649-658. (in Korean).
  5. Kang, G. H. (2010). Epigenetics : Understandings about DNA Methylation in Carcinogenesis, Korea Medcine, Seoul. (in Korean).
  6. Kang, G. M. (2014). Genetic Data Exploration using Partial Least Square Regression Analysis, Master's thesis, Dongeui University, Busan.
  7. Lee, J. W., Kim, H., Lee, H. J. (2006). A Simulation Study on Gene-environment Interaction, Journal of the Korean Data Analysis Society, 8(3), 927-938. (in Korean).
  8. Youm, J. W., Lee, D. Y., Kim, Y. W. (2011). DNA Methylation Test for Detection or Prognosis of Cancer as a Genetic Testing, Public Health Weekly Report, 4(31), (in Korean).