DOI QR코드

DOI QR Code

Development of Classification Model for hERG Ion Channel Inhibitors Using SVM Method

SVM 방법을 이용한 hERG 이온 채널 저해제 예측모델 개발

  • Gang, Sin-Moon (Drug Discovery Division, Bioinformatics and Molecular Design Research Center) ;
  • Kim, Han-Jo (Drug Discovery Division, Bioinformatics and Molecular Design Research Center) ;
  • Oh, Won-Seok (Drug Discovery Division, Bioinformatics and Molecular Design Research Center) ;
  • Kim, Sun-Young (Drug Discovery Division, Bioinformatics and Molecular Design Research Center) ;
  • No, Kyoung-Tai (Department of Biotechnology, Yonsei University) ;
  • Nam, Ky-Youb (Drug Discovery Division, Bioinformatics and Molecular Design Research Center)
  • 강신문 ((사)분자설계연구소 신약개발실) ;
  • 김한조 ((사)분자설계연구소 신약개발실) ;
  • 오원석 ((사)분자설계연구소 신약개발실) ;
  • 김선영 ((사)분자설계연구소 신약개발실) ;
  • 노경태 (연세대학교 생명공학과) ;
  • 남기엽 ((사)분자설계연구소 신약개발실)
  • Published : 2009.12.20

Abstract

Developing effective tools for predicting absorption, distribution, metabolism, excretion properties and toxicity (ADME/T) of new chemical entities in the early stage of drug design is one of the most important tasks in drug discovery and development today. As one of these attempts, support vector machines (SVM) has recently been exploited for the prediction of ADME/T related properties. However, two problems in SVM modeling, i.e. feature selection and parameters setting, are still far from solved. The two problems have been shown to be crucial to the efficiency and accuracy of SVM classification. In particular, the feature selection and optimal SVM parameters setting influence each other, which indicates that they should be dealt with simultaneously. In this account, we present an integrated practical solution, in which genetic-based algorithm (GA) is used for feature selection and grid search (GS) method for parameters optimization. hERG ion-channel inhibitor classification models of ADME/T related properties has been built for assessing and testing the proposed GA-GS-SVM. We generated 6 different models that are 3 different single models and 3 different ensemble models using training set - 1891 compounds and validated with external test set - 175 compounds. We compared single model with ensemble model to solve data imbalance problems. It was able to improve accuracy of prediction to use ensemble model.

흡수, 분포, 대사, 배설 특성 및 독성을 예측하기 위한 효과적인 툴을 개발하는 것은 신약개발의 초기단계에서 NCE(new chemical entity)에 대한 가장 중요한 업무 중의 하나이다. 최근에 이런 시도중의 하나로서 ADME/T(absorption, distribution, metabolism, excretion, toxicity)관련 성질들의 예측에 support vector machine(SVM)을 이용하고 있다. 그리고 SVM은 ADME/T 성질들을 정확하게 예측하는데 많이 사용 되고 있다. 그러나 SVM 모델링에 두 가지 문제가 있다. 특성 선택(feature selection) 과 매개변수 설정(parameter setting)은 여전히 해결해야 할 과제이다. 이 두 가지 문제들은 SVM 분류의 효율성과 정확도에 결정적인 영향을 끼친다. 특히 특성 선택과 최적화된 SVM 변수의 설정은 서로 영향을 주기 때문에 동시에 다루어져야 한다. 여기서 우리는 genetic algorithm(GA) – 특성 선택에 사용 – 과 grid search(GS) method– 변수최적화에 사용 – 두 가지를 통합하는 효과적인 해결책을 제시하였다. ADME/T관련 성질 중 하나인 심장부정맥을 야기시키는 hERG 이온채널 저해제 분류 모델이 여기서 제안된 GA-GS-SVM을 위해 할당되고 테스트 되었다. 1891개의 화합물을 가지는 트레이닝 셋으로 단일 모델 3개, 앙상블 모델 3개, 총 6개의 모델을 만들었고 175개의 외부 데이터를 테스트 셋으로 사용하여 검증하였다. 데이터의 불균형 문제를 해결하기 위하여 GA-GS-SVM 단일 모델에 의한 예측 정확도와 GA-GS-SVM 앙상블 모델 예측 정확도를 비교하였으며, 앙상블모델을 사용하여 예측의 정확도를 높일 수 있었다.

Keywords

References

  1. Abbott, G. W.; Sesti, F.; Splawski, I.; Buck, M. E.; Lehmann, M. H.; Timothy, K. W.; Keating, M. T.; Goldstein, S. A. Cell 1999, 97, 175-87 https://doi.org/10.1016/S0092-8674(00)80728-X
  2. Fermini, B.; Fossa, A. A. Nat. Rev. Drug Discovery 2003, 2, 439-47 https://doi.org/10.1038/nrd1108
  3. Keating, M. T.; Sanguinetti, M. C. Cell 2001, 104, 569-80 https://doi.org/10.1016/S0092-8674(01)00243-4
  4. Pearlstein, R.; Vaz, R.; Rampe, D. J. Med. Chem. 2003, 46, 2017-2022 https://doi.org/10.1021/jm0205651
  5. Aronov, A. M. Drug Discovery Today 2005, 10, 149-155 https://doi.org/10.1016/S1359-6446(04)03278-7
  6. Recanatini, M.; Poluzzi, E.; Masetti, M.; Cavalli, A.; De Ponti, F. Med. Res. Rev. 2005, 25, 133-166 https://doi.org/10.1002/med.20019
  7. Mitcheson, J. S.; Chen, J.; Lin, M.; Culberson, C.; Sanguinetti, M. C. Proc. Natl. Acad. Sci. U.S.A. 2000, 97, 12329-12333 https://doi.org/10.1073/pnas.210244497
  8. Li, Q.; Jorgensen, F. S.; Oprea, T.; Brunak, S.; Tabboureau, O. Mol. Pharm. 2008, 5(1), 117-127 https://doi.org/10.1021/mp700124e
  9. Lucasius, C. B.; Kateman, G. Chemometr. Intell. Lab. 1993, 19, 1-33 https://doi.org/10.1016/0169-7439(93)80079-W
  10. Guyon, I.; Weston, J.; Barnhil, S.; Vapnik, V. Mach. Learn. 2002, 46, 389-422 https://doi.org/10.1023/A:1012487302797
  11. Sutter, J. M.; Kalivas, J. H. Microchem. J. 1993, 47, 60-66 https://doi.org/10.1006/mchj.1993.1012
  12. Hsu, C. W.; Chang, C.C.; Lin, C. J. http://www.csie.ntu.edu.tw//~cjlin/papers/guide/guide.pdf. 2003
  13. Vapnik, V. Statistical Learning Theory; Wiley: New York, USA., 1998
  14. Seymour G. J. of the Am. Stat. Ass. 1975, 70, 350
  15. Xue, Y.; li, Z. R.; Yap, C. W.; Sun, L. Z.; Chen, X.; Chen, Y. Z. J. Chem. Inf. Comput. Sci. 2004, 44, 1630-1638 https://doi.org/10.1021/ci049869h
  16. Davis, L. handbook of genetic algorithms Van Nostrand Reinhold New York, USA., 1991
  17. BMDRC, PreADMET 2.0; Seoul, Korea, 2007, http://preadmet.bmdrc.org
  18. PubChem bioassay database (http://pubchem.ncbi.nlm.nih.gov/assay/assay.cgi?aid=376)
  19. Chang, C. C.; Lin, C. J. LIBSVM: A library for support vector machines. Available at: http://www.csie.ntu.edu.tw/~cjlin/libsvm, 2001
  20. Li, Q.; Jorgensen, F. S.; Oprea, T.; Brunak, S.; Taboureau, O. Mol. Pharm. 2008, 5(1), 117-127 https://doi.org/10.1021/mp700124e
  21. Kang. P. Cho. S. Lecture Notes in Computer Science Springer Berlin, Germany, 2006, 4232, 837-846 https://doi.org/10.1007/11893028_93

Cited by

  1. Prediction Models of P-Glycoprotein Substrates Using Simple 2D and 3D Descriptors by a Recursive Partitioning Approach vol.33, pp.4, 2012, https://doi.org/10.5012/bkcs.2012.33.4.1123
  2. A Development of The Road Surface Decision Algorithm Using SVM(Support Vector Machine) Clustering Methods vol.12, pp.5, 2013, https://doi.org/10.12815/kits.2013.12.5.001