İstatistiksel ve Makine Öğrenmesi Yaklaşımlarını Kullanarak Prostat Kanseri Riskini Anlamak: Karşılaştırmalı Metodolojik Analiz


aktaş s., Kirişci M., Akçay M., Çiçek M.

Hamidiye Medical Journal , cilt.6, sa.3, ss.171-177, 2025 (TRDizin) identifier

Özet

Amaç: Prostat kanseri, erkekler arasında en yaygın ve ölümcül malignitelerden biridir. Erken tanı ve kişiselleştirilmiş bakım için doğru risk tahmin araçlarının geliştirilmesi büyük önem taşır. Bu çalışmada, prostat kanseri risk faktörlerini belirleme ve hastalık durumunu sınıflandırmada ikili lojistik regresyon ile makine öğrenimi (ML) algoritmalarının (SVM, KNN, CHAID ve C5.0) öngörü performansları karşılaştırılmıştır. Gereç ve Yöntemler: Çalışmaya, demografik, klinik ve yaşam tarzı özelliklerini içeren 20 soruluk yapılandırılmış anketi dolduran 501 erkek (248 hasta ve 253 kontrol) dahil edilmiştir. Bulgular: Yaş, sigara kullanımı ve ailede kanser öyküsü tüm modellerde anlamlı öngörücüler olarak bulunmuştur. Ek olarak semen veya idrarda kan, idrara çıkma sıklığı ve günlük aktivite düzeyi de belirleyici olmuştur. Lojistik regresyon %92,2 doğrulukla en yüksek performansı göstermiştir. CHAID %91,36, SVM %89,92, KNN %88,48 ve C5.0 %88 doğruluk oranına ulaşmıştır. Sonuç: Lojistik regresyon yapılandırılmış klinik verilerde en yüksek doğruluk ve yorumlanabilirliği sağlarken, ML algoritmaları karmaşık ve doğrusal olmayan ilişkileri ortaya çıkararak tamamlayıcı katkılar sunmuştur.
Background: Prostate cancer is one of the most common and lethal malignancies among men worldwide, making accurate risk prediction tools essential for early diagnosis and personalized care. This study aimed to compare the predictive ability of traditional binary logistic regression with machine learning (ML) algorithms, including support vector machines (SVM), K-nearest neighbors (KNN), chi-squared automatic interaction detection (CHAID), and C5.0, in identifying key risk factors and classifying prostate cancer status. Materials and Methods: The study included 501 male participants (248 diagnosed cases and 253 controls) who completed a structured 20-item questionnaire covering demographic, clinical, and lifestyle characteristics. Results: Age, smoking status, and family history of cancer consistently emerged as significant predictors across models. Additional indicators included blood in semen or urine, frequency of urination, and daily activity level. Logistic regression achieved the highest accuracy (92.2%), followed by CHAID (91.36%), SVM (89.92%), KNN (88.48%), and C5.0 (88%). Conclusion: Logistic regression provided the best accuracy and interpretability for structured clinical data, while ML models offered complementary insights by identifying complex, nonlinear associations.