의약품 연구 개발 또는 상업화 투자 여부를 판단하기 위해서는 목표 시장에 대한 심층적인 이해가 필수적입니다. 클래리베이트는 글로벌 인구 데이터를 기반으로 발생률, 유병률, 약물 치료 가능 환자 수에 대한 정교한 예측을 제공함으로써 질병 환경의 변화와 기회를 보다 명확히 파악할 수 있도록 지원합니다. 이런 데이터는 시장 잠재력 평가부터 환자 세분화, 그리고 정확한 예측 모델에 기반한 전략적 의사결정 등 다양한 곳에 활용됩니다.
- 시장 잠재력 규모 산정
- 환자 세그먼트 분석
- 정확한 예측 모델에 기반한 신뢰도 높은 비즈니스 의사결정
클래리베이트의 역학 예측 모델은 임상의학, 공중보건의학, 생물통계학 등 다양한 배경을 가진 역학 전문가들의 감독 아래 개발됩니다. 전문가 검증을 거친 환자 단위 데이터는 10~20년의 장기 전망을 통해 질병 추이를 정밀하게 분석하며, 이를 바탕으로 투자 검증과 주요 타깃 시장 내 성장 기회 도출을 지원합니다(그림 1).
그림 1. Clarivate Epidemiology-기능 개요

엄격한 문헌 검토와 데이터 선정 및 분석
클래리베이트 방법론의 핵심은 철저하고 체계적인 문헌 검토 프로세스에 있습니다.
클래리베이트의 역학 전문가들은 피어리뷰 저널, 각종 레지스트리 데이터, 병원 퇴원관련 데이터 세트, 국가 보건 조사, 보험 청구 데이터(의료 및 처방), 전자의무기록(EHR), 그레이 문헌(grey literature), 그리고 클래리베이트의 방대한 자체 데이터 라이브러리 등 다양한 출처에서 데이터를 식별하고 분석하기 위해 체계적인 접근 방식을 적용합니다. 또한 정밀성과 효율성을 높이기 위해 AI·머신러닝(AI/ML) 모델과 정교하게 설계된 검색 전략 등 최첨단 도구를 적극 활용합니다.
역학 전문가로서의 핵심 목표는 특정 국가 또는 지역 내에서 질병의 역학적 특성을 정확히 이해하고 이를 체계적으로 설명하는 것입니다.이를 위해 발생률, 유병률, 사망률, 중증도, 입원율, 질병 사건, 질병 단계, 생존율, 질병 진행 및 재발, 증상, 동반질환, 위험 요인, 진단 기준, 자연 경과, 치료 옵션과 치료 예후, 신약 출시 현황, 그리고 질병 진단 방식·질병 분류·공중보건 정책의 변화까지 폭넓은 요소를 종합적으로 분석합니다.
클래리베이트의 역학 문헌 검토 프로세스는 질병 발생률과 유병률을 신뢰성 있게 추정하기 위해 엄격하고 견고한 프레임워크를 기반으로 설계되었습니다.이를 위해 PubMed, Web of Science 등 다수의 데이터베이스를 활용해 피어리뷰 문헌과 학회 초록에 대한 포괄적인 데이터를 수집·검토합니다(그림 2).
그림 2. 역학 전문가들이 검토하는 주요 데이터 출처

이러한 프로세스는 클래리베이트 내부의 질환 분야 전문가 및 치료 영역 전문 컨설턴트들과의 협업을 통해 더욱 정교해집니다. 발표된 문헌, 온라인 레지스트리, 각종 설문조사를 종합적으로 검토함으로써, 각 국가를 가장 잘 대표하는 역학 데이터를 식별하고, 역학 팀 전반에 걸쳐 표준화된 포함·제외 기준을 일관되게 적용합니다. 데이터 선정을 위한 주요 포함 기준은 다음과 같습니다.
- 인구 기반의 대표성 있는 연구
- 기타 조건이 동일한 경우(ceteris paribus), 최근 3~4년 이내 수행된 연구
- 통계적 신뢰성을 확보할 수 있는 충분한 표본 수
- 연령·성별별 데이터가 포함된 상세한 연구 방법론
클래리베이트의 역학 연구는 질병 유형별 특성에 맞춰 다양한 핵심 질문을 다룹니다.
만성질환의 경우 유병률과 발생률, 위험 요인, 생존율, 치료 결과, 주요 동반질환을 분석하며, 감염성 질환에서는 발생률, 위험 요인, 입원율, 진단 및 예방 전략에 초점을 맞춥니다. 종양학 분야에서는 질병 발생률과 위험 요인, 병기 분류, 질병 진행과 재발, 생존율, 치료 효과, 그리고 제한 기간 유병률(limited-duration prevalence)까지 심층적으로 분석합니다. 이러한 핵심 질문에 대한 분석을 통해 질병 발생률과 유병률, 질병 이벤트, 약물 치료 가능 인구 규모, 질병 부담, 예후, 치료 동향에 대한 실질적인 인사이트를 제공함으로써 고객의 전략적 의사결정을 지원합니다.
클래리베이트의 역학 전문가들은 결과의 신뢰성을 유지하기 위해 피어리뷰 문헌과 기타 데이터 출처를 면밀하게 검토합니다.분석 결과를 왜곡할 수 있는 저품질 연구는 철저히 배제하며, 국가별 추정치를 산출할 때는 지역 간 진단 관행, 생활 습관, 유전적 차이까지 종합적으로 고려합니다. 최근 연구를 우선적으로 활용하되, 연구의 질과 방법론을 무엇보다 중요한 기준으로 삼습니다. 또한 공중보건 개입, 보호 요인 또는 위험 요인에 대한 노출 변화, 생존율 개선, 치료법 발전, 성별·연령대별 질병 위험, 인구 구조 변화 등을 고려하지 않은 단순한 과거 추세의 외삽은 지양합니다. 특정 연령대에 한정된 추정치와 같이 제한된 데이터의 경우에는 보정 과정을 거쳐, 전체 인구 수준에서 질병 위험을 보다 입체적으로 이해할 수 있도록 합니다.
문헌 검토 이후에는 고도로 훈련되고 풍부한 경험을 갖춘 역학 전문가들이, 역학 데이터가 제한적인 경우에도 검증된 프로세스와 클래리베이트의 독자적인 모델을 활용해 분석을 수행합니다. 여기에는 발생률–유병률 변환 모델, 유병률–발생률 변환 모델, 생존 모델, 그리고 외삽 기법 등이 포함되며, 위험 요인, 인구 구조 변화, 코호트 효과 또한 분석에 반영됩니다.
클래리베이트 역학 예측 결과는 공공 데이터 출처와의 비교를 통해 체계적인 벤치마킹 및 검증 과정을 거칩니다.예측치는 공개적으로 이용 가능한 자료는 물론, 진단 환자 수 및 약물 치료 환자 수를 실제 매출 데이터 또는 기타 치료 관련 데이터와 비교해 검증됩니다. 마지막 단계에서는 클래리베이트 역학 전문팀이 초기 예측 모델, 데이터 출처 선택에 대한 근거와 논리, 모델 가정 등을 포함한 종합적인 예측 평가를 제공합니다.
분석 결과로 보고되는 주요 지표는 발생률, 유병률, 그리고 비율 지표(하위 인구 집단 및 약물 치료 가능 인구 비중)입니다. 환자 집단은 진단 여부와 약물 치료 여부를 기준으로 세분화되며, 진단 시점의 질병 단계나 중증도와 같은 임상적으로 중요한 변수도 함께 고려됩니다. 모든 분석 대상 국가에 대해 연령·성별·국가별 인구 수준에서 발생률과 환자 수(케이스 수)를 함께 제시하며, 상세한 분석 방법론과 인구 추정에 대한 설명, 역학 용어 해설(글로서리), 그리고 인터랙티브 및 다운로드 가능한 그래프와 표를 제공합니다.
이와 같은 체계적인 접근 방식을 통해, 클래리베이트는 고객에게 가장 신뢰할 수 있고 실질적인 역학 인사이트를 제공합니다.
선제적 모니터링을 위한 기술 활용
클래리베이트는 모든 질환을 대상으로 연례 문헌 검토(annual literature review)를 수행하기 위해 최신 기술을 지속적으로 도입하고 있습니다. 이러한 선제적 접근 방식은 발생률이나 유병률에 중대한 변화를 시사하는 새로운 연구 결과가 등장할 경우 신속한 업데이트를 가능하게 합니다. 이를 통해 고객은 최신 질병 트렌드에 대한 정보를 적시에 확보할 수 있으며, R&D 및 시장 전략을 보다 빠르고 유연하게 조정할 수 있습니다.
최근 AI 활용이 확대됨에 따라, 인공지능·머신러닝(AI/ML) 모델은 타깃 문헌 검색을 수행하는 데 있어 핵심적인 도구로 자리 잡았습니다. 방대한 검색 결과를 보다 정교하게 선별하기 위해, 클래리베이트는 AI/ML 기반 관련성(relevance) 모델 API를 활용해 논문을 관련도 순으로 랭킹합니다.
클래리베이트의 역학 머신러닝(EPI ML) 프로젝트는 역학 연구 문헌을 자동으로 스캔하는 것을 목표로 하며, 모델 선정과 머신러닝 서비스 플랫폼 개발에 중점을 두고 있습니다. 총 6개의 분류기(classifier) 머신러닝 모델이 평가되었으며, 각 모델의 성능 보고서를 면밀히 분석했습니다.
데이터셋 특성상 관련성이 낮은 샘플이 상대적으로 많은 불균형 데이터 구조를 가지고 있기 때문에, 정확도 향상을 위해 앙상블 학습 기법(ELT)을 적용했습니다. 앙상블 모델은 여러 개의 개별 모델을 결합해 단일 모델보다 더 높은 예측 정확도를 제공합니다.
그 결과, 멀티노미얼 나이브 베이즈(multinomial naive Bayes) 모델과 이지 앙상블 분류기(Easy Ensemble Classifier)를 결합한 모델이 역학 분야에서 가장 우수한 성능을 보였으며, 가중 정확도는 약 70% 수준으로 나타났습니다(그림 3).
그림 3. 테스트된 6개 분류기 머신러닝 모델의 성능 비교 결과

2024년 8월에 출시된 EPI ML 서비스 플랫폼은 예측, 학습, 모델 관리, 시스템 추적을 위한 API를 제공하며, 이를 통해 Epi-Intelligence 플랫폼과의 원활한 통합을 지원합니다. 사용자는 해당 API를 통해 역학 연구 문헌의 관련도를 예측하고, 학습 데이터를 업로드하며, 머신러닝 모델을 효율적으로 관리할 수 있습니다. 타깃 검색 과정에서는 PubMed, Web of Science, 인용 문헌 등 다양한 출처를 활용해 추가적으로 가치 있는 자료를 확보합니다. 수집된 데이터는 엄격한 검증 과정을 거친 후, AI/ML 모델이 관련성 점수를 부여해 효율적인 큐레이션을 가능하게 합니다.
관련성 점수가 80% 이상인 논문에 집중함으로써, 상세 검토 대상 문헌의 범위를 효과적으로 축소할 수 있으며, 이는 분석 시간을 크게 절감하는 동시에 영향력 높은 핵심 연구를 놓치지 않도록 합니다.
향후 EPI ML 서비스 통합의 다음 단계로는 지속적인 학습을 위한 자동 피드백 루프 구축,사용자 친화적인 Singularity 대시보드 개발,모델 정확도 향상을 위한 딥러닝 테스트 수행이 예정되어 있습니다.
한편, AI/ML 기반 타깃 문헌 검색은 모든 적응증에 대해 연례 업데이트를 수행하고, 최신 연구 결과를 체계적으로 문서화해 Epi-Intelligence 플랫폼에 통합함으로써, 고객에게 항상 최신의 종합적인 역학 데이터를 제공할 예정입니다. Epi-Intelligence 플랫폼은 기존 시스템의 콘텐츠를 통합하는 동시에, 직관적인 검색 기능, 빠른 로딩 속도, 개선된 요약 테이블, 시각적이고 사용자 맞춤형 데이터 애플리케이션, 국가별 역학 수치를 한눈에 보여주는 히트맵 뷰 등 향상된 기능을 제공합니다. 이를 통해 역학 데이터를 보다 효율적이고 직관적으로 탐색·분석할 수 있습니다.
AI·머신러닝 기술을 통합함으로써, 클래리베이트는 역학 연구 분야에서 정밀성과 효율성의 새로운 기준을 지속적으로 제시하고 있습니다.
견고한 데이터로 완성된 ‘미래 예측의 결정구’
클래리베이트 Epi-Intelligence 플랫폼은 다음을 제공합니다.
- 45개국에 대한 데이터 제공 및 최대 171개국으로 확장 가능한 외삽 기능
- 피부과, 종양학, 심혈관계, 감염성 질환 등 200개 이상의 질환과 주요 환자 집단 커버
- 10~20년 장기 예측을 통한 전략적 의사결정 지원
이처럼 광범위한 커버리지를 통해 제약사와 연구자들은 다양한 시장에 최적화된 실질적인 인사이트를 확보할 수 있습니다. 질병 부담을 이해하고, 핵심 위험 요인을 파악하며, 미래 트렌드를 예측하는 데 이르기까지, 클래리베이트의 역학 팀은 의미 있는 인사이트를 제공합니다.
다루고 있는 질환과 방법론에 대한 보다 자세한 내용은 Epi-Intelligence 플랫폼을 확인하시거나, 지금 바로 클래리베이트 팀에 문의해 주세요. 함께 헬스케어 연구의 미래를 만들어갈 수 있습니다.
본 콘텐츠는 Narendra Parihar(Director, Epidemiology)와 Shyama Ghosh(Senior Principal STEM Content Analyst)가 집필했습니다.