한국 연구팀이 생성형 인공지능(AI) 챗봇 모델 GPT-4가 한의사 국가시험을 통과하는 수준의 성능을 나타내는 것을 확인했다.
가천대학교는 최근 한의과대학 김창업 교수팀이 GPT-4 모델을 한의학 인공지능 개발에 적용할 수 있을지 등을 평가하기 위해 연구한 결과 이같이 확인했다고 최근 밝혔다.
앞서 연구에서는 GPT-4가 2022년 시행된 한의사 국가시험에서 평균 57.59%의 정답률을 기록해 합격선(60% 이상)에 약간 못 미쳤으나 이번 연구에서는 GPT-4의 언어모델에 문항을 제시하는 방식을 최적화해 모델의 성능을 극대화하는 기법인 ‘프롬프트 엔지니어링’을 활용했다.
그랬더니 이번 시험 결과에선 합격선을 웃도는 정답률을 보였다.
2022년 한의사 국가시험 문제를 GPT-4에 제시한 뒤 정답률을 평가했는데 GPT-4는 340문항 중 225문항을 맞혀 66.18%의 정답률을 나타냈다.
과목별 정답률도 과락 기준인 40%보다 높게 나왔다.
GPT-4는 과목별 정답률의 편차가 크게 나타났는데 국제적으로 표준화된 진단기준에 대한 문제가 주로 출제된 본초학, 소아과학, 부인과학 과목은 81.2%, 81.2%, 79.2%의 높은 정답률을 보였다.
반면 한국 한의학의 특성을 반영하는 보건의약관계법규, 사상의학 과목은 40.0%, 43.8%로 상대적으로 낮은 정답률을 나타냈다.
연구팀은 “한국어로 된 문항을 언어모델에 그대로 입력했을 때는 평균 정답률이 51.82%였는데, 한의학 용어를 한자로 함께 적었을 때는 57.59%, 지시와 문제를 영어로 스스로 번역하게 한 뒤 이 문제를 풀게 했을 경우는 63.65%로 상승해 정답률이 높아지는 것을 확인했다”고 말했다.
연구팀은 이어 “이번 연구에서 GPT-4는 한국의 특수성을 잘 반영하지 못할 수 있다는 점을 보였다”며 “추후 의료 인공지능 모델을 개발할 때 각 국가와 지역의 특수성을 반영할 수 있는 노력이 필요할 것으로 보인다”고 덧붙였다.
한편 이 연구 결과는 온라인 과학 저널 ‘플로스 디지털 헬스(PLOS Digital Health)’에 게재됐다. /한의타임즈 기사제휴지 e-헬스통신
이영주 기자
<저작권자ⓒHani Times, 무단 전재-재배포 금지>