한국형 보이스피싱 음성분석 모델 첫 개발
한국형 보이스피싱 음성분석 모델 첫 개발
  • 양대규
  • 승인 2023.02.23 09:00
  • 댓글 0

범죄자 유사음성 군집화 '세계 첫 구현'
외국산보다 음성 판단 확률 77% 향상
정부와 국립과학수사연구원은 21일 정부세종청사에서 한국형 보이스피싱 음성분석 모델 개발 설명회를 가졌다
정부와 국립과학수사연구원은 21일 정부세종청사에서 '한국형 보이스피싱 음성분석 모델 개발' 설명회를 가졌다

[시정일보 양대규 기자] 앞으로 수사기관의 보이스피싱 범죄에 대한 초동수사 대응이 민첩해지고, 범죄자 검거의 정확성이 높아질 전망이다.

지난 5년간 국내에서 발생한 보이스피싱 피해 건수는 15만 건 이상, 피해액은 3조원을 넘어선다.

이에 정부는 국립과학수사연구원과 함께 보이스피싱 범죄음성 식별의 정확도를 높이는 최초의 한국어 기반 음성분석모델 개발을 완료했다고 밝혔다.

기존 국과수가 사용 중인 외산 모델은 한국어 화자를 구분하는 정확성의 한계가 있어 동일 화자가 목소리 변조로 범죄를 시도할 경우, 감별이 어려웠다.

정부는 지난 21일, 정책 설명회에서 국과수와 함께 이번 개발된 모델을 시연해 기확보 중인 범죄자의 음성 데이터와 새로 신고 접수된 데이터를 비교해 범죄자 일치성을 판단했다.

구체적인 데이터 및 모델링 과정을 살펴보면 검증대상 음성 데이터 입력→분석모델 알고리즘에 따라 계산→2개 음성 간 유사도 측정 및 동일인 확률값 추출이다.

박남인 국과수 연구사는 “검증데이터 셋을 기반으로 6.2 이상의 값이 나오면 동일인으로 추정하며, 다만 데이터 셋에 따라 유동적일 수 있다”고 밝혔다.

이를 통해 추출값에 따라 피해접수 사례에 기존 범죄자가 가담했는 지, 신속하게 확인이 가능할 것으로 기대된다.

이와함께, 보이스피싱 음성 데이터 풀에서 범죄자의 성문과 유사한 음성들을 군집화하는 기술을 사실상 세계 최초로 구현했다.

보이스피싱은 범죄 특성상 역할 별로 나눠 활동을 하고 있어, 가담한 범죄자들을 엮어 그룹화할 수 있는 수사모델이 필요했다.

국과수는 약 100만개의 음성 데이터를 활용해 모델 개발 후, 1차는 150명의 660개 파일, 2차는 200명의 1만2000개 파일 등을 별도로 사용해 다양한 상황에서 검증을 시행했다.

그 결과, 기존 모델보다 범죄자의 음성으로 정확히 판단할 확률은 77% 향상했으며, 동일화자 및 군집화에 대한 정확도는 약 96.6% 수준으로 확인됐다.

국과수는 오는 2월 말부터 음성 감정에 활용할 예정이며, 수사기관은 하반기부터 보유 중인 범죄자 음성데이터를 분석해 기검거자 여죄 추궁 등에 적극 나설 전망이다.

또한, 정부는 금융감독원 누리집에 범죄자의 음성을 공개하고, 국내 대형 금융기관에도 적용할 수 있는 방안을 논의할 예정이다.

이와함께 디지털플랫폼정부의 새로운 행정 한류 상품으로서 개발도상국에 활용하는 방안도 검토 중이다.

김철 정부혁신조직실 통합데이터분석센터장은 “이번 모델 개발로 보이스피싱으로 인한 국민들의 실질적인 피해를 감소하는 데 기여할 수 있을 것이다”며 “실제 데이터 가치를 높일 수 있는 정제 과정 시간도 최소화할 수 있도록 노력하겠다”고 말했다.