보도자료
TTA, LLM 학습용 데이터 유해표현 검출 AI모델 공개 | |||||||||
- 유해표현 여부와 카테고리 분류 2단계에 걸친 AI기반 텍스트 유해성 분석 - □ 한국정보통신기술협회(회장 손승현, 이하 TTA)는 LLM 학습용 데이터에 대해 유해표현을 검출할 수 있는 AI모델을 구축했다고 2월 3일(월) 밝혔다. 해당 모델은 한국지능정보사회진흥원(원장 황종성, 이하 NIA)의 `24년 초거대AI 학습용 데이터 품질검증 사업‘의 일환으로 개발되었다. ㅇ 유해표현 검출 AI모델(이하 모델)은 말뭉치 내 문장의 유해표현 여부를 먼저 판단하고, 유해표현인 경우 카테고리를 분류하여 말뭉치 유해성을 검출한다. 유해 카테고리는 국가인권위원회의 혐오표현 정의를 참고하여 3가지 유형별 총 11개*로 설정하였다. 텍스트의 문맥을 고려하여 유해성을 분석하므로 비속어가 포함되지 않는 유해표현도 검출할 수 있다. * 모욕, 욕설, 외설, 인종/지역, 장애, 연령, 종교, 정치성향, 직업, 성혐오, 폭력위협/범죄조장
<혐오 3가지 유형별 유해표현 카테고리 11가지> ㅇ 구축된 유해표현 검출 AI모델과 학습용 데이터는 오픈소스 라이브러리 및 AI 모델 배포 플랫폼인 허깅페이스에 업로드 했다. 허깅페이스 API를 활용하면 누구나 손쉽게 모델을 통해 말뭉치 텍스트의 유해성을 분석하고 유해표현을 정제할 수 있다. ㅇ 모델은 단계별로 KcELECTRA Fine-Tuning 버전 및 선정 과정에서 고려했던 KoBERT Fine-Tuning 버전도 업로드되어 사용자가 골라 사용할 수 있다. 또한 사용자는 모델 및 데이터 카드를 통해 세부 정보 및 테스트 결과를 확인하고 목적에 맞게 모델을 선택하여 활용이 가능하다. ㅇ 그간 생성형 AI 서비스의 신뢰성, 안전성 문제를 발생시켰던 학습용 말뭉치 데이터에 포함된 다양한 유해표현을 정제하는 것이 쉽지 않았다. 이번에 오픈소스로 공개한 유해표현 검출 AI 모델을 많이 이용해 더욱 안전하고 신뢰할 수 있는 AI사용기반이 정착될 것으로 기대된다. □ TTA 손승현 회장은 “최근 다양한 분야에서 생성형 AI 기술이 활발히 적용되면서, LLM 학습용 텍스트 데이터에 대한 수요가 급증하고 있으며, 이에 따라 LLM 기술의 윤리적 측면에 대한 사회적 관심도 높아지고 있다. 특히, 모델은 배운 대로 텍스트를 생성하기 때문에 학습용 텍스트에 포함된 유해 표현을 정제하는 과정이 반드시 필요하다”고 강조했다. ※ 자세한 사항은 첨부 파일을 참고하시기 바랍니다. |
|||||||||
파일 |
---|