공지사항

공지사항 상세보기 - 제목, 작성일, 조회수, 내용, 파일 정보 제공
LLM 유해성 공격 전략에 대한 실증적 분석 보고서 발간
작성일 : 조회 : 663

한국정보통신기술협회 AI신뢰성센터에서는 최근 생성형 AI의 보안성과 신뢰성 강화를 위한 실증 분석을 수행하고, 그 결과를 담은 연구 보고서를 발간하였습니다.

 

이번 보고서는 2023년 미국에서 개최된 DEF CON 31 Generative AI Red Teaming 챌린지에서 수집된 공개 데이터를 기반으로 하여, 실제 성공한 LLM 공격 사례를 정량적으로 분석하고, 유형별 전략과 공격 타겟의 특성을 정리한 결과를 담고 있습니다.

 

특히 한양대학교 연구진과의 협력을 통해, 공격에 성공한 2,600여 건의 사례에 대해 프롬프트 전략과 피해 대상을 세분화하여 별도의 라벨링을 수행하였으며, 이를 통해 생성형 AI의 잠재적 위험 요인을 보다 체계적으로 식별할 수 있는 기반을 마련하였습니다.

 

해당 연구는 LLM의 사회적 고정관념 재현 가능성, 가드레일 우회 전략의 다양성, 프롬프트 설계의 고도화 경향 등을 실증적으로 검토함으로써, 향후 AI 안전성 평가 및 방어전략 수립에 기초자료로 활용될 수 있을 것으로 기대됩니다.

 

라벨링이 완료된 확장 데이터셋은 Hugging Face를 통해 공개되며, 연구 보고서 전문은 본 게시글의 첨부파일을 통해 확인하실 수 있습니다.

 

여러분의 많은 관심 바랍니다.

 

- 공격 타겟 데이터셋 링크: https://huggingface.co/datasets/TTA01/redteaming-attack-target

- 공격 유형 데이터셋 링크: https://huggingface.co/datasets/TTA01/redteaming-attack-type

파일