디지털라이프데이터댐
댐 소개
🧑‍💻

재현솔루션

재현 데이터(synthetic Data)

재현데이터 생성을 위한 쟁점

→ 데이터 전 생명주기에 걸쳐 프로젝트를 리딩하는 주체 필요
재현데이터는 현재 개인정보 처리 가이드라인에 익명화 기술로 명시되어 있으나, 산출물의 활용상의 이슈(법적지위 포함)가 지속적으로 발생하고 있습니다.
가명/개인정보를 처리할 수 있는 격리된 환경(가명처리 가이드라인) 공간이 필수입니다.
재현데이터 생성은 데이터 A를 활용하여 A’를 생성 시 수반되는 모든 작업에 대한 고려가 힐요합니다. (단순 솔루션 활용은 한계가 존재, 내부 로직 추가개선 필요)
인전성과 효율성을 특정지표로 정량적 관리하고, 정성적 심사를 통해 활용 근거를 마련하는 것이 필수적입니다.

재현데이터 생성 절차

STEP1 데이터 전처리 : 재현처리 이전 적절한 수준의 가명처리

재현데이터 생성 시 활용상 법적 이슈가 존재하여 반드시 가명처리가 필요합니다.
가명처리 시 목적에 따른 적절한 컬럼별 처리 수준을 정의하고 그에 맞는 가명처리 기법 적용이 필요합니다.

STEP2 데이터 생성 : 목적에 맞는 적절한 재현방법론 사용

데이터의 특성 및 활용 목적에 따라 적합한 방법론을 선정합니다.
방법론의 세부적인 파라미터 튜닝을 통해 데이터의 적정 품질 수준을 제고하고 있습니다.
※ ’2022년 기술검증 사업(NIA)을 통해 다양한 방법론을 활용한 재현데이터 생성 및 검증 수행 경험 보휴

STEP3 위험성 및 유용성 검증 : 재현데이터 특수성을 반영한 평가

목적에 따른 유용성 검증 테스트 케이스 설계하고 검증을 수행합니다.
EX) 매출, 가공, 클러스터리 등 적합한 테스트 케이스 작성 후 검증하여 목적 달성가능성 검증

STEP4 데이터 후처리 : 활용목적에 적합한 데이터 추가 가공

STEP3에서 도출된 결과 기반으로, 목적 달성가능성 제고를 위한 추가 가공 절차를 수행합니다.