DATAi
DATAi 소개
📊

합성데이터란?

합성 데이터(synthetic data, 재현데이터)

합성데이터(재현데이터)는 원자료의 통계적 특성과 일치하도록 만들어낸 가상 데이터로, 데이터의 잠재된 가치를 이끌어내는 중요한 기술로 평가되고 있습니다.
최근 데이터 활용 시 개인정보 침해 문제를 해결하기 위한 방안으로 합성데이터의 활용과 이에 대한 논의 활발
가명정보 활용에 대한 제약적 요인을 합성데이터의 활용 및 기술 검증을 통해 해소함으로써 데이터 산업 시장 규모 확대를 지원합니다.
합성처리 후 익명성 검증 등의 프로세스를 거쳐 상품성 및 사업화 가능성을 검토함으로써 새로운 데이터 컨텐츠 개발 및 활용 사례 확보합니다.

합성데이터 생성을 위한 쟁점

→ 데이터 전 생명주기에 걸쳐 프로젝트를 리딩하는 주체 필요
합성데이터는 현재 개인정보 처리 가이드라인에 익명화 기술로 명시되어 있으나, 산출물의 활용상의 이슈(법적지위 포함)가 지속적으로 발생하고 있습니다.
가명/개인정보를 처리할 수 있는 격리된 환경(가명처리 가이드라인) 공간이 필수입니다.
합성데이터 생성은 데이터 A를 활용하여 A’를 생성 시 수반되는 모든 작업에 대한 고려가 힐요합니다. (단순 솔루션 활용은 한계가 존재, 내부 로직 추가개선 필요)
인전성과 효율성을 특정지표로 정량적 관리하고, 정성적 심사를 통해 활용 근거를 마련하는 것이 필수적입니다.

합성데이터 생성 절차

STEP1 데이터 전처리 : 합성처리 이전 적절한 수준의 가명처리

합성데이터 생성 시 활용상 법적 이슈가 존재하여 반드시 가명처리가 필요합니다.
가명처리 시 목적에 따른 적절한 컬럼별 처리 수준을 정의하고 그에 맞는 가명처리 기법 적용이 필요합니다.

STEP2 데이터 생성 : 목적에 맞는 적절한 합성방법론 사용

데이터의 특성 및 활용 목적에 따라 적합한 방법론을 선정합니다.
방법론의 세부적인 파라미터 튜닝을 통해 데이터의 적정 품질 수준을 제고하고 있습니다.
※ ’2022년 기술검증 사업(NIA)을 통해 다양한 방법론을 활용한 합성데이터 생성 및 검증 수행 경험 보유

STEP3 위험성 및 유용성 검증 : 합성데이터 특수성을 반영한 평가

목적에 따른 유용성 검증 테스트 케이스 설계하고 검증을 수행합니다.
EX) 매출, 가공, 클러스터리 등 적합한 테스트 케이스 작성 후 검증하여 목적 달성가능성 검증

STEP4 데이터 후처리 : 활용목적에 적합한 데이터 추가 가공

STEP3에서 도출된 결과 기반으로, 목적 달성가능성 제고를 위한 추가 가공 절차를 수행합니다.