챗지피티 모델 개선에 이용되는 대화 데이터의 보안

챗지피티를 이용할때 모두를 위한 모델 개선 기능을 켜놓고 대화를 하면 사용자의 대화를 학습 데이터로 이용하기 위해 비식별화되어 계정과 분리된다는데, 그렇게 처리된 대화는 삭제를 하더라도 30일 이상 보존된다고 합니다.

그런데 그렇게 학습용 데이터셋에 들어간 대화들에 대해서도 보안이 철저한가요? Open ai의 정책을 보니까 개인 데이터는 암호화되어 저장된다고 하는데 이걸 계정과 분리된 대화도 개인 데이터라고 해석해야할지 의문입니다.

4개의 답변이 있어요!

  • 안녕하세요. 박재화 전문가입니다.

    모델 개선용으로 사용되는 대화들도 기본적으로는 보안 통제와 암호화 대상에 포함된다고 보시는 것이 맞습니다.

    계정과 분리된다고 해서 보호가 느슨해진다 이런 구조는 아닐테고, 접근 권한도 제한적으로 관리가 될 것 입니다. 다만 ㄷ완전하게 익명 데이터처럼 취급된다기보다는, 재식별 위험을 줄인 상태로 내부 관리되는 데이터에 가깝다고 이해할 수 있습니다. 그래서 정책상으로는 보호는 되지만, 절대 외부 공개를 전제로 한 데이터는 아니다고 볼 수 있습니다.

    결론적으로 보안은 유지되나, 민감한 정보는 애초에 입력하지 않는 것이 가장 안전한 사용 방법이라고 볼 수 있습니다.

  • 안녕하세요. 김재훈 전문가입니다.

    OpenAI의 정책상 계정과 분리되어 비식별화된 대화 데이터 역시 개인 데이터 범주에 포함되어 전송 및 보관 시 암호표준에 따라 엄격하게 보호되며 인가된 소수의 인원만이 학습용 데이터셋 관리 목적으로만 접근할 수 있도록 통제됩니다 비록 계정 정보는 제거되었더라도 대화 본문에 포함되었을 수 있는 민감 정보 유출을 방지하기 위해 데이터 보호 처리 절차를 거치며 법적 준수사항에 따라 일정 기간 보존된 후에는 학습 모델의 성능 개선용으로만 활용됩니다 다만 기업용 모델이 아닌 일반 사용자용 모델 개선 기능이 활성화된 상태라면 보안 시스템이 작동하더라고 대화 내용 자체가 데이터셋에 포함될 수 있으므로 보안이 중요한 정보는 해당 기능을 끄거나 임시 채팅을 활용해 데이터 저장을 차단하는 것이 가장 안전합니다

  • 안녕하세요. 이승호 전문가입니다.

    오픈에이아이 정책상 계정과 분리된 대화 데이터 역시 개인 데이터와 동일한 보안 체계 아래에서 관리됩니다. 여기서 말하는 개인 데이터란 단순히 가입 시 입력한 이름이나 이메일 주소만을 의미하는 것이 아니라 사용자가 작성한 대화 내용 전반을 포함하는 개념입니다. 따라서 비식별화 처리가 되어 저장되더라도 데이터 자체는 암호화된 상태로 보관되며 외부 유출을 방지하기 위한 기술적 조치가 적용됩니다.

    학습용 데이터셋에 들어간 정보들은 서버에 저장될 때나 전송될 때 모두 암호화 과정을 거칩니다. 계정 정보와 분리되었다는 것은 해당 대화가 누구의 것인지 알 수 없게 연결 고리를 끊었다는 의미이지 보안 수준을 낮춰서 관리한다는 뜻은 아닙니다. 오픈에이아이 측에서도 데이터 유출은 기업 신뢰도에 치명적이기 때문에 비식별 데이터라 하더라도 접근 권한을 엄격히 제한하고 있습니다.

    다만 삭제 후 30일 동안 데이터를 보관하는 것은 서비스 악용 사례를 모니터링하거나 법적인 준수 사항을 지키기 위한 최소한의 안전장치입니다. 이 기간이 지나면 시스템상에서 완전히 제거되는 절차를 밟게 됩니다. 결국 보안 자체는 철저하게 이루어지지만 사용자가 대화 내용에 직접 포함시킨 민감한 정보는 비식별화와 관계없이 모델이 문맥으로 학습할 위험이 있으므로 중요한 정보는 입력 단계에서부터 주의하는 것이 좋습니다.

  • 안녕하세요.

    모델 개선에 쓰이는 대화들도 기본적으로는 보안 대상에 포함이 되어 있다고 보는 게 맞을 것 같습니다.

    계정과 분리되더라도 원 데이터는 내부 시스템에 의해서 통제가 되고 암호화가 되어 있어 보호 조치가 적용되어 있게 됩니다. 물론 완전 익명 데이터기 보단 식별된 요소를 줄인 형태일 가능성이 높아 내부 관리 기준이나 수준에 따라서 다뤄질 수 있을 것 같습니다.

    감사합니다.