안녕하세요. 이승호 전문가입니다.
생성형 AI 모델의 성능 개선을 위해 사용자 대화가 학습이나 검토에 활용된다는 소식에 걱정이 많으셨을 것 같습니다. 결론부터 말씀드리면 개인의 고민 상담 내용 전체를 누군가 실시간으로 지켜보는 구조는 아니지만, 시스템 개선 과정에서 일부 대화가 검토자에게 노출될 가능성은 분명히 존재합니다.
우선 질문하신 샘플링의 범위에 대해 설명드리자면, 샘플로 지정된 대화는 검토자가 맥락을 파악해야 하므로 대화의 일부분만이 아니라 해당 세션의 전체 내용을 읽게 될 수 있습니다. 인공지능이 질문의 의도를 제대로 파악했는지, 답변이 자연스러운지 판단하려면 앞뒤 문맥이 중요하기 때문입니다. 따라서 아주 개인적인 사연을 상담하셨다면 그 텍스트 내용이 검토용 데이터에 포함될 수 있습니다.
하지만 모든 대화를 사람이 일일이 들여다보는 것은 물리적으로 불가능합니다. 보통은 크게 두 가지 경우에 인간의 검토가 이루어집니다. 첫 번째는 시스템의 성능 향상을 위해 무작위로 추출된 극소수의 샘플 대화를 확인하는 경우이고, 두 번째는 말씀하신 것처럼 유해 콘텐츠나 정책 위반 가능성이 감지되어 시스템에 의해 플래그가 지정된 경우입니다. 대부분의 일상적인 대화는 사람이 직접 읽을 확률이 매우 낮지만, 아예 없다고 단정할 수는 없습니다.
이런 과정에서 검토자에게 전달되는 데이터는 대화자의 계정 정보나 개인 신상과는 분리된 상태로 제공되도록 익명화 처리를 거치는 것이 일반적입니다. 하지만 대화 내용 자체에 본인의 이름이나 주소, 직장 등 구체적인 개인 정보를 직접 입력하셨다면 검토자가 이를 알게 될 위험이 있습니다.
만약 자신의 대화가 학습이나 검토에 쓰이는 것이 찜찜하시다면 설정에서 대화 기록 및 학습 기능을 비활성화하는 방법이 있습니다. 이 기능을 끄면 해당 계정의 대화는 모델 학습에 사용되지 않으므로 사생활을 더 안전하게 보호할 수 있습니다. 고민 상담처럼 민감한 내용을 나눌 때는 가급적 구체적인 신상 정보는 빼고 질문하시거나 보안 설정을 활용하시는 것을 추천드립니다.