아하
검색 이미지
생활꿀팁 이미지
생활꿀팁생활
생활꿀팁 이미지
생활꿀팁생활
깔끔한올빼미80
깔끔한올빼미8020.10.22

랜덤포레스트 관련 질문입니다.

제가 원하는 질문이 흔히 쓰이는 용어로는 뭔지 모르겠어서 이해한대로 질문드립니다.

현재 url을 받아와서 url의 특징과 html코드를 받아와서 html java src 의 특징으로 피싱사이트 탐지하는 학생프로젝트 중입니다.

논문 상에는 탐지 특징이 30개가량있었는데

실력이 모자라 15개 밖에 구현하지 못했습니다.

그중 8개는 겉르로 보이는 url의 모습만 가지고 판단하는 기준이고 나머지 7개는 내부 코드를 가지고 판단합니다.

그렇다보니 url적인 특징이 드러나지 않는 피싱의 경우 잡지 못합니다.

여기서 드릴 질문은 각 특징별로 결과값에 미치는 영향력의 차이를 조절할수있나요?

Ex) url의 길이가 결과값에 영향을 미치는 정도

->10%

내부 코드중 웹사이트 트래픽 순위가 결과값에 영향을 미치는 정도 -> 20%

이게 가능한가요?

55글자 더 채워주세요.
답변의 개수
1개의 답변이 있어요!
  • 만약 XGBoost를 이용하신다면 Feature importance를 이용해서 각 feature가 어느정도 중요성을 가지는지 그래프로 볼수가 있습니다.

    다음과 같은 블로그를 통해 확인 가능합니다.

    https://machinelearningmastery.com/feature-importance-and-feature-selection-with-xgboost-in-python/