검색엔진/정보검색

8. 검색엔진의 평가

문죄송 2016. 4. 26. 14:52

8.1. 왜 평가를 하는가?
    평가는 더 좋은 검색엔진을 만드는 과정에서 핵심 내용이다. 또한 평가는 검색엔진이 특정 프로그램에서 효과적으로 사용되는지
    에 대하여 이해하는데 필수적이다.

8.2. 평가 말뭉치 

8.3. Logging

    질의로그는 가용자와 검색엔진 사이에 일어나는 상호작용을 캡쳐한 것으로 웹 검색엔진 개발에 매우 중요한 자원이다. 평가의 관점에서 질의
    로그들은 많은 양의 데이터를 제공하는데, 제공되는 데이터는 사용자가 입력한 질의어로 부터 검색엔진의 검색 결과를 어떻에 확인하는지에 대한 
    것이다. 

8.4. 효과성 통계

    8.4.1. 재현율 과 정확률
        재현율 : 검색엔진이 질의어에 관련된 모든 문서를 얼마나 잘 찾아내는지에 관하여 측정하는 것
        정확률 : 관련이 없는 문서를 얼마나 잘 배제하는지에 관하여 측정하는 것
   
    8.4.2. 평균화 와 보간 

    8.4.3. 상위 문서에 집중
        많은 검색 애플리케이션에서 사용자는 연관 문서를 찾을 때 결과 목록의 순위중 오로지 상위 부분만을 보는 경향을 보인다. 이것의 의미는
        웹 검색을 하는 경우에 많은 사용자들이 오로지 1~2 페이지 결과만을 본다는 것이다.

    8.4.4. 선호도
        선호도는 순위부여 알고리즘에 사용되고, 평가의 적합성 판단을 할수 있는 대안으로 제시되었다. 그러나 현재 선호도를 기반으로 하는 효과성
        척도에 대한 대안은 없다.

8.5. 효과성 측정기준

8.6. 훈련, 실험, 그리고 확률

    8.6.1. 유의어 검정
        하나의 질의어에 대한 결과를 바탕으로 B 가 A 보다 좋다고 명백하게 결론내지 못한다. 그 이유는 다른 모든 질의어에 대하여 A 가 B 보다 좋을
        수도 있기 때문이다. 유의어 검정은 효과성에 대한 우리가 가지고 있는 확신을 정량화할 수 있게 해준다.

    8.6.2. 매개변수 값 의 설정

    8.6.3. 온라인 테스트
        평가를  위한 학습과 테스트를 하는 것으로 생각할수 있지만 실제 검색엔진 에서는 트래픽의 상황을 사용하여 가능하다.