본문 바로가기

검색엔진/정보검색11

11. 단어백, 그 이후의 검색 11.1. 개요 단어백 : 검색과 분류에서 텍스트를 간단한 표현으로 참조하기 위해 사용 11.2. 자질 기반 검색 모델 11.3. 단어 의존 모델 단어 관계의 사용으로 만들어진 검색 모델은 각각의 다른 독립적인 단어의 발생이라고 가정할 수 없기 때문11.4. 구조의 재고 11.4.1. XML 검색 XQuery 같은 복잡한 데이터베이스 질의 언어는 일반적으로 텍스트 검색 애플리케이션의 유용성 보다 적게 데이터의 구조와 데이터의 결합에 초점을 두고 있다. 11.4.2. 개체 검색 문서의 리그트 대신 질의에 반응한 개체의 순위화된 리스트를 생성 11.5. 긴 질문, 좋은 대답 좀 더 명확한 질의에 대한 명확한 결과를 제공하기 위하여 자연어에서 사용하는 복잡한 질의를 사용 11.6. 단어, 그림, 그리고 음악 .. 2016. 4. 26.
10. 소셜 검색 10.1. 소셜 검색은 무엇인가? 개개인의 사용자 프로파일과 관심사에대한 정의, 다른 사용자들과의 상호작용, 그리고 검색되는 결과에 개한 수정 활동들과 관련된 모든 애플리케이션 10.2. 사용자 태그와 수동색인 10.2.1. 태그 검색 이미지 또는 비디오처럼 명시적인 간단한 텍스트 표현을 갖지 않는 할목을을 텍스트 파원으로 제공할수 있다. 복잡한 항목을 매우 간단한 캐드로 표현 본질적으로 오류를 포함한다는 것 10.2.2. 누락된 태그 추론하기 10.2.3. 브라우징과 태그 클라우드 태그는 사용자들이 대규모 항목 컬렉션 내 새로운 항목을 브라우징하고, 탐색하고, 발견하는 것을 돕는데 이용될수 있다. 10.3 커뮤니티 검색 10.3.1 커뮤니티는 무엇인가? 운라인 환경 내에서 상호작용하고, 공통의 목표, .. 2016. 4. 26.
9. 분류, 필터링, 스팸 9.1. 분류와 범주화 9.1.1. 나이브 베이즈 분류 다중 베르누이 모델 다항 모델 9.1.2.. 지지 벡터 기계 문서와 같은 입력 값들을 어떤 기하학적 공간에 위치라고 있다고 간주하고 기하하적 원리를 기반으로 하는 분류기술 9.1.3. 평가 대부분의 분류작업들은 정확도, 정확률, 재현율, F measure, ROC 곡선 분석과 같이 일반적으로 정보검색에서 측정하는 방법을 사용해서 평가된다. 9.1.4. 분류기와 자질 선택 생성, 변별, 비 파라미터 모델 자질 선택 9.1.5. 스팸, 의견, 온라인 광고 9.2. 클러스터링 클러스터링 알고리즘은 데이터를 구조화하기 위한 다은 접근 방법이다. 9.2.1. Hierarchical and K-Means 클러스터링 계츨 클러스터링은 단계적 방법으로 클러스터를 .. 2016. 4. 26.
8. 검색엔진의 평가 8.1. 왜 평가를 하는가? 평가는 더 좋은 검색엔진을 만드는 과정에서 핵심 내용이다. 또한 평가는 검색엔진이 특정 프로그램에서 효과적으로 사용되는지 에 대하여 이해하는데 필수적이다. 8.2. 평가 말뭉치 8.3. Logging 질의로그는 가용자와 검색엔진 사이에 일어나는 상호작용을 캡쳐한 것으로 웹 검색엔진 개발에 매우 중요한 자원이다. 평가의 관점에서 질의 로그들은 많은 양의 데이터를 제공하는데, 제공되는 데이터는 사용자가 입력한 질의어로 부터 검색엔진의 검색 결과를 어떻에 확인하는지에 대한 것이다. 8.4. 효과성 통계 8.4.1. 재현율 과 정확률 재현율 : 검색엔진이 질의어에 관련된 모든 문서를 얼마나 잘 찾아내는지에 관하여 측정하는 것 정확률 : 관련이 없는 문서를 얼마나 잘 배제하는지에 관하.. 2016. 4. 26.
7. 검색모델 7.1. 검색 모델 개요 정보 검색 연구의 주된 목적은 텍스트가 사람의 정보요구에대해 적합한지를 판별하는 인간의 일련의 과정을 이해하고 형식화 하는데 있었다. 수학적 검색 모델의 형태로 적합성에 대한 이론을 제시할수 있고 인간의 행동과 견주어 그 이론을 검증해 볼 수 있다. 7.1.1. 불리언 검색 불리언 검색 모델은 초기의 검색엔진에서 사용되었고 오늘날에도 여전히 사용되고 있다. 또다은 용어로는 완전 일치 검색이라고 알려져 있으며, 이는 문서가 질의와 정확하다면 검색되고 그렇지않으면 검색되지 않는다. 모델의 결과가 예측 가능하고, 사용자들에게 설명하기 쉽고, 메타데이터를 직관적으로 포함할 수 있지만, 효과성이 전적으로 사용자에게 달려 있다는것이 단점이다. 7.1.2. 벡터 공간 모델 단어 가중치 부여,.. 2016. 4. 19.
6. 질의와 인터페이스 6.1. 정보 요구의 질의 질의는 정보 요구를 제대로 표현 못 할 수 있다. 이는 사용자가 정보 요구를 표현하기 어렵다는 것을 나타낸다. 그러나 그것은 검색엔진 인터페이스에서 긴 질의는 적절한 문서를 검색하지 못한다는 편견 때문에 사용자가 짧은 질의를 입력하도록 유도하기 때문에 더 자주 발생한다.6.2. 질의 변형(Transformation) 과 정련(Refinement) 6.2.1. 불용어 제거와 스테밍의 재고(Revisited) 검색엔진에서 사용되는 질의의 가장 일반적인 형태는 소수의 키워드로 구성된다. 불용어를 색인에 유지하는 것은 시스템의 유연성을 증가시키고 또한 불용어를 보통 단어로 취급하지만, 따옴표 또는 연산자와 함께 사용된 것 같은 특정 조건을 제외 하고는 제거될 수 있다. 6.2.2. 철.. 2016. 4. 14.