CE306/CE706 – Information Retrieval
Assignment 2
Alba García Seco de Herrera
March 2021
Plagiarism
提醒您,此作品应归功于CE306 / CE706中的复合商标,因此,您提交的作品必须属于您自己的作品。您使用的任何材料,无论是教科书,Web还是任何其他来源的材料,都必须在程序中作为注释加以确认,并注明参考范围。
The context of your task
为了正确评估系统,您的测试信息需求必须与测试文档集中的文档密切相关(并与之相关),并且适合于系统的预期使用。给定信息需求和文档,您需要收集相关性评估。这是一个涉及人类(在本例中为您)的耗时且昂贵的过程。对于很小的集合,可以获得与每个查询和文档对相关的详尽判断。对于大型的现代馆藏,通常仅针对每个查询的一部分文档评估相关性。最标准的方法是合并,在其中评估集合的子集的相关性,该集合是由许多不同的IR系统(通常是要评估的文档)返回的前k个文档构成的。
The Document Collection (dataset) 对于此分配,您将使用在第一次分配中使用的数据集(分别用于CE306和CE706的Wikipedia电影情节或COVID-19开放研究数据集)。
Your task
此任务分阶段进行。每个阶段都有分数。阶段如下:
• Building a Test Collection (10%)想象一下,您想探索哪种搜索引擎设置最适合您要建立索引的集合,从而使搜索尽可能高效。首先,您应该设计一个小的测试集合,其中包含许多查询及其预期结果。
o确定集合涵盖的三个信息需求,然后为每个需求组成一个样本查询。
• IR systems (20%)您将比较2个IR系统。在第一个任务中,您构建了一个IR系统,即系统1。对于系统2,然后可以更改不同的参数。例如,您可以通过比较使用词干的系统和不使用词干的系统来更改预处理管道。但是,这将要求您重新索引集合。另外,您可能想尝试不同的检索模型,例如布尔值与TF.IDF。
• Pooling (10%)您将把两个IR系统(来自作业1的原始结果和新创建的一个)的前10个检索结果汇总在一起来构建池。您需要对三个查询中的每个查询都执行此操作。在下一步中,您将判断此池中的每个文档。
• N.B. 池外的文档自动被认为是不相关的(Sparck Jones和van Rijsbergen,1975)
• Assessing relevance (20%)您将提供二进制相关性判断。文档与信息需求相关或无关(无关)。
o对于每个信息需求对(查询),您需要评估池中的每个文档是否相关(如果它满足信息需求)。
• Evaluation (30%)收集完测试后,您就可以探索每个IR系统对评估结果的影响。为此,您需要确定一个合适的指标。使用P @ 5和R @ 5作为此分配的选择度量。
Tasks in summary: 使用作业1中的数据集,确定要从数据集中学习的3条信息。使用作业1和修改后的版本中的原始IR系统从数据集中检索答案。然后,您将创建一个池,并根据给定的每个查询评估池中文档集的相关性。最后,您将比较两个系统的P @ 5和R @ 5。
您会注意到上面的百分比加起来只有90%。这是因为该项目的重要方面之一是您的工作应有充分的文档记录。您的分数的10%将来自此。该报告应包含:
•总体架构的设计和设计决策/依据
•构成测试集合的实际地面真相数据(即,使用其匹配文档进行的查询)
•评估结果
•讨论您的解决方案,重点是两个系统的比较。
该报告只要涉及以上所有要点,就不需要很长的时间.
Software
要使用的后端搜索引擎是Elasticsearch。除此之外,您还可以自由选择使用任何一种语言编写其他代码,并使用您认为合适的任何开放源代码工具。
Submission
您应该提交:
•报告(使用下面的模板)
提交内容应通过电子提交系统以单个pdf文件的形式提交。请在CSEE学校办公室检查提交截止日期的详细信息。
学生手册中说明了有关迟交作业的准则。
CE306 or CE706 – Information Retrieval 2021
Assigment 2
Student ID
Test collection (Task 1)
Include here the selected information needs and how they will be represented as a query.
Information need
Query
IR systems (Task 2)
Include here the details of your two IR systems and the difference between them.
Pool method (Task 3)
For each method retrieve the top 10 documents. Therefore for each query, you will have a maximum of 20 documents.
Query
# different documents
Id of the documents retrieve by System 1
Id of the documents retrieve by System 2
Relevance assessments (Task 4)
To be consistent with all the queries, you need to define criteria to judge if a document is relevant for an information need. The same criteria should be used for all the queries. Notice that only containing the same words is not a valid criterion.
Relevance criteria:
Query
ID of relevant documents
Evaluation (Task 5)
Include here the details of how you did this step including any issue that you had and how did you face it. You may include screenshots to clarify.
System 1
System 2
P@5
R@5
P@5
R@5
Q1
Q2
Q3
Discussion: Include the discussion of your solution focusing on the comparison of both systems.