Pseudo :assume the top-ranked documents contain relevant information
Pseudo can generally show better difference in staticalliy aspect. It can improve the efficiency of query.
But sometimes the efficiency will decrease, If the documents are too many, it is easy to be affected by the other documents. Because Some not relevant will be add into the query.
Copyright By PowCoder代写 加微信 powcoder
Pseudo-Feedback Algorithm
伪相关反馈是一种经过充分研究的查询扩展技术,其中假定初始检索结果集中排名最高的文档是相关的,然后从这些文档中提取扩展项。 在选择扩展词时,大多数传统模型不会同时考虑词频和候选词与查询词之间的共现关系。与查询词同时出现的词更可能与查询主题相关。
(3)伪相关反馈或盲相关反馈
概念: 没有用户参与,系统直接假设返回文档的前k篇是相关的,然后进行反馈。
伪相关反馈优缺点小结:
不用考虑用户的因素,处理简单
很多实验也取得了较好效果
没有通过用户判断,所以准确率难以保证
不是所有的查询都会提高效果
describe three models
bm25 week10 IRM
model1 week 10 PRM,
model2 同样是prm,但是使用池袋模型表示文档,然后使用logestic回归分类
Assumptions (if any)
Algorithms
Bm25 w5 logestic回归
Describe your development (which packages)
Bm25 前两部分主要用了math这个库, model2使用sklearn机器学习库,pandas来读取数据
solution for all steps
前俩个参考你们作业就行了,里面步骤很详细
Model2 对于某个query中的全部文件,使用CountVectorizer()编码,得到特征,然后使用于model1中类似的方法,得到文件的伪标签,用这些数据训练逻辑回归模型,最后使用模型预测的可能性作为排名的依据。
程序代写 CS代考 加微信: powcoder QQ: 1823890830 Email: powcoder@163.com