代写 第⼀一部分:

第⼀一部分:
PageRank
1. 读取collection.txt⽂文件,根据⾥里里边的url#打开各个url#.txt⽂文件夹,依照section1中给的关系,创建 “图”。
2. 统计出每个顶点的度数,根据公式计算出⽐比重(输出到 pagerankList.txt ⽂文件夹)输出格式如 下:按照⽐比重从⼤大到⼩小顺序排列列输出。输⼊入如下指令(d – damping factor, diffPR – difference in PageRank sum, maxIterations – maximum iterations),进⾏行行计算输出结果。

3. 图、链表、读取⽂文件等代码已经做好,需要调试修改。
第⼆二部分:
1. 读取每个 url#文件的 section2,将单词放入树中并标记出现该单词的 url,若树中已出现该 单词,直接在单词中标记 url 地址,若已有该 url 地址(表示同一个页面出现了同样的单 词,则跳过)最后统计哪些 url#中出现了相同的单词;
2. 树的基础代码已经给出,读取文件单词的代码也写好了,需要结合起来建树进行搜索整 理;
3. 输出结果如下:单词需要全部小写,不得包含标点符号(读文件代码已处理好),整体按 照字母升序排序(建树代码已处理好,只需按顺序输出即可),每行的 url 按照数字大小 升序排列(需要在标记的时候进行处理,未完成),将结果输出到 invertedIndex.txt 文 件。

第三部分:
1. 根据前两部分输出的两个 txt 文件,创建搜索功能,如输入“mars design”可以输出同时 包含这两个单词的所有 url#;
2. 若输出结果超过 30 个 url#,报错;若输出结果小于 30 个,输出全部结果;
3. 输出结果按第一部分输出文档中 PageRank 的大小降序排列;
备注:
1. 第一部分命名 pagerank.c, 第二部分命名 Inverted.c,第三部分命名 searchPagerank.c
2. 只有以上这三个文件中可以有 main 函数,其他辅助文件如 DDList 等不得有 main