项目描述:
• 实现对新浪网、新华网、百度贴吧等主流网站内容的采集。
• 对采集结果进行去Html标签的数据预处理,提取URL地址、标题、正文、作者等基本信息及正文内容中涉及的word、pdf、图片、视频、音频等多媒体内容的url地址列表及相关URL对应的超媒体内容。
项目要求:
输入:给定一个URL地址
输出:两个文件(网页正文、网页内的有效URL链接)
编程语言:C++(最佳),JAVA
具体实现:
• 给定一个url、获取HTML网页
• 对采集结果进行数据预处理,提取有效正文,保存到TXT文件。
•
• 数据处理关注点:(若存在较大难度,酌情满足即可)
• 网页正文中有表格尤其是嵌套型表格,数据清洗后文本尽量反映原表格要素基本视觉关系。
• 内容提取是否可能有效区分正文内容和相关推荐及广告等干扰项,仅需要提取正文要素,排除推荐内容及广告等干扰项
• 同一段文字在各字符存在不同网页标签修饰的情况下,例如同一段话的文字前后存在不同颜色、粗细、字体字号、超链接修饰等情况,html标签清洗后文字是否顺畅连接,而不是因中间存在html标签干扰在清洗后被割裂成若干不相关文字串。
• Html清洗后文本中剩下的空行及非必要段落或句子前后的空格是否得到有效消除,以让清洗后的文字更加紧凑可读。
注意事项:
不得使用已有的开源爬虫框架及解析工具。