已经实现对保存聊天记录的 txt 文档进行语言分级处理,得到语言分级,并保存于处理后的 txt 文
档。
处理前:
格式: 时间 <用户名> 聊天记录 (不同内容之间都空一格)
处理后:
格式:语言分级 0-3 时间 <用户名> 聊天记录 (不同内容之间都空一格)
处理得到所有记录的语言分级
处理得到的部分语言分级(仅显示 2 级以上)
注:本身语言处理的功能,以及用 txt 文件的语言分级处理功能均已实现,故只需帮助实现能处
理不同格式txt文件的语言分级功能(应该就是用到不同的正则表达式)。 Txt 文本语言处理
的源代码,源代码中用到的语言处理 jar 包 NLP, 已经实现的特定txt文件的语言处理源代码,
已经实现的 txt 语言文本(处理前,处理后)。 以及需要处理的txt语言文本均会发送给你。
任务需求:正则表达式应用,Java处理txt文件
现有另外一个数据库导出的 txt 文件
待处理txt文件格式 : :用户名, 聊天记录,带有日期精确到微妙的时间,日期^
注:1.每条记录均以:开头 ^结尾,且:只出现在开头 ^只出现在结尾
2.因为是在linux下数据库导出到linux的txt文件,该 txt 文件在 linux 环境下
如下图所显示,windows 环境下排版变乱。
3.有些记录会超过一行,比如下图的桔色部分。
用用相同的语言分级方法(分级功能已实现),处理格式不同的 txt 文件,得到以下两种格式的
txt文件:
1.和如上处理后相同格式的txt文件,即:格式:语言分级 0-3 时间 <用户名> 聊天记录 (不
同内容之间都空一格) 注:日期舍去
2.带有日期的处理后txt文件
格式如下图所示,包括 语言分级 日期 时间(保留到分钟) <用户名> 聊天记录
(不同内容之间都空一格)