使用的场景,启动项目,可以读取本地数据库的内容进行分析
可以读取本地使用协议向外部网络发送的数据信息。
数据源,可以电商数据,有建表的sql代码,然后其他场景可以自己做
需求分析:
• 数据源如淘宝电商数据,数据库(多表)(mysql 和redis(mongdb也行)),输入数据库之中然后进行分析,识别出的类型包括很多种参考以下的链接基本包含了所有可以识别的类型,但是我们要做的不用全部识别,具体根据数据的来源选用部分数据即可,下面链接包含不用深度学习模型的正则表达式,可以直接使用,https://blog.csdn.net/u014779378/article/details/103035474?utm_medium=distribute.pc_aggpage_search_result.none-task-blog-2~all~sobaiduend~default-1-103035474.nonecase&utm_term=%E6%95%B0%E6%8D%AE%E5%AE%89%E5%85%A8%E5%88%86%E7%B1%BB%E5%88%86%E7%BA%A7%E6%A0%87%E5%87%86&spm=1000.2123.3001.4430,其中我给的模型识别主要是中文的命名实体识别,人名地名组织机构名字(技术可以看看还能实现什么主要是针对中文的难以识别的名字)。
第二类是网络中传输的数据,自己模拟发送数据(使用协议发送)即可,并且截取可以获取具体数据量可暂时不用考虑,先实现功能,数据量满足模型标准即可,类型跟上述一样。
• 模型实现,技术可以参考给的模型和正则表达式实现,不用费很多功夫。
• 输出,第一类是结果的输出,输出到文档里面,划分为四个等级,
第一等级 低敏感,姓名性别等
第二等级 较敏感,如家庭住址(地名)、手机号码等
第三等级 非常敏感,如银行卡号、密码等信息
第四等级 其他不重要,可有可无
第二类输出,主要是模型的效率,目的是要调参过程。我给一些截图说明下,
4.后续可能需要上述做成系统有一定的前端展示页面,至少可以登录选择,选择处理功能
总体意思就是解释清楚模型是怎么做的,详细解释,让我论文写得时候丰富点,我不一一列举了。
目前先不关注正则表达式的东西,模型的效率无非是
还有模型运行中的那些数据,这个我没有直观表达方式,但我相信技术知道一个模型的好坏应该关注哪些参数,比如我了解的是迭代过程,最好的迭代效果这些,目的是输出训练过程的那些数值,要可视化可能要图表,不一定折线图,画出来就行,要能给我解释清楚,上述的召回率和准确率、F1分数这些也可以画图来实现这种可能就需要柱状图(也可以自己手动画图)但是这些参数要输出