说明文档
一、大概要求:
1、整个过程运行时间最好在10分钟以内,最长不超过15分钟。
2、分词用Java调mmeseg4j,后面的匹配,数据匹配输出等功能用python完成
3、确保我的电脑可以跑起来
2、 基本思路
1,方案及步骤:
1 提取:
将表格中的文本,以媒体名称为单位,一共包括四个维度,除了第一列名称以外
(媒体名称为记录单位,不算分词),例如:
表1
2 分词:
Java调用mmseg4j进行分词,将所在地,机构名称,机构地址,介绍分开
例:中国 江苏 苏州 || 苏州市 人民政府 新闻 办公室||江苏省 苏州市 金阊区 三香路 998号||苏州市 人民政府 新闻 办公室
然后,保存本地,用作匹配调用
涉及到的难点:分词本身没有问题,但是如何讲分词与后面做匹配的次做到很好的映射,就需要考量了,如:如果要求苏州发布的所处领域:市,人民,政府,这三个词无法和领域做匹对,但是合起来,市人民政府,就能和领域的地方发布很好的对应上,这点需要再算法上进行考量。
3 匹配
思路:分词之后,按照媒体账号为单位,依次对本地的数据库进行匹对,将映射上的文本进行关联。
匹配顺序:(见表1):
1)第一轮匹对:
介绍——》机构名称》机构地址——》所在地(实际上机构地址和所在地经常为空值,主要还是以介绍和机构名称作为匹对项)
一个维度没找到所有对应的词,下个维度接着跑
形式:
地域(省份,城市)
和本地json进行匹对,输出形式:县 市 省
A.如果都有,那就正常输出,匹对其所在的市和省
B.如果没有县,就从市开始往上查询,直到跑遍所有的维度。
C.如果县市都没有,但是有省,省份一栏返回省份,城市一栏返回省会,省会json会提供。主体性质返回‘省级’
D.如果县市省都没有,但关键词有国务院,中共中央,中央委员会,中华人民共和国,就返回0值,在主题性质上标明:中央部委
E.如果县市省都没有,也没有关键词国务院此类,那么返回0值,另建一张表,将这个媒体名称所有数据(以媒体名称为单位),到新建的表上
F.出现多个地址对应的情况,即地域重名,省份城市返回 repeat,将这个媒体名称所有数据(以媒体名称为单位),到新建的表上,重名的对应表格随后会发到邮箱里。
领域:
匹对EXCEL表格 领域.xlsx 的第四列:匹配词汇
如果能够映射之后其中一项,那依次比对到 领域》》主体性质》》主体级别(第二轮匹对)
主体性质:(详细见表格文件)
a. 政法(公安)
b. 政法
c. 国企
d. 0 如果a,b,c没有涉及到,但是表中有找到匹对的领域,那就在领域一栏返回0,注意d中的地方发布这一类,要特别提出来
e. 其他 如果以上的类都没有涉及到,但是表中有找到匹对的领域,那就在领域,主体性质,主体级别,返回0,新建一张表格,以该媒体名称为单位,返回到这张表上。
f. 如果出现国务院,中共中央,中央委员会,中华人民共和国的关键词,上述条件下(包括e),将主体性质填上:中央部委,注意,情况a和b需要特殊标明
情况a:中央部委 政法(公安)
情况b: 中央部委 政法
2)第二轮匹对:(主体性质,主体级别)
地域:
A:县级 B:市级 C:省级 D/E:0
a. 政法(公安) b.政法 c.国企 d:0 e:其他
将领域和地域结合,推出主题性质和主题级别:
主体级别:
地域 领域 是否中央关键词 主题级别
公式1:A/B/C + d(地方发布) + 否 =A/B/C(县级/市级/省级)
公式2:A + a/b/c/d/e + 否 =A(省级)
主体性质:
公式3:A/B/C/D/E + a/b/c/d/e + 否 =a/b/c/d/e
公式4: A/B/C/D/E + a/b/c/d/e + 否 =中央部委。。。
其他的情况,主体性质和主体级别一律设为0值
例:开化县人民政府——分词后——》开化县 县人民政府
——地域匹对——》开化/衢州/浙江
——领域匹对——》县人民政府——》地方发布
精确到县:开化——》县级
领域:县人民政府——》地方发布
主体性质:地方发布——》0
主体级别:县级+人民政府+0 =县级
(如果说不是地方发布,而是其他领域,如开化县安监,那就填0了)
2,输出结果:
将之前匹对输出的结果,输出为表格的形式,如:
媒体名称
主体性质
主体级别
领域
省份
城市
开化县人民政府
0
市级
地方发布
浙江
衢州
将其他未能匹配上的,单独输出到另一张表里(领域地域一个匹配不上就输出)
原始表:
名称
所在地
机构名称
机构地址
介绍
透过指尖的阳光
中国/四川/成都
每天一句暖心的情话,领悟爱情真谛,点亮你生活的精神世界
输出表:
媒体名称
主体性质
主体级别
领域
省份
城市
透过指尖的阳光
0
0
其他
四川
成都
如果有疑问或其他需要的材料,请随时咨询