第十届中国大学生服务外包创新创业大赛
企业命题类赛题手册
中国大学生服务外包创新创业大赛组委会 2019年2月
中国大学生服务外包创新创业大赛组委会
目录
一、 概述………………………………………………… 2 二、 企业赛题…………………………………………….. 4 2.1 【A01】2018 网络零售平台商品分类【浪潮】 …………………………… 4 2.2 【A02】基于华云 chinac 公有云平台,设计云监控管理系统【华云】 …………. 6 2.3 【A03】大规模资金流入流出的大数据预测【阿里创新创业中心】……………. 9 2.4 【A04】语音人机交互技术带来的家庭娱乐体验升级【阿里人工智能实验室】 ….. 16 2.5 【A05】基于 PaddlePaddle 的校园生活服务类产品【百度】 ……………….. 19 2.6 【A06】智能网联汽车驾驶健康伙伴系统【东软睿道】……………………. 22 2.7 【A07】智能化跨境商品交易平台【东软睿道】…………………………. 26 2.8 【A08】智能会议室管理系统【虹软】………………………………… 30 2.9 【A09】智慧教室学生状态检测系统【慧科集团】……………………….. 34 2.10 【A10】运用数据分析和可视化技术创造完美的数据大屏交互体验【融创软通】 .. 37 2.11 【A11】基于微信的移动智能学习平台【文思海辉】…………………….. 41 2.12 【A12】用户行为的深度追踪——用户行为分析平台【恒生电子】………….. 46 2.13 【A13】工业技术类从业者与领域专家的交流平台【海尔】……………….. 49 2.14 【A14】运用文本相似度实现(证券)智能客服【恒生电子】……………… 52 2.15 【A15】景点智能识别语言翻译 APP【文思海辉】 ………………………. 56 2.16 【A16】AI 数据采集【虹软】 ……………………………………… 59 附件一:A 类企业命题初赛统一评分标准(仅供参考) ……………….62
1
中国大学生服务外包创新创业大赛组委会
一、 概述
第十届中国大学生服务外包创新创业大赛(以下简称“服创大赛”或“大赛”) 企业命题类竞赛邀请具有代表性的企业参与命题,所有赛题组成赛题池,参赛团 队可在赛题池中选择任一组别赛题参赛。本类竞赛重点考察参赛团队的专业技能 及专业竞争力水平。
命题企业根据自己的真实业务需要发布赛题,由参赛团队按要求进行回应。 参赛团队需接受参赛承诺书中规定的知识产权条款,赛题涉及特殊知识产权的部 分由企业赛题中单独约定。
根据赛题要求不同,部分赛题要求不能使用开源代码的,则选择该赛题的团 队禁止使用。如赛题允许使用开源代码,则需要在作品中标明哪部分使用了开源 代码。对于源代码,大赛不要求参赛团队统一提交,但是在评审过程中,评委对 于有异议的项目或存在抄袭的项目,可要求学生团队提交源代码或要求学生与评 委进行远程视频答辩。
企业命题类每道赛题不限参赛团队数目。企业命题类竞赛中,除正常比例的 一二三等奖,获奖团队可获得与命题企业进行项目对接和成果转化的机会。
第十届服创大赛企业命题类赛题列表
赛题编号
命题企业
题目类别
专业方向
赛题名称
A01
浪潮
应用类
大数据
2018 网络零售平台商品分类
A02
华云
应用类
云计算
基于华云 chinac 公有云平台,设计云监控 管理系统
A03
阿里创新创业 中心
计算类
大数据
大规模资金流入流出的大数据预测
A04
阿里人工智能 实验室
应用类
人工智能
语音人机交互技术带来的家庭娱乐体验
升级
A05
百度
应用类
人工智能
基于 PaddlePaddle 的校园生活服务类产品
A06
东软睿道
应用类
物联网与工 业自动化
智能网联汽车驾驶健康伙伴系统
A07
东软睿道
应用类
移动互联网
智能化跨境商品交易平台
2 / 63
中国大学生服务外包创新创业大赛组委会
赛题编号
命题企业
题目类别
专业方向
赛题名称
A08
虹软
应用类
人工智能
智能会议室管理系统
A09
慧科集团
应用类
智能硬件
智慧教室学生状态检测系统
A10
融创软通
应用类
大数据
运用数据分析和可视化技术创造完美的
数据大屏交互体验
A11
文思海辉
应用类
移动互联网
基于微信的移动智能学习平台
A12
恒生电子
应用类
大数据
用户行为的深度追踪——用户行为分析
平台
A13
海尔
计算类
人工智能
工业技术类从业者与领域专家的交流平
台
A14
恒生电子
计算类
人工智能
运用文本相似度实现(证券)智能客服
A15
文思海辉
计算类
人工智能
景点智能识别语言翻译 APP
A16
虹软
商业类
人工智能
AI 数据采集平台
注:本表中赛题编号为大赛官网报名系统中赛题编号。
3 / 63
中国大学生服务外包创新创业大赛组委会
二、 企业赛题
2.1 【A01】2018 网络零售平台商品分类【浪潮】
1.命题方向 大数据
2.题目类别 应用类
3.题目名称
2018 网络零售平台商品分类
4.背景说明 【整体背景】
分类一直是数据科学界研究的重点问题,它被广泛地应用到生活的各个方面。 伴随着电商行业的快速发展,商品的数量越来越多,需要对商品制定分类,便于 找寻自己所需的商品。针对现在每天都会产生的大量商品名称,如果人工去为商 品分类,不仅工作量巨大、速度慢,而且也会出现分类错误的情况。本赛题旨在 寻找一种分类方法,能够实现对商品的快速准确的分类,降低人工成本以及出错 率。
【公司背景】
浪潮卓数大数据产业发展有限公司作为浪潮集团旗下的大数据板块,致力于 成为数据资源提供商、数据资产运营商和数据交易服务商,以大数据时代的“数 商”为发展目标,促进数据社会化。浪潮卓数是一个大数据电商平台,所依托的 浪潮集团以“云+数”为发展战略,全面转型新型互联网公司。浪潮大数据在智 慧企业方面帮助企业提高效率、降低成本。
【业务背景】
浪潮卓数大数据产业发展有限公司作为浪潮集团旗下的大数据板块,致力于 成为数据资源提供商、数据资产运营商和数据交易服务商,以大数据时代的“数 商”为发展目标,促进数据社会化。
5.项目说明
【问题说明】
4 / 63
中国大学生服务外包创新创业大赛组委会
来自不同网上零售平台的商品 500 万个,其中有 50 万个带有商品的标签信 息,剩余的 450 万个无标签信息。建立一种分类模型,利用 50 万个商品包含的 标签信息,对剩余的 450 万个商品进行合理的标签判定。
【用户期望】
追求标签判定的精确性与分类模型的高效性。 6.任务要求
【开发说明】
分类是数据科学研究的一个重点课题。电商行业积累了大量的商品数据信息, 商品分类受到各大平台重点关注。本次拟定通过对 50 万带有商品分类标签的商 品进行训练,建立合适的分类模型方法,对 450 万不带有分类标签的商品进行分 类。
【技术要求与指标】
在此项目中,要求详细阐述使用的文本处理方法,训练过程中如何对模型进 行适配调优,对训练集分类的准确率,最终模型的效率(为 450 万商品打标签所 用时间)等。
【提交材料】 (1)项目概要介绍; (2)项目详细方案; (3)项目演示视频; (4)项目简介 PPT; (5)企业要求提交材料;
所使用的分类方法原理与参数调优过程概述
训练后的分类方法,以及对 50 万训练集和 450 万测试集打标签结果 可视化 web 端开发,支持单个与批量输入查询分类结果
(6)团队自愿提交的其他补充材料。
【任务清单】 (1)模型的概述与简介,对算法模型有充分的认识理解,切不可只会套用; (2)模型的参数调优过程(如果包含调优过程); (3)模型的效率(包括处理文本的效率与打标签的效率)。
5 / 63
中国大学生服务外包创新创业大赛组委会
【开发工具与接口】 (1)开发工具:开发工具以及开发平台不限,可以借助开源的工具; (2)数据接口:企业会通过网盘提供。
7.参考信息 无
8.评分要点
本赛题评分要点参考附件一:A 类企业命题统一评分标准。
2.2 【A02】基于华云 chinac 公有云平台,设计云监控管理 系统【华云】
1. 命题方向 云计算
2. 题目类别 应用类
3. 题目名称
基于华云 chinac 公有云平台,设计云监控管理系统
4. 背景说明 【整体背景】
近年来,随着互联网行业的渗入,越来越多的企业选择云计算的解决方案进 行商业部署,云平台所提供的的“按需使用”的能力,动态扩展、维护简单、成 本低、反应迅速等特点,能够最大程度的降低企业成本,助力企业实现转型升级, 一直得到越来越多中小企业的青睐。云平台通过虚拟化等技术,将底层资源、应 用平台和服务整合,提高了硬件设备的使用率,随之而来的是大规模的节点和海 量的数据以及复杂的网络环境。因此实时监控的信息也会随之大规模的增长,系 统不仅要监控物理节点,还有规模庞大的虚拟机节点,用户查询、存储耗时也大 大增加。而现有的传统监控系统,大多存在监控僵化、效率低下、操作复杂、部 署困难、无法自定义监控指标等问题,或是没有提供智能的集成监控方法,很难 适用于云平台的需求,或是局限于某一个云平台,无法解决跨平台统一资源监控
的问题,从而造成监控服务器超负荷、数据库写性能下降以及海量数据存储瓶颈
6 / 63
中国大学生服务外包创新创业大赛组委会
等。
【公司背景】
无锡华云数据技术服务有限公司(简称“华云数据”)专注于为客户提供 “自 主、安全、可控”的云计算服务,以帮助用户采用云计算提升 IT 能力,实现业 务变革。华云数据主要面向企业级用户提供定制化私有云解决方案,同时还可以 提供混合云、大数据、一体机、公有云、IDC 转云等“全云”服务。华云数据自 主研发并推出的运营型 PaaS 平台——中国云应用平台依托华云数据自身云计算 基础设施,采用一站式运营模式,通过云计算全程信息化服务及管理平台系统, 提供销售结算、管理支持和安全合规等功能,为中国软件应用的 SaaS 云化提供 了发展道路。传统软件应用可以借助封装部署、云化迁移等特有技术,实现快速 云化。
【业务背景】
华云高品质公有云,从高性能集群、高速网络通道、异地容灾备份等方面着 手,为客户打造北京、上海、广州、深圳、苏州、香港等等多重点城市的高品质 资源池,满足高质量客户对于计算资源高性能的服务需求。
华云数据提供了一种对云主机进行性能监控的监控系统及监控方法,所述监 控方法同时通过云主机 Agent 模块、计算节点 Agent 模块以及站点监控模块采集 云主机的虚拟资源利用状态进行监控以获得监控数据,通过计算节点 Agent 模块 的 Libvirt API 连接到 KVM 虚拟机管理程序,并调用其对应的 Libvirt API 遍历获 取所有云主机的监控数据,通过至少一个站点监控模块对云主机的网络可用性进 行监控,并至少采用间隔地方式采集并计算云平台监控数据后保存至数据库,告 警模块根据用户设置的告警设置规则对所有监控数据进行告警监控。
5. 项目说明 【问题说明】
(1)云监控管理系统主要以监控管理云计算平台为首要目标;
(2)云监控管理系统以监控功能实现为核心任务,构建 3D 模型进行交互作 为本次项目的自由可选任务。
【用户期望】
(1)以华云 chinac 公有云平台为监控对象,监控范围至少包括平台资源、
7 / 63
中国大学生服务外包创新创业大赛组委会
状态、日志信息等等; (2)监控信息有可视化输出,输出信息有分类存档,支持自动发送报警信
息;
(3)监控信息应该具有实时性,保证数据的有效性;
(4)监控系统支持 3D 模型展示,元件支持交互式操作(该功能为可选功能)。
6. 任务要求 【开发说明】
(1)功能需求建议主要涵盖监控管理、虚拟机管理、物理机管理、镜像管 理、网络管理、存储管路、应用服务管理 6 大模块,每个模块的具体细节可自由 把握;
(2)性能需求建议支持伸缩管理 1-100000 台物理宿主机服务器,建议要求 支持大用户并发,尤其消息中间件要求可将消息持久化,保证在通讯中断时,消 息能被保留知道通讯恢复。
【技术要求与指标】 (1)前后端技术选型合理; (2)系统整体架构需要保证低耦合与高可用; (3)后端代码需要保证高内聚和低耦合。 【提交材料】
(1)项目概要介绍;
(2)项目详细方案;
(3)项目演示视频;
(4)项目简介 PPT; (5)企业要求提交材料:
需求分析文档 系统设计文档 测试报告
(6)团队自愿提交的其他补充材料。 【任务清单】 (1)需求调研与分析;
8 / 63
中国大学生服务外包创新创业大赛组委会
(2)系统设计,包含概要设计与详细设计; (3)测试案例编写;
(4)编码;
(5)部署测试环境测试。 【开发工具与接口】
http://docs-api.chinac.com/
http://open.chinac.com/ http://open.chinac.com/portal/documentation/index.html
【其他】
云监控管理系统必须高可用,支持多种底层技术架构。
7. 参考信息 http://open.chinac.com/portal/documentation/article/fid/300.html
8. 评分要点
本赛题评分要点参考附件一:A 类企业命题统一评分标准。
2.3 【A03】大规模资金流入流出的大数据预测【阿里创新 创业中心】
1. 命题方向 大数据
2. 题目类别 计算类
3. 题目名称 大规模资金流入流出的大数据预测
4. 背景说明 【整体背景】
蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出,
面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小, 又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。
【公司背景】 阿里巴巴创新中心(无锡高新)项目是阿里云与无锡高新区及梦想家三方合
9 / 63
中国大学生服务外包创新创业大赛组委会
作落地的实体双创孵化加速基地。阿里云、无锡高新区、梦想家作为合作的三方, 各自提供其最具竞争力的优势资源,共同打造面向全球云计算、大数据、物联网 等领域创新创业企业的聚集孵化基地,为企业提供苗圃、孵化、加速、成长、退 出一条龙服务。
【业务背景】
通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流 入流出情况。
5. 项目说明 【问题说明】
蚂蚁金服拥有上亿会员并且业务场景中每天都涉及大量的资金流入和流出, 面对如此庞大的用户群,资金管理压力会非常大。在既保证资金流动性风险最小, 又满足日常业务运转的情况下,精准地预测资金的流入流出情况变得尤为重要。 通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资金流入流 出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回行为。命 题中使用的数据主要包含四个部分,分别为用户基本信息数据 user_profile_table、 用户申购赎回数据 user_balance_table、收益率表 mfd_day_share_interest 和银行间 拆借利率表 mfd_bank_shibor。
【用户期望】 期望通过对例如余额宝用户的申购赎回数据的把握,精准预测未来每日的资
金流入流出情况。对货币基金而言,资金流入意味着申购行为,资金流出为赎回 行为。通过提交结果表 tc_comp_predict_table,对每一天对申购、赎回总额的预 测值,金额数据,精确到分。
6. 任务要求
【开发说明】
期望选手对未来 30 天内每一天申购和赎回的总量数据预测的越准越好,同 时考虑到可能存在的多种情况。譬如有些选手在 30 天中 29 天预测都是非常精准 的但是某一天预测的结果可能误差很大,而有些选手在 30 天中每天的预测都不 是很精准误差较大,如果采用绝对误差则可能导致前者的成绩比后者差,而在实 际业务中可能更倾向于前者。所以最终选用积分式的计算方法:每天的误差选用
10 / 63
中国大学生服务外包创新创业大赛组委会
相对误差来计算,然后根据用户预测申购和赎回的相对误差,通过得分函数映射 得到一个每天预测结果的得分,将 30 天内的得分汇总,然后结合实际业务的倾 向,对申购赎回总量预测的得分情况进行加权求和,得到最终评分。
【技术要求与指标】
本题的余额宝收益方式,主要基于实际余额宝收益计算方法,但是进行了一 定的简化,此处计算简化的地方如下:首先,收益计算的时间不再是会计日,而 是自然日,以 0 点为分隔,如果是 0 点之前转入或者转出的金额算作昨天的,如 果是 0 点以后转入或者转出的金额则算作今天的。然后,收益的显示时间,即实 际将第一份收益打入用户账户的时间为如下表格,以周一转入周三显示为例,如 果用户在周一存入 10000 元,即 1000000 分,那么这笔金额是周一确认,周二是 开始产生收益,用户的余额还是 10000 元,在周三将周二产生的收益打入到用户 的账户中,此时用户的账户中显示的是 10001.1 元,即 1000110 分。其他时间的 计算按照表格中的时间来计算得到。
【提交材料】 (1)项目概要介绍; (2)项目详细方案; (3)项目演示视频; (4)项目简介 PPT;
(5)企业要求提交的材料:
提交结果表:tc_comp_predict_table
(6)团队自愿提交的其他补充材料。 【任务清单】 提交结果表:tc_comp_predict_table
每一行数据是一天对申购、赎回总额的预测值,2014 年 9 月每天一行数据, 共 30 行数据。 Purchase 和 redeem 都是金额数据,精确到分,而不是精确到元。 格式如下:
字段
类型
含义
示例
report_date
bigint
日期
20140901
purchase
bigint
申购总额
40000000
redeem
bigint
赎回总额
30000000
11 / 63
中国大学生服务外包创新创业大赛组委会
【开发工具与接口】
无要求
【其他】 赛题中使用的数据主要包含四个部分,分别为用户基本信息数据、用户申购
赎回数据、收益率表和银行间拆借利率表。下面分别介绍四组数据。 (1)用户信息表
用户信息表: user_profile_table 。 我们总共随机抽取了约 3 万用户,其中部
分用户在 2014 年 9 月份第一次出现,这部分用户只在测试数据中。因此用户信 息表是约 2.8 万 个用户的基本数据,在原始数据的基础上处理后,主要包含了用 户的性别、城市和星座。
用户信息表
列名
类型
含义
示例
user_id
bigint
用户 ID
1234
Sex
bigint
用户性别
( 1 :男,0:女 )
0
City
bigint
所在城市
6081949
constellation
string
星座
射手座
(2)用户申购赎回数据表
用户申购赎回数据表:user_balance_table 。里面有 20130701 至 20140831 申 购和赎回信息、以及所有的子类目信息,数据经过脱敏处理。脱敏之后的数据, 基本保持了原数据趋势。数据主要包括用户操作时间和操作记录,其中操作记录 包括申购和赎回两个部分。金额的单位是分,即 0.01 元人民币。 如果用户今日 消费总量为 0,即 consume_amt=0,则四个字类目为空。
用户申购赎回数据
列名
类型
含义
示例
user_id
bigint
用户 id
1234
report_date
string
日期
20140407
12 / 63
中国大学生服务外包创新创业大赛组委会
tBalance
bigint
今日余额
109004
yBalance
bigint
昨日余额
97389
total_purchase_amt
bigint
今日总购买量 = 直接购 买 + 收益
21876
direct_purchase_amt
bigint
今日直接购买量
21863
purchase_bal_amt
bigint
今日支付宝余额购买量
0
purchase_bank_amt
bigint
今日银行卡购买量
21863
total_redeem_amt
bigint
今日总赎回量 = 消费 + 转出
10261
consume_amt
transfer_amt
bigint
今日消费总量
0
bigint
今日转出总量
10261
tftobal_amt
bigint
今日转出到支付宝余额
总量
0
tftocard_amt
bigint
今日转出到银行卡总量
10261
share_amt
bigint
今日收益
13
category1
bigint
今日类目 1 消费总额
0
category2
bigint
今日类目 2 消费总额
0
category3
bigint
今日类目 3 消费总额
0
category4
bigint
今日类目 4 消费总额
0
注 1 :上述的数据都是经过脱敏处理的,收益为重新计算得到的,计算方法 按照简化后的计算方式处理,具体计算方式在下节余额宝收益计算方式中描述。
注 2 :脱敏后的数据保证了今日余额 = 昨日余额 + 今日申购 – 今日赎回,不 会出现负值。
(3)收益率表
收益表为余额宝在 14 个月内的收益率表: mfd_day_share_interest 。 收益率表
列名
类型
含义
示例
mfd_date
string
日期
20140102
mfd_daily_yield
double
万份收益,
1.5787
13 / 63
中国大学生服务外包创新创业大赛组委会
即 1 万块钱的收 益。
(4)上海银行间同业拆放利率(Shibor)表
银行间拆借利率表是 14 个月期间银行之间的拆借利率(皆为年化利 率): mfd_bank_shibor 。
mfd_7daily_yield
double
七日年化收 益率( % )
6.307
银行间拆借利率表
列名
类型
含义
示例
mfd_date
String
日期
20140102
Interest_O_N
Double
隔夜利率(%)
2.8
Interest_1_W
Double
1 周利率(%)
4.25
Interest_2_W
Double
2 周利率(%)
4.9
Interest_1_M
Double
1 个月利率(%
5.04
Interest_3_M
Double
3 个月利率(%
4.91
Interest_6_M
Double
6 个月利率(%
4.79
Interest_9_M
Double
9 个月利率(%
4.76
Interest_1_Y
Double
1 年利率(%)
4.78
) ) ) )
(5)收益计算方式
命题的余额宝收益方式,主要基于实际余额宝收益计算方法,但是进行了一 定的简化,此处计算简化的地方如下:
首先,收益计算的时间不再是会计日,而是自然日,以 0 点为分隔,如果 是 0 点之前转入或者转出的金额算作昨天的,如果是 0 点以后转入或者转出的金 额则算作今天的。
然后,收益的显示时间,即实际将第一份收益打入用户账户的时间为如下表 格,以周一转入周三显示为例,如果用户在周一存入 10000 元,即 1000000 分, 那么这笔金额是周一确认,周二是开始产生收益,用户的余额还是 10000 元,在
14 / 63
中国大学生服务外包创新创业大赛组委会
周三将周二产生的收益打入到用户的账户中,此时用户的账户中显示的
是 10001.1 元,即 1000110 分。其他时间的计算按照表格中的时间来计算得到。
简化后余额宝收益计算表
转入时间
首次显示收益时间
周一
周三
周二
周四
周三
周五
周四
周六
周五
下周二
周六
下周三
周天
下周三
(6)学生需要提交的结果表: 学生提交结果表: tc_comp_predict_table
每一行数据是一天对申购、赎回总额的预测值,2014 年 9 月每天一行数据, 共 30 行数据。 Purchase 和 redeem 都是金额数据,精确到分,而不是精确到元。
评分数据格式要求与“选手结果数据样例文件”一致,结果表命名为: tc_comp_predict_table,
(7)评估指标
评估指标的设计主要期望选手对未来 30 天内每一天申购和赎回的总量数据 预测的越准越好,同时考虑到可能存在的多种情况。譬如有些选手在 30 天
中 29 天预测都是非常精准的但是某一天预测的结果可能误差很大,而有些选手 在 30 天中每天的预测都不是很精准误差较大,如果采用绝对误差则可能导致前 者的成绩比后者差,而在实际业务中可能更倾向于前者。所以最终选用积分式的 计算方法:每天的误差选用相对误差来计算,然后根据用户预测申购和赎回的相
字段
类型
含义
示例
report_date
bigint
日期
20140901
purchase
bigint
申购总额
40000000
redeem
bigint
赎回总额
30000000
15 / 63
中国大学生服务外包创新创业大赛组委会
对误差,通过得分函数映射得到一个每天预测结果的得分,将 30 天内的得分汇 总,然后结合实际业务的倾向,对申购赎回总量预测的得分情况进行加权求和, 得到最终评分。具体的操作如下:
计算所有用户在测试集上每天的申购及赎回总额与实际情况总额的 误差。
申购预测得分与 Purchasei 相关,赎回预测得分与 Redeemi 相关 ,误 差与得分之间的计算公式不公布,但保证该计算公式为单调递减的, 即误差越小,得分越高,误差与大,得分越低。当第 i 天的申购误 差 Purchasei =0 ,这一天的得分为 10 分;当 Purchasei > 0.3 ,其得 分为 0 。
最后公布总积分 = 申购预测得分 *45%+ 赎回预测得分 *55% 。 7. 参考信息
提供数据下载地址:http://www.alimxj.com/data.rar 8. 评分要点
本赛题评分要点参考附件一:A 类企业命题统一评分标准。
16 / 63