学校代码: 1 0270 分类号: TP391 学号: 152502842
大 爹 硕 士 专 业 学 位 论 文
上善冲
基 于 用 户 行 为 特 征 的 手 机 端 身 份 识 别 研 究
学院: 专业 学位类别 : 专业领域: 研究生姓名: 指导教师: 完成日期:
信息与机电工程学院 工 程 硕 士
计 算 机 技 术 向 东 东
陈海光
2 0 1 8 年 3 月
—
’
论 文 独 创 性 声 明
本论文是我个人在导师指导下进行的研究工 作及取得的研究成果。 论文中除 了 特 别 加 以 标 注 和 致 谢 的 地 方 外 , 不 包 含 其 他 人 或 机 构 已 经 发 表 或 撰 写 过 的 研 究 成果。 其他同志对本研究的启 发和所做的贡献均己在论文中做了明确的声明并表
示 了 谢 意 。
作 者 签 名 :
k i L M :
论 文 使 用 授 权 声 明
本人完全了解上海师范大学有关保留、 使用学位论文的规定, 目卩 : 学校有权 保留送交论文的复印 件, 允许论文被查阅和借阅; 学校可以 公布论文的全部或部 分 内 容 , 可 以 采 用 影 印 、 缩 印 或 其 它 手 段 保 存 论 文 。 保 密 的 论 文 在 解 密 后 遵 守 此 规 定 。
作者签名: 知義糸 导师签名 歌^s 期: 入#.
!:
、 / 广
上海师范大学硕士学位论文
摘要
摘要
随着整个社会智能手机拥有量的增加和手机端信息服务的快速发展,手机端 产生和积累的敏感数据的安全性受到越来越多的重视。目前手机端常用的身份识 别方案包括数字密码、图案密码、指纹识别、面部识别和虹膜识别等。这类身份 识别我们称为一次识别或静态识别,静态识别一旦通过,不再关注当前手机操作 者是用户本人还是一个入侵用户,这种条件下,手机中存储的隐私数据就可能泄 露。本文针对智能手机端的身份识别问题展开研究,基于智能手机用户在输入身 份验证密码和滑动触摸屏过程中带有个人独特的行为特征,提出了两种身份识别 方案。
(1)基于数字密码输入特征的身份识别。该方案基于用户在输入数字密码 过程中对触摸屏幕的压力,接触面积和输入的时间特征实现用户身份的识别。在 使用数字密码登录手机时,给原本的密码识别身份增加了一层安全保护,使得即 便入侵用户获取到了真实密码,仍然很难验证通过。
(2)基于触控滑动手势特征的身份识别。该方案利用用户常用的四种滑动 手势特征(包括压力、接触面积、速度、手势轨迹长度、时间等特征)实现对用 户身份的识别。
本文将 OCSVM 算法应用到身份验证模型中,基于采集到的 28 位用户的特征 数据进行了如下实验:
(1)通过实验选择 OCSVM 算法的最佳核函数,得出 RBF 核较其它三种核函 数(Linear,Polynomial,Sigmoid)在精确度和模型训练时间上表现得更好。
(2)比较本文所采用的 OCSVM 分类算法与其它常用的分类算法(SVM,BP 神 经网络,朴素贝叶斯)训练的身份识别模型的优劣,得出 OCSVM 算法训练的模型 在分类精确度上高于其它三种分类算法,在训练时间上仅次于朴素贝叶斯算法。
(3)分析测试数据量的不同对模型分类的影响,实验发现两种身份验证方 案分别在测试数据量高于 300 和 800 时,FAR 和 FRR 值处于相对稳定的状态(基 于密码输入特征的身份验证 FAR 和 FRR 值在 0%-5.6%范围,基于触摸滑动手势的 身份验证方案 FAR 和 FRR 值在 2.75%-4.1%之间)。
(4)将本文的实验结果与近 5 年内相关课题的实验结果做了比较,结果显 示,本文的两种身份识别方案在 FAR 值上要低于两个相关文献的实验值,表现出 了较好的认假率。在 FRR 的表现上,本文的两种识别方案要好于文献[36], 仅仅次 于文献[15]的实验结果。
I
摘要 上海师范大学硕士学位论文 本课题的实验结果表明,用户的行为特征数据可用于有效区分用户的身份。
两种身份识别方案作为身份认证机制可以很好的提高设备的安全性,在实际应用 中可操作性强,身份验证过程对用户透明,不干扰用户的正常使用操作,不需要 増加额外的硬件开销。基于数字密码输入特征的身份识别可以无缝的集成到现有 的密码体系当中,实现了对用户身份的二次认证,而基于触控滑动手势特征的身 份识别,通过不断监听和收集用户手指与触摸屏交互产生的手势特征数据,实现 对操作用户身份的持续性、动态性识别,确保智能手机中隐私数据的安全,弥补 了传统静态身份识别方案仅在登录阶段认证的不足。
关键词:隐私数据;行为特征;OCSVM;隐式认证;身份识别
II
Shanghai Normal University Master of Engineering Abstract
Abstract
With the increase in the possession of social smart phones and the rapid development of mobile-side information services, the security of sensitive data generated and accumulated on mobile phones has received increasing attention. At present, the identification schemes commonly used in mobile phones include digital passwords, pattern codes, fingerprint recognition, face recognition, and iris recognition. This kind of identity recognition is called one-time identification or static identification. Once static identification is passed, it is no longer concerned about whether the current mobile phone operator is the user himself or an intrusion user. In this condition, the private data stored in the mobile phone may leak. This text carries on the research to the identity problem of the intellectual mobile phone end, proposes two kinds of identification schemes based on the intellectual mobile phone user is in the process of inputting the authentication password and sliding the touch screen with personal unique behavior characteristic.
(1) Identification based on digital password input features. The scheme is based on the user’s identity recognition by the pressure on the touch screen, the contact area and the input time characteristics during the process of inputting the digital password. When using a digital password to log in to a mobile phone, it adds a layer of security protection to the original password identification, making it difficult for the intrusion user to obtain a real password.
(2) Identification based on features of the touch slide gesture. The program uses the user’s four kinds of sliding gesture features (including pressure, contact area, speed, gesture track length, time and other characteristics) to identify the user identity.
In this paper, the OCSVM algorithm is applied to the authentication model, and the following experiments are performed based on the collected 28-character feature data:
(1) Selecting the best kernel function of OCSVM algorithm through experiments, it is concluded that the RBF kernel performs better than the other three kernel functions (Linear, Polynomial, Sigmoid) in accuracy and model training time.
(2) Comparing the advantages and disadvantages of the OCSVM classification algorithm used in this paper with other commonly used classification algorithms
III
Abstract Shanghai Normal University Master of Engineering (SVM, BP neural network, Naive Bayes) training, the model of OCSVM algorithm
trained in classification accuracy It is higher than other three classification algorithms and is second only to Naive Bayes algorithm in training time.
(3) Analyze the impact of different test data volumes on model classification. Experiments have found that when the test data volume is higher than 300 and 800, the two FAR and FRR values are in a relatively stable state (identity based on password input characteristics). The FAR and FRR values were verified to be in the 0%-5.6% range, and the FAR and FRR values for the touch gesture-based authentication scheme ranged between 2.75% and 4.1%.
(4) Comparing the experimental results of this paper with the experimental results of the related subjects in the past 5 years. The results show that the two identification schemes in this paper are lower than the experimental values of the two related literatures in the FAR values, showing that the Good recognition rate. In the performance of FRR, the two identification schemes in this paper are better than those in the literature [36] ,and are only inferior to the experimental results in [15].
The experimental results of this topic show that the user’s behavioral characteristics data can be used to effectively distinguish the user’s identity. Two identity authentication schemes can improve the security of the device as an identity authentication mechanism. In practical applications, the operability is strong. The authentication process is transparent to the user, does not interfere with the user’s normal operation, and does not require additional hardware overhead. . Identity recognition based on digital password input features can be seamlessly integrated into existing cryptosystems, while identity recognition based on touch gesture features enables continuous monitoring and collection of gesture feature data generated by the user’s finger interacting with the touchscreen. The continuous and dynamic identification of operating user identities ensures the security of private data in smart phones, and makes up for the inadequacies of the traditional authentication schemes that are only verified during the login phase.
Key words: privacy data;behavioral characteristics;OCSVM;implicit authentication; identification
IV
上海师范大学硕士学位论文
目录
目录
摘要 ………………………………………………………I Abstract ………………………………………………….III 第 1 章 绪论 ………………………………………………..1
1.1 课题背景与研究意义 ……………………………………1 1.2 相关研究现状 …………………………………………2 1.3 论文的主要研究内容 ……………………………………4 1.4 论文的组织结构 ……………………………………….4
第 2 章 相关知识综述 …………………………………………6 2.1 生物识别技术 …………………………………………6 2.2 基于行为特征的生物识别 ……………………………….10 2.3 支持向量机(SVM) ……………………………………13
2.3.1 线性可分支持向量机 ……………………………..13
2.3.2 非线性支持向量机 ……………………………….15 2.4 单类支持向量机……………………………………….16 2.4.1 支持向量机数据描述算法 ………………………….16 2.4.2 单类支持向量机算法 ……………………………..18 2.5 本章小结 ……………………………………………19 第 3 章 基于数字密码输入特征的身份识别实现 …………………….21 3.1 输入特征信息 ………………………………………..21 3.2 输入特征分析 ………………………………………..23 3.2.1 时间特征的有效性验证 ……………………………23 3.2.2 压力特征的有效性验证 ……………………………24 3.3 数字密码选取 ………………………………………..25 3.4 特征数据采集…………………………………………25 3.4.1 应用程序开发 …………………………………..25 3.4.2 数据采集过程 …………………………………..27 3.5 输入特征提取与处理 …………………………………..30 3.6 本章小结 ……………………………………………30 第 4 章 基于触控滑动手势特征的身份识别实现 …………………….32 4.1 设计思想 ……………………………………………32 4.2 触控滑动手势特征信息 …………………………………33 4.3 手势特征数据采集 …………………………………….35
4.3.1 应用程序开发 …………………………………..35
V
目录 上海师范大学硕士学位论文 4.3.2 手势数据采集流程 ……………………………….36 4.4 特征的提取与处理 …………………………………….37 4.5 滑动手势特征数据分析 …………………………………39 4.6 本章小结 ……………………………………………40 第 5 章 实验结果与分析 ………………………………………41 5.1 实验环境和测评指标 …………………………………..41 5.2 OCSVM 核函数选择……………………………………..42 5.3 算法对比实验 ………………………………………..43 5.4 分析测试数据量对 FAR 和 FRR 的影响 ………………………45 5.5 本文实验结果与相关文献的比较 ………………………….47 第 6 章 总结与展望 ………………………………………….49 6.1 研究工作总结 ………………………………………..49 6.2 未来研究内容展望 …………………………………….50 参考文献 ………………………………………………….51 攻读学位期间取得的研究成果 ………………………………….53 致谢 ……………………………………………………..54
VI
上海师范大学硕士学位论文
第 1 章 绪论
第1章 绪论
1.1 课题背景与研究意义
移动互联网的快速发展,推动了智能手机的需求量的大幅度提高,智能手机 的硬件配置大幅度提升的同时,价格迅速下降。IDC(国际数据公司 International Data Corporation,简称 IDC)日前发布了最新的报告,IDC 在这份报告中预测, 2017 年全球智能手机出货量将超过 15 亿台[1]。智能手机目前已经覆盖到社会各 个年龄阶段的各个群体,给人们带来了更加快捷、高效的生活方式。随着智能手 机不断的升级换代,原本属于 PC 上的信息服务逐渐的转移到了智能手机端,人 们可以更便捷的在智能手机端完成在线购物、充值、支付、收发电子邮件等。随 着人们对智能手机的依赖程度越来越高,用户在手机端存放和累积的个人信息和 数据越来越多,智能手机带来的安全隐患也日益突出。根据一项调查发现,一个 国家中 30%-40%的抢劫案件与智能手机和平板电脑相关[2]。引发这类抢劫事件的 原因有两种假设:1)设备本身具有转卖获利的价值;2)设备上存储的信息具有 潜在的获利价值。智能手机中敏感信息的泄漏正在引发人们越来越多的担忧。最 近的研究表明,智能手机中敏感信息的泄漏会对用户造成很大的损害[3]。
目前,应用在智能手机端的身份识别方案包括数字密码、图案密码、指纹识 别、面部识别、虹膜识别等。这类身份识别方法我们称为一次性识别或静态识别, 如图 1-1 是静态身份识别方案的图示。当前,基于数字和图案密码的身份识别方 案已经在智能手机中广泛采用。然而为了方便和容易记忆,大多数智能手机用户 倾向于选择简单和较弱的密码设置[4]。另外,遗留在手机屏幕上的油残物可能被 攻击者用于识别用户的真实密码[5]。图案密码很容易受到肩窥攻击,从而使得攻 击者可以获得权限来访问移动设备中的所有个人信息。随着生物特征识别技术的 发展,基于生物特征的身份识别技术逐步被应用到智能手机等移动设备中,如指 纹识别、面部识别和虹膜识别等。对于指纹识别,尽管识别准确率和速度都非常 高,但已被证实可以通过制作硅胶指纹膜的方式破解,而且采用指纹识别的同时 需要关联相应的密码。面部识别方式目前尚不成熟,很可能被高分辨率的人脸图 片欺骗破解,而且,在光线较暗的环境下错误识别率很高,甚至不能正常使用。 所以,静态身份识别的方案目前存在不小的安全隐患,且在登录验证时,这类方 案一旦验证通过之后,不再关注当前手机的操作者是用户本人还是一个入侵者,
1
第 1 章 绪论 上海师范大学硕士学位论文 这种条件下,存储在手机中的各种隐私信息就可能被暴露。
综上所述,对于智能手机身份识别目前存在的缺陷,采用更为有效的身份识 别方法显得更为迫切。所采用的身份识别方法应该具备设置简单、不易被观察窃 取、安全性较高、受环境影响小等的特点,同时,这种识别方案不仅仅是在登录 阶段识别用户的身份,还应该在登录成功后持续的识别当前用户是否为智能手机 真正的拥有者。
本文采用了两种基于生物行为特征的身份识别方案,分别根据用户在输入个 人数字密码和触控滑动智能手机过程中具有个人独特的行为特征,基于这些唯一 性、不可复制性的特征实现用户的身份识别。两种身份识别方案均不需要添加额 外的辅助硬件设备,身份识别采用隐式的方式,不需要用户的主动参与,不会对 用户正常的智能手机操作产生干扰和侵犯。本文的意义在于结合了两种身份识别 方法,实现了在用户登录和登录后两个阶段对用户身份的识别,给用户提供了一 个安全、可靠的智能手机操作环境。基于数字密码输入特征的身份识别方案,确 保了即便登录密码被他人盗取,针对输入特征的身份验证依然无法通过,这种二 次验证实现了与原有密码验证的无缝整合。而基于触控滑动手势特征的身份识别, 则实现了用户登录成功之后,持续的监测和识别智能手机使用者的身份。两种身 份识别方案从两个方面保证了智能手机使用环境的安全,且无需借助任何辅助硬 件设备即可完成用户身份的识别,即具有成本优势的同时,又具有较大的实用价 值。
图 1-1 静态身份识别流程
1.2 相关研究现状
基于行为特征的身份识别属于生物识别的范畴,较早用于击键识别研究。 1895 年,Bryan 等人观察发现每个发报员在发送相同的报文时都有其独特的击键 行为模式,根据击键特征可以有效的区分发送报员的身份,这一发现开启了击键
2
上海师范大学硕士学位论文 第 1 章 绪论 行为识别研究领域的大门[6]。19 世纪 80 年代,英国科学家KGaines 首次提出将 击键时间特征信息用于身份识别研究[7],因为击键生物特征被认为是唯一的,不 可复制的[8][9]。1992 至 1999 年间,Lin、M.Brown 等人将神经网络算法引入击键 身份识别的过程,取得了很高的识别准确率[10-14]。
在击键生物识别领域的发展的同时,人们设想并实现将行为生物识别应用到 手机等移动终端上,移动终端配备许多微型传感器设备,有利于获取用户的各种 行为模式和特征。目前,已经有许多文献提出了多种方案将行为生物识别应用到 移动终端。文献[15]提出了一个叫 FAST (Fingergestures Authentication System using Touchscreen)的身份验证方案,FAST 结合了用户的触摸手势和一个数字 感应手套(用于收集额外的手势信息)实现了 4.66%的 FAR 和 0.13%的 FRR 的验 证精度。该方案实现了很高的身份验证精度,但需要添加一副数字感应手套,增 加了额外的硬件成本,而且在真实应用场景中不太便利。文献[16]将人脸识别应 用于身份验证过程中,在用户使用智能手机过程中,利用后台程序持续捕获用户 的面部信息,实时识别用户的身份信息。该方案存在的问题是人脸识别易受到环 境因素的影响(比如光线条件),应用的场合会受到限制。文献[17]将语音识别应 用到身份验证过程中,与文献[16]存在的问题类似,采用语音识别同样易受到环 境因素的影响,比如环境噪声比较大时,识别用户身份信息的效果就可能较差。 文献[18]使用了一个叫 SenGuard 的框架,该框架利用智能手机中内置的多种传感 器获取用户的行为信息(包括位置、声音、移动),后台的程序会利用这些信息 识别用户的身份,一旦识别出用户的身份发生改变时,会调用传统的一次性验证 方案对用户的身份重新认证。该方案利用了多种用户行为信息,验证身份的准确 率比较高,但要采集用户的运动状态信息,需要等待用户的物理位置发生变化时 才可以获取,存在的缺陷是验证用户的身份时间过长。文献[19]利用智能手机中 的加速度传感器获取用户手势信息,通过书写简单图形和阿拉伯数字实现用户身 份的识别。文献[20]使用手写和键盘输入的混合验证方法,不添加额外的硬件, 实现了 FRR 为 19%,FAR 达到了 21%的验证效果。文献[21]利用 ipad 屏幕的多点触 控传感器捕获用户五根手指的轨迹(包括五指向同一方向移动,逆时针绕掌心旋 转,五指同时捏合所产生的轨迹)数据,实现了超过 90%的分类精确度。文献 [19][20][21]采用的是用户主动进行身份验证的方式,缺点是需要用户主动按照指定 的输入操作参与身份的验证过程。对比以上的各文献方案,本文采用的身份识别 方案有以下优点:(1)无需额外的辅助硬件设备支持;(2)身份识别时间短;(3) 识别精度高;(4)识别过程采用隐式的方式,无需用户的主动参与。
3
第 1 章 绪论 上海师范大学硕士学位论文 1.3 论文的主要研究内容
本文针对目前智能手机中积累的隐私数据越来越多,而相对应的智能手机常 用的身份识别方案存在着安全性不高的问题,给出了两种基于用户行为特征的身 份识别方案。两种身份识别方案均属于生物识别技术中的行为特征识别,行为特 征识别相比生理特征识别(指纹识别、面部识别、虹膜识别等)不需要额外的硬 件设备支持。生理特征是一种静态的特征,这种特征易被盗取引发安全问题,而 行为特征是一种动态特征,这种动态特征很难被模仿和盗用,因此安全性也更高。 本文采用的两种行为特征身份识别方案:(1)数字密码输入特征的身份识别方案, 该方案基于用户在输入数字密码过程中对手机屏幕的压力,手指的接触面积以及 输入的时间特征实现对用户身份的识别。(2)触控滑动手势特征的身份识别方案, 该方案基于用户常用的四种滑动手势特征(包括手指的压力、接触面积、速度、 手势轨迹长度、时间等特征)实现身份的识别。
文章采用了 OCSVM 算法构建身份识别模型,并采用了网格搜索算法获取模型 的最优参数。基于采集到的 28 位用户的特征数据进行了一系列实验(包括特征 数据的有效性验证,核函数的选优,常用机器学习算法训练模型识别率的比较以 及将本文实验结果与相关文献结果作比较)。
经过实验分析表明,用户的行为特征数据可以有效的区分用户的身份。两种 身份识别方案可以有效提高设备的安全性,在实际应用中具有很好的可操作性, 身份识别过程对用户透明,不需要増加额外的硬件开销。基于数字密码输入特征 的身份识别可以无缝的集成到现有的密码体系当中,实现了对用户身份的二次认 证,而基于触控滑动手势特征的身份识别,通过不断监听和收集用户手指与触摸 屏交互产生的手势特征数据,实现对操作用户身份的持续性、动态性识别,确保 智能手机中隐私数据的安全,弥补了传统静态身份识别方案仅在登录阶段认证的 不足。
1.4 论文的组织结构
本文共分为六章,具体的章节内容如下:
第一章为本文的绪论部分,介绍了课题研究的背景,当前智能手机在快速普 及和广泛应用的背景下所带来的安全隐患,以及传统的静态身份识别存在的潜在 安全性问题,概述了本文采用的两种身份识别方法及其特点。之后,介绍了行为 生物识别在击键识别应用上的历史及目前提出行为生物识别在智能手机端的应 用方案及其优缺特点。
4
上海师范大学硕士学位论文 第 1 章 绪论 第二章讲述了本文研究所涉及到的相关知识背景。本章对生物识别技术的概 念和特点做了介绍,阐述了主要的生物识别方法及其技术原理和特点,并对常用 的生物识别方法做了比较。对行为生物识别的优点做了概括,并引出本文所采用 的两种基于行为特征的身份识别方案,并对本文的两种身份识别方法做了描述和 分析。最后详述了本文主要涉及的机器学习分类算法(SVM)原理及其推导过程,
并重点介绍了由 SVM 所派生的一类支持向量机算法(SVDD 和 OCSVM)。 第三章为本文手机端身份识别方法中的第一种方法,首先对基于数字密码输 入特征的身份认证所涉及到的特征信息做了详细的介绍,然后通过实验的方式验
证出这些特征信息是有效的,可区分的,可以应用于身份识别的过程中。然后, 详细的介绍了输入特征的采集过程,其中包括采集设备的选取,应用程序的开发 环境及数据采集的流程。最后,介绍了文章采用的特征提取和处理方法。
第四章主要围绕着本文的第二种身份识别方法,本章主要围绕着本文的第二 种身份识别方法,详述了该身份识别方法的设计思想和滑动手势中可提取的多种 行为特征,文章设计了一款手机端的后台服务程序,不断的监听和收集用户操作 智能手机过程中手指与触摸屏交互产生的手势特征数据,之后从收集到的原始手 势数据中提取出 6 组特征数据,最后,对 6 组手势特征数据中的时间特征和位置 特征进行了有效性验证。
第五章为本文的实验部分,主要完成了 OCSVM 核函数的选优,OCSVM 算法与 常用分类算法的比较,分析测试数据量对模型分类的影响以及本文的实验结果与 近 5 年的相关研究做了比较。
第六章对本课题的研究工作做了全面的总结,指出了本文研究工作的不足和 存在的缺陷,最后给出了课题之后的研究思路和方向。
5
第 2 章 相关知识综述
上海师范大学硕士学位论文
第2章 相关知识综述
本章对生物识别技术的概念、特点及其分类进行了说明,阐述了主要的生物 识别技术和方法,给出了本文采用的两种基于生物行为的身份识别方法及其相关 描述和分析,最后详细介绍了文本所采用的支持向量机分类算法及其派生算法。
2.1 生物识别技术
生物识别是根据有生命的个体的各种特征来完成对个体的识别[22][23]。生物认 证识别,就是利用计算机技术获取人体的相关生物特征数据,对获取的数据做数 据处理和特征提取,再基于这些特征数据建立有效的数学模型,进而实现对用户 身份的识别。国际生物认证协会将生物识别定义为“根据生理和行为特征来识别 或验证一个有生命个体的自动方法”[24]。
在传统上,我们用来识别用户身份信息时所采用的技术可分为两大类,一是 利用“用户所知道的”(如常用的密码和身份号码),二是利用“用户所拥有的” (如智能卡和令牌)。我们知道密码和个人身份号码可以被自由的共享,而智能 卡和令牌一旦交给其他人,他人可借此登录,而本人则不能再登录了。“用户知 道的”如密码等很容易遗忘或泄露,而“用户拥有的”如证件等容易被他人窃取 利用。用户的密码和持有物一旦被盗取,就可能被他人用于登录获取信息或仿冒 本人获取相应的利益,从而给用户本人带来相应的损失。生物识别技术利用的是 用户个体固有的可测量的生物特征,这些生物特征属于用户个人所独有,时刻伴 随着用户而存在,不易被他人窃取、盗用或伪造,也不需要用户本人刻意牢记或 被无意间遗弃。相比较传统的身份识别技术,生物识别技术如下的几个优点:
1.验证的方便性。相比传统的身份验证方法,如使用智能卡、钥匙或个人密 码相比,生物验证系统使得验证过程更加简单快捷。相比传统的证件、智能卡的 物体标识,人体本身具有的特征就是一种稳定的标识,这种“私有的”标识具有 持久性。
2.验证的门槛越发严格。作为传统身份识别的身份号码和密码容易被窃取盗 用,而生物识别所需的生物标识不会被窃取,避免了不良用户盗取用于获准登录 进入的可能性。因此,从安全的角度看,通过生物识别进入实体和逻辑的要求门 槛越发严格。
3.实现成本越发低廉。随着计算机技术的发展,用于生物认证和验证的硬件
6
上海师范大学硕士学位论文 第 2 章 相关知识综述 设备和软件价格降低到了可以被广大消费市场易接受的水平。同时,计算机网络、 数据库和计算机运算能力的提升带给生物识别技术在更广泛的地域和领域中得 到应用。
生物特征作为人体固有的属性包含生理和行为两大特征。生理特征是人类天 生的特征(如发色、脸型),从个体的双亲遗传获取,这些特征在人类胚胎发育 期间逐渐形成,最终表现为个体所独有的特征。行为特征是个体在后天的生活学 生过程中不断形成和发展的结果,这些特征反应了个体的行为习惯倾向。常见的 生理特征包括指纹、掌纹、手型、脸型、声音、虹膜、视网膜、静脉等用户固有 的静态特征,常见的行为特征包括手写签名、握手、步态、击键、触屏滑动等带 有个人特点的动态特征。生物特征是一种“随身携带”的属性,它不需要记忆和 携带,不易被盗取和伪造,在用于广泛的身份识别领域具有安全性高、方便快捷 的特点。
常见的基于生理特征的身份识别方式有:
(1)指纹识别 指纹识别是利用人手指末端表面的纹理特征,这些凹凸不平的纹理含有丰富
的突起、分叉、末梢、圆点等生物细节特征。这些纹理的特征在人与人之间具有 唯一性,并且可以保持相对的持久和稳定不变。在人类早期的生活中就已经有用 墨水和纸张收集指纹信息,这些指纹和印记可用于贸易合约中确认交易者的身份 属性。当前的指纹识别技术是通过电子模块收集指纹表层的信息,再将这些指纹 信息与之前存储的指纹模板信息做比对。根据采集指纹技术的不同,指纹的识别 方式有光学指纹识别、射频指纹识别、电容式指纹识别。
(2)脸型识别
脸型识别常用于访问控制和设备的登录验证。脸型识别的原理是基于定位和 提取包括人脸部位的鼻子、嘴、下额线、脸颊、眉毛等相对的位置、大小和总体 的外部形态轮廓。局部特征的分析包括眉心到鼻尖位置的距离,瞳孔的位置,左 右眼瞳孔间的距离,嘴唇的宽度,鼻尖到嘴唇中心的距离等。至于提取什么样的 脸部特征,这些特征的在比较过程中的权重如何确定和分配,目前尚没有一个标 准的规定。在商业公司中,从特征的选取、处理、分离到采用的算法细节都是不 公开的,而且在不同商业公司之间是有很大差异的。脸型识别是一个相对较难的 生物识别技术领域,在特征提取的过程中容易受到用户表情、外界光线、脸部相 对方位的影响。脸型识别的优点在于它是一种非接触式的识别技术,注册便捷, 具有良好的用户体验。
(3)虹膜识别 虹膜是位于眼球中白色巩膜和黑色瞳孔之间的环状区域,该区域包含丰富的
7
第 2 章 相关知识综述 上海师范大学硕士学位论文 交错斑点、条纹、细丝纹理等特征细节,这些细节特征在人类胚胎发育期间形成, 受遗传基因的影响,且具有一定的随机性,在不同个体之间具有唯一性。虹膜识 别的识别精度高,可提取的特征种类多,特征区分度大,特征的获取受外界环境 的影响较小,在非接触式识别技术中有很好的应用前景。
常见的基于行为特征的身份识别有:
(1)签名识别 签名识别属于行为生物认证的范畴,它基于用户长期的书写习惯和签名笔迹
的差异来区分用户的身份。签名识别常利用数字电子书写板,获取签名书写过程 中的动态特征(笔迹的线条、书写的速度、压力、时序信息等)和静态特征(包 括书写结果呈现的字母大小和尺寸,相对位置,字母的曲线和形状以及整个签名 的外形轮廓)。签名识别过程可以结合签名的静态特征和动态特征,提高签名的 身份识别率,能够有效降低伪造签名的可能。签名是一种行为特性,受环境因素 的影响,即便是同一个人的签名,经过多次的重复签名,签名之间的差异也会有 较大的不同。签名的书写工具,如笔的粗细、重量、长短、持握的舒适体验都会 影响签名的最终呈现效果。同时书写者的精神状态,当前签署文件的重要性也会 影响签名的可重复性。因此,签名认证更适合于小规模特定领域内的身份识别, 不太适合普遍的大规模的身份识别领域。
(2)步态识别
步态生物识别的理论是这样:就像每个人都有一个独特的声音或指纹一样, 每个人也有一个独特的步态[24]。方法是把身体运动转换为数字,计算机可以识 别这样的数字[24]。研究指出,每个人的身高结构、体重、腿部肌肉力量、骨骼 的轮廓、个人身体本身的协调平衡能力等方面均存在着差异,进而表现在一个人 步态的唯一性。一个人的步态特征在视觉上具有可观察性,我们经常可以通过远 距离的观察判断一个自己所熟悉的人。步态特征通常是利用摄像头捕获的人体行 走的视频,将视频转换成图片处理,提取图片中人物的各种特征(如跨步的宽度、 小腿抬起的高度、上肢摆动的角度等)并与模板库中的特征做比对,进而识别用 户的身份。
(3)击键识别
击键识别是一种典型的隐式认证方法,它是基于这样一种假设:不同的人具 有各自独特的输入方式。击键特征可以定义为一种基于击键间隔、击键压力、击 键持续时间和击键位置等的行为特征[25]。主要表现有两点:第一,击键时间特 征值对于同一个人的多次输入呈现出较为稳定的特征;第二,击键时间特征值因 不同的人对同样字符串的输入有着较大的不同[26]。击键识别也属于行为生物认 证的范畴,与其它生物识别方式不同,击键识别不需要相应的传感器硬件设备采
8
上海师范大学硕士学位论文 第 2 章 相关知识综述 集特征数据,只需要配备特定的软件获取用户输入过程的特征信息,这些特征信 息反应了用户长期键盘输入过程的行为习惯。这些特征信息在视觉上无法很好的 识别,但是利用计算机和相应的数学模型就可以很好的识别这种击键模式上的微 妙差异。
指纹识别、脸型识别、虹膜识别等归属于生理特征的识别,这类识别方式具 有识别时间短、精确度高等优点,同时也存在自己的不足(如需要辅助的硬件, 易产生接触侵犯)。与之相对应的签名识别、击键识别等基于行为的生物识别无 需辅助的硬件设备支持,不会对用户造成侵犯,且在识别精度上可以被用户接受。 表 2-1 给出了常用的几种生物识别技术的比较[27]:
特性 类别
表 2-1 常用的几种生物识别技术的比较
普遍性 稳定性 准确性 采集性 接受性 辅助设备 自动完成
指纹识别 中 高 高 中 中 是 是 脸型识别 高 中 低 高 中 是 是 虹膜识别 高 高 高 高 中 是 是 DNA识别 高 高 高 低 低 是 否 签名识别 中 低 低 高 高 否 是 步态识别 低 低 中 中 高 是 是 击键识别 低 中 中 高 高 否 是
典型的生物识别处理流程是:利用特征采集设备(传感器等)获取生物体的 特征数据,对获取的特征数据做过滤、分类、归一化等处理,基于处理后的数据 建立特征模板,最后将特征模板用于身份识别,识别过程同样需要特征采集设备 获取生物特征数据,并将该特征数据与特征模板做比对,进而实现对生物体的身 份识别。如图 2-1 为生物识别系统的一般处理流程。
图 2-1 生物识别系统的处理流程
9
第 2 章 相关知识综述 上海师范大学硕士学位论文 2.2 基于行为特征的生物识别
基于行为特征的生物识别不会侵犯用户的隐私,具有用户接受性高,无需额 外硬件设备支持的特点,在实现上只需要辅助相应的识别软件,具有很高的成本 优势。同时,相比指纹等基于生理特征的身份识别,具有高度的保密性,不易被 模仿和伪造。行为特征是在用户长期生活习惯中形成的,不易因外界环境而发生 改变,避免了指纹、脸型等生理特征因为受伤、手术等原因而引发身份识别失败 的结果。本文将行为特征生物识别技术运用于手机端的身份识别研究中,主要采 用了两种身份识别研究方案:
1.基于密码输入特征的身份识别
该方案与击键身份识别比较相似,用于用户在输入密码登录手机过程中的辅 助身份验证。与击键身份识别不同的是它不仅使用了击键时间序列的特征,还利 用了用户在触屏输入过程中手指对屏幕的压力特征和指尖与屏幕接触面积的特 征。我们会经常使用密码登录智能手机,对所使用的密码早已非常熟悉。在这种 周而复始的输入过程,会形成用户独有的输入行为习惯。这种习惯表现在输入相 邻数字键的时间间隔,指尖在每个数字键的停留时间,指尖在输入不同数字键时 对屏幕的压力以及指尖与屏幕的接触面积的相对稳定性。输入特征的采集和提取 对于身份识别的稳定性和准确度起着非常关键的作用,本课题中我们主要选取了 三组输入特征。
(1)时间特征
时间特征的选择与一般的基于击键特征识别身份的方法大体一致,主要包括 输入数字键的停留时间和相邻数字键的输入间隔时间。输入停留时间为手指指尖 在输入一位数字密码时,指尖点击接触屏幕到离开之间的时间间隔。输入间隔时 间是指手指输入完一位密码刚离开屏幕的时刻到输入下一位密码刚要接触屏幕 的时刻之间的时间间隔。图 2-2 为输入数字密码“9-5-3-7”整个事件的处理流 程,箭头“touch”表示手指刚接触屏幕开始输入时的动作,箭头“leave”表示 输入完一位数字键手指刚要离开屏幕时刻的动作。输入停留时间为图中输入数字 键“9”时向下箭头和向上箭头之间的时间间隔 t1,相应的在输入数字键“5”、 “3”、“7”时有停留时间 t2、t3 和 t4。输入间隔时间为图中相邻两个数字键的 向上箭头和向下箭头之间的时间间隔ΔT1,相应的也分别有数字键“5”和“3”, “3”和“7”之间的时间间隔ΔT2、ΔT3。这些停留时间和间隔时间可以形成一 个有序的时间序列 t1-ΔT1-t2-ΔT2-t3-ΔT3,我们将该时间序列作为一组时间 特征。
10
上海师范大学硕士学位论文 第 2 章 相关知识综述
(2)压力特征
图 2-2 输入数字密码“9-5-3-7”事件流程
压力特征是指手指输入每一位数字密码时,手指对触摸屏的压力大小。每位 密码的输入过程都会对屏幕产生压力,压力的大小与用户手指的力度和习惯相关。 这种压力我们在应用程序中可以同过 API 接口实时获取并处理(后面章节会进一 步介绍)。
(3)接触面积
接触面积是指手指在输入密码时,手指末端与触摸屏的接触面积的大小。接 触面积的大小与手指终端表面积的大小,手指对触摸屏的压力大小以及用户的使 用习惯有关。而且,在每一位密码的输入时,手指与屏幕的接触面积也是不同的。 同样,我们也可以通过 API 获取这种接触面积的大小。
基于密码输入特征的身份识别的主要过程是,首先利用一个带密码输入窗口 的人机交互软件采集用户的输入特征数据(软件后台程序会自动监测和采集), 对采集的原始特征数据做过滤、分类和特征提取处理,再利用提取的特征数据构 建分类模型,进而实现用户的身份识别。图 2-3 为密码输入特征身份识别的主要 流程。
图 2-3 密码输入特征身份识别的流程
11
第 2 章 相关知识综述 上海师范大学硕士学位论文 2.基于触控滑动手势特征的身份识别 我们知道在使用密码或指纹识别等方式解锁登录智能手机之后,用户就可以
自由地查看手机中短信、通讯录、邮件及其它文档,也可以自由的操作使用其中 的应用程序。而密码、指纹等解锁方式只是对用户身份的静态识别,正如绪论中 提到的这种识别方式目前在安全性上还存在不少的问题,如果这些识别方式被破 解,那么入侵者就可以自由的获取用户手机中隐私数据,从而可能给用户带来很 大的损失。因此,我们自然的想到可以采用连续的身份识别方式,即在用户操作 智能手机的过程中持续的识别操作者的身份。
用户在操作智能手机的过程中,主要使用几种触控手势,包括点击、长按、 缩放、滑动等,而在这些手势中最常用的是滑动手势。本次研究我们选取了常用 的且使用占比较高的四种滑动手势,分别为上滑手势、下滑手势、左滑手势和右 滑手势。我们基于这四种手势的特征实现对用户身份的识别。
用户在滑动智能手机屏幕的过程中,受手指长度,力度和个人使用习惯的影 响,滑动的轨迹会带有个人独有的属性。对于每一种滑动手势我们提取了如下的 特征,表 2-2 为提取的特征及其描述。
滑动手势特征
位置
时间
长度
速度
触摸面积
压力
表 2-2 滑动手势特征及其描述
特征描述 滑动手势轨迹起始点 X/Y,终点 X/Y 一次滑动手势的持续时间 滑动轨迹长度,起点到终点的连线距离 手势滑动过程的速度 触摸面积的最大值,最小值,平均值 压力的最大值,最小值,平均值
基于上述表格中的 6 组滑动手势,我们构建了四组(四种手势)滑动手势模 型分别用于识别用户的四种滑动手势,从而实现对用户身份的识别。如图 2-4 所 示为基于滑动手势的身份识别流程。
图 2-4 滑动手势的身份识别流程
12
上海师范大学硕士学位论文 第 2 章 相关知识综述 本文采用的两种身份识别方案均属于行为生物识别的范畴。对于行为生物识 别来说,环境因素对身份识别的准确度起到了很重要的影响。就本文的两种行为
生物识别方案来说,用户的情绪(包括思维状态、注意力、紧张和放松程度), 姿势(坐立、躺下、行走),设备的类型(手机的尺寸、握感舒适度、重量),用 户所处的环境以及用户对设备的熟悉程度和接受训练程度都会对实验结果产生 一定的影响。在这些影响因素中,除用户情绪外,其它均为相对可控的因素。为 此,我们在研究过程中,尽可能的保持使用手机品牌和型号的一致,在数据的采 集过程中要求用户尽量保持同一种姿势,采集环境选择在光线条件比较柔和的室 内进行。
2.3 支持向量机(SVM)
支持向量机是根据统计学习理论,以结构风险最小化原则为理论基础的一种 新的机器学习方法[28]。统计学习理论利用结构风险最小化准则,在最小化样本 点误差的同时,最小化结构风险,提高模型的泛化能力,且没有数据维数的限制 [29][30]。SVM 早在 90 年代,由 Vapnik 提出,并在文本分类、手写字符识别、人脸 检测、入侵检测等领域得到广泛的应用和肯定。在数据分类问题中,SVM 考虑寻 找一个满足分类要求的超平面,并使训练集中的点距离分类面尽可能地远,也就 是寻找一个分类面,使它两侧的空白区域(margin)最大化[31]。支持向量机可 分为线性可分支持向量机和非线性支持向量机。当样本数据为线性可分时,SVM 主要通过寻找一个离两类样本距离最大的分类面,通过该分类面解决样本数据的 分类问题。当样本数据为线性不可分时,SVM 通过引入核函数的方式,将非线性 数据映射到高位特征空间中,利用高位空间的超平面解决非线性数据的分类问题。
2.3.1 线性可分支持向量机
线性可分支持向量机解决分类问题,就是寻找最优分类平面的过程。如图 2-4 所示,两类样本分别用圆圈和方块表示,H 为分类线将两类样本分割开来,H1 和 H2 分别通过了两类样本中距离分类线 H 最近的点(可能存在一个或多个)且平 行于 H。这里我们将样本数据表示成(𝑥𝑖,𝑦𝑖), 𝑖 = 1,2,3, … , 𝑙, 𝑥𝜖𝑅, 𝑦𝜖{+1, −1},分 类线方程可表示为
ωx + b = 0
两类样本分别落在分类线的两侧,且满足以下条件:
{𝜔𝑥𝑖 +𝑏≥0, 𝑦𝑖 =1 ,𝑖=1,2,…,𝑙 𝜔𝑥𝑖 + 𝑏 ≤ 0, 𝑦𝑖 = −1
(2 − 1)
(2−2)
13
第 2 章 相关知识综述 上海师范大学硕士学位论文 合并,即
𝑦𝑖(𝑤𝑥𝑖 +𝑏)−1≥0,𝑖=1,2,…,𝑙 (2−3) 分类间隔为2/‖𝑤‖,要使得分类间隔获得最大的值也即是最小化‖𝑤‖。所以,最 优分类面要满足公式 2-3 且使得‖𝑤‖获得最小值。决定分类面的点仅有为数不多 的几个,这些点我们称为支持向量(Support Vector),如图 2-4 中,位于 H1 和
H2 上的方框和圆。支持向量(SV)在 SVM 分类中具有决定性得作用,它决定了 最优分类面得位置和分类计算过程的复杂度。
图 2-4 最优分类超平面 支持向量机的学习过程可描述为求解以下带约束的最小值问题:
{min 12‖𝜔‖2 (2−4) 𝑠.𝑡. 𝑦𝑖(𝜔𝑥𝑖 +𝑏)−1≥0(𝑖=1,2,…,𝑙)
目标函数为二次,通过引入 Largrange 因子𝛼𝑖得到上述问题的 Largrange 函数:
1𝑙
Φ(𝜔,𝑏,𝛼𝑖)=2‖𝜔‖2 −∑𝛼𝑖[𝑦𝑖(𝑤𝑥𝑖 +𝑏)−1]
𝑖=1
其中,𝛼𝑖 > 0, 𝑖 = 1,2,…,𝑙。 根据式 2-5 分别对ω和b求偏导,
基于拉格朗日对偶原理,我们将原优化问题转化为成与其等价的对偶问题进行求 解,即
14
𝜕 Φ(𝜔,𝑏,𝛼𝑖)=0
{𝜕𝜔 (2−6)
𝜕 Φ(𝜔,𝑏,𝛼𝑖)=0 𝜕𝑏
(2−5)
上海师范大学硕士学位论文
第 2 章 相关知识综述
{
𝑙1𝑙
𝑚𝑎𝑥 𝜚(𝛼) = ∑ 𝛼𝑖 − 2 ∑ 𝛼𝑖𝛼𝑗𝑦𝑖𝑦𝑗(x𝑖x𝑗) 𝑖=1 𝑖,𝑗=1
𝑙
𝑠.𝑡. ∑𝛼𝑖𝑦𝑖 = 0, 𝛼𝑖 ≥ 0 ,(𝑖 = 1,2,…,𝑙) 𝑖=1
(2−7)
对于上述约束优化问题,我们可以采用二次规划的方法求解,由于这是一
个凸二次优化问题,因此存在唯一解。
𝑏= 1 ∑𝛼𝑗𝑦𝑗(𝑥𝑖∙𝑥) 𝑁𝑁𝑆𝑉 𝑥𝑖
由式 2-8 可求得的最优分类函数为
𝑙
f(x)=sgn[∑𝛼𝑖𝑦𝑖(𝑥𝑖 ∙𝑥)+𝑏] 𝑖=1
2.3.2 非线性支持向量机
(2−8)
(2−9)
面对非线性问题,样本点通过超平面无法完成分离时,以上的线性分类方法 将不再适用,这时需要利用核函数将低维样本点映射到高维空间中,将非线性问 题转化成线性问题[32]。如图 2-5 所示,使用核函数将低维特征空间中的样本
(𝑥𝑖 , 𝑦𝑖 )映射为高维空间样本(Φ(𝑥𝑖 ), 𝑦𝑖 ),在高维的特征空间中求取最优超平面。
图 2-5 原始空间向高维特征空间的映射 线性可分对偶问题的求解过程,需要进行向量的内积运算。而由非线性映射
到高维特征空间,在高维空间做内积运算需要大量运算消耗。此时,我们在支持 向量机中引入核函数𝐾(𝑥𝑖, 𝑦𝑗)取代复杂的内积运算𝜓(𝑥𝑖) ∙ 𝜓(𝑥𝑖),使得原本计算量 大、复杂度高的问题获得了有效的解决。
利用核函数映射,将低维样本点映射到高维空间之后,优化问题转变为:
15
第 2 章 相关知识综述
上海师范大学硕士学位论文
𝑙1𝑙
maxQ(α) = ∑ 𝛼𝑖 − 2 ∑ 𝛼𝑖 𝛼𝑗 𝑦𝑖 𝑦𝑗 𝐾 (𝑥𝑖 ∙ 𝑦𝑖 ) 𝑖=1 𝑖,𝑗=1
而此时,分类决策函数变为
𝑙
f(𝑥)=𝑠𝑔𝑛(𝜔∙Φ(𝑥)+𝑏)=𝑠𝑔𝑛(∑𝛼𝑖𝑦𝑖(𝑥𝑖 ∙𝑥)+𝑏) 𝑖=1
(2 − 10)
(2−11)
核函数K(𝑥𝑖 ∙ 𝑦𝑖)为支持向量机的重要部分,在选取时需要满足 Mercer 条件,
在支持向量机中,核函数及其参数选择对于算法具有非常重要的影响。当前
应用常用的核函数如表 2-3 所示:
表 2-3 常用的核函数
核函数 线性核函数 多项式核函数 高斯核径向基核函数 Sigmoid 核函数
2.4 单类支持向量机
表达式
K(x, xi) = x ∙ xi
K(x, xi) = [(x ∙ xi) + 1]q K(x, xi) = exp(−g‖x − xi‖)2 K(x, xi) = tanh(v(x, xi) + c)
常用的而机器学习分类算法一般用于解决多类样本的分类问题,而在有些情 况下我们只能拿到一类样本数据,其它类别的样本数据或者缺失或者数据量很少。 如,机器故障检测,可拿到的故障特征只有少量的,不可能通过人为的方式破坏 机器获得故障的数据。为解决这类问题,我们通常采用一分类的方式,即训练过 程只使用目标样本这一类数据。SVM 的发展过程中衍生出了支持向量学习算法, 其中一分类方式具有影响力的有支持向量数据描述(Support Vector DataDescription)和单类支持向量机算法(One-Class SVM,OCSVM)。这两类分 类算法常用于机器学习中的无监督学习领域,并在核函数同为高斯核径向基核函 数时两者具有等价的效果。
2.4.1 支持向量机数据描述算法
支持向量数据描述算法,我们简称 SVDD 算法,其主要思想是:将目标样本 点利用核函数从原始空间映射到高维特征空间,在高维特征空间中寻找一个封闭 的超球体,该超球体应该是紧凑的并尽可能多的将样本数据点包围在其内部,从 而将异常数据隔离在超球体外部。
假设原始空间训练样本集为X = {𝑥𝑖 , 𝑖 = 1,2, … , 𝑙},利用非线性映射Φ将原始 16
上海师范大学硕士学位论文 第 2 章 相关知识综述 空间中的样本映射到高维空间 H,在高维特征空间中寻找一个满足以下条件的超 球体:
(1)超球体尽可能的将所有样本包括在内 (2)超球体拥有的半径要尽可能的小
如图 2-6 为 SVDD 分类的原理示意图,o 为超球体的球心,R 为其半径,超
球面将目标样本数据尽可能的包围在其中并与异常样本分割开来。
SVDD 的原始优化问题为:
图 2-6 SVDD 分类原理示意图
𝑙
{ 𝑚𝑖𝑛 𝑅2+𝐶∑𝜉𝑖 ,𝜉𝑖 >0,𝑖=1,2,…,𝑙 (2−12) 𝑖=1
𝑠.𝑡. ‖Φ(𝑥𝑖)−𝑜‖2 ≤𝑅2+𝜉𝑖
其中 C 是惩罚因子,𝜉𝑖为目标样本的拉格朗日乘子。由原始优化问题得到其相应 的对偶问题:
𝑙𝑙
𝑚𝑎𝑥 ∑𝛼𝑖𝐾(𝑥𝑖,𝑥𝑗)−∑𝛼𝑖𝛼𝑗𝐾(𝑥𝑖,𝑥𝑗)
𝑖 𝑖,𝑗 𝑙
𝑠.𝑡. ∑𝛼𝑖 = 1,𝛼𝑖 ∈ [0,𝐶]
{
内点被包裹在超球体内部,𝛼𝑖 = 𝐶时,样本点远离超球体,被称位野点,当𝛼𝑖介 于 0 和𝐶之间时,样本点恰好落在超球体的表面,表面上的点即是支持向量,它 决定着超球体的半径大小。我们将𝑑2(𝑥) = ‖(Φ(𝑥) − 𝑜)‖2作为样本点到球心的距 离代入核函数K(𝑥𝑖 ∙ 𝑦𝑖)得到
𝑙𝑙
𝑑 2 ( 𝑥 ) = 𝐾 ( 𝑥 , 𝑥 ) − 2 ∑ 𝛼 𝑖 𝐾 ( 𝑥 , 𝑥 ) + ∑ 𝛼 𝑖 𝛼𝑗 𝐾 ( 𝑥 𝑖 , 𝑥𝑗 ) ( 2 − 1 4 ) 𝑖 𝑖,𝑗
𝑖=1 α𝑖的取值对应着样本点在特征空间中的不同位置,α𝑖取 0 时,这时样本点为
,𝑖 = 1,2,…,𝑙
(2−13)
17
第 2 章 相关知识综述 上海师范大学硕士学位论文 由时,分类决策函数为:
𝑓(𝑥) = sgn(𝑅2 − ‖Φ(𝑥) − 𝑜‖2) = sgn(𝑅2 − 𝑑2(𝑥)) (2 − 15) f(𝑥)的取值决定着样本点为目标样本还是异常样本。
2.4.2 单类支持向量机算法
为了将支持向量机算法应用到一分类问题,Scholkopf 等设计出了一类支持 向量机(one-class support vector machine,OCSVM)算法[33]。单类支持向量 机算法的基本思想是:线性条件下,在空间中找到这样的一个平面,原点到该平 面的距离要尽可能地大,且该平面要尽可能地将正常的样本点与异常的样本点分 隔开来;在非线性条件下,将原始空间中的样本点映射到高维特征空间中[34]。 如图 2-7 为 OCSVM 分类原理示意图。
图 2-7 OCSVM 分类原理示意图 设训练样本数据集为{𝑥𝑖,𝑖=1,2,…,𝑙}, 样本大小为𝑙。使用核函数将原始低维空 间中的样本通过非线性映射 Φ 映射到高维特征空间 H 即:𝑥𝑖 → Φ(𝑥𝑖)。为了目
标样本尽可能的远离原点,首先要确保目标样本能够尽可能的被正确分类,在此 基础上实现超平面到原点的距离最大化。定义ω ∙ Φ(𝑥𝑖) − ρ = 0为高维特征空间 中的超平面,其中ω,ρ分别为法向量和截距,将上述问题转化为求解二次规划 问题:
{ 𝑚𝑖𝑛 2‖𝜔‖ +𝑣𝑙∑𝜉𝑖 −𝜌 ,𝑖=1,2,…,𝑙 (2−16) 𝑖=1
s.t. 𝜔∙Φ(𝑥𝑖)≥𝜌−𝜉𝑖,𝜉𝑖≥0 其中,𝜉𝑖是松弛变量,允许训练样本被错误分类的程度[35]。v ∈ (0,1]为比例参
数,用于权衡错分类样本数量和原点到超平面间的距离。
18
121𝑙
上海师范大学硕士学位论文 第 2 章 相关知识综述 构造 Lagrange 方程求解上述二次规划问题:
𝐿(𝜔,𝜉,𝜌,𝛼,𝛽) = 12‖𝜔‖2
1𝑙𝑙𝑙
+𝑣𝑙∑𝜉𝑖 −𝜌−∑𝛼𝑖(𝜔∙𝑥𝑖 −𝜌+𝜉𝑖)−∑𝛽𝑖𝜉𝑖 𝑖𝑖𝑖
其中,𝛼𝑖,𝛽𝑖为 Lagrange 因子,分别对ω,ρ,𝜉𝑖求偏导数,得: 𝑙
𝜔 = ∑𝛼𝑖Φ(𝑥𝑖) 𝑖
𝛼𝑖 = 1 −𝛽𝑖 𝑣𝑙
𝑙
1𝑙𝑙
min ∑∑𝛼𝑖𝛼𝑗𝐾(𝑥𝑖,𝑥𝑗)
1𝑙
𝑠.𝑡. 0≤𝛼𝑖 ≤𝑣𝑙,∑𝛼𝑖 =1
{𝑖
(2−17)
(2−18)
{
引入核函数𝐾(𝑥𝑖, 𝑥𝑗),并代入上面几个式子,将上述优化转化为求解其对偶问题
为:
取满足0 ≤ 𝛼𝑖 ≤ 1 的𝛼𝑖 ,得超平面参数: 𝑣𝑙
由此可得决策函数为:
𝜌 = ∑𝛼𝑖𝐾(𝑥𝑖,𝑥𝑗) 𝑖
𝑙
𝛼2
𝑖 𝑗
∑𝛼𝑖 =1 𝑖
𝑓(𝑥) = sgn (∑ 𝛼𝑖 K(𝑥𝑖, 𝑥) − ρ) 𝑖
同样地,f(𝑥)的取值决定着样本点为目标样本还是异常样本。 2.5 本章小结
(2 − 20)
𝑙
本章对生物识别技术的概念和特点做了介绍,阐述了主要的生物识别方法及 其技术原理和特点,并对常用的生物识别方法做了比较。对行为生物识别的优点 做了概括,并引出本文所采用的两种基于行为特征的身份识别方案,并对本文的 两种身份识别方法做了描述和分析。最后详述了本文主要采用的机器学习分类算
, 𝑖 = 1, … , 𝑙
(2 − 19)
19
第 2 章 相关知识综述 上海师范大学硕士学位论文 法(SVM)原理及其推导过程,并重点介绍了由 SVM 所派生的一类支持向量机算 法(SVDD 和 OCSVM)。
20
上海师范大学硕士学位论文 第 3 章 基于数字密码输入特征的身份识别研究
第 3 章 基于数字密码输入特征的身份识别实现
本章将阐述本文的第一种手机端身份识别方法,阐述和分析了基于密码输入 特征身份识别方案的多种输入特征信息,并对每个特征数据的有效性给予验证, 对特征数据的采集和处理流程进行了详细的讲解。
3.1 输入特征信息
我们在第二章中曾简单的介绍了数字密码输入过程中的特征信息,本节将对 这些输入特征信息做进一步详细分析。不同的用户在输入同一个数字密码的过程 中,手指作用于屏幕的力度,输入密码的速度、节奏以及对屏幕施力的角度均存 在差异。而且,不同用户手指尺寸的差异,导致用户在输入过程中手指与触摸屏 的接触面积也会不同。对于智能手机的机主来说,经常输入自己设定的同一个密 码,在整个输入的过程中,输入的节奏、强度以及施力的角度相对比较稳定。而 对于其他用户来说,即便用拿到机主的真实密码,整个输入过程的模式与真实用 户相比还是有明显的差异,这些差异特征可用于区分手机的当前操作用户是否为 用户本人。基于这些差异我们提取出了三组特征,分别是时间特征,触摸压力特 征以及触摸面积特征。
(1)时间特征信息
在击键识别领域的研究中,最常采用的是基于击键过程的时间特征信息区分 用户的身份。比如,在用户敲击键盘过程中,可以实时记录敲击的开始时间、键 被按下去到弹起的时间间隔、两个按键之间的时间差等,所有的这些击键信息都 可以被提取出来作为用户的击键特征。在手机端,用户通过软键盘输入密码的过 程也可以看做是击键行为,我们同样可以提取出这些特征信息。如图 3-1 给出了 密码输入过程中的各种时间信息。
图 3-1 密码输入过程中的时间信息
21
第 3 章 基于数字密码输入特征的身份识别研究 上海师范大学硕士学位论文 上图中给出了两位相邻数字键(3 和 9)的输入时间特征,基于上图我们可
以分析出多种时间特征信息如下: 1)粘滞时间:也称停留时间,它表示手指在输入某个数字键时,从手指接
触该键到释放离开整个过程所消耗的时间(T2-T1)。 2)空白时间:它表示在输入两个邻对数字键时,从前一个数字键释放到下
一个数字键被按下这个过程所消耗的时间。 3)其它时间:除了能提取上述的粘滞时间和空白时间时间外,我们还可以
提取出其它相关时间,比如前一个数字键 3 按下到下一个数字键 9 按下之间的间 隔时间(T3-T1),前一个数字键 3 释放到下一个数字键 9 释放的时间间隔(T4-T2)。 由于 T3-T1 的时间信息可以通过 T1、T2 之间的粘滞时间和 T2、T3 之间的空白时 间相加获取,同理 T4-T2 的时间信息也可以通过相应的粘滞和空白时间获取,所 以,这类时间信息可当作冗余信息看待。由于冗余信息对于最后的模型训练没有 多大帮助且会增加模型的训练时长,我们将在之后的数据处理中将这类冗余信息 排除在外。
如果我们将粘滞时间表示为 t,空白时间表示为 ΔT,在一个 4 位数字密码的 输入过程中就可以产生这样一个时间序列信息:t1,ΔT1,t2,ΔT2,t3,ΔT3,t4。
(2)触摸压力特征信息
触摸的压力是指用户在输入数字密码的过程中,手指指尖对屏幕的压力。压 力的大小是一个相对不稳定的变量,在输入一串密码的过程中,由于数字键的布 局比较分散,手指对不同位置数字键的压力也是不同的。同时数字键的位置布局, 手指的长度以及手掌的大小都会影响输入过程中手指对屏幕的压力大小。因此, 触摸压力的大小是一个受硬件、手型及用户使用习惯综合作用的结果。由于手指 对每位数值键在输入时都会产生压力,所以整个密码的输入过程也会形成一个压 力的序列,对于 4 位数字密码压力序列可以表示为 p1,p2,p3,p4。
(3)触摸面积特征信息
触摸面积是指在密码输入过程中手指指尖与触摸屏幕接触的面积大小。它的 大小受用户手指的大小和手指在输入过程中对屏幕的压力影响。触摸面积的大小 受手指末端面积及手指对屏幕的压力大小影响。同时,受用户习惯的影响,在输 入过程中,手指末端与屏幕接触的方位也有偏差。综合来说,用户在反复的输入 密码过程中已经形成了自己特有的习惯,整个输入模式的相对稳定使得手指在输 入过程中与不同数字键的接触面积也相对稳定。与触摸压力类似,在一串数字密 码的输入过程中也会产生一个由多个触摸面积组成的面积序列。
22
上海师范大学硕士学位论文 第 3 章 基于数字密码输入特征的身份识别研究 3.2 输入特征分析
从上节可知,密码的输入特征信息包含了多种类型的信息,包括时间特征信 息、触摸压力特征信息和触摸面积特征信息。其中,时间特征信息又包含了粘滞 时间和空白时间信息。对于这些特征信息是否有效以及能否体现不同用户在输入 过程中的“与众不同”?为了验证这些特征数据的有效性,我们进行了以下特征 数据的有效性验证。
3.2.1 时间特征的有效性验证
为了验证时间信息的有效性,我们首先选定了一串固定数字密码“3-4-6-9”, 并选取了 3 位用户(2 男 1 女)参与了测试。我们要求每位用户进行至少 20 次 的密码输入操作,在三位用户的输入过程中,我们做了数据的采集,采集的主要 信息包括用户输入过程的时间信息、压力信息以及触摸面积信息。之后我们对所 有采集到的特征信息做进一步的过滤分离处理等操作,我们基于三位用户的差异 给出了图 3-2 所示的三位用户输入同一密码(3-4-6-9)的时间比较。图中每一 种颜色对应数字密码的一位,同一种颜色的点分圆形和三角形,圆形点对应手指 按下数字键的时刻,三角形点对应手指释放的时刻。从图中可以看出无论是相邻 两位密码的输入时间间隔还是每位密码输入对应的起始结束时刻,在三个用户之 间都可以看出差异。证明了在输入特征信息中的时间信息的有效性。
图 3-2 三位用户输入同一密码的时间差异
23
第 3 章 基于数字密码输入特征的身份识别研究 上海师范大学硕士学位论文 3.2.2 压力特征的有效性验证
在验证了时间信息的有效性之后,我们进一步对触摸压力特征的有效性进行 验证。这次我们选取了固定数字密码“812674”作为测试密码。同样为以上三位 用户(两男一女),分别重复多次数字密码“812674”的输入。在采集到的三位 用户的特征数据中,我们分别选取每位用户的任意三次输入的特征数据做进一步 处理,提取出相应的压力特征信息。基于压力特征数据,我们给出了如图 3-3 所 示的三位用户在输入同一串数字密码过程压力的差异。在 3×3 的矩阵图示中, 每一行表示同一个用户输入该密码三次的效果图,颜色越深表示压力越大。从图 中可以看出,user1 用户在输入密码过程,手指对于屏幕施加的平均压力最大, user2 次之,user3 最小。三位用户在输入过程中对触摸屏平均压力上的差异说 明了压力特征作为身份识别特征的有效性。
图 3-3 三位用户输入同一密码三次的压力差异 在密码的输入过程中,触摸面积不仅与用户手指的尺寸有关,还与手指的压 力成正相关。而上述的研究证明了压力特征的有效性,因此,可以显然的推出触
摸面积特征作为身份识别特征是有效的。
24
上海师范大学硕士学位论文 第 3 章 基于数字密码输入特征的身份识别研究 3.3 数字密码选取
为了采集有效的输入特征数据,如何选择合适的输入密码是非常重要的工作。 一般来说,在一个较长的时间内,用户登录智能手机使用的密码都是固定、唯一 的,在反复的输入过程中已形成自己独特的输入模式。常用的智能手机密码一般 有 4 位和 6 位之分,如 iphone6s 支持 6 位和 4 位登录密码的选择,我们在密码 位数的选取上也考虑到这一点。在密码选取时,为了消除不同密码可能给实验结 果带来的不确定性,我们一共选取的 5 种数字密码,密码的选取情况如表 3-1 所
示。5 种密码均为无序且能很好的分布在输入界面的各个方位。 表 3-1 选取的 5 种数字密码
位数 4bit 4bit 4bit 6bit 6bit
3.4 特征数据采集
选用的数字密码 3-4-6-9 7-2-9-4 9-5-3-7 2-8-6-4-5-7 8-1-2-6-7-4
以上完成了对输入特征的分析和数字密码的选取工作,接下来的工作就是采 集用户的输入特征数据。
3.4.1 应用程序开发
为了采集用户的特征数据,我们需要开发一款合适应用程序用于收集用户数 据。目前移动终端平台主要分为 Android 和 IOS 两大类,其中 Android 目前的市 场份额占比已经超过了 80%。因此,本文采用了用户群体占比较高的 Android 平 台为应用程序的开发平台。
在硬件的选择上,我们采用了一款型号为 vivo X5V 的智能手机,其系统版 本为比较稳定的 Android 4.4.4,处理器为高通骁龙 615(主频 1.5GHz),运行 内存 2GB。应用程序开发过程中所采用的硬件和开发平台如表 3-2 所示。
25
第 3 章 基于数字密码输入特征的身份识别研究 上海师范大学硕士学位论文 表 3-2 开发环境
名称
PC
开发工具
编程语言
硬件平台
参数
Windows10 Professional 64bit
Dell CPU(Intel i5 2.5GHZ) RAM(8GB) Android Studio 2.3
JAVA
VIVO-X5V Android 4.4.4 高通骁龙 615 CPU
开发的应用程序的主要包括两个界面,开始界面(如图 3-4)和数据采集界 面(如图 3-5)。在数据采集时,用户在开始界面输入自己的用户名和本次采集 的测试密码,然后进入数据采集界面。
图 3-4 开始界面 图 3-5 数据采集界面 基于密码输入特征的身份识别,主要采集密码输入过程中的三种行为特征。 (1)时间特征 在密码的输入过程中,时间特征信息包括粘滞时间(手指在某个数字键的停
留时间)和空白时间(相邻数字键的输入时间间隔)。时间数据的获取,可通过 调用安卓触摸事件中的 API,如 MotionEvent.getDownTime()可获取手指刚开始 点击屏幕时刻的时间戳, MotionEvent.getEventTime()可获取手指刚离开屏幕 时刻的时间戳。
(2)触摸压力特征 压力特征反应了密码输入过程中,手指对触摸屏的压力大小,压力的类型包
26
上海师范大学硕士学位论文 第 3 章 基于数字密码输入特征的身份识别研究 括按下数字键时刻的压力和释放数字键时刻的压力。这两种压力数据可通过 MotionEvent.getPressure()配合 MotionEvent.getAction()分别获取,获取到 的压力值大小在 0 到 1 之间。
(3)触摸面积特征
触摸面积是指密码输入过程中,手指末端与触摸屏的接触面积。在获取的方 式上,同样可以利用安卓触摸事件中的 API,这里使用到的是 MotionEvent.getSize(),所获取到的值也是在 0 到 1 之间。
3.4.2 数据采集过程
采集用户的输入特征,实际上是采集用户输入的行为习惯。输入的习惯可能 会受到手机的屏幕尺寸,大小,应用程序本身,用户所处的环境等因素的影响。 为了尽可能避免这些因素的影响,我们统一采用同一款手机做输入数据的采集。 为了消除持握的姿势对实验结果的影响,我们要求用户采用坐姿,左手持握手机, 右手食指输入的方式。采集的环境选择在光线柔和的室内进行。
本次课题中,我们邀请了 28 位用户(男女用户比例如图 3-6 所示)参与了 实验数据的采集任务。这些用户中包含在校大学生和社会工作人员,年龄大约在 20-35 周岁之间。数据采集的流程如图 3-7 所示,首先用户通过图 3-4 的开始界 面输入自己的用户名和本轮采集任务对应的数字密码,然后点击 start 按钮进入 图 3-5 的采集界面,在采集界面中输入开始界面中的密码,每次输入完成一次就 点击“>”按键进入下一次输入,输入的过程中应用程序会记录已完成输入的次 数(如图 3-8 所示),若输入的密码与开始界面中的密码不一致则会提示输入错 误(如图 3-9 错误提示),此时用户可以点击“>”键就可以忽略本次输入(应用 程序后台也不会记录)进入下一次输入。
图 3-6 参与数据采集用户中的男女比例
27
第 3 章 基于数字密码输入特征的身份识别研究 上海师范大学硕士学位论文
图 3-7 采集流程
图 3-8 输入次数统计 图 3-9 输入过程检查
本次课题共采集了 28 个用户的输入特征数据,总的特征数据采集情况如表
3-3 所示。
28
上海师范大学硕士学位论文 第 3 章 基于数字密码输入特征的身份识别研究
2 3 4 5 6 7
次 数
11816358
11817553
11818723
11819917
11821048
11822386
11805159
11816431
11817627
11818783
11819979
11821124
11822474
0.17647060 0.18039216 0.10980393 0.11372550 0.17647060 0.10196079 0.17647060
11805304
11816564
11817758
11818927
11820122
11821305
11822616
11805378
11816624
11817833
11818977
11820184
11821356
11822679
11805457
11816716
11817912
11819096
11820277
11821448
11822769
11805532
11816792
11817987
11819157
11820339
11821522
11822859
11805651
11816923
11818105
11819275
11820483
11821642
11823002
0.23137257 0.18431373 0.22745100 0.23921570 0.24313727 0.23529413 0.23921570
11805725
11816997
11818193
11819362
11820558
11821714
11823077
0.18823531 0.15686275 0.20392159 0.18431373 0.17254902 0.21960786 0.14901961
5 种数字密码 3-4-6-9 7-2-9-4 9-5-3-7 2-8-6-4-5-7 8-1-2-6-7-4
表 3-3 密码输入特征数据采集 参与采集用户数 平均每位用户贡献输入次数
28 428 28 393 28 433 24 407 26 396
全部特征数据条数 11986 11013 12131
9773
10304
在采集到的原始数据中,每条 4 位密码的特征共有 20 维,其中包括时间特征(8 维),触摸压力特征(8 维),触摸面积(4 维)。相应的 6 位密码的输入特征就有 30 维。我们截取部分 4 位密码的原始特征数据呈现如下,表 3-4,3-5,3-6 分 别为时间特征的原始数据,压力特征的原始数据以及触摸面积的原始数据。
次 数
1 11805085
表 3-4 时间特征原始数据 时间特征原始数据(8 维)
1 0.22352943
2 0.22745100
3 0.21960786
4 0.23137257
5 0.22352943
6 0.21960786
7 0.21568629
0.23921570 0.24313727 0.23921570 0.23529413 0.22745100 0.23137257 0.24313727
0.20784315 0.18431373 0.17647060 0.18039216 0.12549020 0.13333334 0.18039216
0.23529413 0.23529413 0.23921570 0.23529413 0.23529413 0.23137257 0.23529413
0.18823531 0.15686275 0.20000002 0.20000002 0.10588236 0.14901961 0.19215688
表 3-5 压力特征原始数据 压力特征原始数据(8 维)
29
第 3 章 基于数字密码输入特征的身份识别研究 上海师范大学硕士学位论文 表 3-6 触摸面积原始数据
次数 1
2
3
4
5
6
7
触摸面积特征原始数据(4 维)
3.5 输入特征提取与处理
0.002660754
0.0022172949
8.86918E-4
0.0022172949
0.002660754
0.0022172949
0.001330377
0.001330377
0.0022172949
0.001330377
8.86918E-4
0.002660754
0.0022172949
0.001330377
0.001330377
0.0022172949
0.0022172949
0.0022172949
0.001330377
0.001773836
8.86918E-4
0.002660754
0.001773836
0.001330377
0.001773836
0.001773836
0.001330377
0.001773836
特征提取的主要工作是从采集的原始数据中抽取之前确定的三种类型的特 征,在特征数据的分析阶段我们确定了输入时间特征、触摸压力特征和触摸面积 特征。对于时间特征,以 4 位数字密码为例,在密码输入过程中可得到这样一个 时间特征序列:t1,ΔT1,t2,ΔT2,t3,ΔT3,t4(ti, ΔTi 分别代表粘滞时间和空白时 间)。因此,从 8 维的原始时间信信息,我们可以提取出 7 维的时间特征。压力 特征和触摸面积特征与原特征维数相等,即压力特征 8 维,触摸面积 4 维。这样 所有的特征数据将组成一个 19 维的数据,而 6 位密码的特征维数则为 29 维。
为了保证数据处理的方便以及后面模型训练过程中加快收敛速度,我们需要 对特征数据进一步做归一化处理,使各个特征的尺度将控制在指定的范围。在归 一化处理中,我们使用了 LibSVM 工具包中的 svm-scale 工具,其归一化方法如 下:
y′ =𝑙𝑜𝑤𝑒𝑟+(𝑢𝑝𝑝𝑒𝑟−𝑙𝑜𝑤𝑒𝑟)∗ 𝑦−𝑚𝑖𝑛 (3−1) max − 𝑚𝑖𝑛
其中,y 和y′ 分别为归一化前后的数据,lower 为数据下届,upper 为上届,min 和 max 分别为特征矩阵中每列数据的最小值和最大值。
3.6 本章小结
本章为本文手机端身份识别方法中的第一种方法,首先对基于数字密码输入 特征的身份认证所涉及到的特征信息做了详细的介绍,然后通过实验的方式验证 出这些特征信息是有效的,可区分的,可以应用于身份识别的过程中。然后,详 细的介绍了输入特征的采集过程,其中包括采集设备的选取,应用程序的开发环
30
上海师范大学硕士学位论文 第 3 章 基于数字密码输入特征的身份识别研究 境及数据采集的流程。最后,介绍了文章采用的特征提取和处理方法。
31
第 4 章 基于触控滑动手势特征的身份识别实现 上海师范大学硕士学位论文
第 4 章 基于触控滑动手势特征的身份识别实现
本章为课题基于用户行为特征的身份识别研究的第二种识别方法。文章阐述 了该身份识别方法的设计思想和所采用的多种滑动手势特征信息。设计了一款驻 留在智能手机后台的应用程序,监听和收集手指与触摸屏交互产生的特征数据, 并最终通过实验验证这些特征数据的有效性。
4.1 设计思想
基于触控滑动手势特征的身份识别是在用户通过静态身份验证之后对用户 身份的动态的、持续性的识别。我们知道每个人使用智能手机过程中,经常会使 用到多种手势,这些手势包括点击、长按、旋转、缩放、滑动、拖拽等。如用户 在翻看电子书、浏览 web 网页会经常用到上滑、下滑手势进行翻页,在打开一个 新的网页时要用到点击手势,复制一段文字需要长按手势,再比如用户在浏览手 机中的图片或切换桌面的窗口会用到左滑和右滑手势,在放大缩小图片时会用到 缩放手势。在所有的这些手势中,用户使用的频率有高有低,其中滑动手势是用 户最常用也是占比最高的手势。最常用的滑动手势可分为四种,即右滑、左滑、 上滑、下滑。四种滑动手势在所有用户使用手势中的占比超过 60%,如图 4-1 所 示为四种滑动手势在所有使用手势中的占比情况。
图 4-1 四种滑动手势在所有使用手势中的占比 不同用户之间手掌的大小,手指的长度和尺寸会存在差异,这些差异使得用
户在滑动智能手机屏幕时,滑动轨迹带有个人明显的特征。如图 4-2 所示,三位 用户(2 男 1 女)单手持握手机分别执行右滑和上滑的手势操作,从图中的轨迹 可以看出,同一滑动手势,不同用户在操作时产生的轨迹有各自的特点。
32
上海师范大学硕士学位论文 第 4 章 基于触控滑动手势特征的身份识别实现
图 4-2 滑动手势在三位用户之间的差异(第一行为右滑手势,第二行为上滑手势) 通过以上手势轨迹我们可以看出用户的滑动手势有各自的特点,从这些轨迹 中我们可以提取出多种手势特征信息。利用这些特征信息可以实现对不同用户身
份的区分。
4.2 触控滑动手势特征信息
触控滑动手势的特征反应了用户在经常使用一部手机滑动屏幕的一种习惯 性方式,这种习惯方式建立在用户对手持设备熟悉程度和行为倾向的基础上。本 文主要采用了滑动手势,从每一种滑动手势中我们都可以提取出以下特征:
(1)位置特征
从上述的手势轨迹中,可以看出轨迹分布的位置和形态上各有各的特点。从 轨迹的位置方面,我们可以提取出手势的位置特征,这些位置包括滑动轨迹的起 始点所在位置,轨迹结束点所在位置。在位置的定位上,我们可以以手机屏幕左 上角为原点,分别以横竖屏方向为 X、Y 轴定位轨迹的起止点位置,如图 4-3 所 示手机屏幕坐标图。
33
第 4 章 基于触控滑动手势特征的身份识别实现 上海师范大学硕士学位论文
(2)时间特征
图 4-3 手机屏幕坐标图
时间特征是指一次滑动手势总的消耗时间,反应在轨迹上就是从起点到终点 的过程时间。我们可以分别获取到起始点和终点的时间戳,两点时间戳的差异即 是轨迹的滑动时间。
(3)长度特征
长度特征是一个二维的特征,主要包括滑动轨迹起点和终点连线的长度以及 轨迹本身的长度。
(4)速度特征
速度特征有三个维度,主要包括手势滑动过程的平均速度,起始点到轨迹中
间点的平均速度,中间点到终点的速度。
(5)触摸面积
触摸面积是指手势滑动过程中与屏幕的接触面积,触摸面积在滑动过程中是 动态变化的,在轨迹的多个位置都会有对应的手指触摸面积,我们从这些触摸面 积中获取了三种面积特征,分别为整个滑动过程当中触摸面积的最大值,最小值 和平均值。
(6)压力特征
与触摸面积类似,在手指滑动的过程中在轨迹的许多个位置会有相应的手指 对屏幕的压力,从这些压力中我们同样提取了三种面积特征,分别为滑动过程中 触摸压力的最大值,最小值和平均值。
总结以上 6 组手势特征,每一种滑动手势都将包含一下手势特征信息,如表 4-1 所示:
34
上海师范大学硕士学位论文 第 4 章 基于触控滑动手势特征的身份识别实现
手势特征
位置
时间
长度
速度
触摸尺寸
压力
表 4-1 滑动手势的特征信息
描述 特征数
滑动手势轨迹起始点 X/Y,终点 X/Y 4 一次滑动手势的持续时间 1 滑动轨迹长度,起点到终点的连线距离 2 手势滑动过程的速度 3 触摸尺寸的最大值,最小值,平均值 3 压力的最大值,最小值,平均值 3
4.3 手势特征数据采集
在本文第三章采用的第一种身份识别方法中,用户的特征数据是通过在应用 程序中调用安卓系统提供的 API 接口获取,用户输入密码的整个过程都是在应用 程序内部完成的。而对于触摸滑动手势的身份识别,我们需要实现在不约束用户 使用应用程序的条件下获取用户的手势特征。这种不约束是指对用户手势特征的 采集是在后台进行的,用户可以像往常一样浏览网页、电子书,切换图片和窗口。 为此,我们需要从系统层面获取原始的触屏数据,而不是在应用层通过 API 获取。
4.3.1 应用程序开发
通过以上分析,我们需要从系统层面拿到原始的触摸数据。我们知道安卓系 统的底层是基于 linux 操作系统的,底层的 linux 相当于一个 Input 子系统架构, 安卓在底层调用了 linux 所提供的接口。安卓中的 linux 子系统可以从 /dev/input 路径下的 eventX(X 可为 0,1,2…)设备文件中读取数据,eventX 对应着不同的输入硬件设备节点,比如/dev/input/event1 对应节点 light, /dev/input/event2 对应 proximity。设备的不同,节点的名称也会不同,可以 使用安卓系统下的 getevent 工具查看具体的设备节点名称。对于本文采用的 vivo X5V 设备,我们主要是读取 event7 对应的触摸屏 input 设备数据。为了从 设备节点中获取数据,我们首先要对智能手机做 root 处理,以获取更高的系统 权限。
本次开发采用的硬件为 vivo X5V 智能手机,开发环境见表 3-2 所示。本次 开发的应用程序要驻留在智能手机的后台,在用户使用智能手机的过程中不断监 听和收集用户手指与触摸屏交互产生的手势数据。由于应用程序的主要功能是在 后台收集手势数据,所以我们只给出了一个简单的服务启动界面,如图 4-4 所示, 用户只输入自己的用户名并点击启动服务,后台程序便可启动采集任务,点停止
35
第 4 章 基于触控滑动手势特征的身份识别实现 上海师范大学硕士学位论文 服务,则本次采集任务结束。
图 4-4 滑动手势数据采集启动界面
4.3.2 手势数据采集流程
在开始采集数据之前,我们需要考虑一些环境的因素。手势特征数据中包含 着手势的压力、触摸面积等特征,所以使用不同的手指在滑动屏幕时产生的特征 数据是存在差异的。因此为了使实验结果有说服性,我们在实验中统一要求用户 在采集时使用右手持握智能手势,拇指操作智能手机,这也符合用户绝大多数时 间下操作智能手机的方式。同时,还应该考虑手机的尺寸、用户采集数据时的姿 势和用户所处的环境,与第 3 章的采用的方法一样,所有参与采集的用户使用了 同一款智能手机作为采集设备,采集过程中用户采用坐姿的方式进行。
参与数据采集的用户同为之前的 28 位用户,采集的流程如下:
(1)用户右手持握智能手机,在采集服务程序的启动界面输入自己的用户 名,并点击启动键开启手势数据的收集。
(2)启动完服务程序后,为了方便获取四种滑动手势数据,我们提供给用 户以下几种任务:
1)浏览智能手机中的图片(我们在手机中存放了 300 多张图片供用户浏 览),用户可以自由的翻阅查看。
2)查阅电子书(手机中存放了 5 本电子书籍),用户可以选择性阅读某一 本或某些章节,并自由翻阅每个章节的内容。
3)浏览 web 网页,用户可以在浏览器中点击查看并翻阅自己感兴趣的新
36
上海师范大学硕士学位论文 第 4 章 基于触控滑动手势特征的身份识别实现 闻信息。
(3)采集任务完成后,点击停止后台服务进程,采集任务结束。
在这个过程中,手机端获取的手势特征数据融合了多种手势的特征数据,数 据值以 16 进制的方式表示,如图 4-5 所示是我们截取的一位用户的部分手势原 始数据。
图 4-5 滑动手势特征的原始数据
4.4 特征的提取与处理
对于图 4-5 中的原始手势数据我们需要把它解析出来。下面解释下图中字符 和数据:
EV_ABS:表示绝对坐标类型 EV_SYN:表示同步事件类型
SYN_REPORT:同步数据 ABS_MT_TRACKING_ID:标志多点追踪信息采集开始 ABS_MT_PRESSURE:压力值 ABS_MT_TOUCH_MAJOR:触摸面积 ABS_MT_POSITION_X:接触点的 X 轴坐标 ABS_MT_POSITION_Y:接触点的 Y 轴坐标
37
第 4 章 基于触控滑动手势特征的身份识别实现 上海师范大学硕士学位论文 左侧的数据值为时间戳序列
右侧的数据为特征值和具体的事件值 具体到分离每个手势特征数据,我们可以根据 ABS_MT_TRACKING_ID 值判断
每种手势的开始和结束。在每个滑动手势的特征数据中,我们可以得到起始和结 束点的坐标,滑动轨迹上多个点的压力,触摸面积和时间信息等,如表 4-2 所示 为原始数据中解析出的几种特征数据,基于这些特征数据可进一步获取长度、速 度等特征信息。
表 4-2 从原始数据中解析出的特征数据
时间 坐标 触摸面积
压力值 12.000000 18.000000 14.000000 15.000000 17.000000 22.000000 22.000000 19.000000 18.000000
0.201175
0.257424
0.199759
0.213757
0.279379
0.327670
0.305659
0.253296
0.290746
778 904 779 913 783 900 787 906 781 912 788 898 774 883 768 903 775 885
1883 1422 1898 1416 1899 1435 1909 1423 1904 1417 1925 1432 1884 1440 1849 1418 1883 1440
7.000000
11.00000
8.000000
6.000000
10.00000
6.000000
9.000000
9.000000
7.000000
由于四种滑动手势的特征数据混合到一起,我们需要将不同手势的特征数据 分离出来,在之后的模型训练中我们也需要基于每种具体的手势数据建模。对于 分离的方法,我们采用基于轨迹起点到终点的偏移方向以及移动速度来判断手势 的类型。具体的判断如下:
beginX:起始点 X 轴坐标 endX:终点的 X 轴坐标 beginY:起始点 Y 轴坐标
endY: 终点的 Y 轴坐标 minMove:设置的最小移动距离 minVelocity:设置的最小移动速度 velocityX:X 轴方向的速度 velocity:Y 轴方向的速度
//左滑
beginX-endX > minMove && Math.abs(velocityX) > minVelocity //右滑
endX-beginX > minMove && Math.abs(velocityX) > minVelocity //上滑
beginY-endY > minMove && Math.abs(velocityY) > minVelocity
38
上海师范大学硕士学位论文 第 4 章 基于触控滑动手势特征的身份识别实现 //下滑
endY-beginY > minMove && Math.abs(velocityY) > minVelocity
手势的分离过程中可能会遇到一些不符合滑动手势特征的数据,比如点击或 用户无意识触碰屏幕产生的垃圾数据,这类数据我们在代码中已将其剔除。经过 手势的分离操作之后,我们整理如表 4-3 所示的 28 位用户的四种滑动手势数据采 集情况。
数据 滑动手势
左滑手势
右滑手势
上滑手势
下滑手势
表 4-3 四种滑动手势数据采集情况 参与采集用户数 平均每位用户滑动次数
28 632 28 662 28 724 28 769
全部特征数据条数
17706
18542
20284
21547
对这些特征数据我们同样需要进行缩放归一化处理,归一化方法见公式 3-1, 这里不再重述。
4.5 滑动手势特征数据分析
对于以上获取到的 6 组特征数据(位置、时间、长度、速度、触摸尺寸和压 力),我们对其中两组特征(时间特征和位置特征)做进一步分析。时间特征反 映了用户执行一种滑动手势的持续时间,如图 4-6 所示,给出了 4 位用户浏览同 一组照片(均采用向右滑动的手势),手势持续时间的比较。横坐标代表滑动操作 的次数,纵坐标表示每次滑动的持续时间,4 种颜色的点分别对应 4 位用户。可 以看出,由于用户之间操作习惯的不同,同一种滑动手势的持续时间在用户之间 存在差异,而对于其中的每一位用户,该时间在一个相对稳定的范围。
图 4-6 四位用户手势持续时间比较
39
第 4 章 基于触控滑动手势特征的身份识别实现 上海师范大学硕士学位论文
位置特征一共有 4 个特征维度,分别为手势轨迹起始位置的 X/Y 轴坐标和结 束位置的 X/Y 轴坐标。我们基于 5 位用户手势轨迹的起始位置数据,做了如图 4-7 所示的起始位置坐标的散点图。每种颜色对应其中一位用户,横纵坐标分别 代表轨迹起始位置的 X 轴和 Y 轴坐标。从图中可以看出每位用户轨迹的起始位置 能够很好的与其他用户区分开来,而且这些起始点分布在一个相对稳定的区域。 所以,采用位置特征作为特征属性,可以用于刻画和区分手势轨迹对应的用户身 份。
图 4-7 五位用户手势轨迹的起始点坐标分布图
4.6 本章小结
本章主要围绕着本文的第二种身份识别方法,详述了该身份识别方法的设计 思想和滑动手势中可提取的多种行为特征,文章设计了一款手机端的后台服务程 序,不断的监听和收集用户操作智能手机过程中手指与触摸屏交互产生的手势特 征数据,之后从收集到的原始手势数据中提取出 6 组特征数据,最后,对 6 组手 势特征数据中的时间特征和位置特征进行了有效性验证。
40
上海师范大学硕士学位论文 第 5 章 实验结果与分析
第 5 章 实验结果与分析 5.1 实验环境和测评指标
本实验采用了普通的 PC 机,实验环境机器配置如表 5-1 所示,整个实验过 程使用的开发平台有 IntelliJ IDEA 2017,Android Studio 2.3,MATALAB R2017a。
表 5-1 实验环境机器配置
内存 硬盘 CPU 网卡 操作系统
Windows7 8GB 1T Intel i5 双核四线程 1 个 100Mb Professional
64bit 为评估模型性能的优劣,本文采用了多种测评指标,包括精确率、召回率、
特异性、马修相关系数、准确度。我们首先给出了以下相关参数,如表 5-2 所示。 表 5-2 与测评指标相关的参数
参数名缩写 FN
FP
TN
TP
参数名称 False Negatives False Positives True Negatives True Positives
定义
正样本被预测为负样本
负样本被预测为正样本
负样本被预测为负样本
正样本被预测为正样本
如图 5-1 所示,我们在图中表示出了以上四种参数。其中,上半圆(蓝色部 分)表示 TP(True Positives),下半圆(绿色部分)表示 FP(False Positives), 上部灰色矩形(除去蓝色的半圆)表示 FN(False Negatives),下部白色的矩形 框(除去绿的的半圆)表示 TN(True Negatives)。由上下两个半圆构成的圆形 部分表示由分类模型预测的判定为正值的样本。
图 5-1 四种参数的表示
41
第 5 章 实验结果与分析 上海师范大学硕士学位论文
基于以上四种参数,我们给出了以下测评指标的相关描述和定义。
(1)精确率(Precision):它表示被模型预测为正的样本中,真实正样本所占 的比例。定义如下:
𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 (5 − 1) 𝑇𝑃 + 𝐹𝑃
(2)召回率(Recall):表示被模型正确划分的正样本占全部正样本的比例。 定义如下:
Recall = 𝑇𝑃 (5 − 2) 𝑇𝑃 + 𝐹𝑁
(3)特异性(Specificity):表示被模型正确划分的负样本占全部负样本的比 例。定义如下:
Specificity = 𝑇𝑁 (5 − 3) 𝑇𝑁 + 𝐹𝑃
(4)马修相关系数(MCC):表示模型预测结果与真实样本标签的吻合度。其取 值的范围在[-1,+1]之间,当 MCC 取值为 1 时,表示分类的结果与标签完全一致; 取值为-1 时,表示分类结果与标签完全相反。定义如下:
MCC = 𝑇𝑃 × 𝑇𝑁 − 𝐹𝑃 × 𝐹𝑁 (5 − 4) √(𝑇𝑁 + 𝐹𝑁) × (𝑇𝑁 + 𝐹𝑃) × (𝑇𝑃 + 𝐹𝑁) × (𝑇𝑃 + 𝐹𝑃)
(5)准确度(Accuracy):表示正负样本被正确划分数量在全部样本中所占的 比例。定义如下:
Accuracy = 𝑇𝑃 + 𝑇𝑁 (5 − 5) 𝑇𝑃 + 𝐹𝑃 + 𝑇𝑁 + 𝐹𝑁
在生物识别领域,我们通常会使用以下两个指标评价识别模型。
(1)认假率 FAR(False Acceptance Rate)表示把不该被模型匹配的数据 错误的匹配,即将异常数据认作正常数据。
(2)拒真率 FRR(False Rejection Rate)表示把本该被模型匹配的数据当 作不可以匹配的数据,即将正常数据认作异常数据。
我们将在之后的实验中应用到这两个指标。
5.2 OCSVM 核函数选择
在本文基于用户行为特征的身份识别研究中,我们采用了两种身份识别方案 (基于数字密码的输入特征识别和基于触摸滑动手势特征的识别),并将 OCSVM 算法用于两种身份识别方案中。在 OCSVM 核函数的选择上,我们将通过实验的方
42
上海师范大学硕士学位论文 第 5 章 实验结果与分析 式来比较哪种核函数更为有效。
为了方便本次实验的比较和说明,对于两种身份识别方案,我们分别选取了 10 位实验参与者的特征数据(已做归一化处理),每位实验者提供 300 条特征数 据(密码输入特征或滑动手势特征数据)。在模型训练和测试过程中,我们依次 选取其中一位用户数据为正样本,其余 9 位假定为负样本,在实验结果计算时取 平均值。实验过程分别使用核函数 Linear(线性核函数)、Polynomial、RBF(径 向基函数)、Sigmoid 进行模型的训练。为获取 OCSVM 模型最优参数,在实验中 我们使用了网格搜索算法依次遍历寻找最优参数。实验结果的数据对比如图 5-3 和 5-4 所示。
表 5-3 核函数名 Precision
Linear 0.958 Polynomial 0.688 RBF 0.969 Sigmoid 0.855
采用密码输入特征数据的核函数比较
核函数名 Linear Polynomial RBF Sigmoid
Precision
0.947
0.671
0.954
0.778
Recall MCC 0.942 0.889 0.737 0.378 0.959 0.913 0.814 0.583
Accuracy
0.945 0.92 0.688 1.15 0.957 0.86 0.791 1.07
表 5-4
采用滑动手势特征数据的核函数比较
Recall MCC Accuracy 0.965 0.923 0.962 0.716 0.391 0.696 0.975 0.944 0.972 0.836 0.694 0.847
模型训练时间(s) 0.96
1.21
0.93
1.14
根据以上两张表格中的数据比较,我们可以看出,当 OCSVM 算法采用 RBF 核 函数时,分类的准确度分别达到 97.2%和 95.7%,模型的训练时间分别仅需 0.93s 和 0.86s,在分类准确度和训练时间上都要好于其它三种核函数。采用 RBF 核函 数时,基于密码输入特征的身份识别模型的分类准确度要略高于基于滑动手势特 征的分类模型,但后者的模型训练消耗时间略好于前者,这可能是因为前者的训 练数据维度更高。
以上实验确定了 RBF 核函数为 OCSVM 分类算法的最佳核函数,且采用 RBF 核 函数的 OCSVM 算法在两种身份识别中,表现出了很高的分类准确度,准确度均高 于 95%。
模型训练时间(s)
43
第 5 章 实验结果与分析 上海师范大学硕士学位论文 5.3 算法对比实验
SVM 算法是一个经过广泛认可而有效的分类算法,本文采用的 OCSVM 算法由 SVM 算法派生而来。在接下来的实验中,我们将 SVM 加入到算法的对比实验。同 时,我们也采用了目前应用较广,且具有代表性的 BP 神经网络和朴素贝叶斯算 法训练分类模型,并与传统二分类 SVM 算法和 OCSVM 算法训练的模型作比较。
我们从两种身份识别方案的数据集中,分别选取了 20 位实验参与者的特征 数据(每位实验者提供 300 条)用于实验,并依次选定其中一位的特征数据作为 正样本数据,结果计算时取平均值。OCSVM 核函数选用上文中的 RBF 核,SVM 采 用常用的 C-SVC, 朴素贝叶斯算法采用默认参数,经过多次的实验,统计出实验 的结果如表 5-5 和 5-6 所示。
表 5-5 采用密码输入特征数据的算法比较
算法名 Precision Recall MCC SVM 0.956 0.964 0.920 OCSVM 0.967 0.977 0.944 BP 0.923 0.917 0.841 NavieBayes 0.952 0.947 0.899
Accuracy
0.960 0.98 0.972 0.95 0.921 1.28 0.949 0.36
算法名 SVM OCSVM BP NavieBayes
Precision Recall 0.952 0.954 0.956 0.962 0.915 0.908 0.951 0.944
MCC
0.906
0.918
0.824
0.895
Accuracy
0.953 0.93 0.959 0.87 0.912 1.24 0.947 0.32
表 5-6 采用滑动手势特征数据的算法比较
由以上表格中的统计数据可以看出,OCSVM 算法在分类准确度方面要略好于 SVM 算法,并较 BP 神经网络算法和朴素贝叶斯算法表现得更好。同时,OCSVM 算 法和 SVM 算法在训练时间上比较接近,但训练时间要明显大于朴素贝叶斯算法, 这是因为 SVM 需要大量的运算时间消耗。在对比表格 5-5 和 5-6 时,我们可以看 到,同样是采用了 OCSVM 算法(RBF 核),由密码输入特征数据训练的模型在准 确度上好于采用滑动手势特征数据的,这是因为用户的手势操作表现的更为随机, 且操作自由度更高。
采用 RBF 核函数的 OCSVM 算法所训练的模型在分类准确度上达到了 95%以上, 具有相当高的识别精度,并且在模型训练上也只需要相对较短的时间。因此,本 文将 OCSVM 算法运用于两种基于行为特征的身份识别过程具有很高的可行性。
44
训练时间(s)
训练时间(s)
上海师范大学硕士学位论文 第 5 章 实验结果与分析 5.4 分析测试数据量对 FAR 和 FRR 的影响
在经过以上的实验对比之后,我们确定了分类算法 OCSVM 算法及其采用的 RBF 核函数的有效性和可靠性。接下来我们想通过改变测试数据的数量,分析测试数 据量的不同对模型识别的影响。我们将整个实验过程分成两个部分进行,实验的 数据来源于之前参与实验采集的 28 位用户。
实验一:基于数字密码输入特征的身份识别
我们首先从 5 种输入密码(见表 3-1)中选择一种,利用其输入特征数据进 行如下的实验步骤:
(1)从 28 位用户数据中随机选择其中一位用户的数据作为正常用户数据 (400 条),其中 250 条数据用于模型的训练,其余 150 条用作测试,并将该测 试数据标记为+1。从其余 27 位用户数据组成的数据集中抽取 300 条数据作为测 试数据,并将该测试数据标记为-1。
(2)获取最优模型。由于实验采用了 RBF 核函数,因此影响 OCSVM 模型泛 化能力的参数分别为核函数参数 g 和 OCSVM 参数 v。为获取最优模型参数(g 和 v),实验采用了网格搜索法,依次遍历所有由参数 v 和 g 构成的网格点,直至获 取最优参数。利用最优参数和(1)中的 250 条训练数据可得到最优模型。
(3)将(1)中的 150 条正常用户数据和 300 条异常用户数据按照 1:2 的 比例混合,将混合后的数据用于模型测试。依次增加测试数据量,根据测试结果 计算对应的 FRR 和 FAR 的百分比值。
选择其余的 4 种输入密码进行实验,重复以上(1)到(3)的实验步骤。基 于这 5 种输入密码的实验结果,我们绘制了如图 5-2 所示的 FAR 和 FRR 随测试数 据量变化的折线图。其中,横坐标表示测试数据量,纵坐标表示对应的 FAR 和 FRR 的百分比值。
从图 5-2 可以看出,随着测试数据量的增加,实验获得的 FAR 和 FRR 值存在 着波动。在测试数据量小于 300 的时候,由于数据量比较小,部分被模型拒绝或 错误匹配数据对计算 FRR 和 FAR 结果的影响比较大;当测试数据量大于 300 之后, 这种影响因素会随着测试数据量的增大而减小。从图中可以看出实验获取到的 FAR 和 FRR 值在测试数据量超过 300 之后稳定在 0%~5.6%之间,FAR 和 FRR 值的 波动幅度收窄。
本实验的特征数据来源于 28 位用户,每位用户的输入特征数据有各自潜在 的特点。在多个用户特征数据的混合和测试数据的数量变化时,实验获得了较低 的 FAR 和 FRR 值,由此可见基于数字密码输入特征的身份验证方案可以被用于增 强传统数字密码验证身份的安全性。
45
第 5 章 实验结果与分析 上海师范大学硕士学位论文
图 5-2 FAR 和 FRR 随密码输入特征数据量的变化图
实验二:基于四种滑动手势特征的身份识别
本实验与实验一步骤类似,区别在于模型数量和数据选取方面。由 OCSVM 算 法训练的滑动手势数据模型有四种,分别为上滑手势数据模型,下滑手势数据模 型,左滑手势数据模型以及右滑手势数据模型。每一种手势模型的训练步骤如下:
(1)从 28 位用户数据中随机选择一位用户的数据作为正常用户数据(650 条),其中 350 条数据用于模型的训练数据,另外 300 条用作测试数据,将该测 试数据标记为+1。从其余 27 位用户数据组成的数据集中抽取 300 条数据作为测 试数据,并标记为-1。
(2)实验仍然采用了 RBF 核函数,并用网格搜索法获取最优参数 g 和 v。结 合最优参数和(1)中的 350 条训练数据可获得最优模型。
(3)将(1)中的 300 条正常用户数据和 300 条异常用户数据按照 1:1 的 比例混合作为测试数据。将混合后的数据用于模型的测试,增加测试数据的数据 量,计算并获取对应的 FRR 和 FAR 百分比值。
按照上述(1)到(3)的步骤可获得全部四种手势数据模型及其对应的 FRR 和 FAR 数据值。我们将四种手势数据模型作为一个模型,并利用实验获取的所有 FRR 和 FAR 值,绘制出如图 5-3 所示的 FAR 和 FRR 随手势特征测试数据变化的折 线图。其中,横坐标表示测试数据量,纵坐标表示对应的 FAR 和 FRR 的百分比值。
从图 5-3 的折线图可以看出,随着四种手势测试数据量的增加,FAR 和 FRR 值会相应的产生波动。在测试数据量小于 800 时,受局部数据的影响这种波动幅 度比较大;当数据量超过 800 之后,FAR 和 FRR 的数据值稳定在 2.75%~4.1%之
46
上海师范大学硕士学位论文 第 5 章 实验结果与分析 间,波动幅度减小。而较低的 FAR 和 FRR 值使得基于四种滑动手势特征的身份识 别方案可以用于身份识别的过程。
该方案的身份验证发生在用户通过一次性身份验证登录成功之后,验证过程 不需要用户的主动参与,不会干扰用户对手机的正常操作,并且可以持续的对用 户的身份进行验证。
图 5-3 FAR 和 FRR 随四种手势特征数据量变化图
5.5 本文实验结果与相关文献的比较
基于用户行为特征的差异区分手机端用户的身份,这类课题在最近 5 年已经 有许多学者做过相关研究。文献[36]利用用户在手机通话过程中,持握手机的手势, 持握角度随时间的变化以及通话过程中麦克风的移动方位等特征信息识别用户 的身份,这些特征数据由手机中内置的加速度传感器产生。我们将本文身份识别 方案与文献[36]和上文中提到的文献[15]的实验结果做对比,对比主要基于两种常用 生物识别模型评价指标 FAR(入侵用户被错误识别为合法用户的概率)和 FRR(合 法用户被错误识别成非法用户的概率),如表 5-7 所示。
Biometric Technique
Behavioral[36] FAST[15]
密码输入特征
表 5-7 相关文献实验结果比较 FAR
5.7%
4.66%
0-4.6%
3.8%-4.1%
FRR
8.0%
0.13%
1.2%-5.6%
2.75%-3.2%
滑动手势特征
从以上表格中可以看出,本文的两种身份识别方案在 FAR 值上要低于其它两
47
第 5 章 实验结果与分析 上海师范大学硕士学位论文 个文献的实验值,表现出了较好的认假率。在 FRR 的表现上,本文的两种识别方 案要好于文献[36],但次于文献[15]的实验结果。文献[15]之所以取得了较低的 FRR 得 益于其采用了额外的数字手套,但该手套作为实验数据的采集设备之一不利于用 户对智能手机的正常操作。
综上所述,本文的两种身份识别方案在实验过程中取得了较低的 FAR 和 FRR, 相较其它文献的实验结果在整体上有较好的表现。两种身份识别方案不需要额外 的设备支持,身份识别的过程隐藏在用户的操作过程中,不会干扰正常的用户操 作使用。
48
上海师范大学硕士学位论文
第 6 章 总结与展望
6.1 研究工作总结
第6章 总结与展望
智能手机广泛的普及和使用引发了各种安全问题,如何确保手机中隐私数据 的安全成了一大挑战。在最初,我们通常会使用密码和九宫格图案的方式来认证 使用者的身份。然而就像文章之前提到的密码存在着易被窃取以及用户倾向于选 择简单的密码设置。九宫格图案虽然容易记忆,但也很容易被肩窥方式窃取。目 前,手机端验证用户的身份已经发展到了采用指纹、虹膜识别等更先进的技术, 然而这类技术同样存在着很高的安全问题。《IT 时报》之前的报道就指出,手机 Home 键(指纹模块)部位摔出裂纹后,人人都能解手机,并且经过多次的实验 验证,仅需一张膜就可以解锁包括华为、小米、OV 在内的主流厂商手机。攻击 者一旦解锁了手机就很容易获取包括邮件、短信、通讯录、银行卡账号等个人信 息,这些信息一旦丢失就可能引发个人财产的安全以及个人信息的泄露和传播。
本文从这类安全问题出发,探究解决这类问题的相关方案。本文从生物行为 特征识别原理的角度,认为用户对于自己熟悉而又经常输入的数字密码(这类密 码一般在较长时间保持固定不变)有唯一的输入模式。我们开发了相应的 app 程 序,收集包括密码输入过程的时间信息,手指对触摸屏幕的压力和面积等特征信 息,基于这些特征信息识别用户的身份是否合法。目前手机中集成的感应器以及 开发平台提供 API 接口给我们收集这类特征信息提供了很大的可能性。随后,我 们邀请用户参与并收集这类特征信息,利用这些特征数据我们验证出时间、压力、 面积等特征在用户之间具有较大的差异性,最后,通过实验验证这种身份验证方 案是有效的并取得了很高的精确度。这类验证方案在用户登录手机阶段可以识别 用户的身份,但在用户登录后,操作手机的过程中不再有任何身份识别过程的发 生。从生物行为特征的角度,我们认为用户在与智能手机交互过程中,触摸滑动 手势的特征与用户本人的行为习惯有很高的关联度,为此,我们开发了一款驻留 在手机后台,监控并收集用户手指与触摸屏的交互数据(包括滑动手势的位置、 时间、速度、压力等特征数据)。基于这些交互数据,我们验证了这类数据在用 户间的差异性,并通过实验验证得出这类身份识别方案的高可行性。在最后的实 验阶段,我们做了以下工作:
(1)通过实验选择 OCSVM 算法的最佳核函数,得出 RBF 核较其它三种核函 数(Linear,Polynomial,Sigmoid)在精确度和模型训练时间上表现得更好。
(2)比较本文所采用的 OCSVM 分类算法与其它常用的分类算法(SVM,BP 神
49
第 6 章 总结与展望 上海师范大学硕士学位论文 经网络,朴素贝叶斯)训练的身份识别模型的优劣,得出 OCSVM 算法训练的模型 在分类精确度上高于其它三种分类算法,在训练时间上仅次于朴素贝叶斯算法。
(3)分析测试数据量的不同对模型分类的影响,实验发现两种身份验证方 案分别在测试数据量高于 300 和 800 时,FAR 和 FRR 值处于相对稳定的状态(基 于密码输入特征的身份验证 FAR 和 FRR 值在 0%-5.6%范围,基于触摸滑动手势的 身份验证方案 FAR 和 FRR 值在 2.75%-4.1%之间)。
(4)将本文的实验结果与近 5 年内相关课题的实验结果做了比较,结果显 示,本文的两种身份识别方案在 FAR 值上要低于两个相关文献的实验值,表现出 了较好的认假率。在 FRR 的表现上,本文的两种识别方案要好于文献[36], 仅仅次 于文献[15]的实验结果。
本课题的实验结果表明,用户的行为特征数据可用于有效区分用户的身份。 两种身份识别方案作为身份认证机制可以很好的提高设备的安全性,在实际应用 中可操作性强,身份验证过程对用户透明,不干扰用户的正常使用操作,不需要 増加额外的硬件开销。基于数字密码输入特征的身份识别可以无缝的集成到现有 的密码体系当中,实现了对用户身份的二次认证,而基于触控滑动手势特征的身 份识别,通过不断监听和收集用户手指与触摸屏交互产生的手势特征数据,实现 对操作用户身份的持续性、动态性识别,确保智能手机中隐私数据的安全,弥补 了传统静态身份识别方案仅在登录阶段认证的不足。
6.2 未来研究内容展望
在本课题的研究过程中,我们对用户的输入和姿态都做了相应的控制,并在 此基础上利用用户的行为特征数据构建模型实现文中的两种身份识别方案。虽然 在实验结果中取得了很高的识别精度,但是仍然无法满足多种输入和多姿态条件 下高精度的识别。例如,文中密码的输入过程,我们要求用户采用左手持握手机, 右手食指输入的方式,虽然通常情况下用户大都会选择这种输入方式,但无法避 免用户在手指受伤或疾病时选择其它的手指。本文中的两种身份识别方案,尽管 在识别精度上都超过了 95%,但对于目前常见的生物识别方案,如指纹识别在精 度都要求在 99%以上。为此,相关的研究也尝试了收集更多的用户行为特征(如 文献[15]增加了数字手套收集手指的移动数据)实现更高的识别精度。本课题未来 的研究方向也将朝着实现更高身份识别精度的方向去努力。基于用户行为特征的 身份识别是以用户行为特征的唯一性为基础,具有实现成本低,不侵犯用户, 识别过程对用户透明以及可选择的生物行为特征多样等众多的优点,相信在未来 的会有很大的应用前景。
50
上海师范大学硕士学位论文
参考文献
参考文献
[1] Anthony Scarsella, William Stofega.Worldwide Smartphone Forecast, 2017–2021[R]. IDC Corporate USA 5 Speen Street Framingham: International Data Corporation,May,2017.
[2] Z. Syed, J. Helmick, S. Banerjee, and B. Cukic Effect of User Posture and Device Size on the Performance of Touch-based Authentication Systems[C]. IEEE 16th International Symposium on High Assurance Systems Engineering. 2015:10-17
[3] Chao Shen, Yong Zhang, Zhongmin Cai, Tianwen Yu, Xiaohong Guan.Touch-Interaction Behavior for Continuous User Authentication on Smartphones[J]. International Conference on Biometrics. 2015,22(3):157-162
[4] J. Bonneau. The science of guessing: analyzing an anonymized corpus of 70 million passwords[C]. IEEE Symposia on Security and Privacy. 2012:538-552.
[5] A. J. Aviv, K. Gibson, E. Mossop, M. Blaze, and J. M. Smith. Smudge attacks on smartphone touch screens[C]. Usenix Conference on Offensive Technologies, 2010:1-7.
[6] Bryan,W.L.,Harter,N.1897. Studies in the Physiology and Psychology of the Telegraphic Language[J].Psychological Review,4(1):27.
[7] Gaines,R.S.,Lisowski,W.,Press,S.J.et al.1980. Authentication by Keystroke Timing:Some Preliminary Results[R]. Rand Corp Santa Monica CA.
[8] Bolle,R.Connell,J.Pankanti,S.Ratha,N.Senior,Guide to Biometrics[M].Springer-Verlag,Berlin Heidelberg New York,2004.
[9] Jin,L.,Ke,X.,Manuel,R.et al.Keystroke Dynamics:A Software Based Biometric Solution[C]. Proc. 13th USENIX Security Symposium. 2004.
[10] Brown M,Rogers S J. User identification via keystroke characteristics of typed names using neural networks[J]. International Journal of Man. Machine Studies,1993,39(6):999-1014.
[11] Napier R,Laverty W,Mahar D,et a1. Keyboard user verification:toward an accurate,efficient,and ecologically valid algorithm[J]. International Journal of Human-Computer Studies,1995,43(2):213-222.
[12] Monrose F,Rubin A. Authentication via keystroke dynamics[C].Proceedings of the 4th ACM conference on Computer and communications security.ACM,1997:48-56.
[13] Lin D T. Computer-access authentication with neural network based keystroke identity verification[C]. Neural Networks,l997,International Conference on. IEEE,1997,1:174-178. [14] Obaidat M S,Sadoun B. Verification of computer users using keystroke dynamics[J]. Systems,Man,and Cybernetics,Part B:Cybernetics,IEEE Transactions on,1997,27(2):261-269. [15] T. Feng, Z. Liu, K.An Kwon, W. Shi, B. Carbunar, Y. Jiang and N. Nguyen Continuous mobile authentication using touchscreen Gestures[C]. IEEE Conference on Technologies for Homeland Security, 2012:451-456.
[16] N. Kunnathu. Biometric User Authentication on Smartphone Accelerometer Sensor Data. Pace University; Capstone Project – Biometric Authentication & Accelerometer Sensor, 2014. [17] F. Bimbot, J.-F. Bonastre, C. Fredouille, G.Gravier, I. Magrin-Chagnolleau, S.Meignier, T. Merlin, J. Ortega-Garc ́ıa, D. Petrovska-Delacr ́etaz, and D. A. Reynolds. A tutorial on
51
参考文献 上海师范大学硕士学位论文
text-independent speaker verification[J]. EURASIP J. Appl. Signal Process. 2004(4):430–451. [18] W. Shi, J. Yang ,Y. Jiang, F. Yang, and Y. Xiong. SenGuard: Passive User Identification on Smartphones Using Multiple Sensors IEEE[C]. 7th International Conference on Wireless and Mobile Computing,Networking and Communications (WiMob). 2011:141-148.
[19] Agrawal S, Constandache I, Gaonkar S, et al. PhonePoint pen:using mobile phones to write in air[C]. Proceedings of the ACM Workshop on Networking,System,and Applications for Mobile Handhelds. 2009:1-6.
[20] M. Trojahn and F. Ortmeier. Toward Mobile authentication with keystroke dynamics on mobile phones and tablets[C]. 27th international conference on advanced information networking and applications workshops. 2013:697-702.
[21] N. Sae-Bae, K. Ahmed, K. Isbister, and N. Memon. Biometric-rich gestures: a novel approach to authentication on multi-touch devices[C]. ACM CHI’12. 2012:977–986.
[22] 田捷,杨鑫生物特征识别技术理论与应用[M].北京:电子工业出版社,2005:2-15
[23] 杨文.虹膜识别系统[M]. 哈尔滨:哈尔滨工业大学硕士论文,2007:8-8.
[24] John Woodward 等著,陈菊明,邓启威等译.生物认证[M].北京:清华大学出版 社,2004:100-105.
[25]ANGULO J,WASTLUND E. Exploring touch-screen biometrics for user identification on smart phone[M]. Berlin;Springer,2011:130-143.
[26]黄海平,徐宁等. 物联网环境下的智能移动设备隐式认证综述[J].南京邮电大学学 报,2016,10(36):1673-5439.
[27] Whitman M,Mattord H.Principles of information security[M]. Cengage Learning,2011.
[28] 李瑞轩,卢正鼎.多数据库系统原理与技术[M].北京:电子工业出版社,2004 [29] 邬俊,鲁明羽,刘闯.基于混合学习框架的 SVM 反馈算法研究[J].电子学 报,2010,38(9): 2101-2106.
[30] 李昆仑,赵俊忠,黄厚宽等.基于 SVM 技术的入侵检测[J].信息与控制,2003, 32(6):495-499.
[31] 王建国,张文兴等.支持向量机建模及其智能优化[M].北京:清华大学出版社,2015 [32] 姚宝珍.自适应并蚁群算法[J].模式识别与人工智能,2007,8(20):458-462.
[33] 王洪波,赵光宙等. 一类支持向量机的快速增量学习方法[J].浙江大学学 报,2012,7(46):1328-1331.
[34] G.Bilgin,S.Erturk,T.Yildirim.Segmentation of hyperspectral images via subtractive clustering and cluster validation using one-class support vector machines[J].IEEE Transactions on Geoscience and Remote Sensing,2011,49(8):2936-2944.
[35] Xie T,Bai G,Lang H. A novel distributed clustering algorithm based on OCSVM[C]. Intelligent Computing and Intelligent Systems (ICIS), Beijing:IEEE, 2010:661 – 665.
[36] N. Kunnathu Biometric User Authentication on Smartphone Accelerometer Sensor Data, pp. 131-139 2014
52
上海师范大学硕士学位论文 攻读学位期间取得的研究成果
发表论文:
攻读学位期间取得的研究成果
[1]向东东,陈海光,熊俊杰.基于用户行为特征的手机端身份识别研究[J].上海师范大学学 报(自然科学版)
[2]熊俊杰,向东东,郭倩,陈海光.S.T at TREC 2017:Real-Time Summarization Track[C]. 2017 Text Retrieval Conference
参与竞赛获奖:
1. 全国大学生物联网设计竞赛华东赛区一等奖
2. “华为杯”第十四届中国研究生数学建模竞赛 国家三等奖
53
致谢
上海师范大学硕士学位论文
致谢
时光荏苒,岁月如梭,转眼三年的研究生学习即将结束。追忆这三年前,满 怀抱负的进入了上海师范大学开启研究生阶段的学习。三年间,自己在计算机多 个领域的技术水平都有了较大的提高。三年后的今天即将离开美丽的上海师范大 学校园,满是不舍与眷恋,然而,人总要走上社会继续工作和学习。离别之际, 想起了很多人、很多事,最想向曾经帮助过我的老师和同学表达真挚的谢意。
感谢我的导师陈海光老师在我论文完成过程中给予的很大帮助。陈老师为人 和善可亲,知识渊博、思维敏捷、治学态度严谨,为我们树立了生活和学习的楷 模。除了学术上日常的交流外,陈老师还教会我们生活中做人、做事的积极态度。 感谢我的同门熊俊杰同学在我论文机器学习算法中给予的指导和帮助,三年来与 你们共同学习和生活留下了许多欢声和笑语,感谢能够在上师大遇到你们。感谢 帮助我完成数据采集和测试的同学,感谢你们的积极参与和支持。最后,感谢我 的父母、我的亲人,因为有他们的支持和鼓励,我才能一步步坚实的走完这三年 的研究生学术生涯,感谢他们的无私与关爱。
再次感谢所有帮助过我的老师和同学,也感谢百忙中审稿的各位老师,谢谢!
2018 年 3 月
54