程序代写代做 数据:从2018年1月1到2018年12月16,2019年4月到11月,每隔2周抓取的优 亿市场 app 数据。

数据:从2018年1月1到2018年12月16,2019年4月到11月,每隔2周抓取的优 亿市场 app 数据。
研究课题:利用一种方法计算出每个类别软件的权限平均向量,然后再计算出每个 app 相对于平均权限的“权限过度系数”或“权限不足系数”。(老师说这两个系数的计算很重要, 暂时他也没有想到合适的计算方法。)
最后用权限过度系数和权限不足系数对评论数、下载量做回归。老师说考虑把描述(内 容摘要)的字数作为工具变量。研究预期结果是:权限不足会通过影响功能实现影响下载量 /评论数,过度权限会通过影响用户使用效果来影响下载量/评论数。
老师有给我举例一种简单的方法:筛选出权限的具体类别,然后按照每种权限在该 app 中被调用的次数(0 或者 1)构建变量,比如有 20 种权限,发现在 A 类 app 的平均权限中 编号为 1 到 10 的权限在类别平均权限中取值为 1,编号为 11 到 20 的取值为 0(这当然是一 种理想情况)。如果 A 类 app 中有一个 app,代号为 x,它具有编号 4-6 和 12-16 这么多权 限,就认为他权限过度系数为 0.5(10 个过度权限里有 5 个有),权限不足系数为 0.7.(10 个 必须权限里只有 3 个有)。
我觉得这种方法不太容易实现,现实数据的情况不可能这么理想,所以想请教你,觉得 哪种方法更合适,能实现老师要求的效果。关于方法这边,老师给了我一篇参考文献,我放 在附件里了,不知道有没有用。
在处理数据的时候我发现了一个问题,软件的所属分类不太准,在之后计算出每个软件 的向量之后,把每一类里面的离群值去掉,两种类的权限向量接近的话就合并为同一类?这 样可以解决问题吗,不想重新对软件进行聚类。(这个问题不大,无法解决的话就按照现有 分类来吧)
还有一点需要说的是:数据里面的权限数据按道理应该是按照分组来抓的,有组名和组 内权限,可是抓数据的同学直接全部放在了一个单元格里。
原本的权限列表形式如下(可以在优亿市场官网每个 app 的权限介绍里看到,我随便点 开一个 app 复制下来是这样的):
您的帐户
• 查找设备上的帐户
• 创建帐户并设置密码 • 添加或删除帐户
• 使用设备上的帐户
您的社交信息
• 读取您的通讯录 • 读取通话记录
您的位置
• 精确位置(基于 GPS 和网络) • 大致位置(基于网络)
开发工具
• 查阅敏感日志数据 锁定屏幕
• 停用屏幕锁定

蓝牙
• 访问蓝牙设置
• 与蓝牙设备配对
您的应用信息
• 检索正在运行的应用
• 关闭其他应用
• 对正在运行的应用重新排序 • 关闭其他应用
• 开机启动
系统工具
• 计算应用存储空间
• 删除所有应用缓存数据
• 测试对受保护存储空间的访问权限
• 安装快捷方式
• 卸载快捷方式
• 读取主屏幕的设置和快捷方式
• 写入主屏幕的设置和快捷方式
• 访问 USB 存储设备的文件系统
• 读取电池使用统计信息
• 发送持久广播
• 修改系统设置
• 强行停止其他应用
书签和历史记录
• 读取您的网络书签和历史记录 • 写入网络书签和历史记录
存储
• 修改或删除您的 USB 存储设备中的内容 • 修改/删除内部媒体存储设备的内容
手机通话
• 读取手机状态和身份 • 直接拨打电话号码
网络通信
• 查看 WLAN 连接
• 查看网络连接
• 完全的网络访问权限
• 连接 WLAN 和断开连接
• 更改网络连接性
其他应用的用户界面
• 在其他应用之上显示内容 影响电池的使用
• 防止手机休眠 • 控制振动
状态栏
• 展开/收拢状态栏

相机
• 拍摄照片和视频 音频设置
• 更改您的音频设置 闹钟
• 设置闹钟 未分组
• 更新组件使用情况统计 壁纸
• 调整您的壁纸大小 • 设置壁纸
您的个人信息
• 检索屏幕内容 您的信息
• 发送短信 同步设置
• 读取同步设置
• 启用和停用同步
• 读取同步统计信息
权限分组类别汇总如下:
影响电池的使用、网络通信、您的位置、相机、麦克风、您的应用信息、您的信息(短信)、 壁纸、闹钟、锁定屏幕、存储、系统工具、蓝牙、其他应用的用户界面、手机通话、您的账 户、同步设置、您的个人信息、您的社交信息、书签和历史记录、开发工具(查阅敏感日志 数据)、状态栏、音频设置