基于nlp和知识图谱的多模态个性化推荐方法研究,这里面会主要是用到一些公开的数据集,和根据公开数据自己爬取的数据补充(主要用来供nlp和知识图谱模型使用),内容主要是 对比 基于电影的协同过滤,以及结合nlp语义模型和 知识图谱模型的一个 实验效果对比,以及模型融合
MovieLens
小份数据集情况
# u.data文件中为user_id,movie_id,rating,unix_timestamp,格式如下:
# u.user文件中为user_id,age,occupation,zip_code,格式如下:
# u.occupation 职业列表
# u.item文件中为movie_id,title, release_date, video_release_date,imdb_url,格式如下:
u.genre 电影类型列表
u.info –u.data数据集中的用户数,电影数和评分数
超大型数据集————目前认为不太需要用太大型的数据集
(还没整理好,缺失了用户画像的数据)
超大型数据比较大,下好了,但是需要用numpy打开
baseline_default:
协同过滤/FFM
实验模型:
基于内容召回 doc2vec/fastsent————选择doc2vec
排序 dnn&attention deepFM wide&deep ————这边目前打算用attention模型
模型融合 手工融合 和 LR融合
基于nlp和知识图谱的多模态个性化推荐方法研究,这里面会主要是用到一些公开的数据集,和根据公开数据自己爬取的数据补充(主要用来供nlp和知识图谱模型使用),内容主要是 对比 基于电影的协同过滤,以及结合nlp语义模型和 知识图谱模型的一个 实验效果对比,以及模型融合
1.基于iterm的协同过滤
2.基于知识图谱的推荐
tranE模型参考:
https://yaoleo.github.io/2017/10/27/TransE%E7%AE%97%E6%B3%95%E7%9A%84%E7%90%86%E8%A7%A3/
初步考虑用TransE 模型 将会得到 电影之间的相似度
电影-导演-导演名
电影-主演-主演名
电影-类型-类型名(动作电影)
将会得到三个电影的embedding
这个可以得到通过知识图谱计算出来的 电影之间的相似度
3.基于doc2vec
可以通过电影的简介 训练处每个电影的embedding 得到词向量
也可以计算一个电影之间的相似度