基于用户语义相似性的协同过滤推荐算法

来源：锐游网

２０１３年１月　机械设计与制造工程　Ｍａｃｈｉｎｅ　Ｄｅｓｉｇｎ　ａｎｄ　Ｍａｎｕｆａｃｔｕｒｉｎｇ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｊａｎ．２０１３　Ｖｏ１．４２　Ｎｏ．１　第４２卷第１期　ＤＯｔ：１０．３９６９／ｊ．ｉｓｓｎ．２０９５—５０９Ｘ．２０１３．０１．０１９　基于用户语义相似性的协同过滤推荐算法　李　想，周　良　（南京航空航天大学计算机科学与技术学院，江苏南京２１００１６）　摘要：为了解决协同过滤推荐中的稀疏性问题，提出一种基于用户语义相似性的协同过滤推荐算　法。算法考虑到项目之间内在的语义关系，通过构建领域本体来计算项目之间的语义相似度，并　综合项目语义相似度和用户评分数据来度量用户语义相似性。实验结果表明，该算法在用户评　分数据极端稀疏的情况下，依然可以获得较高的推荐质量。　关键词：推荐系统；协同过滤；稀疏性；领域本体；语义相似性　中图分类号：ＴＰ３１ｌ　文献标识码：Ａ　文章编号：２０９５—５０９Ｘ（２０１３）０ｌ一００７０—０３　协同过滤推荐是当前应用最广泛、最成功的个　的推荐质量下降的问题，提高推荐的准确性。　性化推荐技术。协同过滤推荐主要根据用户对项　目的评分数据，发现用户之间或者项目之间的相关　１　基于用户语义相似性的协同过滤推荐流程　协同过滤推荐根据目标用户最近邻居集的偏　好来预测目标用户的偏好，推荐流程主要分为２个　部分：发现用户最近邻和产生推荐。基于用户语义　相似性的协同过滤推荐通过引入语义知识，同时综　合用户评分数据来计算用户语义相似度，推荐流程　如图１所示。　融合机制领域本体　性，预测目标用户对未评分项目的喜好程度，从而　产生推荐。目前常用的协同过滤推荐算法主要分　为２类：基于用户的协同过滤推荐和基于项目的协　同过滤推荐…。　传统的基于用户的协同过滤推荐算法是以用　户一项目评分矩阵为基础来计算用户之间的相似陛，　用户评分数据的缺失使系统难以准确定位目标用户　的最近邻，从而导致推荐质量下降。近些年，一些研　究者开始尝试将语义知识应用到协同过滤推荐中，在　解决评分数据稀疏性问题上取得了显著的效果。文　卜　计算用广ｔ语义．｝＝ｌｌ似度　用户　趣模型Ｉ　Ｉ　｜ｔ算用户最近邻　献［２］提出了一种基于项目语义相似度的协同过滤推　荐算法，通过计算项目之间的语义相似性来预测用户　评分，并填充用户评分矩阵，再计算用户的相似性进　图１　基于用尸语义相似性的协同过滤推荐流程图　根据图１中描述的推荐流程，首先利用项目的　收集用户兴趣信息并构建　行推荐。文献［３］提出了一种基于本体用户模型的个　分类信息构建领域本体，用户兴趣模型由分类本体树中的叶　性化推荐算法，利用本体构建用户兴趣模型，并通过　用户兴趣模型，改进的相似度计算方法来计算用户相似度。文献［４］　子节点和相应的评分组成；然后，根据领域本体内　提出了一种领域知识驱动的协同过滤推荐算法，通过　部的语义关系计算项目之间的语义相似度，综合项　项目语义相似度计算用户之间的语义相似度，同时结　目语义相似度和用户评分数据来对余弦相似性方　并　合用户评分相似性和用户语义相似性计算用户最近　法进行语义扩展，以此来计算用户语义相似度，为目标用户产生最近邻居集；最后，根据用户最近　邻，有效地改善了推荐质量。　本文提出了一种基于用户语义相似性的协同　邻居集的评分产生Ｔｏｐ　Ｎ推荐。　过滤推荐算法。其核心在于利用领域本体中概念　之间的关系来描述项目之间的语义关系，同时利用　２　基于用户语义相似性的协同过滤推荐算法　语义扩展的余弦相似性方法来改进传统的用户相　２．１计算项目语义相似度　领域本体通常用来描述某个领域内的概念以　似性度量方法，并以此来计算用户语义相似性。该　算法能够很好地克服协同过滤中数据稀疏性导致　及概念之间的关系，领域本体中的上层概念是下层　收稿日期：２０１２一ｌＯ一０８　作者简介：李想（１９８９一），男，河南信阳人，南京航空航天大学硕士研究生，主要研究方向为信息系统集成。　・７０・　第１期　李想，等：基于用户语义相似性的协同过滤推荐算法　概念的泛化，下层概念是上层概念的具体化。项目　之间语义关系的表达可以借助领域本体来实现，图　２描述了电影领域的一个分类本体，领域本体树中　的叶子节点表示具体的电影项目，非叶子节点表示　泛化的电影分类概念。　图２　电影领域的分类本体　根据Ｇａｎｅｓａｎ在文献［５］中提出的思想来计算　项目之间的语义相似度。设分类本体树　中叶子　节点的集合为ＬＬｕ＝｛２ｌ，ｚ２，ｚ３，…，ｚ　｝，ＬＣＡ　（ｚ　，ｚ　）　表示叶节点Ｚ　和Ｚ　的最近公共祖先节点，ｄｅｐｔｈ（Ｚ）　表示从根节点到节点Ｚ的路径长度，叶节点ｆｌ和Ｚ　的语义相似度定义为：　把ｍｓ　ｍ（　）＝　２ｄｅｐ丽ｔｈ（　ＬＣＡ　ｕ（１　ｉ丽，ｌｊ））（１）　根据定义可知，ｉｔｅｍｓｉｍ（ｆ　，Ｚ　）∈［０，１］，当且　仅当Ｚ　＝Ｚｆ时，ｉｔｅｍｓｉｍ（Ｚ　，Ｚｆ）＝１。任意两个项目之　间的语义相似度可以根据公式（１）计算得到，且相　似度随着最近公共祖先节点深度的增加而增加。　２．２用户语义相似性度量方法　协同过滤算法的核心是计算用户之间的相似　性，从而发现目标用户的最近邻。传统的相似性度　量方法主要有３种：余弦相似性、相关相似性和修正　的余弦相似陛。传统的相似性度量方法过于依赖用　户评分数据，在用户评分数据极端稀疏或者用户之　间评分项目的交集较少的情况下，不能有效地度量　用户之间的相似性，进而影响推荐质量。本文根据　用户评分项目之间的语义相似性和用户对项目的评　分，重新定义向量点积的计算方法，并利用语义扩展　的余弦相似性方法来计算用户语义相似度。　设用户ａ和用户ｂ评分过的项目数量分别为ｍ　和／１，，用户ａ和用户ｂ的兴趣模型分别为ｌａ＝｛（Ｐ　，　ｓ（ｐ　））ｌ　１≤ｉ≤ｍ｝、厶＝｛（ｇ，，ｓ（ｑｆ））｝ｌｌ≤Ｊ≤　／１，｝。其中，Ｐ　和ｓ（ｐ　）分别为用户ａ评分过的项目及　其相应的评分值，ｑｊ和ｓ（ｑ　）分别为用户ｂ评分过　的项目及其相应的评分值。将用户兴趣模型映射到　向量空间上，同时考虑到用户评分尺度不同的问　题，则用户ａ和用户ｂ的兴趣评分向量Ｌ和　可以　分别表示为：　Ｌ＝．　（ｓ（ｐ　）一ｓ（ｐ））　（２）　，　（ｓ（　）一ｓ（ｇ））　（３）　』　式中：ｓ（ｐ）和ｓ（ｑ）分别表示用户ａ和用户ｂ对项目　的平均评分；　和Ｑ　分别表示项目Ｐ　和ｑｊ的单位　向量。根据传统的余弦相似性度量方法，当Ｐ　≠ｇ　时，单位向量Ｐｌ和Ｑ　之间是相互正交的，即　・　Ｑ　＝０，但领域本体中的项目之间本身存在着某种　程度上的语义关联，而不是真正意义上的正交关　系。因此，本文根据公式（１）中定义的项目之间的　语义相似度为单位向量的点积赋予一个合理的值，　即　・Ｑ，＝ｉｔｅｍｓｉｍ（ｐｉ，ｑｊ）。由此可以进一步推导　得到用户兴趣评分向量点积的计算方法：　・Ｉｂ＝乏．乏（ｓ（ｐ　）一ｓ（ｐ））・　（４）　（ｓ（ｑｊ）一ｓ（ｑ））ｉｔｅｍｓｉｍ（ｐ　，ｑｊ）　Ｊｒ。・Ｌ＝　（ｓ（ｐ　）一ｓ（ｐ））・　（５）　（ｓ（ｐ　）一ｓ（ｐ））ｉｔｅｍｓｉｍ（ｐ　，Ｐｊ）　同理可以计算Ｊ　・Ｊ　，当用户口和用户ｂ之间　没有共同的评分项目时，依然可以利用公式（４）来　计算得到一个非零数值。用户ａ和用户ｂ的语义　相似性可以利用经过语义扩展的余弦相似性方法　来计算：　ｒ　．ｒ　ｓｉｍ（Ｃｔ，ｂ）＝＿＝　＝、『ｌ　＝＿（６）　－ｌａ、　＝二　『ｌ　ｂ・Ｉｂ　２．３产生推荐　发现最近邻的目标就是为目标用户ａ产生一　个最近邻居集合Ｎ。＝｛０　，ｎ　，…，ａ　｝，０隹Ｎｏ，且　ｓｉｍ（０，０　）≥ｓｉｍ（０，０　＋Ｉ），１≤ｉ＜ｋ，贝０可以禾０用公　式（７）来计算用户ａ对未评分项目ｉ的预测评分　Ｐ。，．　然后选择预测评分值较高的若干项目推荐给　目标用户口。　∑ｓｉｍ（ａ，６）×（　一Ｒｂ）　Ｐｎ．ｉ　。＋　一　ｂ　ＥＮａ　式中：ｓｉｍ（０，ｂ）表示用户　与用户ｂ之间的语义相　似度；尺“表示用户ｂ对项目ｉ的评分；　。和　分别　表示用户。与用户ｂ对项目的平均评分。　３实验及分析　３．１数据集　本文采用ＭｏｖｉｅＬｅｎｓ站点提供的数据集对基　于用户语义相似性的协同过滤推荐算法进行测试，　并和传统的基于用户的协同过滤推荐算法进行实　验对比。ＭｏｖｉｅＬｅｎｓ数据集包含超过４３　０００个用　．７１．　２０１３年第４２卷　机械设计与制造工程　户对３　５００部电影的评分数据以及电影的分类信　息。本文根据电影的分类信息构建电影领域的分　类本体，从该数据集中随机选取５　０００条评分数据　作为实验数据集，其中包含１５９个用户和６１４部电　影，并将其分为训练集和测试集，训练集占８０％，　测试集占２０％。该实验数据集的稀疏等级为：　１一　‘　１５９　６１４　＝９４．８７８％×　３．２评价标准　本文采用平均绝对偏差ＭＡＥ（Ｍｅａｎ　Ａｂｓｏｌｕｔｅ　图３　几种协同过滤推荐算法比较　Ｅｒｒｏｒ）作为算法质量的评价标准，它通过计算预测　的用户评分和用户实际评分之间的偏差来衡量预　测的准确性，ＭＡＥ的值越小，算法推荐的质量越　高。设用户评分的预测值集合为｛Ｐ．，Ｐ：，…，Ｐ　｝，　疏性问题，本文提出了一种基于用户语义相似性的　协同过滤推荐算法。通过构建领域本体来描述项　目之间的语义关系，并计算项目语义相似度，根据　项目语义相似度和用户评分来对传统的余弦相似　性公式进行语义扩展，计算用户语义相似度并寻找　用户最近邻。通过实验证明，在用户评分数据极端　稀疏的情况下，该算法与传统的协同过滤推荐算法　相比显著地提高了推荐质量。　其对应的实际的用户评分值集合为｛ｑ。，ｑ　，…，　ｑ　｝，则ＭＡＥ的计算方法如下　Ｊ：　，ｖ　∑ｌ　Ｐ　—ｑ　Ｉ　朋　Ｅ＝　—　Ｎ　一　、（８）　　参考文献：　３．３实验结果及分析　为了检验基于用户语义相似性的协同过滤推　荐算法的有效性，将传统的基于用户的协同过滤推　荐算法与之进行比较，用户邻居数从５不断增加到　４０，间隔为５。其中，传统的基于用户的协同过滤　算法分别以相关相似性和余弦相似性来计算用户　相似度，实验结果如图３所示。　从图３中可以看出，与传统的基于相关相似性　ｉｌｌ　，综述¨　小型微　［２］肖敏熊前兴．基于项目语义相似度的协同过滤推荐算法　…．武汉理工大学学报，２００９，３１（３）：２１—３２．　［３］Ｊｉａｎｇｌｉｎｇ　Ｙｕａｎ，Ｈｕｉ　Ｚｈａｎｇ，ＪｉａｎｇＦｅｎｇ　Ｎｉ．Ａ　ｎｅｗ　ｏｎｔｏｌｏｇｙ一　ｂａｓｅｄ　ｕｓｅｒ　０ｄ。　ｇ　。　ｈｏｄ　ｆｏｒ　Ｐ。　ａｌｉ　。　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　。Ｃｃｃ　０１０；一３６７．。　：３６ｃ０　：Ｓ：ｃ。ｉｅ。ｎ。ｃｅ　ａ。ｎＥｄＥＥ　’　和余弦相似性的协同过滤算法相比，本文提出的算　法均有较小的ＭＡＥ值。由此可知，与传统的基于　用户的协同过滤推荐算法相比，基于用户语义相似　性的协同过滤推荐算法在用户评分数据极端稀疏　［４］Ｌｉ　ｇｈｎｇ　Ｚｈａｎｇ，Ｘｉａｏｊｉ。Ｚｈａｎｇ，Ｑｕ皿Ｃｈ．　，。ｔ　ａ１．Ｄｏｍｍ　一　Ｋｎｏｗｌｅｄｇｅ　ｄｒｉｖｅｎ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｍｅｔｈｏｄ　ａｎｄ　ｉｔｓ　ａｐｐｌｉｃａｔｉｏｎ　［ｃ］／／２０１１　ＦｏｕｎｈＩ　ｍａｔｉｏｎａｌ　Ｊ。ｉｍ　Ｃｅｎｆｅｒｅ一・Ｙｕｎｎａｌｌ：Ｃｏｍ一　ｐｕｔ　一。ａｎｄ　ｏ　“ｍｉ　ｉ。“（ｃＳｏ），捌　：　卜　・　的情况下可以有效地提高推荐质量。　４　结束语　为了克服传统协同过滤推荐中存在的数据稀　：　［６］邓爱林，　‘Ｊ］Ｅ．ｘＡｐｃｌｏｉＭｔｉ　：　ｍａｔｉ０ｎ　Ｓｖｓｔｅｍｓ．２００３．２１　ｆ】１．６４—９３　扬勇，施伯乐．　基于项目评分预测的协同过滤推　荐算法［Ｊ］．软件学报，２００３，１４（９）：１６２１—１６２８．　Ｃｏｌｌａｂｏｒａｔｉｖｅ　Ｆｉｌｔｅｒｉｎｇ　Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　Ａｌｇｏｒｉｔｈｍ　Ｂａｓｅｄ　ｏｎ　Ｕｓｅｒ　Ｓｅｍａｎｔｉｃ　Ｓｉｍｉｌａｒｉｔｙ　ＬＩ　Ｘｉａｎｇ，ＺＨＯＵ　Ｌｉａｎｇ　（Ｎａｎｊｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ａｅｒｏｎａｕｔｉｃｓ　ａｎｄ　Ａｓｔｒｏｎａｕｔｉｃｓ，Ｊｉａｎｇｓｕ　Ｎａｎｊｉｎｇ，２１００１６，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｉｎ　ｏｒｄｅｒ　ｔｏ　ｒｅｓｏｌｖｅ　ｔｈｅ　ｓｐａｒｓｉｔｙ　ｐｒｏｂｌｅｍ　ｏｆ　ｃｏｌｌａｂｏｒａｔｉｖｅ　ｆｌｔｅｒｉｎｇ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ，ａ　ｃｏｌｌａｂｏｒａｔｉｖｅ　ｆｉｈｅ—　ｉｃ　ｓｉｍｉｌａｒｉｔｙ　ｉｓ　ｐｒｅｓｅｎｔｅｄ．Ｉｎ　ｃｏｎｓｉｄｅｒａｔｉｏｎ　ｏｆ　ｔｈｅ　ｉｎｎｅｒ　ｓｅ－　ｒｉｎｇ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ａｌｇｏｒｉｔｈｍ　ｂａｓｅｄ　ｏｎ　ｕｓｅｒ　ｓｅｍａｎｔ．ｍａｎｔｉｃ　ｒｅｌａｔｉｏｎｓｈｉｐ　ａｍｏｎｇ　ｉｔｅｍｓ，ｔｈｅ　ａｌｇｏｒｉｔｈｍ　ｃａｌｃｕｌａｔｅｓ　ｔｈｅ　ｓｅｍａｎｔｉｃ　ｓｉｍｉｌａｒｉｔｙ　ａｍｏｎｇ　ｉｔｅｍｓ　ｂｙ　ｃｏｎｓｔｒｕｃｔｉｎｇ　ｄｏ—　ｍａｉｎ　ｏｎｔｏｌｏｇｙ，ａｎｄ　ｃｏｍｂｉｎｅｓ　ｔｈｅ　ｉｔｅｍ　ｓｅｍａｎｔｉｃ　ｓｉｍｉｌａｒｉｔｙ　ａｎｄ　ｕｓｅｒ　ｒａｔｉｎｇ　ｄａｔａ　ｔｏ　ｍｅａｓｕｒｅ　ｔｈｅ　ｕｓｅｒ　ｓｅｍａｎｔｉｃ　ｓｉｍｉ‘　ｌａｒｉｔｙ．Ｔｈｅ　ｅｘｐｅｒｉｍｅｎｔ　ｒｅｓｕｌｔ　ｓｈｏｗｓ　ｔｈａｔ　ｔｈｉｓ　ａｌｇｏｒｉｔｈｍ　ｃａｎ　ｅｆｆｅｃｔｉｖｅｌｙ　ｉｍｐｒｏｖｅ　ｔｈｅ　ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　ｑｕａｌｉｔｙ　ｉｎ　ｔｈｅ　ｃｏｎｄｉｔｉｏｎ　ｏｆ　ｅｘｔｒｅｍｅ　ｓｐａｒｓｉｔｙ　ｏｆ　ｕｓｅｒ　ｒａｔｉｎｇ　ｄａｔａ．　Ｋｅｙ　ｗｏｒｄｓ：Ｒｅｃｏｍｍｅｎｄａｔｉｏｎ　Ｓｙｓｔｅｍ；Ｃｏｌｌａｂｏｒａｔｉｖｅ　Ｆｉｌｔｅｒｉｎｇ；Ｓｐａｒｓｉｔｙ；Ｄｏｍａｉｎ　Ｏｎｔｏｌｏｇｙ；Ｓｅｍａｎｔｉｃ　Ｓｉｍｉｌａｒｉｔｙ　７２・　・

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文