缔冠期刊网

基于微博分类的用户兴趣识别

2022-06-09

  0引言

 

  微博,如Twitter和新浪微博,近几年取得迅速的发展。在微博平台上,用户可以通过发布一段不超过指定长度(通常为140个字)的短文本来表达观点,并分享信息。用户还可以通过关注感兴趣的微博账户,自动地接收到其所关注账户发布的信息。由于这种信息发布方式的便捷性,聚焦关注的自主性和广泛连接的社会性,微博这一社会媒体越发受到互联网用户的喜爱,成为用户获取最新信息、知晓社会动态的重要途径。

 

  与此同时,大量信息的涌现也导致了严重的信息过载问题。每位用户一天之内就可能接收到几百甚至几千条微博,根本不会有足够的时间去处理这些信息。另外,网络用户发表的微博涉及到各种各样的主题,从时事新闻直到生活琐事。显然,并不是所有信息都会贴合用户的兴趣。因此,提出有效的方法实现用户兴趣识别,协助用户更好地组织与过滤信息,则成为当前微博研究领域具有高度必要性的研究课题。

 

  本文试图通过对用户的微博进行主题分类来自动地识别用户的兴趣。具体地,讨论了如何根据分类体系以较小的代价获取大量的训练语料,以及如何利用微博的局部内容信息和微博平台全局信息提取特征进行分类。基于微博分类的结果,对用户的微博进行主题分类,从而识别出用户兴趣所在。实验表明,微博分类可以达到86%的F值,基于微博分类的方法可以准确地发现用户最感兴趣的主题,同时借助用户转发的微博更有利于发现用户兴趣。

 

  1相关工作

 

  本文研究的微博用户兴趣识别与微博的内容分析,微博用户的兴趣分析等有着较为紧密的联系。Zhao等[1]利用主题模型对Twitter与传统在线媒体内容进行比较后发现,在Twitter上,人们倾向于谈论与家庭、生活相关的话题。Hong等[2]研究了在微博环境中如何使用数据集训练主题模型。通过使用三种不同策略来训练模型:将单条微博当成一篇文档的MSG策略、将同一作者所有微博聚合起来的USER策略,将涉及相同Hashtag的微博聚合在一起的TERM策略。实验表明,MSG和TERM策略训练得到的模型具有更高的主题分布相似度,而USER策略在微博分类等任务中则具有更好的表现。Abel等人通过提取微博中的Hashtag、实体等与当前主流媒体如CNN、CBC、NewYorkTimes相链接,拓展丰富微博的语义[3]。

 

  Ramage等[4]利用Labeled-LDA对Twitter的内容和用户建模,并用于微博排序、用户推荐等任务,均表现了不错的性能。文献[5]进一步利用传统媒体中的新闻、微博中的Hashtag等,提出了基于Twitter的用户建模框架,并应用于推荐任务中。而且还通过为用户构造长期和特定时间段的模型,观察用户兴趣的变化。文献[6]中,提出了基于Twitter的用户模型应用TUMS。给定一个Twiiter用户,收集该用户发布的所有微博,丰富语义,返回用户建模结果,并对其可视化。Michelson和Genc等将微博内容与维基百科资源相结合,并进行研究。文献[7]将用户发布的微博中提及的实体经过消歧等处理后映射到维基百科的某个类别节点上,经过投票策略可得到用户最感兴趣的维基百科类别节点。文献[8]的目的在于对单条微博进行分类。具体做法是,同样提取微博中的实体,得到每个实体对应的维基百科类别节点。而节点是具有层次的,因而通过一个基于路径的算法得到每条微博的归属类别。

 

  此外,还有部分研究工作针对微博用户标签生成。Wu等基于TextRank抽取用户微博的关键词作为用户标签[9]。Lappas等[10]利用社会支持网络(SocialEndorsementNetworks)来挖掘Twitter用户的标签。Yamaguchi等[11]利用Twiter用户的分组名称来给用户添加标签。第4期宋巍,等:基于微博分类的用户兴趣识别智能计算机与应用第3卷

 

  2基于微博分类的用户建模方法

 

  2.1系统框架

 

  本文提出基于微博分类的用户建模方法,利用主题类别体系表示用户兴趣。在训练阶段,基于从典型主题微博获取的数据提取特征、训练分类模型;在预测阶段,对用户发布的微博进行分类,并输出排序靠前的类别,并以其表示用户兴趣。

 

  2.2分类体系

 

  首先需要构建分类类别体系。希望能够尽可能覆盖常见的微博文本类型,类别之间的重合度较低且能够较容易地寻找到相应类别的微博训练语料。

 

  微博文本中存在很多的噪声,而普通用户发布的微博通常涵盖众多类别。因此,从较为正式的官方微博,例如“新浪体育”,或者具有明显类别信息的微博用户,如“星座爱情”来抽取微博作为训练语料。

论文中心更多

期刊百科
期刊投稿 期刊知识 期刊审稿 核心期刊目录 录用通知 期刊版面费 投稿期刊推荐 学术问答
基础教育
小学语文 中学语文 小学数学 中学数学 小学英语 中学英语 物理教学 化学教学 生物教学 政治教学 历史教学 地理教学 科学教学 音乐教学 美术教学 体育教学 信息技术 班主任管理 校长管理 幼教 教育管理 微课教学 作文教学 德育教学 教学设计
医学论文
内科医学 外科医学 预防医学 妇科医学 检测医学 眼科医学 临床医学 药学论文 口腔医学 中西医 中医学 外科 护理 基础医学 急救医学 老年医学 医学实验 儿科医学 神经医学 兽医学 肿瘤医学 综合医学
职业教育
教育学原理 电影文学教育 学前教育 教育学管理 高等教育学 教育技术学 职业技术教育 成人教育学 特殊教育学 教育心理学 家庭教育 教育毕业 中专中职教育 教学设计 国学教育 学术研究 大学教育
药学卫生
社区门诊 医药学 医患关系 医院管理 疾病预防 保健医学 公共卫生 医学教育
文科论文
农业经济 工商管理毕业 会计毕业 行政管理 法律毕业 市场营销 经济毕业 汉语言文学 财务管理 物流管理 人力资源 旅游管理 国际贸易 物业管理 新闻学 企业管理 金融银行 社会科学 食品安全 办公档案 审计学 税务税收学 外国文学 哲学
理科论文
机电毕业 土木工程 计算机毕业 电气毕业 建筑毕业 电子商务 工程毕业 设计毕业 机械制造 汽车毕业 园林毕业 农学毕业 数控毕业 软件技术 水利工程 环境生态 畜牧渔业 化工毕业 科技创新 石油矿藏
论文格式
开题报告 论文题目 摘要关键词 目录提纲 论文致谢 参考文献 附录其他 论文答辩
职业论文
教育论文 经济论文 科技论文 财会论文 管理论文 医学论文 法学论文 文学论文 工业论文 建筑论文 农业论文 水利论文 计算机论文 社科论文 机械论文 生态环境 中西文化

先发表后付款 不成功可退款

权威机构认证 专注期刊10余年 1000余家杂志社长期合作

缔冠期刊网

首页 网站地图 返回顶部
Copyright © 1998- 缔冠期刊网