内容简介
“互联网+”医疗、“健康中国2030”等国家战略的先后出台,为网络医疗健康服务的快速发展提供了契机。与传统的以医生为中心的医疗健康服务模式相比,在线健康社区为用户提供了一个就健康医疗相关话题进行信息交流、经验分享、问答咨询及社会支持的开放式网络平台。近年来,虽然在线健康社区迅速发展,但依然面临着用户流动性大、信息利用率低、社区平台治理困难等亟需解决的问题。
本研究以机器学习、文本挖掘方法、社会网络分析等数据驱动分析方法为手段,探析在线健康社区中信息、用户和社区平台三个要素之间的潜在相互作用机制,构建数据驱动的在线健康社区系统分析框架。通过对在线健康社区中用户信息交互行为的多维视角挖掘,有助于网络健康信息综合治理体系的建立,并且可以应用于在线健康社区的治理与建设实践中,推动网络医疗健康服务和智慧医疗服务发展,优化网络健康信息生态环境,从而推动全民健康目标的实现,助力健康中国战略实施。
目录
第1章 绪论1
1.1研究背景1
1.2研究意义3
1.3研究思路4
1.4研究方案6
1.5研究方法7
1.6研究数据9
1.7研究内容13
第2章 在线健康社区分析框架15
2.1信息维度的在线健康社区分析16
2.2用户维度的在线健康社区分析34
2.3社区维度的在线健康社区分析59
2.4本章总结74
第3章 基于特征的角色识别及用户行为模式探测78
3.1在线健康社区用户分类研究78
3.2研究方法81
3.3用户分布88
3.4用户角色识别92
3.5用户角色识别及行为模式分析98
3.6本章总结109
第4章 基于信息交互的意见领袖识别及群组探测110
4.1在线健康社区信息交互行为分析及群组探测110
4.2本章研究方法115
4.3信息交互行为统计分析122
4.4信息交互网络分析128
4.5意见领袖识别及特征分析139
4.6用户群组分析152
4.7本章总结163
第5章 基于信息交互内容的主题识别及演化探测166
5.1基于用户生成内容的主题分析166
5.2本章研究方法177
5.3基于信息交互内容的主题及特征词分布184
5.4基于信息交互内容的主题演化分析199
5.5基于交互内容的用户贡献度分析207
5.6基于交互内容的用户行为模式分析214
5.7本章总结219
第6章 基于信息交互的社会情感支持识别及用户类型探测222
6.1在线社交平台社会及情感支持222
6.2本章研究方法229
6.3在线健康社区社会情感支持分布235
6.4基于用户类型的用户行为模式分析243
6.5本章总结254
第7章 基于用户角色和主题识别的用户行为探测256
7.1本章研究方法256
7.2用户行为模式分析265
7.3本章总结273
第8章 后记276
8.1在线健康社区分析框架构建276
8.2基于特征的角色识别及用户行为模式探测277
8.3基于信息交互的意见领袖识别及群组探测278
8.4基于信息交互内容的主题识别及演化探测278
8.5基于信息交互的社会情感支持识别及用户类型探测279
试读
第2章 在线健康社区分析框架
随着互联网在大众生活中的日益普及和以Web 2.0为基础的互联网社会化媒体的快速发展,人们获取健康信息的方式从传统面对面的医患交流,到单向被动地接受来自健康主题网站的信息,再到主动在新兴的社会化媒体平台上获取、分享传播健康信息。此外,得益于平等开放的互联网环境和极其丰富的互联网资源,对健康愈发重视的人们能够借助一个自由参与的信息交流平台来传递和分享各类疾病医疗信息和日常健康管理信息。皮尤研究中心的一份报告显示有80%的网络用户会在互联网上搜寻与健康主题相关的信息,其中34%的用户会浏览其他人发表在网上论坛和博客等媒体上的与健康和医疗相关的评价和个人经历,24%的用户会在线咨询某些药物和医疗诊断等信息。网络健康社区应运而生。在网络健康社区中,信息的传播依靠用户间的广泛交流和互动,人们对于病症的诊断、慢性疾病的日常管理等健康信息需求和因疾病产生的情感需求都将得到不同程度上的满足。尤其是对慢性疾病患者而言,在线健康社区中各类用户互助式的交流模式有助于其进行日常疾病控制。
在线健康社区可被视为一个复杂系统,包含信息、用户和社区三个要素,三者之间相互影响、相互依存。其中,信息是用户参与交互行为和社区运行情况的记录,反映了用户的需求、认知、情感、态度以及用户间的社会支持,而且各类健康信息的积累和聚合,支持着社区信息服务和知识发现;用户是在线健康社区的参与者、贡献者和管理者,包括各类健康信息消费者(例如一般公众、病患及其看护者、医生、护理人员、医疗健康服务机构等),用户产生、传播、获取、评价和使用健康信息;社区是用户线上活动的场所和用户间的信息交流空间,为用户行为活动、信息产生和传播提供基础设施、文化环境和制度机制。基于以上分析,本书将从信息、用户和社区三个维度构建在线健康社区研究的基本框架,并对相关研究的热点主题、研究现状、研究方法和发展动态进行系统梳理和详尽描述。
2.1信息维度的在线健康社区分析
2.1.1信息内容
信息是各类用户参与线上交互和平台运营情况的直观记录,既反映用户的需求、认知、情感、态度以及用户之间的社会支持,又是各类健康资源的积累与聚合,支持着在线健康社区的信息服务和知识发现。在线健康社区积累了海量的健康信息记录,研究者基于这些信息对医疗实体命名规范、健康社区主题检测识别等展开研究。
2.1.1.1研究内容
在线医疗健康社区有大量的问答、评论等记录,这些记录一方面包括了大量医疗知识,具备专业复杂性,同时也具备非结构化、数据体量较大、规范性交叉等在线社区文本的普遍特点。在信息内容层面展开的研究主要有2类: 一是对在线问诊/回答文本的命名规范、实体抽取等文本规范化抽取方面展开研究;二是基于现有信息,对社区记录表现出的情感、主题、话题等展开相关研究。
(1)在线健康社区实体命名规范研究。实体是文本的基本信息元素,是构成文本的基础。命名实体识别 (Named Entity Recognition, NER) 是自然语言处理的一项基本任务,主要是从一段文本中找出实体,并对实体出现的位置和类别进行标记。在线问诊文本中非规范化表述严重制约了在线问诊文本信息抽取的性能。作为结构化医疗文本的重要技术,医疗实体识别和事件抽取可以识别并抽取电子病历中的实体及事件,为进一步构建医疗知识图谱和支持医疗智能化决策打下了基础。杨杭州等结合中文一体化医学语言系统和网络拓展词典构建的医疗领域词典,并使用基于语义规则的方法提出一种基于隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)和条件随机场(Conditional Random Field,以下简称CRF)的混合模型识别在线医疗命名实体;苏娅等针对常见的5类疾病: 胃炎、肺癌、哮喘、高血压和糖尿病,采用机器学习模型条件随机场构建医疗实体识别模型;杨文明和王巧玲等则使用深度学习模型对在线问诊中产生的医疗文本进行命名实体识别的研究;邢布飞和颜志军在构建医学实体的基础上提出一种基于医学领域实体和LDA主题模型相结合的方法,来挖掘相似的医疗问答信息。知识图谱(Knowledge Graph)作为一种知识表示的方式,本质上是一种语义网络技术。在医疗方面,应用知识图谱的研究多集中在电子病历,最近也运用在医疗社区问答文本的研究。廖开际等在综合利用双向长短记忆神经网络(BiLSTM)、CRF、双向门控循环单元(BiGRU)等深度学习模型对社区文本的实体识别及关系抽取方法进行研究的基础上,最后利用Neo4j图形数据库构建了一个可视化的知识图谱;黄琼影和廖开际选取“寻医问药网”中的乳腺癌版块作为研究对象,综合利用双向长短记忆神经网络、CRF、双向门控循环单元和注意力机制(Attention)深度学习模型,成功构建了在线医疗社区乳腺癌知识图谱。
(2)在线健康社区主题识别研究。识别、归纳、分析健康社区中的