设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

发布时间: 来源: 量子位

定制化生成交互叙事游戏wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

心理测量在精神健康、自我了解、和个人发展方面都发挥着重要的作用。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

传统的心理测量范式以自我报告类型的问卷为主,常常通过参与者回忆自己的日常生活行为模式或情绪状态进行测量。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这样的测量方式虽然高效便捷,但可能引发参与者的抗拒心理,降低被测意愿。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着大语言模型(LLM)的发展,很多研究发现LLM能够展现出稳定的人格特质,模仿人类细微的情绪与认知模式,还能辅助各种各样的社会科学仿真实验,为教育心理学、社会心理学、文化心理学、临床心理学、心理咨询等诸多心理学研究领域,提供了新的研究思路。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近日,清华大学的研究团队基于大语言模型的多智能体系统,提出一种创新性的心理测量范式wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品

与传统自我报告问卷不同的是,该研究为每位参与者定制化生成一个可交互的叙事类型游戏,用户可自定义游戏的类型与主题wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着游戏剧情的发展,参与者需要以第一人称视角,选择不同的决策行为,决定剧情的走向。通过分析参与者在游戏关键情节中的选择,该研究可以测量其对应的心理特质。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△自我报告问卷的心理学测量范式(左)与交互叙事类游戏的心理测量范式(右)对比wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

该研究的贡献主要体现在三个方面:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 提出一种新的心理学测量范式,将传统问卷转化成基于游戏的交互测量;在保证心理测量信度和效度的基础上,提升参与者的沉浸感,改善被测体验。
  • 为了实现游戏化的测量,该研究提出一种基于大语言模型的多智能体交互框架,名为PsychoGAT (Psychological Game AgenTs),确保了心理学测试场景的泛化性,与不同游戏设置下测量的鲁棒性。
  • 通过自动化仿真评估与真人评估,在MBTI人格测试,PHQ-9抑郁测量,认知思维陷阱测试等任务上,该研究在心理测量学统计学指标和用户体验感指标上均展现出了显著的优越性。

接下来,我们一起来看看该研究的细节。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

PsychoGAT长啥样?

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT框架示意图wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

智能体交互流程:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

给定一个传统的心理学测试问卷,参与者自定义游戏类型和主题,然后由游戏设计师(Game Designer)智能体给出整体的游戏设计大纲。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然后,游戏管理员(Game Controller)智能体生成一个具体的游戏情节,在这个过程中评论员(Critic)智能体会对管理员生成内容进行多轮的审核与优化;优化完成后的游戏情节会被展现给参与者,参与者做出相应的选择后,管理员基于此选择推动剧情发展,按照这样的交互过程循环。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

各智能体职能详述:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 游戏设计师(Game Designer):利用CoT技术,生成第一人称叙事游戏的大纲,并保证这个故事线中所包含的情景,能够使得参与者表现出当前测量的心理特质。

与此同时,将标准的心理学自我报告问卷,根据当前游戏故事线进行改编,使两者的融合更为自然流畅。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 游戏管理员(Game Controller):将改编后的问卷,按照游戏的故事线,依次进行实例化,变成故事的情节节点,并提供可能的选项,供参与者进行选择。

与此同时,游戏管理员将参与者的选择返回给游戏环境,并基于参与者的选择,控制游戏的剧情走向。为了实现游戏情节的连贯性,管理员智能体采用“记忆更新”机制。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 评论员(Critic):旨在对游戏管理员的生成内容进行审核与优化。

主要针对以下三个问题:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1)优化一致性:随着游戏剧情推进,长文本问题会变得更加严重,使得“记忆更新”机制也无法完全保证情节一致性。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2)确保无偏性:参与者的选择会影响游戏情节的发展,但在参与者不做出选择之前,管理员不应该预设情节走向,即便之前的选择中参与者体现出了明显的倾向性。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

3)改正漏缺项:对管理员生成的游戏情节进行细节审核,检查其是否具备基础的游戏沉浸感。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实验及结果

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△三种常见心理学测量范式的对比:传统问卷,心理学家会谈,以及该研究提出的游戏化测评。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此处提到的均为基于AI的自动化测量,特别的,心理学家会谈,指目前与大语言模型结合的,由大语言模型扮演心理学家的会谈范式。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

实验阶段,研究人员选择了三个常见的心理学测量任务:MBTI人格测试中的外倾性,PHQ-9抑郁检测,以及CBT疗法中前期的认知扭曲检测。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,研究人员和成熟的传统心理学问卷进行对比,旨在检验该研究的心理测量信度和效度。进一步,和其他三种自动化测量方法进行对比,检验不同测量方法的用户体验。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究人员首先使用GPT-4模拟被测者,在不同的测量方法上记录测量过程与测量结果。这些测量记录被用于计算后续心理测量学信效度指标,以及用户体验感指标。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

评价指标有两个:信效度指标和用户体验感指标。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 信效度指标:心理测量学上,评价一个测量工具是否具有科学性,一般从信度(reliability)和效度(validity)两个维度进行验证。

在该研究中,信度的指标选择了两个统计学量来衡量内部一致性:Cronbach’s Alpha和Guttman’s Lambda 6;效度的指标采用皮尔森系数,分别衡量聚合效度(convergent validity)和区分效度 (discriminant validity)wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 用户体验感指标,人工评估的指标包括:

1)一致性(Coherence, CH):内容逻辑是否连贯;
2)交互性(Interactivity, IA):是否对用户的选择有恰当且无偏的回应;
3)趣味性(Interest, INT):测量过程是否有趣;
4)沉浸感(Immersion, IM):测量过程是否让参与者沉浸代入;
5)满意度(Satisfaction, ST):整体测量过程的满意度。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下面是实验结果。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先研究人员检验了该研究提出的PsychoGAT能够作为一个合格的心理学测量工具,结果如下表所示。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT的信效度检验结果(+通过,++良好,+++优秀)wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

进一步,研究人员对比了不同心理测量范式的用户体验感,该研究提出的游戏化测评在交互性、趣味性和沉浸感上都显著优于其他方法:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT的用户体验感结果,以及其他对比方法的相应结果wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了确保人工评估的有效性,研究人员计算了人工评估结果,在PsychoGAT各指标优于其他方法上的评估一致性:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT的用户体验感指标由于对比方法在人工评估上的一致性wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为了对PsychoGAT做进一步分析,研究人员首先检验了不同游戏场景下,游戏化测量的信效度具有很好鲁棒性:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT在不同游戏场景下测量信效度的鲁棒性wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

接着,探究了每一个智能体在PsychoGAT中发挥的作用:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT不同智能体的作用wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,为了直观呈现PsychoGAT的游戏生成内容,研究人员用词云可视化了人格外倾性测试和抑郁测试:wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△PsychoGAT在外倾性测量和抑郁测量的游戏场景生成可视化。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

外倾性测试的内容主要集中在社交场景,而抑郁测试倾向于个人思维和情绪。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更多研究细节,可参考原论文。wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

论文链接:https://arxiv.org/abs/2402.12326wh0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

民俗有言:桃花开,痴子忙。昨日,一大学生患“桃花癫”登上微博热搜,引发热议。该大学生认为周围女生都喜欢自己,并向全校的女生分别告白。不仅如此,由于精神的持续亢奋,该大学生还经常出现整晚不睡觉 3月20日对于我国抗衰老研究是个特殊的日子,经过近3年的不懈努力,八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大课题,抗衰老研究已成为世界生命科学领域关注 记者19日从西北大学获悉,该校地质学系、大陆动力学国家重点实验室刘鹏副教授与中国地质大学(北京)李国武教授团队申请的两种新矿物,近日经国际矿物学学会新矿物命名与分类专业委员会审查、投票,均 记者3月20日从中国科学院地质与地球物理研究所获悉,该所科研人员在东北黑土区开展了大范围的野外调查和样品采集工作,通过分析采集的黑土样品发现,黑土物质最初都是由风力搬运而来。相关研究成 记者从中国航天科技集团获悉,3月21日13时27分,长征二号丁运载火箭/远征三号上面级在酒泉卫星发射中心起飞,随后将云海二号02组卫星送入预定轨道,发射任务取得圆满成功。云海二号02组卫星由中国航 美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤治疗方法。相关研究发表于新一期《先进功能 。

本文链接:用大模型测试人格/抑郁/认知模式!通过游戏剧情发展测量心理特质|清华出品http://www.sushuapos.com/show-2-3876-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 用AI重构PC,荣耀笔记本AI PC技术正式发布

下一篇: 聚焦AWE2024|对话追觅郭人杰:品牌高端化是要给用户超价值诉求体验

热门资讯

  • 云南首批621座变电站实现人工智能巡检

    “远方巡视启动!”南方电网云南保山220千伏大寨变电站日前启动首次全套智能巡视,109个摄像头快速旋转,10套在线监测系统开始收集数据,变电站的无人机机

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 电驱气吸播种机亮相农机展,价格亲民助增产

    3月18日,在2024年黑龙江农机产品展示交易会上,一部可智能播种,又可助力增产的电驱气吸播种机引发众人关注。这台高端智能电驱气吸播种机的价格与机械

  • 量子计算机能更好解决组合优化问题

    旅行推销员问题是一个经典的数学问题,也是一个组合优化问题。德国柏林弗雷大学和亥姆霍兹柏林能源与材料研究中心(HZB)科学家开展的一项新研究证明,量

  • “量子龙卷风”吹开黑洞研究之门

    英国科学家首次创造了一个新颖的实验平台,即“量子龙卷风”。它能模拟超流体氦中的黑洞,使研究人员能更详细地观察类似黑洞的行为以及与周围环境的相

  • 以抗双链抗体为治疗靶点 我科研人员找到高效治疗红斑狼疮新路径

    记者3月20日从西安交通大学第二附属医院获悉,该院皮肤病院夏育民教授科研团队研究设计了一种靶向抗双链抗体的D型模拟肽(D-ALW多肽)纳米微粒,成功应用

  • 突发!Kimi,崩了!

    因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关

  • 量子互联网:小荷已露尖尖角

    近日,美国纽约州立大学石溪分校科学家菲格罗阿等人在一篇发表于《自然·量子信息》上的论文中称,他们通过把两个独立的光子存储在铷气里,首次在

  • 云海二号02组卫星发射成功

    记者从中国航天科技集团获悉,3月21日13时27分,长征二号丁运载火箭/远征三号上面级在酒泉卫星发射中心起飞,随后将云海二号02组卫星送入预定轨道,发射任

  • 多层人造皮肤18天内长成

    美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤

  • Kimi掀起国产大模型长文本竞赛

    作为月之暗面的创始人,杨植麟常把他的AGI梦想形容为“登月计划”,长文本就是这个伟大计划的第一步。但现在,随着Kimi的爆火出圈,赛道瞬间变得

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

推荐资讯

  • 日榜
  • 周榜
  • 月榜