> 自媒体 > (AI)人工智能 > 最强AI调解员弥合分歧仅1/3,KAIST测试为何戳破高分泡沫?
最强AI调解员弥合分歧仅1/3,KAIST测试为何戳破高分泡沫?
来源:AI智识局
2026-06-14 14:00:26
37
管理

假设你请了8位当前最强的AI来当调解员,让它们各自独立处理600场从真实公开案件中提取的复杂纠纷。结果发现,表现最好的也只能让分歧弥合三分之一左右——这就像在一个100分的满分测试里,及格线是60分,但全班第一名也只考了33分。

这就是KAIST团队在2026年6月发布的SoCRATES评估体系测试的核心发现。在它之前,行业里流传着一些听起来很美的数字,比如“AI调解解决率80%-90%”。

但KAIST团队在亲手搭建了一套完全不同的测试环境后,直接戳破了这个泡沫:那些高分来自场景简单、没有社会认知压力的“简单题”,当题目变成涉及多轮谈判、情绪激烈、跨文化差异的“复杂应用题”时,当前最强的通用大模型作为独立调解员,无一及格。

为什么之前的“高分”不作数?这套考试到底难在哪

要理解这个巨大的落差,得先看SoCRATES到底是怎么“出题”和“打分”的。

传统测试更像是让学生背完一本书就去考原题——场景单一,评分标准也粗糙。SoCRATES做了一件不同的事:它让AI自动从网络上搜集真实冲突案例,然后整理出40个涵盖法律、组织、商业等多领域的高难度场景。

每位AI调解员需要处理600场对话,这不是简单的角色扮演,而是一场对“社会认知能力”的全面压力测试。

更有意思的是它的打分逻辑。现实中的调解,分歧往往只会在某个具体议题被提出、某方态度发生转变的那一刻才发生变化,其余时间可能都是无意义的来回。

SoCRATES首创的“关键时刻评分机制”就模拟了这一点:它不像传统方法那样给每句话都打分,而是只在双方真正讨论某个议题、立场可能发生变化的“关键时刻”才去记录共识程度。

这就像是医生只在病人进行体力活动、情绪波动的关键节点去测血压,而不是每过一分钟就测一次,这样的数据才能真实反映问题。这个机制与人类专家打分的皮尔逊相关系数达到0.82,而传统方法的相关系数仅为0.372——指标翻了一倍多,意味着它的评估结论远比之前的方法可信。

参数大就厉害?这个逻辑在调解任务中彻底失灵

测试中最反常识的发现,是模型规模与调解能力并不直接挂钩。

Qwen3家族内部,拥有2350亿参数的“大个子”,共识增益确实几倍于只有300亿参数的“小个子”,这说明同一套底子下,更大参数有用。但跨家族比较时,情况就变了:一个1200亿参数的模型,在法律和组织内部冲突场景中,表现还不如一个只有260亿参数的模型——后者参数量仅为前者的五分之一。

为什么堆参数不管用?因为调解不是考记忆力或知识储备。它需要的是在冲突中理解对方的文化背景、感知情绪的强度、选择合适的介入时机。这些属于“社会认知”能力,不是靠增大模型体积就能自然获得的。

SoCRATES设置了五条社会认知测试轴线,其中“谈判策略倾向”这条轴的冲击最大:当双方都采用竞争型或顺从型策略时,部分模型的共识增益下滑幅度最高可达64.1%——相当于原本能弥合30分,现在只能弥合10分出头。

这就好比一个平时擅长温和谈判的顾问,突然被丢进双方都寸步不让的强硬对峙里,其应对能力会急剧下降。

另一个更隐蔽的短板是文化:所有被测模型在东亚文化背景下的调解表现,普遍弱于美国文化场景。说明这些模型对非西方沟通方式和价值偏好的理解仍然不到位。

干预的时机比频率更重要

测试中一个有趣的数据对比来自两个在“干预及时性”指标上排名第一、第二的模型。它们的共识增益却排在倒数。原因何在?数据显示,这两个模型会在大约三分之一的双方发言回合中插入调解语句,频率是最优模型的两倍。

它们“话太多”,而且总是在对话早期就抢着开口,表面上看似乎很及时,但那些频繁的早期插话并没有真正推动双方共识。

这背后有一条社科领域的常识:调解不是越多干预越好,而是要在对的时间,说对的话。表现最优的模型通常只在关键分歧出现或情绪激化的瞬间介入,节奏克制。这个差别意味着,未来的AI调解优化方向不应是“让模型更积极”,而是让它更懂得“什么时候闭嘴、什么时候说话”。

为什么现实中AI调解成功率超过90%,而SoCRATES说不到30%

这是一个很自然的问题:国内多地公布的AI调解成功率普遍达到70%-96.4%,为什么和SoCRATES的结论差距这么大?

答案在于分工。目前所有已落地的AI调解系统,均定位为人类调解员的辅助工具。AI负责的是语音转写、争议焦点识别、法律条文匹配、文书生成、情绪预警等事务性工作。

比如哈尔滨呼兰区的系统让基层调解员填报工作量减少了70%以上,而最终合意确认、协议签署、司法确认环节完全由人类调解员主导。这就像手术室里,AI是那个帮医生调取病历、准备器械的助手,但手里拿着手术刀的始终是人。

AI从未被允许独立完成一场完整的调解,所以那个96.4%的成功率,本质上是“人类主导 AI辅助”模式的成绩。

SoCRATES测试的是“AI独立调解”的能力上限——在没有人类兜底的情况下,AI面对复杂纠纷能走到哪一步。答案很明确:只能走三分之一的路。

所以这两个数字并不矛盾,它们反而精准地标出了当前AI技术的合理适用边界:AI是优秀的信息处理助手和效率工具,但在需要深度社会认知、情感共情和利益权衡的决策环节,人类仍是不可替代的主体。

总的来说,SoCRATES做了一件有价值的事:它没有全盘否定AI在调解领域的潜力,而是拿掉了之前那种“简单题高分”的虚火,逼着行业去正视那些真正困难的变量。

当通用大模型在那五条社会认知轴线上怎么也翻不过去的时候,未来的技术优化方向反而清晰了——不是继续盲目堆参数,而是必须去补齐文化理解、情绪感知、策略适配这些短板。在这些能力真正成熟之前,AI做调解员的路还很长,SoCRATES给出的这个结论,至少在目前是有效的。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
关于作者
你不懂的歌..(普通会员)
文章
2111
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体113446

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索