诺特丹大学与亚利桑那州立大学联手:当AI遇上骗局,它能看穿骗子的

发布日期：2026-06-04 05:39

这项由美国圣母大学（University of Notre Dame）与亚利桑那州立大学（Arizona State University）联合开展的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.12243v1，有兴趣深入了解的读者可通过该编号在arXiv平台查阅完整论文。

骗局从来都不是一锤子买卖。当你接到一条"中奖通知"短信，那只是最古老的套路，粗糙而直接。真正让人防不胜防的，是那些慢慢渗透进你生活的骗局——一个在网上认识了三个月、每天早晚问候你的"异乡医生"，一个带你赚了第一笔钱就消失的"投资导师"，一个帮你"内推"工作却要你先交培训费的"HR"。这些骗局的核心武器不是谎言本身，而是时间和关系，是精心设计的一步一步。

研究团队意识到，现有的AI技术大多只会做一件事：判断一条消息是不是骗局。这就像只会在超市门口看一眼商品包装，却对收银台前发生的完整交易过程一无所知。真正的问题在于：当骗局正在进行中，AI能不能追踪骗子每一步的意图，预判他下一步要做什么？

为了回答这个问题，研究团队做了一件吃力但意义深远的事——他们从美国商业改善局（Better Business Bureau，简称BBB）的公开投诉平台上收集了近18万份真实骗局举报，经过层层筛选和整理，最终构建出一个叫做**PRESCAM**的数据集，包含11,573个结构化的多轮对话骗局案例，覆盖20种骗局类型。这是目前已知的第一个专门用来研究骗局如何随时间推进的基准测试集。

一、骗局为什么像一出剧本

以一个常见的投资骗局来理解骗局的运作逻辑，会容易很多。故事的第一幕，通常是一个陌生人在社交软件上主动联系你，可能是错发消息，可能是共同兴趣，总之接触方式看起来非常自然。接下来，关系会在一段时间内逐渐升温，骗子会聊天气、聊兴趣、聊人生，建立起信任感。某一天，他开始提到投资，让你先看着他赚，再让你小试牛刀，第一次真的能提现出来——这一步被称为"让猪先吃点甜头"。等到你加大投注，钱就再也出不来了。

研究团队把这种骗局的推进逻辑，用一个借鉴自网络安全领域的框架来描述，称之为"骗局杀伤链"（Scam Kill Chain）。这个名字来源于军事和网络安全中对攻击步骤的拆解方式，用在骗局分析上，指的是每一个骗局都会经历三个阶段：初始接触、持续互动和最终收割。

初始接触阶段，骗子需要找到一个理由让受害者开口说话，不管是"你好，你是李明吗？我走错群了"还是"看了你的求职简历，我们公司很感兴趣"，目的只有一个——建立联系。进入持续互动阶段之后，骗子开始动用各种心理工具。研究团队在论文中梳理了九种常见的心理操控手段，包括权威感（"我是医生/军官/金融专家"）、幽灵财富（"只要跟我投，月入十万"）、紧迫感（"限时名额，明天就关闭了"）、恐吓（"不配合就举报你"）、情感好感（"我觉得你和别人不一样"），以及社会认同（"我们群里的人都赚到了"）等。最终收割阶段，骗子会想办法让受害者汇钱、转账、提供账户信息，或者做出某种无法撤回的行动。

把骗局拆解成这三个阶段，再把每一轮对话里骗子用了哪种心理手段标注出来，整个骗局就从一团混乱的聊天记录变成了一张清晰的行动地图。PRESCAM数据集里的每一个案例，都按照这张地图完整标注好了。

二、18万条举报是怎么变成11573个故事的

从近18万份原始举报到最终的11,573个结构化案例，这个过程本身就是一段充满挑战的工程。BBB平台上的用户举报写法五花八门：有人只写了一句"有人叫我转账，我没转"，有人洋洋洒洒写了一篇小说，有人投诉的根本不是骗局而是劳动纠纷，还有人把电话骚扰和投资诈骗混在一起描述。这些原始材料就像一堆没有标注的食材，无法直接下锅。

研究团队首先用AI模型（GPT-4o Mini）筛选出其中包含"多轮互动描述"的举报——也就是说，举报里至少描述了骗子和受害者之间来回沟通了好几次的过程，而不是一次性的单向接触。这一步筛出了约25,402份候选记录。接着，他们进一步过滤掉互动轮次少于两轮的案例，剩下13,007份，再清洗掉格式有问题或信息缺失的条目，最终得到11,573个可以使用的案例。

结构化的工作则由另一个AI模型（MiniMax-2.5）来完成。这个模型负责把每一份举报拆解成标准格式：初始接触的简要描述、逐轮的骗子动作和受害者反应、每轮使用的心理操控手段标注，以及最终的收割阶段描述。为了保证质量，团队还加入了一个"自我反思"步骤——让模型检查自己的输出，对照一份包含八项标准的核查清单（比如心理手段是否标注准确、原文引用是否逐字照抄、时间顺序是否正确等）进行修订。

为了验证这套自动化流程的可靠性，研究团队还邀请了三位博士级研究者对随机抽取的200个案例进行人工评分。在满分8分的评分体系下，自我反思前平均得分7.10分，反思后提升到7.37分，提升幅度为0.27分。这个数字乍看不大，但考虑到基础分数已经很高，这其实意味着自动生成的结构已经相当可靠。

三、训练AI识别骗局的"危险信号"

有了数据集，研究团队接下来要测试各种AI模型能不能在对话进行到一半时就预判出骗局快到"收割"阶段了。这个任务叫做"实时终止预测"，可以想象成银行风控系统的角色：不是等到钱已经被骗走才报警，而是在转账发生之前就拦住你。

这个任务的设定是这样的：给模型看一段对话的前几轮，然后问它——下一轮骗子是不是要开始索要钱财或者做收割动作了？模型需要输出一个0到1之间的风险分数，分数越接近1，意味着模型越确信骗局快到终点了。

研究团队测试了三大类方法，从简单到复杂依次排开。第一类是经典机器学习方法，包括一个只看对话是第几轮的"位置基准"（就像只根据钟点猜测是不是快到吃饭时间，不看任何对话内容）、以及用文本关键词统计（TF-IDF）加逻辑回归的方法。第二类是专门训练过的神经网络模型，包括多层感知机、双向LSTM、层级编码器、Transformer，以及大家熟悉的BERT模型。第三类则是直接把对话扔给大型语言模型（LLM），让它们用常识和语言理解能力来判断，不做任何针对性训练，测试的模型包括GPT-4o Mini、DeepSeek-V3.2、Qwen3-235B和Grok-4.1-Fast。

结果出乎不少人的预料。在主要评估指标（AUC和AUPR）上，经过专门训练的BERT模型表现最好，AUC达到83.4%，AUPR达到65.6%。所有测试的大型语言模型（在零样本条件下，即不经过针对性训练直接使用）的表现，全部低于那个只看对话轮次的简单"位置基准"——后者的AUC是77.6%，AUPR是53.3%，而GPT-4o Mini的AUC只有67.4%，AUPR只有44.9%。换句话说，一个只会数数"对话到第几轮了"的笨方法，在识别骗局快到收割阶段这件事上，居然比顶级的ChatGPT类模型更可靠。

这个结论背后有一个值得细想的逻辑：大语言模型的强项是理解语言、生成文字、处理广泛的知识，但它们并没有通过大量带标注的骗局对话来学习"骗局在到达收割阶段之前，对话内容会出现什么规律性的变化"。而专门用骗局数据训练过的BERT，虽然整体语言能力远不如GPT-4，但它专门学会了识别这种特定的文本模式。

不过，有一个维度是个例外——在"预警时间"（Alert Time）这个指标上，Grok-4.1-Fast反而表现最好，达到2.03轮的提前量，意味着它愿意更早发出警报，比其他方法平均早了将近半轮对话。这说明大型语言模型在某些方面确实有独特的优势，只是它们整体的风险校准能力仍然不够稳定。

四、预测骗子的下一步棋

第二个任务更具挑战性：给模型看对话的前半部分，让它预测骗子在接下来的对话中会做什么、会用什么心理手段。这就像给你看了一局棋的前二十步，让你猜接下来棋手会怎么走——不只是猜一步，而是猜接下来好几步的完整序列。

由于这个任务需要自由生成内容，无法像分类任务一样直接判断对错，研究团队设计了一套精巧的评分方式。他们首先让模型生成预测的骗子行动序列，然后用GPT-4o Mini作为"裁判"来判断：模型预测的每一个行动，是否在真实记录中有对应的骗子行为？反过来，真实记录中的每一个骗子行动，是否被模型预测到了？两个方向的覆盖率就构成了"行动命中率"（AHit）和"精确率"（Precision）。类似的逻辑也用于评估心理手段的预测准确度，形成"心理技术命中率"（PTHit）。为了验证这个AI裁判的可靠性，研究团队专门做了人工复核——在100个抽样案例、199个具体行动上，AI裁判和人工审查的一致率达到92%，Cohen's κ值为0.774，属于"高度一致"的水平。

测试了GPT-5、GPT-4o Mini、Claude Sonnet 4.5、DeepSeek-V3.2和Llama 3.3-70B这五个大型语言模型，每个模型都在两种设置下进行测试：一种是"自由生成"（模型自己决定预测几个行动），另一种是"限定数量"（告诉模型真实续集有几个骗子行动，请生成同样数量的预测）。

在自由生成的设置下，Claude Sonnet 4.5的行动命中率最高，达到79.36%；DeepSeek-V3.2的心理技术命中率最高，达到60.43%。这两个数字都不算低，但它们之间的差距透露出一个有意思的现象：模型更容易猜中骗子"大概要做什么"（比如继续施压、要求转账），但较难准确还原骗子具体用了哪种心理手段来实现这个目的。

另一个反直觉的发现出现在限定数量的设置下。在这个设置里，模型的行动命中率和心理技术命中率普遍下降了，但BERTScore（语义相似度）和ROUGE-L（字面重叠度）却反而提高了。这说明，当告诉模型"接下来只剩两个骗子行动了"，模型生成的文字变得更像真实记录，但它猜的那几件事却不一定是真正发生的那几件事。换句话说，模型学会了把文字写得更像样子，但并没有真正理解骗局的推进逻辑。

在不同骗局类型之间，预测难度差异也很明显。就业类骗局和钓鱼欺诈的行动命中率相对较高，而债务催收骗局和技术支持骗局则明显更难预测。这可能是因为不同类型骗局的脚本差异很大，某些类型的骗局有更固定的套路，AI学起来更容易；而另一些类型则更加灵活多变。

五、这些发现对普通人意味着什么

把两个任务的结果放在一起看，有一个贯穿始终的共同弱点浮现出来：现有的AI模型，不管多强大，在理解骗局如何随时间推进这件事上，都还远远不够。它们可以识别出一条消息里有没有骗局的气息，但对于"这场骗局现在到了哪一步""接下来骗子会做什么"这类需要追踪时间线和理解操控逻辑的问题，回答依然捉襟见肘。

这件事的现实意义在于：如果要把AI技术用于真实的反骗局场景——比如银行的实时风险监控、聊天平台的自动预警、针对老年人的通话保护系统——单靠目前大语言模型的通用能力是不够的。需要的是专门用真实骗局对话数据训练过的模型，并且这些模型需要被设计成能够追踪整段对话的演变，而不只是对单条消息做出反应。

PRESCAM数据集的出现，正是为了填补这个空白。它提供了一个标准化的测试平台，让不同的研究者可以在同一套数据上比较各自的方法，推动这个领域朝着更实用的方向发展。

说到底，骗局的本质是一场精心策划的剧本演出，每个骗子都是经验丰富的导演。而我们希望AI成为的，是一个看过太多骗局剧本、能在第一幕结束前就看穿结局的老观众。目前的研究告诉我们，这个观众还在学习中——它能看出舞台上有危险的气息，但还没学会追踪故事的节奏、预判下一幕的剧情。

这项研究让人不得不思考一个更大的问题：我们训练AI的方式，是否太过注重让它理解单条信息的意思，而忽视了让它理解一段关系随时间演变的逻辑？骗局是人类操控心理的极端案例，如果AI能在这里学会追踪时间维度上的操控模式，或许也能在更多场景下帮助我们识别那些缓慢渗透的风险。如有兴趣深入研究，可通过论文编号arXiv:2605.12243查阅完整原文。

Q&A

Q1：PRESCAM数据集是怎么来的，数据真实可靠吗？

A：PRESCAM完全来自美国商业改善局（BBB）公开平台上的真实用户骗局举报，共筛选整理了18万份原始举报，最终保留11,573个包含多轮互动的结构化案例。每个案例由AI模型自动提取结构，再经过AI自我反思修订，最后由三位博士级研究者人工评分验证，平均得分在8分制下达到7.37分，可靠性较高。

Q2：为什么经过训练的小模型BERT比GPT这样的顶级大模型更擅长判断骗局进展？

A：这是因为两类模型的训练目标不同。BERT经过专门针对骗局对话数据的有监督训练，学会了识别骗局在接近"收割"阶段时对话内容的特定变化规律。而GPT等大型语言模型虽然语言能力更强，但在没有针对性训练的情况下，它们依赖通用语言理解来判断，缺乏对骗局时间进展模式的专项学习，导致在这个特定任务上表现反而不如更小的专用模型。

Q3：骗局杀伤链（Scam Kill Chain）中的心理操控手段有哪几种？

A：研究团队总结了九种骗子常用的心理操控手段，分别是：权威感（冒充专家或官员）、幽灵财富（承诺高额回报）、紧迫感与稀缺感（制造限时压力）、恐吓与威胁（引发恐惧反应）、建立好感与信任（虚构身份博取信任）、社会认同（称其他人都这样做）、情感好感（让受害者喜欢自己）、一致性（让受害者因为已经付出而继续投入）、以及唤起社会规范（利用人的助人本能或互惠心理）。

免责声明：本站内容来源于互联网公开信息，仅供学习和参考使用。如涉及版权问题，请联系我们，我们将在核实后第一时间删除相关内容。

标签：

诺特丹大学与亚利桑那州立大学联手:当AI遇上骗局,它能看穿骗子的

相关信息