# 用思想链提示推理隐式情感

# 摘要

虽然情感分析系统试图根据输入文本中的关键观点表达来确定给定目标的情感极性,但在隐式情感分析 (ISA) 中,观点线索是以隐式和模糊的方式出现的。因此,检测隐式情感需要常识和多跳的推理能力来推断观点的潜在意图。受最近的思想链 (CoT) 思想的启发,在这项工作中,我们引入了三跳推理 (THOR) CoT 框架来模拟 ISA 的类人推理过程。我们设计了 THOR 的三步提示原则,一步一步地诱导出隐含的方面、观点,最后是情感极性。我们的 THOR + Flan-T5 (11B) 在有监督的情况下将最新的 SoTA (state-of-the-art) 推进了超过 6 % 的 F1。更引人注目的是,THOR+GPT3 (175B) 在零样本下将 SoTA 提升了 50 % 以上的 F1。我们的代码公开在 https://github.com/scofield7419/THOR-ISA

# 1. 引言

情感分析 (SA) 旨在根据输入文本检测对给定目标的情感极性。SA 可以分为显式 SA ( ESA ) 和隐式 SA ( ISA ),其中前者是当前的主流任务,其情感表达显式地出现在文本 ( Pontiki et al , 2014) 中。与 ESA 不同,ISA 更具有挑战性,因为 ISA 中的输入只包含事实描述,而没有直接给出 ( Russo et al , 2015) 的显式意见表达。例如,给定一个没有显著线索词的文本 'Try the tandoori salmon! ',几乎所有现有的情感分类器都对 'the tandoori salmon' 预测中性极性。人类可以很容易地准确地判断文本的情感状态,因为我们总能把握文本背后的真实意图或观点。因此,如果不真正理解情绪是如何被唤起的,传统的 SA 方法对 ISA 是无效的。

事实上,首先发现隐藏的意见情境对于实现准确的 ISA 是至关重要的。对于图 1 中的显性案例# 1,它不容易捕捉到整体的情感图片 (例如,"环境" 是方面,"伟大" 是意见),因此可以精确地推断对给定目标酒店的正极性。受这种细粒度情感精神 (薛峰、李晓萍,2018 ; 张杰等,2021 ; Xu et al , 2020) 的启发,我们考虑挖掘隐含的方面和观点状态。对于图 1 中的隐式情况 #2,如果一个模型可以首先推断关键的情感成分,例如,潜在的方面 "味道",潜在的意见 "好的和值得尝试",那么最终极性的推断可以大大缓解。为了达到这个目标,常识推理 (也就是说,推断什么是 'tandoori salmon') 和多跳推理 (即,先推断出方面,然后再推断出意见) 的能力是必不可少的。

幸运的是,最近预训练大规模语言模型 (LLMs) 的巨大成功提供了一个很有前途的解决方案。一方面,LLMs 被发现携带着非常丰富的世界知识,表现出非凡的常识理解能力 ( Paranjape et al , 2021 ; Liu et al , 2022)。另一方面,最新的思维链 ( CoT ) 思想揭示了 LMs 的多跳推理 ( Wei et al . , 2022 ; Zhou et al , 2022 ; 张杰等,2023) 的巨大潜力,其中带有一些提示的 LLM 可以出色地进行链式推理。在所有这些成功的基础上,本文实现了一个面向 ISA 的三跳推理 CoT 框架 ( THOR )。在 LLM 的基础上,我们设计了 3 个提示语进行 3 步推理,每个提示语分别推断 1 ) 给定目标的细粒度方面,2 ) 对该方面的潜在观点,3 ) 最终的极性。通过这种由易到难的增量推理,可以一步一步地引出整体情感图片的隐藏上下文,从而更容易地实现最终极性的预测,有效地缓解了任务预测的困难。

为了保证每个推理步骤的正确性,我们考虑了一种基于 Wang 等人 (2022b) 启发的 CoT 自一致性机制,即选择具有推断方面和观点的高投票一致性的候选答案 (在每一步中)。对于有监督的微调设置,我们进一步提出了一种推理修正方法。我们使用中间推理答案作为模型输入来预测最终的标签,其中来自黄金标签的监督将教导 LLM 产生更正确的推理。在有监督的微调设置下,我们的基于 Flan - T5 的 THOR 在 F1 得分上将当前最好的基线提高了 6 % 以上,并且在零样本设置下,这种差距被进一步放大。最引人注目的是,我们基于 GPT3 的 175B 参数的 THOR 将基线提高到了 F1 得分的 51.10 %。

综上所述,这项工作为隐式情感检测贡献了一种多跳推理解决方案,有助于实现对传统非推理方法的显著改进。据我们所知,这是将 CoT 思想成功扩展到情感分析领域的首次尝试。我们的方法简单而有效,可以广泛地应用到其他类似的 NLP 问题中,而无需付出太多的努力。

# 2. Three-Hop 推理框架

SA (无论是 ESA 还是 ISA) 的任务定义为:给定一个带有目标项 tXt \subset X 的句子 XX ,模型确定对 tt 的情感极性 yy ,即积极、中性或消极。我们使用带有提示的现成 LLM 来解决任务。对于标准的基于提示的方法,我们可以构造如下的提示模板作为 LLM 的输入:

给定句子X,对t的情感极性是什么?

LLM 应通过(y=argmaxp(yX,t))f(y = argmaxp( y | X , t) )f 返回答案。

# 2.1 思维链提示

现在考虑 CoT 式提示 (Wei et al . , 2022 ; Fu et al , 2022) 方法进行多步推理。在我们的 THOR ( cf. 图 2) 中,我们并不是直接询问 LLM 关于 yy 的最终结果,而是希望 LLM 在回答 yy 的最终结果之前推断潜在的方面和观点信息。这里我们定义了中间方面项 aa 和潜在意见表达 oo 。我们构造 three-hop 提示如下。

步骤 1。我们首先询问 LLM 在下面的模板中提到了 α\alpha 的哪些方面:

C1[给定的句子X],t 的哪个具体方面可能被提及?

C1C_1 是第一个 hop 的提示上下文。这个步骤可以表述为 A=argmaxp(aX,t)A=argmaxp( a | X , t) ,其中 AA 是输出文本,明确提到了方面 aa

步骤 2。现在基于 XXttaa ,我们要求 LLM 详细回答关于 aa 的潜在观点是什么:

C2[ C1 , A]。基于常识,对于t的上述方面,隐含的看法是什么,以及为什么?

C2C_2 是连接 C1C_1AA 的第二个 hop 提示语境,这一步可以写成 O=argmaxp(oX,t,a)O = argmaxp( o | X , t , a) ,其中 OO 是包含可能意见表达 oo 的答案文本。

步骤 3。以完整的情感骨架 (X , t , a 和 o) 为上下文,最后请 LLM 推理出极性 t 的最终答案:

C3[ C2 , O]。基于这种观点,什么是对t的情感极性?

C3C_3 为第三提示语境。记这一步为 ( y_\hat = argmaxp( y | X , t , a , o) ) 。

# 2. 通过自洽增强推理

我们进一步利用自洽机制 (Wang et al. , 2022b ; Li et al., 2022b) 来巩固推理的正确性。具体来说,对于 3 个推理步骤中的每一个步骤,我们设置 LLM 解码器来生成多个答案,每个答案都可能给出方面 aa 、观点 oo 和极性 yy 的不同预测。在每一步中,保留那些推断 aaooyy 的投票一致性高的答案。我们选择置信度最高的那个作为下一步的上下文。

# 2.3 有监督的推理修正

我们还可以在按需训练集可用的情况下对 THOR 进行微调,即有监督的微调设置。我们设计了一种推理修正方法。技术上,在每个步骤中,我们通过连接 1) 初始上下文,2) 本步骤的推理答案文本和 3) 最终问题来构建提示,并将其输入 LLM 来预测情感标签,而不是去进行下一步的推理。例如,在步骤 - 1 的最后,我们可以组装一个提示: [ C1 , A , "对t的情感极性是什么? "] 。在金标签的监督中,LLM 会被教导产生更多正确的中间推理,有助于最终的预测。

upload successful
表 1:有监督微调设置下的 F1 结果。最好的结果用粗体标出。表 1 中带 " 的模型得分复制自 Li et al. (2021)。

# 3. 实验

设置 我们在基准的 Sem Eval14 Laptop 和 Restaurant 数据集 (Pontiki et al , 2014) 上进行实验,其中所有的实例都按照 Li 等 ( 2021 ) 的方法分为显式情感和隐式情感。由于编码器风格的 BERT 不能生成支持 CoT 的文本,我们使用编码器 - 解码器风格的 FlanT52 作为我们的主干 LLM。我们还用 GPT3 (布朗等,2020) 和 ChatGPT ( Ouyang et al , 2022) 进行了测试。我们使用了 Flan - T5 的四个版本:250M ( base ),780M ( large ),3B ( xl ) 和 11B ( xxl ),以及 GPT3 的四个版本:350M,1.3B,6.7 B 和 175B。注意,GPT3 没有发布模型参数,我们通过 API 以提示的方式使用。这也意味着我们无法用 GPT3 进行有监督的微调。我们与目前表现最好的基线进行了比较,包括:BERT + SPC ( Devlin et al , 2019),BERT + ADA ( Rietzler et al , 2020),BERT + RGAT ( Wang et al , 2020),BERTAsp + CEPT ( Li et al , 2021),BERT + ISAIV ( Wang et al , 2022a) 和 BERTAsp + SCAPT ( Li et al , 2021)。我们同时考虑有监督的微调和零样本设置。我们采用 F1 作为评价指标。在小样本设置下,我们通过它们的源代码重新实现了基线。我们的实验在 4 块 NVIDIA A100 GPU 上进行。

upload successful
表 2:零样本学习设定的模型结果。我们重新实现了零样本性能的最先进的基线。" ZeroCoT ' 表示用零样本学习 CoT 提示 LLM,' 让我们一步一步思考 ' (Brown 等,2020)。

有监督的 Fine-Tuning 结果 比较结果见表 1。有趣的是,快速学习的 BERT 性能低于 SoTA 基线 BERTAsp+SCAPT,即使是双参数的 Flan-T5-base (250M) 也未能战胜 SoTA。BERTAsp + SCAPT 在大规模情感方面感知标注数据上进行预训练,在 SA 上表现出较强的能力。但在我们的 THORCoT 提示下,Flan-T5-base 明显优于 SoTA。进一步,当使用较大的 LLM,即 11B 参数时,我们可以发现基于香草提示的 FlanT5 超过了最佳基线。更值得注意的是,Flan-T5-11B 搭配 THOR 对 ISA 有显著提升,Restaurant 上提升 7.45%(=79.7372.28),Laptop 上提升 5.84%(=82.4377.59),平均提升 6.65%(7.45+5.84)/2 F1。此外,自我一致性和推理修正机制的消融也表明了它们在 THOR 方法中的重要性。

零样本推理的结果 在表 2 中,我们比较了零样本的表现。我们可以发现,与当前的 SoTA 基线相比,基于提示和基于 CoT 的方法的改进都显著增加。但总的来说,基于 CoT 的方法和我们的 THOR 在 ISA 上显示出更显著的改进。例如,我们的 Flan-T5-11B THOR 系统在两个数据集上比性能最好的基线 (BERTAsp+SCAPT) 的 F1 值平均提高了 30 % 以上。最引人注目的是,当 THOR 装备于超大型 LLM,即 GPT3-175B 时,我们可以观察到令人印象深刻的改善,接近 Flan-T5-11B THOR 在监督环境下的水平,如表 1 所示。具体而言,在 Restaurant 和 Laptop 上分别提升了 51.94%(=81.96~30.02 ) 和 50.27%(=76.04~25.77 ) 的 SoTA 结果,平均 51.10%(51.94+50.27)/2 个 F1 跳跃。

不同模型尺寸对 Llms 的影响 在表 1 和表 2 中,我们看到了使用 (非常) 大 LLM 的功效。在图 3 中,我们研究了不同 LLM 尺度的影响。我们看到,随着模型规模的增大,我们的多跳推理提示的功效呈指数级放大。这与已有的 CoT 提示方法 ( Wei et al . , 2022 ; Zhou et al , 2022 ; Fu et al , 2022) 的发现非常吻合,即 LM 越大,CoT 的改善效果越显著。因为当 LLM 足够大时,常识推理和多跳推理的能力得到了极大的发展和加强。

用 Thor 改进 Chatgpt ChatGPT 的最新诞生带来了 NLP 和 AI 社区的革命性进步。在这里,我们比较了我们的 THOR on GPT3 (175B) 和 ChatGPT 的改进。图 4 给出了 100 个测试实例的测试结果。我们可以看到,两种 LM 在 ESA 上都表现出了非常高的性能,而 THOR 的增强效果非常有限。但是,基于提示的 GPT3 和 ChatGPT 在 ISA 上仍然失败很多,而我们的 THOR 在 ISA 上有了很大的改进。

upload successful

图 3:Llm 标度的影响。图 4:Gpt3 和 Chatgpt 在随机选取的 50 个 Esa 和 50 个 ISA 实例上的比较。

upload successful
图 5:误差分析。

故障分析 在图 5 中,我们展示了使用 THOR 时失败案例的错误率,其中我们总结了三种错误类型。Flan-T5-11B LLM 在零样本下的错误率为 48.27 %,而在有监督微调下的错误率为 12.79 %。无监督的 GPT3 (175B) 与有监督的 T5 具有相似的低错误率,而有监督的 T5 由于无法推理而失败的次数较多。与 Supervised-T5 相比,无监督 GPT3 的大部分错误来自于有问题的数据标注。由于 Supervised-T5 对 "假" 标签的监督进行了微调,因此它实际上可以学习到虚假的相关性,但具有更高的测试精度。

# 4. 相关工作

情感分析长期以来一直是 NLP 社区 (Pang 和 Lee , 2007 ; Dong et al . , 2014 ; 施炳展等,2022) 的研究热点。虽然显式 SA 模型可以轻松地根据意见表达进行预测,但是由于隐式意见特征 ( Li et al , 2021 ; Wang et al , 2022a) 的存在,使得隐式 SA 变得更加棘手。和在现实场景中,ISA 往往更为普遍。尽管已经对 ISA ( Li et al , 2021 ; Wang et al , 2022a) 做出了努力,但现有的工作仍然可以局限于传统的推理范式。如前所述,ISA 应该通过推理来解决,即常识和多跳推理。因此,本工作遵循这种直觉,以多跳推理机制解决 ISA 为目标。

作为 SA 的一个关键分支,细粒度 SA 已经得到了很好的探索 (Wang et al. , 2017; Li et al, 201, 2022a)。细粒度情感分析的思想是将情感分析分解成若干个关键的情感要素,包括目标、方面、观点和情感极性,它们在细节 ( Peng et al. , 2020;Fei 等,2022) 上共同构成完整的情感图。这项工作吸取了同样的细粒度 SA 的精神。我们认为隐式情感的推理应该是一个渐进的过程,一步一步地推断出情感元素,最终以由易到难的方式理解情感极性。

语言模型预训练在增强下游应用 (Raffel et al, 2020) 的实用性方面受到了越来越多的研究关注。最近,大规模语言模型 (LLMs) 在人类智能方面表现出了巨大的潜力,例如 ChatGPT (Ouyang et al, 2022)。LLMs 已被广泛证明在常识理解 (Paranjape et al, 2021;Liu et al,2022) 和多跳推理 (Wei et al.,2022;Zhou et al, 2022) 上表现出非凡的能力。本文基于最新提出的思想链 ( CoT ) 思想,实现了基于 LMs 的隐式情感推理。CoT 提示是一种无梯度的技术,它诱导大的 LM 产生中间推理步骤,从而得出最终的答案。Wei 等人 ( 2022 ) 正式研究了语言模型中的 CoT 提示,他们诱导 LM 产生一系列连贯的中间推理步骤,这些步骤直接指向原始问题的最终答案。

# 5. 结论

在本文中,我们提出了一个 three-hop 推理提示框架来实现隐式情感分析的思维链推理过程。基于现有的 LLM,我们设计了三个提示进行三个步骤的推理,每个步骤分别推断细粒度方面、潜在观点和最终极性。在 ISA 数据集上,配备我们 THOR 的不同 LLM 在有监督和零样本设置上都表现出了比现有最好的基线更好的性能。我们表明,LLMs 越大,我们的 THOR 方法的改进越显著。

# 局限性

THOR 只有在集成到足够大的模型中时才有助于释放 LLMs 的全部能量,而在中等或较小尺寸的 LLMs 上,由于 LLMs 的涌现性,THOR 的提升会受到一定程度的限制。