本文研究了加密货币相关讨论中的预测性陈述、希望言论和后悔检测行为,旨在通过少量学习和大语言模型(如GPT-4o)分析投资者的情绪动态和预测行为。该问题的研究难点包括:数据量有限、资源可用性不足、需要准确分类预测性陈述、希望和后悔情绪的表达和分析。
1 概述
1.1 预测性陈述 (Predictive Statement)
预测性陈述是指对投资或市场未来表现或趋势的预测。根据预测内容,可以将预测性陈述分为以下四类:
- 增量预测 (Incremental): 预测未来事件或结果将有所改善或增长,例如“市场占有率将在下一季度稳步增长”。
- 减量预测 (Decremental): 预测未来事件或结果将有所下降或恶化,例如“预计下个财季销售额将下降”。
- 中性预测 (Neutral): 预测未来事件或结果将保持稳定,没有显著变化,例如“公司预计未来一个季度的收入将保持稳定”。
- 非预测性文本 (Non-Predictive): 不包含对未来事件或结果进行预测的内容,例如“区块链技术正在改变全球各个行业”。
1.2 希望检测 (Hope Detection)
希望检测旨在识别文本中表达希望情感的内容。根据希望的性质,可以将希望分为以下四类:
- 广义希望 (Generalized Hope): 对加密货币领域整体持有积极乐观的态度,例如“对加密货币的未来充满期待!”
- 非希望 (Not Hope): 不表达任何希望或期待的情感,例如“我不认为这种加密货币会增值”。
- 现实希望 (Realistic Hope): 对未来事件或结果持有合理的期望,例如“随着区块链技术的发展,这种加密货币有望实现增长”。
- 非现实希望 (Unrealistic Hope): 对未来事件或结果持有不切实际的期望,例如“我坚信这种加密货币会让我一夜之间成为百万富翁”。
1.3 遗憾检测 (Regret Detection)
遗憾检测旨在识别文本中表达遗憾情感的内容。根据遗憾的原因,可以将遗憾分为以下三类:
- 行动遗憾 (Regret by Action): 由于采取了某种行动而感到后悔,例如“我后悔购买了这种加密货币,它已经贬值了很多”。
- 不行动遗憾 (Regret by Inaction): 由于没有采取某种行动而感到后悔,例如“我应该早点购买这种加密货币,现在价格已经涨得很高了”。
- 无遗憾 (No Regret): 不表达任何遗憾的情感,例如“我很高兴我没有投资这种加密货币,它正在崩盘”。
2 方法
2.1 数据收集
从两个研究论文中收集了来自 X 平台的数据,时间跨度为 2021 年 9 月至 2023 年 3 月。从 115,899 条推文中随机选择了 5,000 条评论,并从中选择了每种加密货币 1,000 条推文。
2.2 数据评估
使用 Cohen’s Kappa 系数评估 GPT-4o 模型与人工标注之间的可靠性。对 1,000 条评论进行人工标注,并与 GPT-4o 模型的结果进行比较,结果显示 Kappa 系数分别为:希望检测 0.4393%,遗憾检测 0.5796%,预测性陈述检测 0.7173%。
2.3 数据预处理
- URL 移除: 使用正则表达式删除数据集中的 URL。
- 文本清洗: 删除特殊字符和长度小于等于 2 的单词。
- 其他处理: 包括去除多余字符、分词和文本规范化。
2.4 模型训练和执行
- 使用 GPT-4o 模型进行少样本学习,使用标注的示例进行训练。
- 对于每条评论,将包含评论和示例标签的结构化提示输入模型。
- 模型根据其理解对评论的情感和预测性质进行分类,并将分类标签存储在数据集中。
2.5 分类任务
- 预测性陈述: 将评论分类为增量预测、减量预测、中性预测或非预测性。
- 希望话语检测: 将评论分类为广义希望、非希望、现实希望或非现实希望。
- 遗憾检测: 将评论分类为行动遗憾、不行动遗憾或无遗憾。
2.6 方法的优势
- 少样本学习: GPT-4o 模型的少样本学习能力可以有效地进行文本分类,无需大量标注数据。
- 多任务学习: 同时进行预测性陈述、希望话语检测和遗憾检测,可以更全面地了解加密货币投资者 sentiment。
- 高可靠性: 与人工标注结果相比,GPT-4o 模型的分类结果具有较高的可靠性。
2.7 方法的局限性
- 数据量有限: 数据集规模较小,可能限制了模型的泛化能力。
- 模型复杂度: GPT-4o 模型计算资源消耗较大,成本较高。
3 结果
3.1 预测性陈述
每种加密货币的评论中都存在大量的预测性陈述,但增量预测和减量预测的比例有所不同。
- Matic 的增量预测比例最高,表明用户对其未来表现持更乐观的态度。
- Cardano 的预测比例最低,表明用户对其投资热情相对较低。
- Binance 的减量预测比例最高,表明用户对其未来表现持更悲观的态度。
3.2 希望检测
用户对不同加密货币的希望表达存在差异。
- Fantom 的“非希望”评论比例最高,表明用户对其持怀疑或消极的态度。
- Matic 的“非现实希望”评论比例最高,表明用户对其持有过度乐观或不切实际的期望。
- Cardano 的“广义希望”评论比例最高,表明用户对其未来投资前景持更乐观的态度。
3.3 遗憾检测
不同加密货币的遗憾表达也存在差异。
- Fantom 和 Binance 的“行动遗憾”和“不行动遗憾”评论比例最低,表明用户对其持更满意或自信的态度。
- Ripple 的“行动遗憾”评论比例最高,表明用户对其过去投资决策持有更多的遗憾。
- Matic 的“不行动遗憾”评论比例相对较高,表明用户对其错过投资机会持有更多的遗憾。