科大讯飞AI大赛:基于带货视频评论的用户洞察挑战赛 Baseline


科大讯飞AI大赛:基于带货视频评论的用户洞察挑战赛 Baseline

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

赛题名称:基于带货视频评论的用户洞察挑战赛
赛题类型:自然语言处理
赛题任务:从非结构化评论中提取情感倾向,最终通过聚类总结形成结构化洞察
https ://challenge. xfyun.cn/topic/info?type=video-comment-insight&ch=dwsf259
在电商直播爆发式增长的数字化浪潮下,短视频平台积累了海量带货视频及用户互动数据。这些数据不仅是消费者对商品体验的直接反馈,更蕴含着驱动商业决策的深层价值。在此背景下,基于带货视频评论的用户洞察分析,已成为品牌优化选品策略、评估网红带货效能的关键突破口。
带货视频评论用户洞察的核心逻辑,在于对视频内容与评论数据的联合深度挖掘。通过智能识别视频中推广的核心商品,结合评论区用户的情感表达与观点聚合,企业能够精准捕捉消费者对商品的真实态度与需求痛点。这种分析方式不仅能揭示用户对商品功能、价格、服务的多维评价,还可通过情感倾向聚类,构建消费者偏好画像,为选品策略优化和网红合作评估提供数据支撑。
本挑战赛聚焦\“商品识别-情感分析-聚类洞察\“的完整链条:参赛者需先基于视频内容建立商品关联关系,进而从非结构化评论中提取情感倾向,最终通过聚类总结形成结构化洞察。
参赛者需基于提供的带货视频文本及评论文本数据,完成以下三阶段分析任务:
【商品识别】精准识别推广商品;
【情感分析】对评论文本进行多维度情感分析,涵盖维度见数据说明;
【评论聚类】按商品对归属指定维度的评论进行聚类,并提炼类簇总结词。
参赛选手可基于星火大模型Spark4. 0Ultra、星火文本向量化模型、其他开源大模型,或采用传统机器学习与深度学习方法完成任务,亦可通过微调开源模型进行洞察分析。
本次挑战赛为参赛选手提供包含85条脱敏后的带货视频数据及6477条评论文本数据,数据包括少量有人工标注结果的训练集(仅包含商品识别和情感分析的标注结果)以及未标注的测试集。所有数据均经过脱敏处理,确保信息安全,其格式说明如下:
1)带货视频内容文本信息的数据格式
序号
变量名称
变量格式
解释
1
video_id
string
视频id
2
video_desc
string
视频描述
3
video_tags
string
视频标签
4
product_name
string
推广商品名称
2)评论区文本信息的数据格式
序号
变量名称
变量格式
解释
1
video_id
string
视频id
2
comment_id
string
评论id
3
comment_text
string
评论文本
4
sentiment_category
int
关于商品的情感倾向分类
5
user_scenario
int
是否与用户场景有关,0表示否,1表示是
6
user_question
int
是否与用户疑问有关,0表示否,1表示是
7
user_suggestion
int
是否与用户建议有关,0表示否,1表示是
8
positive_cluster_theme
string
按正面倾向聚类的类簇主题词
9
negative_cluster_theme
string
按负面倾向聚类的类簇主题词
10
scenario_cluster_theme
string
按用户场景聚类的类簇主题词
11
question_cluster_theme
string
按用户疑问聚类的类簇主题词
12
suggestion_cluster_theme
string
按用户建议聚类的类簇主题词
本挑战赛依据参赛者提交的结果文件,采用不同评估方法对各阶段任务进行评分。最终得分由三部分相加,总分300分。具体评估标准如下:
商品识别(100分)
结果采用精确匹配评估,每个正确识别的商品得1分,错误识别的商品得0分。
情感分析(100分)
结果评估采用加权平均F1-score,衡量分类模型的整体性能。
其中F1ᵢ为维度i的分析结果的加权F1-score,N为情感类别总数。
评论聚类(100分)
结果评估采用轮廓系数(仅计算商品识别和情感分析均正确的评论聚类结果),衡量聚类结果的紧密性和分离度。

核心思路是分阶段处理各个任务,并利用TF-IDF/BGE向量化和线性分类器/KMeans聚类来完成商品识别、情感分析和评论聚类。
计算资源需求低:相较于大型深度学习模型,TF-IDF和LinearSVC/KMeans对计算资源的要求非常低。这意味着它可以在普通的个人电脑上快速运行,无需高性能GPU,也符合比赛中可能存在的资源限制(尤其是在不使用额外付费资源的情况下)。
TF-IDF的局限性:TF-IDF仅关注词语的频率和文档分布,无法捕捉词语的上下文信息、语义相似性或多义词。例如,“苹果”在“买苹果手机”和“吃苹果”中含义不同,TF-IDF无法区分。
K-Means的局限性:K-Means是一种基于距离的聚类算法,它假设簇是凸形的且大小相近。它对初始质心敏感,且无法很好地处理不规则形状的簇。
sklearn. feature_extraction.text. TfidfVectorizer:
将原始文本数据转换为TF-IDF向量。
它的fit_transform()方法用于学习词汇表并转换训练数据。
transform()方法用于转换新的(测试)数据。
sklearn. svm.LinearSVC:
用于文本分类任务。它是一个线性分类器,在处理高维稀疏数据(如TF-IDF向量)时表现良好。
fit()方法用于训练模型。
predict()方法用于进行预测。
sklearn. cluster.KMeans:
用于文本聚类任务。
fit()方法用于执行聚类。
predict()方法用于将新的样本分配到最近的聚类。
cluster_centers_属性:存储每个聚类的中心点,其维度与特征向量维度相同,可用于分析聚类特征。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录