科大讯飞AI大赛：基于带货视频评论的用户洞察挑战赛 Baseline

发布日期: 2025-07-07

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

赛题名称：基于带货视频评论的用户洞察挑战赛
赛题类型：自然语言处理
赛题任务：从非结构化评论中提取情感倾向，最终通过聚类总结形成结构化洞察
https ://challenge. xfyun.cn/topic/info?type=video-comment-insight&ch=dwsf259
在电商直播爆发式增长的数字化浪潮下，短视频平台积累了海量带货视频及用户互动数据。这些数据不仅是消费者对商品体验的直接反馈，更蕴含着驱动商业决策的深层价值。在此背景下，基于带货视频评论的用户洞察分析，已成为品牌优化选品策略、评估网红带货效能的关键突破口。
带货视频评论用户洞察的核心逻辑，在于对视频内容与评论数据的联合深度挖掘。通过智能识别视频中推广的核心商品，结合评论区用户的情感表达与观点聚合，企业能够精准捕捉消费者对商品的真实态度与需求痛点。这种分析方式不仅能揭示用户对商品功能、价格、服务的多维评价，还可通过情感倾向聚类，构建消费者偏好画像，为选品策略优化和网红合作评估提供数据支撑。
本挑战赛聚焦\“商品识别-情感分析-聚类洞察\“的完整链条：参赛者需先基于视频内容建立商品关联关系，进而从非结构化评论中提取情感倾向，最终通过聚类总结形成结构化洞察。
参赛者需基于提供的带货视频文本及评论文本数据，完成以下三阶段分析任务：
【商品识别】精准识别推广商品；
【情感分析】对评论文本进行多维度情感分析，涵盖维度见数据说明；
【评论聚类】按商品对归属指定维度的评论进行聚类，并提炼类簇总结词。
参赛选手可基于星火大模型Spark4. 0Ultra、星火文本向量化模型、其他开源大模型，或采用传统机器学习与深度学习方法完成任务，亦可通过微调开源模型进行洞察分析。
本次挑战赛为参赛选手提供包含85条脱敏后的带货视频数据及6477条评论文本数据，数据包括少量有人工标注结果的训练集（仅包含商品识别和情感分析的标注结果）以及未标注的测试集。所有数据均经过脱敏处理，确保信息安全，其格式说明如下：
1）带货视频内容文本信息的数据格式
序号
变量名称
变量格式
解释
1
video_id
string
视频id
2
video_desc
string
视频描述
3
video_tags
string
视频标签
4
product_name
string
推广商品名称
2）评论区文本信息的数据格式
序号
变量名称
变量格式
解释
1
video_id
string
视频id
2
comment_id
string
评论id
3
comment_text
string
评论文本
4
sentiment_category
int
关于商品的情感倾向分类
5
user_scenario
int
是否与用户场景有关，0表示否，1表示是
6
user_question
int
是否与用户疑问有关，0表示否，1表示是
7
user_suggestion
int
是否与用户建议有关，0表示否，1表示是
8
positive_cluster_theme
string
按正面倾向聚类的类簇主题词
9
negative_cluster_theme
string
按负面倾向聚类的类簇主题词
10
scenario_cluster_theme
string
按用户场景聚类的类簇主题词
11
question_cluster_theme
string
按用户疑问聚类的类簇主题词
12
suggestion_cluster_theme
string
按用户建议聚类的类簇主题词
本挑战赛依据参赛者提交的结果文件，采用不同评估方法对各阶段任务进行评分。最终得分由三部分相加，总分300分。具体评估标准如下：
商品识别（100分）
结果采用精确匹配评估，每个正确识别的商品得1分，错误识别的商品得0分。
情感分析（100分）
结果评估采用加权平均F1-score，衡量分类模型的整体性能。
其中F1ᵢ为维度i的分析结果的加权F1-score，N为情感类别总数。
评论聚类（100分）
结果评估采用轮廓系数（仅计算商品识别和情感分析均正确的评论聚类结果），衡量聚类结果的紧密性和分离度。

核心思路是分阶段处理各个任务，并利用TF-IDF/BGE向量化和线性分类器/KMeans聚类来完成商品识别、情感分析和评论聚类。
计算资源需求低：相较于大型深度学习模型，TF-IDF和LinearSVC/KMeans对计算资源的要求非常低。这意味着它可以在普通的个人电脑上快速运行，无需高性能GPU，也符合比赛中可能存在的资源限制（尤其是在不使用额外付费资源的情况下）。
TF-IDF的局限性：TF-IDF仅关注词语的频率和文档分布，无法捕捉词语的上下文信息、语义相似性或多义词。例如，“苹果”在“买苹果手机”和“吃苹果”中含义不同，TF-IDF无法区分。
K-Means的局限性：K-Means是一种基于距离的聚类算法，它假设簇是凸形的且大小相近。它对初始质心敏感，且无法很好地处理不规则形状的簇。
sklearn. feature_extraction.text. TfidfVectorizer:
将原始文本数据转换为TF-IDF向量。
它的fit_transform()方法用于学习词汇表并转换训练数据。
transform()方法用于转换新的（测试）数据。
sklearn. svm.LinearSVC:
用于文本分类任务。它是一个线性分类器，在处理高维稀疏数据（如TF-IDF向量）时表现良好。
fit()方法用于训练模型。
predict()方法用于进行预测。
sklearn. cluster.KMeans:
用于文本聚类任务。
fit()方法用于执行聚类。
predict()方法用于将新的样本分配到最近的聚类。
cluster_centers_属性：存储每个聚类的中心点，其维度与特征向量维度相同，可用于分析聚类特征。
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~