LIC·2025语言与智能技术竞赛重磅开启,13.5万奖金池等你挑战!


LIC·2025语言与智能技术竞赛重磅开启,13.5万奖金池等你挑战!

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

如果你——
在GitHubIssue里和海外开发者吵过RLHF参数
相信“再给我10万tokens就能突破SOTA”
渴望看到自己的微调代码被上千次fork
想在“人民日报健康客户端”上看到署名:“本智能导诊服务由你的应用强力驱动”
想让你构建的思维链(CoT)数据集成为提升大模型推理能力的教科书级案例
想坐在影院看字幕滚动:“TVB经典剧作原始脚本由某某AIGC工具支持”
欢迎组队!
一起迎接来自真实场景的技术挑战!
在这里,
你的代码可能用于权威医疗知识库构建,
你的代码可能用于前沿科研评测体系建设,
你的创意可能登上TVB的全球舞台📺,
你的Agent能为千万家庭答疑解惑🧑⚕️,
你的成果将助力AI基础能力的突破💪!
我们欢迎喜欢挑战产业级技术命题的算法工程师、追求代码落地真实场景的研究团队,用代码证明实力,三大顶级赛道等你挑战!
由中国计算机学会(CCF)、中国中文信息学会(CIPS)联合主办,百度公司承办的中文NLP顶级赛事——LIC·2025语言与智能技术竞赛正式启动!
作为中文自然语言处理(NLP)领域内最权威、最热门的赛事之一,本届大赛围绕文心4. 5系列开源模型,联合人民日报健康客户端、智源研究院、TVB三个行业引领者,开放高价值真实场景数据集,共同探索大模型的无限可能,推动AI技术在关键领域的深度应用。我们设立了13. 5万的总奖金池,并为一等奖优胜者提供官方权威认证及顶尖行业论坛的宝贵展示机会,优秀选手有机会获得直通开发者生态大会的门票。
赛程赛制
赛程时间
比赛将于6月30日至8月4日进行,参赛团队需在7月14日前提交技术方案,通过审核的队伍将发放全量数据集,供参加赛事使用,获一等奖的队伍将受邀参加在乌鲁木齐举办的第十届语言与智能高峰论坛及线下颁奖典礼。
赛题总览
本届大赛设置三大主题赛道,每个赛道均围绕特定行业场景设计,技术领域各有侧重。所有赛道均需基于文心4. 5系列开源模型进行开发。
赛题设置
PART01
赛道一:智慧医疗领域(人民日报健康客户端)
人民日报健康客户端作为国内权威的健康服务平台,致力于探索智能技术与健康媒体的深度融合。本赛道旨在利用大模型技术,处理海量、权威的医疗音视频语料,构建高质量的医疗知识体系,并最终打造出能解决实际健康问题的智能应用,以数据要素驱动健康服务的智能化水平。
本赛道为全栈式挑战,参赛团队需贯通数据构建与应用开发的全流程,数据构建与应用开发可有侧重:
数据构建:基于“人民名医”长视频、“大夫说”短视频、疾病库等权威医疗内容,进行语义理解、信息抽取和知识结构化,产出高质量的医疗问答(QA)数据集。
应用开发:利用构建的数据集,对文心大模型进行微调或搭建RAG知识库,开发一个可交互的智慧医疗Agent,解决如智能导诊、用药咨询等真实场景问题。
👉参与报名:https ://aistudio. baidu.com/competition/detail/1345/0/introduction
PART02
赛道二:前沿科研领域(智源研究院)
智源研究院作为顶尖AI研究机构,聚焦于提升大模型在复杂推理任务上的能力。思维链(CoT)技术是激发大模型潜力的关键。本赛道旨在通过对公开数据集(OpenSeek-Synthetic-Reasoning-Data-Examples)进行CoT改造和模型微调,探索增强大模型逻辑推理能力的前沿方法,为科研领域贡献更强大的AI工具。
本赛道侧重对数据集进行CoT改造和模型微调:
数据预处理:利用文心4. 5系列开源模型的生成与理解能力,对官方指定的Openseek公开数据集(以数学、代码类为主)进行思维链(CoT)改造,生成包含完整、清晰逻辑推理步骤的结构化增强数据集。
模型训练:使用产出的增强数据集,对指定的文心4. 5系列开源模型(28B及以下)进行微调训练,产出在数学、代码等任务上性能更优的衍生模型。
百度与智源研究院将联合制定专业评测方案,从数据生成质量和模型优化效果两个维度对成果进行综合评估。
👉参与报名:https ://aistudio. baidu.com/competition/detail/1339/0/introduction
PART03
赛道三:传媒领域AIGC创新挑战(TVB)
TVB作为全球最大的华语电视台之一,拥有海量的经典粤语影视资源。本赛道旨在联合百度的AI技术,激活这些珍贵的语料数据,打造粤语AI应用的标杆典范,探索AIGC在传媒领域的创新应用。
本赛道侧重对多模数据集进行CoT改造和模型微调:
方向一(垂域模型专精):粤语语言大模型构建,基于TVB提供的粤语视频及剧本语料,构建高质量的粤语指令微调数据集,并对文心4. 5系列开源模型(28B及以下)进行微调,构建理解与生成能力俱佳的粤语大语言模型,提升模型在粤语语境下的泛化能力和交互效果。
方向二(创意应用开发):面向粤语视频内容的智能化生产场景,开发一套AI驱动的短视频生成工具,实现从长视频(横屏)到短视频(竖屏)的自动化生产,可包括长视频智能总结、智能剪辑、AI生成粤语解说文案、AI合成粤语配音等功能。
为鼓励挑战复杂任务,更复杂的技术方向,在评审时将获得更高的难度系数权重。
👉参与报名:https ://aistudio. baidu.com/competition/detail/1343/0/introduction
激励设置
奖项设置
三大赛道独立排名与评奖,每个赛道的奖项设置如下:
差旅补助
每支一等奖队伍将额外获得5000元差旅补助,用于参加在乌鲁木齐举办的第十届语言与智能高峰论坛及线下颁奖典礼。
心动不如行动,感兴趣就快来报名吧!
报名方式
参赛者均须通过星河社区赛事页面报名
报名链接(见首页赛事置顶):https ://aistudio. baidu.com/competition
截止时间以官网公布时间为准。
为方便各位选手交流讨论、获取最新赛事通知,获取数据使用、评审评测、信息发布等参赛保障,请扫描下方二维码加入对应赛道的官方交流群:
衷心感谢中闻(上海)律师事务所为本次比赛数据合规提供支持!
关注【飞桨PaddlePaddle】公众号
获取更多技术内容~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录