仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
【岗位职责】本课题研究方向包括但不限于:1)构建端到端的网页文本内容提取系统,针对网络数据的复杂性,从系统效率和模型效果角度持续优化内容提取算法,迭代生产标准。2)设计预训练数据的全局质量优化和治理方案,优化全局采样策略、隐私保护和安全合规,提升基座模型训练效率和最终效果。3)建设多模态交错数据处理链路,通过数据分析和配比实验等手段优化多模态数据质量和多样性,支撑多模态大模型数据需求。4)推动数据驱动的模型性能突破。5)负责千亿级网页的大规模处理和万亿级token数据生产,通过分布式计算、模型量化及显存优化的方式提升数据处理和生产效率。【任职要求】1)计算机科学、数据科学、自然语言处理等相关专业,具备大模型相关背景,在相关领域有深入研究经历并有实际论文产出或项目经验。2)扎实的编程功底,熟练掌握TensorFlow/PyTorch/Megatron等深度学习框架,熟悉Java/C++等编程语言;熟练掌握大数据处理工具,如Spark、Flink、Ray等。3)熟悉大模型训练流程,熟悉Transformer模型结构,对GPT/LLAMA/MoE等模型架构有深入了解。加分项:1)有大模型预训练相关数据构建和处理项目经验者优先。2)发表过高水平论文优先(如NeurIPS,ICLR,ICML,ACL,EMNLP等)。
北斗转正机会较大如果有意向,请发送简历到邮箱:haoyugao183@gmail.com
欢迎有需求的朋友发布直招信息
可以发布在www.nlpjob.com
也可以发布在AINLP相关交流群
欢迎加入AINLP社招/校招/实习交流群
我们会从NLPJob网站或者求职群里选择招聘信息推送
发布招聘信息或者求职进群请添加小助手微信(id:ainlp2)
备注社招/校招/实习+单位/学校+工作/研究方向
关于AINLP
AINLP是一个有趣有AI的自然语言处理公众号,专注于AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。