仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天是2025年7月5日,星期六,北京,晴
我们来看开源相关进展,看两个问题。
一个是大模型用于文本纠错开源工具,有一些模型跟数据,可以做个记录。
另外,在语音方面,也有一些语音转写或者对话的大模型,也做个技术汇总,看看有哪些模型,哪些数据,哪些tokenizer。
在具体功能上,支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共14种错误。
在训练数据上,使用200万纠错数据进行全量训练,适用于语法纠错和拼写纠错,也开源了数据集,数据集如下:
其中重点的,可以看:
1、目前有哪些训练数据集:
2、目前对于语音的tokenizer:
3、目前主流的语音大模型:
1、https ://github. com/TW-NLP/ChineseErrorCorrector
2、https ://github. com/dreamtheater123/Awesome-SpeechLM-Survey
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。