NLP之文本纠错开源大模型：兼看语音大模型总结

发布日期: 2025-07-05

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年7月5日，星期六，北京，晴
我们来看开源相关进展，看两个问题。
一个是大模型用于文本纠错开源工具，有一些模型跟数据，可以做个记录。
另外，在语音方面，也有一些语音转写或者对话的大模型，也做个技术汇总，看看有哪些模型，哪些数据，哪些tokenizer。

在具体功能上，支持缺字漏字、错别字错误、缺少标点、错用标点、主语不明、谓语残缺、宾语残缺、其他成分残缺、虚词多余、其他成分多余、主语多余、语序不当、动宾搭配不当、其他搭配不当共14种错误。

在训练数据上，使用200万纠错数据进行全量训练，适用于语法纠错和拼写纠错，也开源了数据集，数据集如下：

其中重点的，可以看：
1、目前有哪些训练数据集：
2、目前对于语音的tokenizer：
3、目前主流的语音大模型：
1、https ://github. com/TW-NLP/ChineseErrorCorrector
2、https ://github. com/dreamtheater123/Awesome-SpeechLM-Survey
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。

ZejunCao

https://zejuncao.github.io/2025/07/05/1000001254-2648421544-1-1751691077/