两个有趣的工作：Huggingface知识图谱及大模型高频用词相似性分析工具

发布日期: 2025-06-02

仅用于站内搜索，没有排版格式，具体信息请跳转上方微信公众号内链接

今天是2025年6月2日，星期一，北京，晴
今天是端午假期最后一天，我们来回顾下一些有趣的进展。
一个是Huggingface知识图谱的有趣工作，有个工作做了个爬虫，做了些分析，还做成了一个评测，这个对于知识图谱相关的分析研究提供了不错的资源，感兴趣的可以看看，挖掘下研究点。
一个是看看从从用词的角度，来看那些大模型比较类似，并且可能存在谱系关系，涉及到一个工具，也是语料库统计的范畴。

从数据来源上整合了来自HuggingFace社区的260万节点和620万条边，涵盖了模型、数据集、用户、任务等多种实体类型，以及它们之间的复杂关系，主要手段是爬虫（使用huggingface_hub，并向相关API发出请求）跟清清洗，对所有结点和边进行验证和清洗（扫描所有收集到的边，并检查每条边所涉及的结点是否存在于收集到的结点集合中。）
具体的关系包括模型演化（如adapter、finetune）和用户互动（如like、follow），还包含了丰富的文本属性（如modelcard、datasetcard）。
有趣的，还对这个数据做了一些统计分析，例如，用户共同喜好的条件概率𝑃(𝐴|𝐵)，包括𝑃(𝐴|𝐵)用于同类型结点之间、)𝑃(𝐴|𝐵)用于交叉类型的结点，有趣的是，对NLP模型的强烈兴趣来自于喜欢机器人数据集的用户，而非NLP或RL。
又如，Model和Dataset的描述长度，在HuggingKG中，Model的描述平均长度为270. 2个词，而Dataset的描述平均长度为134. 1个词。

大模型输出分析，也是一件很有趣的事情，例如，最近一的工具，https ://github. com/sam-paech/slop-forensics，可以从用词的角度，来看那些大模型比较类似，并且可能存在谱系关系（类似数据蒸馏？）。
看下他怎么做的实现：
1、识别识别过度使用的词汇和短语，也就是高频词统计
分析每个模型的输出，找出频繁过度使用的词汇、短语和模式。
首先统计每个模型生成的所有文本中每个词汇出现的频率。为了确保结果有意义，排除常见词汇（如“the”和“and”）、数字以及其他不相关的标记。
然后，为了衡量每个模型语言的重复性，特别关注以下了内容：
Singlewords单个词汇，例如“suddenly”（突然）；
Bigrams，不包含停用词的两个词汇组合，例如“barelywhisper”（轻声细语）；
Trigrams：不包含停用词的三个词汇组合，例如“heartpoundingchest”（心脏怦怦直跳）；
最后对各种模型评分，指标包括：
Repetition重复性纷纷，即模型重复使用相同词汇或短语的频率；
VocabularyComplexity词汇复杂度，即模型语言的复杂程度或多样性。
SlopIndex冗词指数，一个综合指标，显示模型使用已识别冗词的程度。
2、生成谱系树
然后，将所有单独模型分析的结果合并，查看哪些词汇和短语频繁出现，根据每个模型的冗词特征，对于每个模型，创建一个二进制表示（1和0），表示该模型在其最常用列表中是否包含给定的冗词或短语（其实就是onehot编码），然后使用通常用于比较DNA或蛋白质序列的生物信息学工具PHYLIP进行生成出一个谱系树。
这其实是语料库分析的范畴了，并不能严格意义上说明什么结论，但思路很有趣。
1、https ://arxiv. org/abs/2505. 17507
2、https ://github. com/sam-paech/slop-forensics
老刘，NLP开源爱好者与践行者，主页：https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。
加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。