两个有趣的工作:Huggingface知识图谱及大模型高频用词相似性分析工具
仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接
今天是2025年6月2日,星期一,北京,晴
今天是端午假期最后一天,我们来回顾下一些有趣的进展。
一个是Huggingface知识图谱的有趣工作,有个工作做了个爬虫,做了些分析,还做成了一个评测,这个对于知识图谱相关的分析研究提供了不错的资源,感兴趣的可以看看,挖掘下研究点。
一个是看看从从用词的角度,来看那些大模型比较类似,并且可能存在谱系关系,涉及到一个工具,也是语料库统计的范畴。
从数据来源上整合了来自HuggingFace社区的260万节点和620万条边,涵盖了模型、数据集、用户、任务等多种实体类型,以及它们之间的复杂关系,主要手段是爬虫(使用huggingface_hub,并向相关API发出请求)跟清清洗,对所有结点和边进行验证和清洗(扫描所有收集到的边,并检查每条边所涉及的结点是否存在于收集到的结点集合中。)
具体的关系包括模型演化(如adapter、finetune)和用户互动(如like、follow),还包含了丰富的文本属性(如modelcard、datasetcard)。
有趣的,还对这个数据做了一些统计分析,例如,用户共同喜好的条件概率𝑃(𝐴|𝐵),包括𝑃(𝐴|𝐵)用于同类型结点之间、)𝑃(𝐴|𝐵)用于交叉类型的结点,有趣的是,对NLP模型的强烈兴趣来自于喜欢机器人数据集的用户,而非NLP或RL。
又如,Model和Dataset的描述长度,在HuggingKG中,Model的描述平均长度为270. 2个词,而Dataset的描述平均长度为134. 1个词。
大模型输出分析,也是一件很有趣的事情,例如,最近一的工具,https ://github. com/sam-paech/slop-forensics,可以从用词的角度,来看那些大模型比较类似,并且可能存在谱系关系(类似数据蒸馏?)。
看下他怎么做的实现:
1、识别识别过度使用的词汇和短语,也就是高频词统计
分析每个模型的输出,找出频繁过度使用的词汇、短语和模式。
首先统计每个模型生成的所有文本中每个词汇出现的频率。为了确保结果有意义,排除常见词汇(如“the”和“and”)、数字以及其他不相关的标记。
然后,为了衡量每个模型语言的重复性,特别关注以下了内容:
Singlewords单个词汇,例如“suddenly”(突然);
Bigrams,不包含停用词的两个词汇组合,例如“barelywhisper”(轻声细语);
Trigrams:不包含停用词的三个词汇组合,例如“heartpoundingchest”(心脏怦怦直跳);
最后对各种模型评分,指标包括:
Repetition重复性纷纷,即模型重复使用相同词汇或短语的频率;
VocabularyComplexity词汇复杂度,即模型语言的复杂程度或多样性。
SlopIndex冗词指数,一个综合指标,显示模型使用已识别冗词的程度。
2、生成谱系树
然后,将所有单独模型分析的结果合并,查看哪些词汇和短语频繁出现,根据每个模型的冗词特征,对于每个模型,创建一个二进制表示(1和0),表示该模型在其最常用列表中是否包含给定的冗词或短语(其实就是onehot编码),然后使用通常用于比较DNA或蛋白质序列的生物信息学工具PHYLIP进行生成出一个谱系树。
这其实是语料库分析的范畴了,并不能严格意义上说明什么结论,但思路很有趣。
1、https ://arxiv. org/abs/2505. 17507
2、https ://github. com/sam-paech/slop-forensics
老刘,NLP开源爱好者与践行者,主页:https ://liuhuanyong. github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。