行业落地分享:作业帮问答检索系统实践


行业落地分享:作业帮问答检索系统实践

仅用于站内搜索,没有排版格式,具体信息请跳转上方微信公众号内链接

在数字化浪潮的推动下,检索系统的性能与效率成为企业发展的关键。作业帮作为教育科技领域的领军者,始终致力于为用户提供更高效、更精准的学习资源检索体验。
Havenask是阿里巴巴集团自研的高性能、分布式检索引擎,自2022年7月开源以来,凭借其强大的性能和灵活的定制能力,迅速在行业内崭露头角。
通过自动化的图像处理和相似题目检索,系统能够提供快速、准确的解题辅助,从而提高用户的学习效率和体验。
对图像进行预处理,以识别和判定这是一个图形题目。
从图形题目中提取关键信息,这些信息可能包括图形的尺寸、形状、位置等。
利用深度学习或其他机器学习技术,从图形题目中提取特征向量(Embedding)。
如果图形题目包含文本信息,系统可能会使用倒排索引技术来检索包含特定关键词的题目。
将向量检索和倒排索引的结果进行混合排序,以确定最相似的题目。
智能检索系统不仅在成本和效率上表现出色,它还强化了AI业务的支持能力。通过快速支持基于RAG(Retrieval-AugmentedGeneration)及多模态大模型的AI业务落地,该系统能够帮助企业更快地将AI技术转化为实际的业务成果。这种快速的业务落地能力,使得企业能够迅速响应市场变化,抓住新的商业机会。
尽管用户被指导如何拍摄和裁剪图片,但实际操作中,上传的图片可能存在多种问题,如角度不正、模糊、光线不均等,这些都可能影响后续的图像处理和识别效果。
方向&扭曲矫正:调整图片的方向,使其符合标准视角,并矫正任何扭曲。
区域检测:识别出图片中包含题目的区域。
模糊判断:评估图片的清晰度,判断是否需要进一步处理以提高清晰度。
超分:如果图片质量较低,进行超分辨率处理以提高图片的分辨率。
题目切分/行切分:将题目按照行或题目块进行切分,以便于后续的处理。
手写检测/文本提取:识别图片中的手写部分和文本内容,提取出可读的文本信息。
请求识别模型完成文本提取:将提取的图像信息输入到识别模型中,完成最终的文本提取。
检索排序
通过生成精确的检索query、并行查询和多级排序来快速返回最相关的搜索结果。
检索策略模块会提取核心词、调权词、学科分类等特征信息。
根据这些特征信息,生成多个子查询。例如,对于不同的学科或知识点,可能会生成不同的查询条件。
粗排序后的文档集合返回给上游系统进行精排序,以确定最终的排序结果。
目标:解决模糊、倾斜、低像素、干扰等情况下的题目检测、搜索、手写作答区域定位、客观题/填空题/主观题自动批改等技术挑战。
过程:
系统首先对上传的题目图片进行预处理,包括方向矫正、区域检测、模糊判断等,以确保图片质量适合后续处理。
然后,系统识别题目中的手写作答区域,并进行定位。
对于客观题、填空题和主观题,系统分别进行自动批改。这可能涉及到识别手写答案、与标准答案比对、评分等步骤。
目标:整合现有知识库,解决大模型解答缺少特定领域信息带来的回答不准确的问题,同时在对话场景提供端到端的多模态大模型解题能力。
过程:
系统通过检索策略模块提取核心词、调权词、学科分类等特征信息,生成多个子查询。
这些子查询被发送到多个索引分片副本上进行并行查询,返回的文档集合首先进行粗排序。
粗排序后的文档集合返回给上游系统进行精排序,最终返回TOPN结果给客户端展示。
这个过程还包括多模态LLM能力,即系统能够处理和理解多种类型的数据(如文本、图像等),并提供更准确的解答。
通过调整和优化检索系统的参数,使得新的检索策略与现有的检索策略在效果上达到相似的水平。这个过程需要反复进行AB实验分析case,耗时较多,但过程是可控的。
通过对性能指标的误判、QueryCache问题、数据扩增收益预期偏乐观等问题的分析,采取了一系列的解决方案,包括Query改写、粗排调整、精排策略及模型调整、系统架构调整等。
如何通过短周期和快速生效的方法来缓解系统压力。主要分为两个策略:索引按属性排序和提高CPUcache命中率。
#加好友领取PDF#
#学习大模型&讨论Kaggle#
△长按添加竞赛小助手
每天大模型、算法竞赛、干货资讯
与36000+来自竞赛爱好者一起交流~


文章作者: ZejunCao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 ZejunCao !
  目录