发布日期:2024-09-05 13:39 点击次数:77
上证报中国证券网讯7月4日至7日,2024世界人工智能大会在上海拉开帷幕。合合信息在本次大会上展示了大模型“加速器”解决方案。
据了解,在大模型训练的上游阶段,“加速器”中的文档解析引擎将助力大模型突破在书籍、论文、研报等文档中的版面解析障碍,从源头为模型训练与应用输送纯净的“燃料”,助力大模型跑得更快;“加速器”还加载了行业领先的acge文本向量化模型,助力大模型解决“已读乱回”的“幻觉”问题,让大模型在正确的航线上行驶得更远。
大模型技术的发展和应用,预示着更加智能化、个性化未来的到来。如果将大模型比喻为正在疾驰的科技列车,语料便是珍贵的“燃料”。对于中国的大模型企业而言,语料短缺问题更为严峻。当前大模型数据集主要为英文,中文语料占比较低;无线表、跨页表格、复杂公式等元素的处理仍是大模型语料处理中的另一个“拦路虎”。
合合信息的文档解析引擎具备强大的“动能”,最快1.5秒可解析百页长文档中的文本、表格、图像等非结构化数据,也是当前市面上同类文档解析引擎中处理速度最快的产品之一;同时,引擎还具备优秀的文档“理解力”,可智能还原文档阅读顺序,加速模型在预训练、开发、使用落地等多方面流程。
在现场,参观者可选择物理、医学、金融、社会学等多个知识领域文档,向大模型提问专业问题,例如对特定表格内容的总结、关键要素的分析等。对比测试结果显示,加载了文档解析引擎的大模型,在回答问题的速度、准确度上更胜一筹。
在文档解析范畴中,针对图表类素材的识别、内容理解是多数大模型亟待解决的障碍,合合信息大模型“加速器”则打通了这一堵点:引擎能够深度“洞察”图表内容,对研报、论文等文档中的柱状图、折线图、饼图、雷达图等十余种常见图表进行“还原”,巧妙转化为大模型能够理解的markdown格式,使数据和图表的价值潜能充分释放。
在文档解析引擎帮助下,大模型可以直接获取图表原始的结构化数据,高效地学习理解商业研报和学术论文等专业文档中的论证逻辑,提升语言理解、数据处理、知识推理分析的效率和准确性,满足更高价值的金融和学术等应用场景需要。
值得关注的是股融配资,合合信息文档解析引擎已经能够做到在图表不显示具体数值情况下,仅依据坐标轴区间估算具体数值,实现了行业级突破。(张梓桐)