今年以来,大模型如雨后春笋在海内外得到广泛应用,但直接落地到企业存在诸多痛点:对业务场景理解有限,知识产出质量较差;企业核心知识又难以共享,外部模型的使用存在安全与合规风险。为解决这些痛点,将大模型与企业内部知识库深度融合,可发挥各自技术优势,实现快速迁移。作为企业级知识管理系统的领军企业,深蓝海域进行了系列技术探索,有效推动了模型与知识库的零成本融合。
一、大模型与企业知识库融合的技术挑战
众所周知,企业内部构建的知识库中往往存有大量结构化和非结构化数据,覆盖了各类业务规则、流程、案例等专业信息,可以为模型提供海量的优质培训素材。但实现落地应用仍存在诸多技术难题:
1. 专业知识的理解与适配
大模型对企业专业知识的理解有限,而知识库中的业务概念复杂多样,如何使模型快速适配专业知识,提高输出质量,是实现高效融合的难点之一。
2.多源异构数据的统一管理
企业的数据不仅存在于知识库中,还分布在公司的多个异构系统和数据库里。如何将这些多源异构的数据(不仅限于知识)进行有效地关联和挖掘,并最终统一汇总到一个集成的平台或模型中,实现企业数据和知识的有效连接、管理和应用。
3. 数据隔离与安全管控
企业知识库中存有大量业务机密与核心竞争信息,需要确保数据安全。而公开大模型的训练和使用会产生数据泄露风险。如何在模型培训与使用中实现数据的隔离与管控,是企业应用的首要难题。
4. 技术环境差异与成本高昂
大模型的训练与部署对算力提出极高要求,与企业技术环境存在差异。而部署和迁移大模型需要占用大量计算资源,存在一定成本,因此,如何缩减技术接入成本是一个难点。
5. 用户交互的连续性与上下文理解
知识问答与会话式交互对上下文理解和连续性有更高要求。如何实现深度交互式问答也是一个难点。
总体来说,实现零成本落地,提升质量,保证安全,是大模型与企业知识库融合面临的核心技术挑战。业内亟需突破与创新来推动大型模型真正进入应用领域。
二、深蓝海域的技术方案的创新实践
为促进大模型顺利落地企业知识管理,减少甚至消除接入成本,深蓝海域进行了一系列技术创新,实现模型与知识库的深度融合。
1. 搜索引擎技术的应用与创新
传统搜索依赖关键词匹配存在局限性。深蓝海域整合全文搜索、原子化搜索、大模型问答、知识加工等多种搜索模式,实现了大模型生成答案结果的溯源,查阅追踪其引用、参考的知识来源等,平衡可信与创新。值得一提的是深蓝小鱼智答系统通过预训练模型和领域知识微调,实现了对专业知识的精准表达和建模。
2.向量检索与知识切分技术
深蓝海域利用不同算法对企业知识进行细粒度切分,使每个知识点簇都可以被独立向量化表达。这就实现了对非结构化专业知识的精准表示和建模。同时,不同粒度的知识切分也参与向量空间的统一建构。搜索时,可以准确匹配每个知识碎片的语义信息。这就像拼图游戏一样,从细微处出发,最终达成对企业整体知识图谱的还原和重构。这样,就能够在海量的知识碎片中定位到用户提问问题相关性最强的片段,从而提供给大模型准确的知识来源,用于解答用户的问题,减少大模型回答问题的“幻觉”。
3. 系统架构设计的安全与控制保障
深蓝海域构建了涵盖数据采集、模型训练、预测服务的一整套安全系统架构。环境全部运行于企业内部网络,实现了数据和模型的严密访问控制。数据流动全程加密传输,算法模块采用严格的权限控制,核心模型组件甚至可以做到单独隔离。上述设计确保了从数据源到模型输出的全链路安全,极大降低了核心知识泄密风险,使得方案可以安全可控地应用与企业生产环境。在使用大模型进行提问时,首先是由知识库来决定哪些知识和知识原子是当前用户被授权使用的,只有得到授权的知识和知识原子才可以被大模型调用,用来生成答案。
4.低成本模型迁移技术
深蓝海域支持使用低成本的推理计算资源,快速落地体现成果,项目前期投入风险低。支持多种大模型集成对接,允许灵活的部署选择大模型的尺寸,支持API调用、本地私有化部署,实现快速落地大模型的部署安装与业务对接。这使得企业可以轻松使用先进的对话模型,却无需付出昂贵的技术与资源成本。
5. 对话增强技术的创新运用
深蓝海域提供多轮对话、全库智答、知识加工等能力,支持上下文理解和连续性。系统能够基于单篇知识内容进行详细的提问和解答,帮助用户快速定位知识点,使得模型可以连贯理解会话流程,极大提高了复杂问题、连环问答的正确率,实现了从零开始快速迁移模型至特定业务场景,避免全量重训带来的高昂成本。
数据显示,深蓝海域大模型+企业知识库技术方案与客户的企业知识库实现了零接入。应用于某大型跨境贸易企业后,提升了客户重复问题自助解决率超60%。另一工业制造企业在应用员工培训问答平台后,日均问答量提升至3000+,整体工作效率显著改善。
通过搜索引擎、对话增强等核心技术的创新应用,深蓝海域实现了模型与知识库的零成本对接,并解决了效率、质量与安全的关键挑战。此类融合无疑是大模型落地企业的重要一环。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )