在过去一年,AIGC 以星星之火,点燃全球燎原之势。如今巨变仍在进行,各行各业积极拥抱技术变革,带来诸多智能应用创新。然而开发者在实际落地 AIGC 的过程中,如何做技术选型?如何将前沿技术有效地融入现有业务流程,兼顾实用性和用户体验?如何加快前沿技术落地,进而推动产业升级?
6 月 15 日, 由腾讯云 TVP 与 CSDN 联合主办的「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」活动在上海举办,本次沙龙汇聚 AI 领域产学研优秀代表、技术大咖,聚焦 AIGC落地思考与应用实践,分享最新、最实用的案例,一同探讨如何加快 AI 应用的创新步伐。
从科研到实践的深度探索
数智人“娇娇”全解析
上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利
未来已来,数字人已渗透到各行各业,成为新一代的生产力和创造力。从科研到实践,数智人“娇娇”的诞生,既是技术的集成展示,也是对个性化、互动性未来的创新探索。
上海交通大学电子工程系教授&图像所副所长、腾讯云 TVP 宋利在《科研到落地:“数智人-娇娇”》的演讲中,先是回顾近五年来数字人技术的演变历程,梳理当前数字人技术的前沿进展,如基于语音驱动的运动稳定的数字人视频合成,基于显式、隐式记忆增强的语音驱动数字人合成,身份匹配对应学习的高保真人脸驱动,基于解耦潜在运动表征的高保真数字人驱动、高保真音频驱动的歌唱数字人合成等创新研究。
不仅探索学术研究,宋教授还带领团队积极进行技术落地,推出数智人“娇娇”项目。“娇娇”以一位擅长直播的同学为原型,通过拍摄绿幕视频并结合声音数据进行训练而成,“娇娇”可以进行对话聊天、口播、歌曲演唱、新闻播报、健康顾问、多语种口译等工作。“娇娇”不仅体现了数字人在娱乐、教育等领域的广泛应用潜力,还作为首个高校虚拟数字人主播,引发广泛关注。
如今数字人向更广泛的商业和社会应用场景迈进,与此同时,数字人行业存在政策风险和商业模式不确定性等挑战。在宋教授看来,尽管 ToC 市场吸引力大,但 ToB 领域因成本效益和应用深度,展现出更大的商业潜力。数字人处于快速发展中,不仅在形象创造上不断进步,也在向更复杂的动作、情感交互等方向探索。展望未来,结合高质量的交互能力将是未来数字人发展的重要方向。
腾讯混元大模型赋能AIGC应用落地
推进产业智能化升级
腾讯云大模型产品专家 屈蕾
腾讯混元大模型历经迭代日趋成熟,坚持全链路自主研发技术,支持众多场景的创新应用,实现技术与应用同行,期待更多开发者与企业加入,共创大模型应用新纪元。
腾讯云大模型产品专家 屈蕾在《腾讯混元大模型全场景 AIGC 应用实践》的主题演讲中介绍,腾讯混元大模型是腾讯全链路自主研发的通用大语言模型,自 2023 年 9月上线以来,经历多轮迭代,腾讯混元大模型不断成长、性能不断提升,现已拥有万亿级参数规模,从稠密模型架构向稀疏化架构演进,孵化不同的模型形态,采用混合专家模型 (MoE) 结构,提高训练和推理效率及专业领域适应性,具备强大的中文创作能力。
腾讯混元大模型构建三层自主可控的国产大模型全栈技术架构:上层为自研高速网络互联来支撑模型训练,预计 2024 年将达到单集群 10 万卡规模,低端卡也能训练万亿参数大模型;中层为自研 Angel 大模型训练和推理平台,可高效调度异构卡集群,将万亿大模型的推理成本较开源模型下降 70%,并持续优化;底层是采用混合专家模型 (MoE) 结构。
腾讯混元大模型在 SuperClue 和沙利文报告等第三方测评中获得高度评价,效果居于国内第一梯队。目前混元大模型已接入 600+ 腾讯内部业务,其应用场景广泛,如腾讯文档 AI 智能助手辅助文案创作、腾讯会议 AI 小助手自动总结、智能数字人和游戏 npc 的角色扮演能力增强用户体验、AI 代码生成等,实现技术与应用同行,充分释放生产力。
此外,腾讯混元大模型在多模态能力上也持续迭代升级。在生图领域,腾讯混元文生图基础架构已全面升级至 Sora 同款的 DiT 架构,支持中英文双语输入及理解,具备多轮绘图能力,测评结果国内领先;在生视频领域,腾讯混元支持文生视频、图生视频、图文生视频、视频生视频等多种视频生成能力,已经支持 16s 视频生成;在生 3D 层面,腾讯混元已布局文/图生 3D,单图仅需 30 秒即可生成 3D 模型。
目前,腾讯混元大模型多模态能力已通过腾讯云以 API 形式面向企业用户和开发者开放,在广告、电商、传媒、游戏、教育等不同行业落地应用。其中,混元生文提供了万亿参数 hunyuan-pro、千亿参数 hunyuan-standard、百亿参数 hunyuan-lite等多种尺寸的模型服务,期待更多伙伴与开发者加入,共同探索大模型的边界与新应用场景,携手推进大模型技术创新发展。
解读QQ影像中心AIGC创新与实践
释放AI无限潜力
QQ专家算法研究员 程培
面对日新月异的 AIGC 技术发展,QQ 构建 AIGC 技术体系,持续推出系列创新工具和应用,赋能用户个性化内容创造,积极探索 AIGC 的广泛应用潜力与价值。
QQ 专家算法研究员 程培在《QQ 影像中心 AIGC 的创新和应用》的分享中谈到,目前 QQ 在基础层,打造出语言以及图文大模型、3D 生成大模型;在组件层,拥有图片/视频生成技术,3D 数字资产生成技术;在应用层,QQ 相机、小程序、天天 P 图、超级 QQ 秀等均已融入 AIGC 技术。
QQ 影像中心在几年前开始部署研究 AIGC 技术,目前取得一些进展:Diffusion 模型广受热议,然而在落地的过程中,面临画面构图不稳定、语义质量差等效果瓶颈,优质结果生成投入成本高等性能瓶颈。早在 2022 年,程培团队针对 Diffusion 模型进行优化,从 0 到 1 搭建“优化-选型-生产-上线”流程,持续进行风格效果训练积累,积累风格超 20 种。最终将优化后的技术应用到 QQ 小世界 520 活动上,得到用户的热烈讨论与关注。QQ 作为国内最早一批上线这类创新 AIGC活动,例如热门特效 “异次元的我”,用户只需上传一张自己的照片,就能通过 AI 识别,一键生成与自己十分相像的漫画图片,当时的传播率极高。
AI 写真照最初用户的使用门槛高,需要用户上传多张不同角度的照片,还要在线训练,对机器资源消耗较大,且可能影响用户体验。如何在不进行后置微调的情况下,只给一张人像照,让 Diffusion 模型具备人脸 ID 的保持、变化、风格化等能力,使得模型的生成结果具备多样性。对此,腾讯推出 FaceStudio,通过先进的混合人脸 ID 引导机制,在不牺牲个人身份特征的情况下,实现风格化的人物图像合成。这项技术成功应用在 QQ 头像定制馆、七夕头像等活动。
大多数扩散模型使用 CLIP 作为文本编码器,这将可能限制它们理解复杂提示的能力,对此腾讯推出 ELLA,可将 LLM 与扩散模型无缝结合,将 LLM 能力注入扩散模型,提升现有文生图模型语义匹配程度,还可轻松集成社区模型和工具,兼容社区生态。并进一步研发 EMMA 框架,解决角色一致性生成问题,使同一人物在不同场景中保持一致,实现连贯的视觉叙事。
在视频生成上,实现稳定且风格强烈的视频内容生成,展现在多人及单人场景中的良好应用效果,目前团队将相关算法落地在 QQ 短视频开发者开放平台。在 3D 生成上,打造超 Q 服饰纹理生成系统,落地超 Q 秀业务,给用户带来崭新体验。
开发者如何拥抱AI 2.0时代?
易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者 田杰
开发者积极拥抱 AI 2.0时代,通过在 AIGC 工具层与应用层创新,在细分领域创造价值,无需畏惧被技术替代,致力成为利用 AI 提升业务与个人竞争力的先行者。
易编橙网络科技 CTO、「程序员 : 职场效能必修宝典」作者 田杰在《开发者如何拥抱AI 2.0 时代》中指出,随着 AIGC 的兴起,普通开发者面临被技术替代的焦虑,但同时存在转型与机遇。田杰通过分析最新行业动态、市场数据等,帮助开发者理清思路,鼓励开发者把握 AIGC 新机遇,通过持续学习和创新,成为 AIGC 的弄潮儿。
田杰鼓励开发者不应局限于传统编程语言的学习,更应关注如何结合 AI 技术提升个人竞争力,利用智能体为用户提供更高效、个性化的服务。他表示,“所有的 App 应用都值得用 AI 重新做一遍,这就是应用级开发者的机会”。尽管大型科技公司正积极布局大模型市场,但对于小型企业和个人开发者而言,专注于细分领域、创新业务模式和应用场景,利用好信息差和快速反应能力,如高考志愿填报助手等,通过快速响应市场需求和提供定制化解决方案, 实现技术与市场的有效对接。
结语
随着 AI 技术飞速发展,AIGC 正从概念走向广泛的应用实践,为各行各业带来前所未有的创新变革。在本次「 AIGC 落地的正确姿势 —— Techo TVP 技术沙龙」,五位技术大咖从多角度分享前沿、多元的 AIGC 亲身实践,为开发者带来诸多启发。在各位嘉宾的精彩分享下,本次活动圆满落幕。
未来,腾讯云 TVP 将继续携手更多专家大咖,为开发者朋友分享更多干货技术和前沿洞察、落地实践,献上一场场精彩有料、有趣、有用的技术盛宴。
(免责声明:本网站内容主要来自原创、合作伙伴供稿和第三方自媒体作者投稿,凡在本网站出现的信息,均仅供参考。本网站将尽力确保所提供信息的准确性及可靠性,但不保证有关资料的准确性及可靠性,读者在使用前请进一步核实,并对任何自主决定的行为负责。本网站对有关资料所引致的错误、不确或遗漏,概不负任何法律责任。
任何单位或个人认为本网站中的网页或链接内容可能涉嫌侵犯其知识产权或存在不实内容时,应及时向本网站提出书面权利通知或不实情况说明,并提供身份证明、权属证明及详细侵权或不实情况证明。本网站在收到上述法律文件后,将会依法尽快联系相关文章源头核实,沟通删除相关内容或断开相关链接。 )