70B参数,128K上下文
发布时间:2025-06-24 18:07:35 作者:北方职教升学中心 阅读量:397
此外,多模态目标使AIMv2能够实现比其他方法更密集的监督,增强了其从图像和文本输入中学习的能力。中英跨语言检索测试中取得 SOTA 表现;针对 RAG 场景的 MiniCPM3-RAG-LoRA 在开放域问答等多项任务上超越 Llama3-8B、西班牙语和泰语。内容生成相关的创新应用,共同丰富和拓展大模型的应用生态!
GLM-4V-Flash 模型拥有图像描述生成、remix 和融合,或者基于文本生成全新的内容。精细的艺术作品,还是日常生活中的随手拍,ChatGPT都能快速准确地识别并进行分析。在现有模型基础上,花费有限算力和数据做增强改进,训练出一个更强的模型。
这次更新最令人兴奋的,莫过于语音和视觉功能的无缝结合。中文指令遵循 FollowBench-zh 效果超越 GLM-4-9B-Chat、网友们期待的多模态推理,满血版o1也安排上了。调整后的版本使用有监督微调(SFT)和基于人类反馈的强化学习(RLHF),以使其符合人类对有用性和安全性的偏好。
在企业应用中,GLM-4V-Flash 能够针对特定垂直行业提供精准的场景解决方案,以低成本投入助力开发者迅速融入大模型时代,无需顾虑大模型图像处理的高昂成本。数学等能力上可达到GPT-3.5水平。韩语、这种设置简化了训练过程,并促进了模型的扩展,而无需特殊的批次间通信或极大的批次大小。
在许多长上下文任务中,输入由一个长上下文后跟一个短查询和一个短答案组成。为此,已有多种优化方案提出,例如Flash Attention,而11月26日英伟达提出的Star Attention机制,可用于提升Transformer模型在处理长序列时的效率和准确性。随着我们根据社区反馈改进模型安全性,调整后的模型未来版本将陆续发布。小型化模型等开辟巨大的想象空间。基于 MiniCPM 系列模型的 MiniCPM-Embedding、传统的大规模预训练视觉编码器虽然取得了成功,但在扩展性和参数效率方面存在挑战。视觉问答(VQA)以及图像情感分析等高级图像处理功能,并且支持包括中文、此外,我们也鼓励独立开发者和学生群体发挥创意,利用 GLM-4V-Flash 开发出更多图像理解、法语、代码、功能调用、Baichuan2-13B 等模型。
Introduction of a Santa-inspired voice for ChatGPT, adding festive flair.
向免费用户发布o1-preview,扩大高级推理模型的使用范围。
- 语音配视觉,ChatGPT秒变全能助手
还记得第二天发布会上那个圣诞老人般慈祥的声音吗?今天,OpenAI给这个声音加上了“眼睛”!没错,现在的ChatGPT不仅能听懂你说什么,还能看懂你给它看的东西。受CLIP等模型的启发,AIMv2增加了自回归解码器,使其能够生成图像块和文本标记。法语、OpenAI 开发了全新的界面,让使用文本、
前有OpenAI已经搞定一个强基模型,加上一些高质量的推理问题数据集(不需要正确的推理过程,只要有正确的答案就行),任何人都可以通过Reinforcement Learning Fine-tuning,在现有强大的推理模型基础上训练出推理能力更强的模型。流畅的多模态对话。
教育领域的专家们已经开始畅想未来:学生可以对着课本提问,ChatGPT不仅能听懂问题,还能"看"到课本内容,给出更加精准的解答。最长 20 秒、知识、技术普惠的理念,在今天上线备受期待的第一款免费的多模态模型——GLM-4V-Flash。内容创作,还是图片识别等领域,GLM-4V-Flash 都能显著提高工作效率和用户体验。MiniCPM 3.0是一款4B大小的模型,在自然语言理解、日语、
在更长的上下文尺度(128K)中,上下文编码过程中不同块的大小,也会影响推理的准确性和速度。
参考博客: Meta发布了其最新模型:Llama 3.3-70B
(3) AIMv2(Apple)
2024.12.07当前的许多模型在处理多样化的视觉任务或适应新数据集时仍显吃力。未来很快,就会出现各个领域的o1模型。
- 在代码能力、这种模型大小和分辨率的范围使得AIMv2适用于不同的应用场景,从小型应用到需要大型模型的任务。具体来说,AIMv2-3B在冻结树干的情况下,在ImageNet数据集上达到了89.5%的top-1准确率,显示出冻结编码器模型的显著鲁棒性。意大利语、
- 支持的8种语言:英语、
- 长文本能力:原生支持 32k 上下文长度,32k 长度内大海捞针全绿。值得一提的是,这篇文章受到了广泛的关注,登顶Hugging Face每日论文榜首。CEO奥特曼表示“效果一级棒,是我2024年最大的惊喜,期待看到人们构建什么!”
这次发布的主题虽然和普通人没什么关系,但是给领域垂直模型、这简直就是给AI装上了人类的感官,让它更接近于一个全方位的智能助手。Claude 3.5 Sonnet。体验地址:https://sora.com/onboarding
参考博客:刚刚,OpenAI Sora正式炸裂登场,网页挤爆了!Day05-12.10:新AI Agent预展示
展示将在2025年一月推出的AI Agent
Showcase of the GPT Agents coming in JanuaryDay06-12.11:GPT-4o图像
发布GPT-4o图像
Launch of GPT-4o imagesDay07-12.12:新开发者工具
发布新的开发者工具
New Developer toolsDay08-12.13:新文生图模型
展示新的文生图模型
Showcase of new DalleDay09-12.14:下一代长上下文窗口的GPT模型
发布下一个GPT模型,更大的上下文窗口。少到什么程度呢?最低几十个例子就可以。无论是在信息提取、”
近日面壁智能发布了旗舰端侧模型“小钢炮”系列的MiniCPM 3.0基座模型。模型架构:
- Llama 3.3是一种自回归语言模型,采用优化的Transformer架构。
而满血o1的另一大亮点就是支持多模态输入,具备视觉推理能力,团队也进行了现场展示。数学推理、印地语、
参考博客:OpenAI Day12 第3天直播:增强 ChatGPT 的高级语音模式与视觉功能发布!
Day04-12.09:SoRA(已发布)
视频生成大模型 Sora 正式版终于露面!同时,OpenAI 开发了 Sora 的新版本 ——Sora Turbo,它比二月份的预览版模型快得多。满血版推理速度更快,比preview快了60%。
苹果公司通过发布AIMv2,迎接了这一挑战。模型的灵活性和与现代工具(如Hugging Face Transformers库)的集成,使其在各种应用中的实施变得实用且直接。 - Llama 3.3是一种自回归语言模型,采用优化的Transformer架构。
- 超强的推理能力🧮:数学能力方面,MathBench 上的效果超越 GPT-3.5-Turbo 以及多个 7B-9B 模型。MiniCPM-Reranker 在中文、德语在内的26种语言。
AIMv2采用了多模态自回归预训练框架,这一框架在传统对比学习方法的基础上进行了构建。中英文指令遵循多个评测集的表现上,MiniCPM 3.0 以 4B 的小参数量表现优异。所有上传的图像数据都会经过严格的加密处理,并且不会用于训练模型。德语、 - 长文本能力:在 32k 的上下文长度进行大海捞针测试,结果如下图,在多个长度长文本的测试表现都是全绿:
参考博客:仅4B参数!面壁端侧模型MiniCPM 3.0达到GPT-3.5水平
GitHub仓库:https://github.com/OpenBMB/MiniCPM
HuggingFace模型库:https://huggingface.co/openbmb/MiniCPM3-4B
知识库:https://modelbest.feishu.cn/wiki/D2tFw8Pcsi5CIzkaHNacLK64npg
(6)GLM-4V-Flash(智谱华章)
2024.12.09继 8 月语言模型 GLM-4-Flash 免费后,我们秉承技术领先、
Enhancement of ChatGPT’s Advanced Voice Mode with vision capabilities.
ChatGPT的高级语音模式迎来了视觉功能的加持!这一突破性的升级无疑会让我们与AI助手的互动体验更上一层楼。这一多模态免费模型将进一步降低开发者在各个领域深入挖掘大模型的门槛,开启大模型应用的新篇章。与DINOv2相比,AIMv2在开放词汇目标检测和指代表达理解方面也表现良好。70B参数,128K上下文。
AIMv2在大多数多模态理解基准测试中超越了OAI CLIP和SigLIP等主要现有模型。
【AIGC半月报】AIGC大模型启元:2024.12(上)
- (1)OpenAI-12日发布会(持续更新中........)
- Day01-12.06:o1满血版上线(已发布)
- Day02-12.07:强化微调(Reinforcement Fine-Tuning)(已发布)
- Day03-12.08:ChatGPT+高级语音功能+增强视觉(已发布)
- Day04-12.09:SoRA(已发布)
- Day05-12.10:新AI Agent预展示
- Day06-12.11:GPT-4o图像
- Day07-12.12:新开发者工具
- Day08-12.13:新文生图模型
- Day09-12.14:下一代长上下文窗口的GPT模型
- Day10-12.15:辩论游戏
- Day11-12.16:Microscope
- Day12-12.17:增加高级语音使用时长
- (2)Llama 3.3-70B(Meta)
- (3) AIMv2(Apple)
- (4) Star Attention(Nvidia)
- (5) MiniCPM 3.0(面壁智能)
- (6)GLM-4V-Flash(智谱华章)
(1)OpenAI-12日发布会(持续更新中…)
Day01-12.06:o1满血版上线(已发布)
整个发布会仅持续不到15分钟,但包含了巨大的信息量:相比preview版本,满血o1的数学和代码能力均大幅提升,Pro版则是再上一层楼。Qwen2-7B-Instruct。Llama 3.3-70B是一个预训练和指令调优的多语言LLM,专门针对多语言对话场景进行了优化。今天该版本将作为独立产品提供给 ChatGPT Plus 和 Pro 用户。
Release of the Debate Game,teaching machines to debate toy problems.
Day11-12.16:Microscope
发布Microscope,这是一个神经网络模型的可视化集合。视觉推理、
Announcement of the GPT-NEXT model with a bigger context window
Day10-12.15:辩论游戏
发布辩论游戏,教机器辩论简单的问题。
当然,随着视觉功能的加入,隐私问题自然成为了大家关注的焦点。葡萄牙语、
Release of o1-preview to free users,expanding access to advanced reasoning models.
(2)Llama 3.3-70B(Meta)
2024.12.07Meta刚刚发布了其最新模型:Llama 3.3-70B,性能提升,输入成本比Llama 3.1 405B降低10倍!指令遵循能力超过了GPT-4o、
参考博客:
OpenAI强化微调登场:几十条数据o1-mini反超o1暴涨80%,奥特曼:今年最大惊喜
OpenAI Day2:支持微调o1, 核心技术竟更早来自字节跳动!「强化微调」技术分析
Day03-12.08:ChatGPT+高级语音功能+增强视觉(已发布)
增强ChatGPT的高级语音模式,增加视觉功能。印地语、GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力,更在图像处理上实现了精确度的提升。这款可以跑在手机硬件条件下的大模型,有着以下特点:
- 支持工具调用🛠️(Function Calling)和代码解释器💻(Code Interpreter):Berkeley Function Calling Leaderboard (BFCL) 上取得 9B 规模以下 SOTA,超越 GLM-4-9B-Chat、面壁智能发布的MiniCPM 3.0,以其4B参数量在性能上逼近GPT-3.5,更在端侧部署上实现了技术突破。AIMv2家族包含19个不同参数大小的模型——从300M到2.7B,支持224、意大利语、
- 出色的中英文指令遵循能力🤖:英文指令遵循 IFEval、
4B参数量的 MiniCPM 3.0 在多数评测集上的效果比肩甚至超越众多 7B-9B 模型。
在了解Star Attention如何改进大模型推理前,让我们先看看当前大模型的推理过程涉及的两个步骤:- 1)prompt编码,即模型处理输入并在缓存中存储KV(键值)向量;
- 2)token生成,即模型关注KV缓存并自回归生成新令牌,同时用新 的KV向量更新缓存。或者,蒸馏出一个更紧凑的小模型,有了领域私有数据和业务逻辑复杂的推理数据集,训出表现更好领域模型。提出 LLM x MapReduce ,理论可处理的上下文长度达到 +∞。此外,AIMv2的可扩展性显而易见,其性能随着数据和模型大小的增加而持续提高。
- 视觉识别能力大跃进,AI眼中的世界更清晰
据OpenAI透露,这次更新的视觉识别能力已经达到了前所未有的高度。
参考博客:
OpenAI第一场直播就炸场!o1满血版上线,史上最贵订阅费:1450元/月
新o1登顶中文链式推理基准,总分76.12分,速度提升41%Day02-12.07:强化微调(Reinforcement Fine-Tuning)(已发布)
新功能强化微调(Reinforcement Fine-Tuning),使用极少训练数据即在特定领域轻松地创建专家模型。
- 许可证:可在https://github.com/meta - llama/llama - models/blob/main/models/llama3_3/LICENSE获取自定义商业许可证Llama 3.3社区许可证协议。因果解码器然后自回归地生成图像块和文本标记,重建原始的多模态输入。(有意思的是不支持中文,这是小扎防止我们直接COPY哈)
- 模型发布日期:70B指令模型:2024年12月6日
- 状态:这是一个在离线数据集上训练的静态模型。
参考博客:Apple 发布 AIMv2:最先进的开放集视觉编码器系列
(4) Star Attention(Nvidia)
2024.12.05当下的手机及AIPC中都会安装本地大模型,然而上下文长度增加,推理时的计算成本也会显著增长。医疗行业的从业者则期待着AI能够通过分析X光片和CT扫描结果,辅助医生做出更准确的诊断。图像和视频来提示 Sora 变得更加容易,同时故事板工具让用户可以精准地指定每个帧的输入。这款小而强大的模型,不仅为移动设备智能化提供了全新可能,也为人工智能的轻量化和普及性开辟了更广阔的想象空间。在预训练期间,编码器处理图像块,随后与相应的文本嵌入配对。图像分类、
参考博客:英伟达提出全新Star Attention,10倍加速LLM推理!登顶Hugging Face论文榜
论文地址:https://arxiv.org/abs/2411.17116(5) MiniCPM 3.0(面壁智能)
2024.12.06“ 端侧模型正成为一个备受关注的技术前沿。
Launch of Microscope,a collection of visualizations of neural network models.Day12-12.17:增加高级语音使用时长
将高级语音模式的使用时间增加到每天20小时
Increases the Advanced voice mode time to 20 hours per dayChatGPT+圣诞老人风格的语音
为ChatGPT引入一个圣诞老人风格的语音,增添节日气氛。AIMv2是一系列开放式视觉编码器,旨在提升现有模型在多模态理解和目标识别任务上的表现。这意味着ChatGPT不再局限于文字交互,而是可以进行更加自然、块尺寸越大,Star Attention 的准确性越高。336和448像素的分辨率。Qwen2-7B-Instruct。参考博客:首个免费多模态大模型API:GLM-4V-Flash上线智谱开放平台
体验中心:https://www.bigmodel.cn/console/trialcenter
说明文档:https://www.bigmodel.cn/dev/api/normal-model/glm-4v
- 微调后的o1-mini模型得分提高80%,直接反超o1正式版。
Sora 用户可以生成 1080p 分辨率、
Star Attention带来的性能提升,主要体现在以下两个方面: - 1)高达11倍的加速
在多个长上下文基准测试上,Star Attention所加持的8B Llama3的推理速度显著提升,随着序列长度增加,加速比从1.1x提升到2.7x。市场急需一种强大而多功能的模型,能够在不牺牲性能的情况下处理多种模态,如图像和文本,同时不需要大量的数据筛选。当大模型的上下文变得越来越长之后,回答查询所需的信息通常局限在上下文的小部分内,意味着上下文只需关注附近的token,而查询token需要关注所有之前上下文涉及的内容。最明显的一个后果就是,用户输入问题后需要等待很久才能看到结果。支持英语、西班牙语泰语8种语言,有意思的是Llama 3.3-70B不支持中文,这是小扎防止我们直接COPY打小抄么?。它的通用能力强,多语言支持好,某些指标不如Claude 3.5等模型,数学和推理上有提升空间,总的来说是一个具备性价比的模型,比较适合构建全球业务服务支持聊天机器人等。 - 目前OpenAI已开启强化微调研究计划,开发者可以申请强化微调API的alpha版本访问权限。多项评测得分接近或者超过 GPT-3.5。并且用户可以利用资源进行扩展、而在参数量更大的Llama3.1-70B上,推理的加速比提升更为显著。
- 进行测试时,可使用几十到几千个高质量数据,模型能够通过强化学习自行探索和学习如何推理复杂任务。德语、
通过量化技术,该模型的内存需求被优化至仅 2GB,就很适合在端侧(移动端)环境中部署。无论是复杂的图表、
强化微调(Reinforcement Fine-Tuning,简称ReFT)
一种全新(区别于之前的监督微调)的模型定制技术,允许开发者通过数十到数千个高质量任务的数据集,对模型进行针对性优化,并根据提供的参考答案对模型的响应进行评分,使AI在特定领域的复杂任务中表现得更为精准。竖屏或方形的视频。对此,OpenAI表示他们已经采取了严格的数据保护措施。用户可以随时删除已上传的图像,OpenAI承诺会在24小时内彻底清除相关数据。AIMv2的关键特性是将视觉变换器(ViT)编码器与因果多模态解码器相结合。
我们期待更多的开发者们汇聚智谱开放平台 BigModel,利用 GLM-4V-Flash 在图像精准处理方面的优势,将模型的基础能力转化为实际应用场景。