transformer要被替代

资讯

Transformer取代者登场！微软、清华推出RetNet：成本低、性能强
机器之心报道编辑：蛋酱、张倩、陈萍LLM 的成功，某种程度上要归功于 Transformer 架构在自然语言处理任务上的突破。该架构最初是为了克服循环模型的 sequential training 问题而提出的。这些年来，Transformer 已经成为 LLM 普遍采用的架构。
机器之心Pro
52评论
谷歌推出Transformer架构的继任者Titans：训练代码也会公开
谷歌发布Transformer架构的继任者Titans: 提出了一种新的神经长期记忆模块，它可以学习记忆历史背景，并帮助注意力在利用过去长期信息的同时关注当前背景。
人工智能学家
3评论
新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2
Meta、USC、CMU和UCSD联合提出了革命性新架构Megalodon，能够处理无限上下文，在2万亿token训练任务中，性能超越Llama2-7B实现了非凡的效率。
新智元
79评论
上海大模型公司提出新架构，传统Transformer架构不再是唯一选择｜产业创新动态
转载自：新民科学咖啡馆Science & Technology上海人工智能科技公司MiniMax日前发布并开源新一代01系列模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。
上观新闻
28评论
应对Transformer高成本难题国内首个非Attention机制大模型问世
本报记者李立上海报道百模大战的竞争从“卷应用”到“卷参数”，如今终于卷到了基础架构。日前，上海岩芯数智人工智能科技有限公司发布国内首个非Attention机制的通用自然语言大模型——Yan模型。
中国经营报
5评论
大模型架构TTT问世！斯坦福UCSD5年磨一剑，一夜推翻Transformer
斯坦福UCSD等机构研究者提出的TTT方法，直接替代了注意力机制，语言模型方法从此或将彻底改变。更令人兴奋的是，虽然目前TTT只应用于语言建模，但在未来，它也可以用在长视频上，可谓前景远大。
新智元
40评论
从根本上改变语言模型！全新架构TTT超越Transformer和Mamba，长上下文中性能受限问题或被彻底解决，12人研究团队中一半是华人
每经记者：蔡鼎每经编辑：兰素英从2017年Google Brain团队推出Transformer架构逐步取代长短期记忆（LSTM）等“循环神经网络（RNN）模型”成为首选模型，到后来首个线性时间序列架构Mamba推出又对Transformer架构构成挑战，大语言模型底层架构的迭
每日经济新闻
6评论
颠覆Transformer霸权！Mamba新架构，解决致命bug推理速度暴增5倍
CMU、普林斯顿研究者发布的Mamba，解决了Transformer核心注意力层无法扩展的致命bug，推理速度直接飙升了5倍!
新智元
14评论
GPT-4要来了！一文看尽大型语言模型的过去、现在、未来
智东西3月13日报道，昨日，由中国人民大学高瓴人工智能学院主办的AIGC论坛在北京举行，本次会议以“AIGC:从不存在到存在”为议题，探讨对话生成模型、多媒体内容生成等人工智能前沿技术的发展趋势。
智东西
1评论
免费好用但总是“服务器繁忙”？谷歌 AI 专家：DeepSeek“征服”硅谷后还有哪些隐忧
通过 Google 搜索引擎的 Google Trends 来看，过去 30 天内，在美国 IP 属地的搜索数据中，我选取了三个关键词:DeepSeek、ChatGPT 和 LLaMA。
InfoQ
1评论
117款生成式人工智能服务已备案，大模型底层创新够了吗？
·目前已有117款生成式人工智能服务通过备案。属地以北京、上海、广东为主。其中北京51款，上海24款，广东19款。浙江和江苏分别有7款和2款。·清华大学苏世民书院院长薛澜表示，在AI大模型方面，单从量上讲中国进步很大，但实际上还存在不少问题，因为有不少是用套壳和拼装的方式构建的。
澎湃新闻
专家：人工智能正在进入第三阶段
参考消息网12月19日报道德国《法兰克福汇报》网站12月17日发表题为《我们目前正在进入人工智能第三阶段》的文章，作者是奥地利科学院院士、约翰内斯·开普勒大学教授泽普·霍赫赖特，编译如下：2024年神经信息处理系统会议(NeurIPS)在温哥华落幕。此次会议一票难求。
参考消息
输入长度是GPT-4o的32倍，国产开源大模型突破瓶颈，迎接智能体时代
今天，上海稀宇科技公司（MiniMax）发布并开源了新一代01系列人工智能模型，包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。
上观新闻
17评论
硅谷“船长”霍夫曼分享AI创业公司生存之道
·霍夫曼表示，在人工智能领域，不要和大厂直接竞争，和大厂竞争太难。要获得资本支持，就要寻求最优的人才。要向优秀人才学习，判断技术走向何方，让公司处于独特地位。“在人工智能领域，初创企业不要和大厂直接竞争，和大厂竞争太难。
澎湃新闻
Scaling Law会失效吗？李开复、杨植麟、王小川等五家大模型企业CEO表态
大模型中的第一性原理Scaling Laws（尺度定律）会不会失效？用更多计算和数据是不是就可以让模型增加智慧？人人都在谈论AGI，但AGI的定义到底是什么？
澎湃新闻
7评论
挑战英伟达！00 后哈佛辍学小哥研发史上最快 AI 芯片，比 H100 快 20 倍
最初，Gavin Uberti 和 Chris Zhu 在大学暑期实习时进入了一家芯片公司，接触到底层硬件领域并为之吸引后，便决定从哈佛大学退学，又拉上了 Uberti 的大学室友 Robert Wachen，共同创立了 Etched 公司——据悉，当时 Gavin Uberti 正在攻读数学学士学位和计算机科学硕士学位。
CSDN
109评论

加载更多

transformer要被替代

资讯

Transformer取代者登场！微软、清华推出RetNet：成本低、性能强

谷歌推出Transformer架构的继任者Titans：训练代码也会公开

新架构掀翻Transformer！无限上下文处理，2万亿token碾压Llama 2

上海大模型公司提出新架构，传统Transformer架构不再是唯一选择｜产业创新动态

应对Transformer高成本难题 国内首个非Attention机制大模型问世

大模型架构TTT问世！斯坦福UCSD5年磨一剑， 一夜推翻Transformer

从根本上改变语言模型！全新架构TTT超越Transformer和Mamba，长上下文中性能受限问题或被彻底解决，12人研究团队中一半是华人

颠覆Transformer霸权！Mamba新架构，解决致命bug推理速度暴增5倍

GPT-4要来了！一文看尽大型语言模型的过去、现在、未来

免费好用但总是“服务器繁忙”？谷歌 AI 专家：DeepSeek“征服”硅谷后还有哪些隐忧

117款生成式人工智能服务已备案，大模型底层创新够了吗？

专家：人工智能正在进入第三阶段

输入长度是GPT-4o的32倍，国产开源大模型突破瓶颈，迎接智能体时代

硅谷“船长”霍夫曼分享AI创业公司生存之道

Scaling Law会失效吗？李开复、杨植麟、王小川等五家大模型企业CEO表态

挑战英伟达！00 后哈佛辍学小哥研发史上最快 AI 芯片，比 H100 快 20 倍

视频

如果AI能玩得过人， 那它就该被封杀了。deepseek能帮到双方，那就等于谁都没有帮。#法律咨询 #北京律师 #人工智能 #deepseek

“类人智能”的重大突破！Transformer继任者来啦 谷歌发布Transformer架构的继任者TITANS，Titans模型深度解析：惊喜记忆、遗忘机制全揭秘！#知识科普 #AI科普进行时 #科技

“transformer要被替代”的最新推荐

“transformer要被替代”的相关推荐

猜你喜欢

应对Transformer高成本难题国内首个非Attention机制大模型问世

大模型架构TTT问世！斯坦福UCSD5年磨一剑，一夜推翻Transformer

如果AI能玩得过人，那它就该被封杀了。deepseek能帮到双方，那就等于谁都没有帮。#法律咨询 #北京律师 #人工智能 #deepseek

“类人智能”的重大突破！Transformer继任者来啦谷歌发布Transformer架构的继任者TITANS，Titans模型深度解析：惊喜记忆、遗忘机制全揭秘！#知识科普 #AI科普进行时 #科技