大模型语料构建开源工具

资讯

Ollama大型语言模型开源框架，搭建开源模型阿里通义千问Qwen2
通义，由通义千问更名而来，是阿里云推出的语言模型，于2023年9月13日正式向公众开放。Ollama是一个功能强大的开源框架，旨在简化在Docker容器中部署和管理大型语言模型的过程。
古怪今人
2评论
中国大模型语料数据联盟开源发布“书生·万卷”多模态语料
继今年7月在2023世界人工智能大会发起成立“中国大模型语料数据联盟”（以下简称“语料数据联盟”），上海人工智能实验室（上海AI实验室）8月14日宣布，联合语料数据联盟成员单位共同开源发布“书生·万卷” 1.0多模态预训练语料。澎湃新闻（www.thepaper.
澎湃新闻
大模型语料数据联盟开源发布高质量多模态语料“书生·万卷”
继今年7月在2023世界人工智能大会发起成立“大模型语料数据联盟”（以下简称“语料数据联盟”），上海人工智能实验室（上海AI实验室）于8月14日宣布，联合中央广播电视总台、人民网、国家气象中心、中国科学技术信息研究所、上海报业集团、上海文广集团等语料数据联盟成员，共同开源发布“书
上观新闻
如何打造AI语料可持续生态？开源筑基强化协同实现共建共享
乘数而上之AI语料新生态·开源筑基继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后，中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布，构建公共数据资源开发利用“1+3”政策规则体系。
南方都市报
探营上海人工智能企业：大模型开源算力平台搭建语料库扩容
上海去年12月印发的人工智能“模塑申城”实施方案指出，到2025年底，力争全市智能算力规模突破100EFLOPS，形成50个左右具有显著成效的行业开放语料库示范应用成果，建设3—5个大模型创新加速孵化器。2月21日至2月23日，2025全球开发者先锋大会将在上海召开。
证券时报
语料“加速器”、AI健康顾问，大模型上下游成果秀技
7月4日开幕的2024世界人工智能大会（WAIC）正在上海举办，现场版“百模大战”连日来上演，在众多基础大模型集中亮相的同时，从在医疗、农业、金融等行业落地的大模型应用，到为大模型获取“语料”扫清堵点的大模型“加速器”，一批大模型上下游创新成果也集中亮相。
京报网
国产大模型最缺高质语料，这个联盟开源两周获18万下载，“投喂”回报是……
2022年11月，ChatGPT横空出世，带来大模型时代。但训练大模型好比培养孩子，唯有高质量的教育，才有高质量的输出。因此，高质量语料库是大模型产业链关键环节。基于此，今年7月6日，在世界人工智能大会开幕式上，由上海人工智能实验室等单位联合发起的中国大模型语料数据联盟宣布成立。
上观新闻
10评论
AI新秀面壁智能开源自研大语言模型推出智能对话应用“露卡”
5月27日，面壁智能联合知乎在“2023中国国际大数据产业博览会”上发布了最新的大语言模型成果。面壁智能自主研发的中文基座大模型CPM-Bee10b全面开源，并推出智能对话类模型产品“面壁露卡”，以及大模型在知乎社区的应用“搜索聚合”即日开启内测。
中国网
最强开源中英双语大模型来了，340亿参数，超越 Llama2-70B等所有
LLAMA2吞吐量估算公式:total tokens / ，根据Llama 2: Open Foundation and Fine-Tuned Chat Models论文:1)7B的total tokens为2.0 T， total GPU hours 为184320，代入公式得3014 Tokens/sec/GPU;
量子位
10评论
书生·浦语2.0大模型开源，能做“心理疏导”、创作《流浪地球3》剧本
今天举行的书生·浦语2.0（InternLM2）发布会暨书生·浦源大模型挑战赛启动仪式上，上海人工智能实验室与商汤科技联合香港中文大学、复旦大学发布了新一代大语言模型书⽣·浦语2.0（InternLM2）。
上观新闻
构建大模型浪潮下的开发者“试验场”
来源：科技日报原标题：构建大模型浪潮下的开发者“试验场”人工智能（AI）应用破圈，踢球、面试、做家务等统统轻松拿捏；在展台前，开发者们簇拥交流；在会场内，机器狗腾转挪移，虚拟现实（VR）眼镜捕捉着AI生成的城市图景……2月21日至23日，2025全球开发者先锋大会在上海举办。
环球网
智源扔出大模型“全家桶”！开源最强中英双语大模型，Aquila2赶超Llama 2
智东西编辑 | luna智东西10月12日报道，今日，智源研究院官方公众号发文，悟道·天鹰Aquila大语言模型系列全面升级到Aquila2，并再添340亿参数（34B）重量级新成员。
智东西
2评论
“荀子”大语言模型：化繁为简通读古今
“秦淮佳丽地，城阙望中迷。柳暗青丝发，花香碧玉衣。歌楼留夜色，画阁敛春晖。细雨轻舟去，双鱼梦泽飞。”这是近日上线的“荀子”古籍大语言模型（以下简称“荀子”）以“金陵”为题，生成的一首古诗。
光明网
多语言语料库“万卷·丝路”发布，AI赋能共建“一带一路”
1月9日，上海人工智能实验室（上海AI实验室）联合大模型语料数据联盟成员发布了“万卷·丝路”多语言预训练语料库，为多语言大模型训练提供高质量数据支撑。随着共建“一带一路”进入高质量发展新阶段，科技创新与合作将在其中发挥更关键的作用。
澎湃新闻

加载更多