全球最大的中文语义语料库

资讯

干货｜国内最常用的17个语料库，收藏
该语料库是由国家语言文字工作委员会主持，面向语言文字信息处理、语言文字规范和标准的制定、语言文字的学术研究、语文教育以及语言文字的社会应用，总体规模达1 亿字，语料时间跨度为1919-2002年，收录了人文与社会科学、自然科学及综合三个大类约40个小类的语料。
佩琪翻译
120G！网安协人工智能安全治理专委会发布首批中文语料库
12月20日下午，中国网络空间安全协会人工智能安全治理专业委员会在京召开发布会，面向社会发布用于大模型的首批中文基础语料库。
南方都市报
科技观察｜如何推动大模型开源生态？全球最大面向中英文语义向量模型训练数据集发布
封面新闻记者边雪在全球的大模型竞赛中，中国已占有一席之地，而打造开源生态，推动大模型开源生态，已经成为中国业界的主流选择。9月15日，智源研究院发布面向中英文语义向量模型训练的大规模文本对数据集MTP（massive text pairs）。
封面新闻
全球最大中英文语义向量模型训练数据集发布
北京日报客户端 | 记者孙奇茹全球大模型研发进入如火如荼的爆发期，而激烈的竞争与高昂的成本，也同时推动着开源崛起成为人工智能发展的关键推动力量。智源研究院近日在北京人工智能产业峰会发布面向中英文语义向量模型训练的大规模文本对数据集MTP（massive text pairs）。
北京日报客户端
5评论
智源人工智能研究院副院长兼总工程师林咏华：要让AI“讲中国话”，必须建好中文语料库
林咏华。【访谈】中国的人工智能，理所当然、天经地义地要“讲中国话”。从语言学层面说，它应该理解中国话的丰富、微妙和深刻，不应该再闹出“胸有成竹”就是胸前长出几棵竹子的笑话；而从价值观层面说，中国的人工智能应该为中国人思考、为中国人服务，这才叫作“讲中国话”。怎样才能做到这一点？
长江日报
4评论
谁为AI中文语料建设破局？语料联盟与语料库扮演关键角色
乘数而上之AI语料新生态·行业破局继国家数据局等17部门联合印发《“数据要素x”三年行动计划(2024-2026年)》之后，中央面向公共数据开发利用的首个顶层设计文件《关于加快公共数据资源开发利用的意见》公布，构建公共数据资源开发利用“1+3”政策规则体系。
南方都市报
1评论
AI大模型中文语料库概念股
603533掌阅科技:在文学和阅读领域的版权储备业内领先，内容储备近300TB，这些中文语料可以用于网文行业垂类模型训练。
吾聊股事
9评论
加快高质量人工智能中文语料库建设迫在眉睫
人工智能（AI）语料库是汇集大量来自书籍、学术文章、社交媒体等渠道的文本、图片、音频、视频数据集合，是人工智能领域研究和应用的基础数据。目前，国际主流大模型训练语料库以英文语料为主，中文语料占比不超过5%。中文人工智能语料库匮乏制约了我国大模型性能飞跃和技术创新。
中国电子报
中文语料库概念股活跃，荣信文化涨逾15%
6月26日，中文语料库概念股活跃，荣信文化涨逾15%，掌阅科技、海天瑞声、昆仑万维涨逾4%。
澎湃新闻
三分钟科普｜语料库初探（一）
英国兰卡斯特大学的 Tony McEnery 教授是国际语料库语言学界的代表性学者，他在 Corpus-based Language Studies: An Advanced Resource Book 一书中对语料库有如下定义:A collection of machine-readable， authentic texts which is sampled to be representative of a particular language or language variety。
翻译技术千千问
1评论
技术科普 | BCC汉语语料库：紧跟时代潮流的语料检索平台
BCC语料库总字数约 150 亿字，包括报刊、文学、微博、科技、综合和古汉语等多领域语料，是可以全面反映当今社会语言生活的大规模语料库。
翻译技术千千问
最强开源中英双语大模型来了，340亿参数，超越 Llama2-70B等所有
LLAMA2吞吐量估算公式:total tokens / ，根据Llama 2: Open Foundation and Fine-Tuned Chat Models论文:1)7B的total tokens为2.0 T， total GPU hours 为184320，代入公式得3014 Tokens/sec/GPU;
量子位
10评论
DeepSeek对于科技和更广义经济的含义是什么？（译）-摩根
作为中国版的GPT-4，DeepSeek的参数量级达万亿级别，其在中文语义理解领域达到91.3%的准确率，超越了GPT-4的89.7%。
BeyondReach
1评论
马斯克评价DeepSeek
凌晨3点，特斯拉CEO马斯克的推特突然更新:“当西方还在讨论如何限制中国AI时，DeepSeek的突破性进展正在重新定义游戏规则。” “比GPT-4少用70%算力，却达到92%的基准表现”
云牧-AI新知解码

加载更多

视频