梦晨 西风 发自 凹非寺量子位 | 公众号 QbitAI离大谱了,弱智吧登上正经AI论文,还成了最好的中文训练数据??具体来说,使用弱智吧数据训练的大模型,跑分超过百科、知乎、豆瓣、小红书等平台,甚至是研究团队精心挑选的数据集。
“舒服”、“季节”、“差不多”……学生们逐一朗读新学词语,APP自动进行语音评测,实时反馈发音薄弱项;老师根据实时反馈的学生练习情况,借助系统资源快速进行线上作业布置、检查和统计——4月7日上午,在中国石油大学(华东)文法学院的教室里,该校中国语言文学系主任沈壮娟为留学生们带来一
极目新闻记者 曾凌轲3月16日,百度发布了对标ChatGPT的产品——“文心一言”。据介绍,它有文学创作、数学逻辑推算等5大能力。极目新闻拿到了内测邀请码,和文心一言聊了聊,邀请TA以“武汉东湖樱花”为主题作画,甚至拿“老婆和母亲同时掉水里,先救谁”这一世界难题考了考它。
【来源:长江日报】林咏华□ 长江日报记者李煦■ 从“胸有成竹”“麻婆豆腐”的尴尬说起说起中国生成式人工智能的发展历程,人们不该忘记那尴尬、遗憾的一幕。在GPT第一波大潮拍岸而来的时候,一批中国GPT也随之起舞。
他的团队在题为“COIG-CQIA: Quality is All You Need for Chinese Instruction Fine-tuning”的研究中,使用“弱智吧标题+GPT-4回答”微调后的大模型评估结果,超过了他们收集的其他有监督微调指令集数据。
目前成熟的生成式AI模型大多基于英文数据进行训练,在国内各行各业的应用环境中,中文大模型显然更“接地气”。通过中文或英文数据训练出来的大模型,差异比较大,中文的上下文理解和语义的多解性要大于英文。大模型首先要理解人类意图,因此对于国内用户来说,用中文去训练的大模型比较适用。
AI语料新生态❷行业破局 “当前全球通用的50亿大模型数据训练集中,国内语料数据文本量仅占全球的1.3%”,国内AI大模型激战正酣,却面临高质量中文语料枯竭的困境。 如何破解?“语料机构”“语料联盟”“算料联盟”等越来越扮演着关键角色。
近日,北京语言大学自主研发的“国际中文智慧教学系统”第4版经升级后上线,通过人工智能为留学生提供个性化的汉语教学方案。作为我国首个中文教育智慧平台,该系统已在中央财经大学、北京理工大学、哈尔滨工业大学等高校应用,来自60多个国家和地区的6000余名留学生有了AI助教。
新京报贝壳财经讯(记者罗亦丹)11月25日消息,在最新的中文语言理解领域权威榜单CLUE中,来自阿里达摩院的AI模型“通义AliceMind”以86.685的总分成绩创造了新纪录,这是该榜单诞生近三年以来,AI首次超越人类成绩(86.
人工智能的发展路径从辅助人、替代人,终极形态可能是成为“人”。未来随着人工智能商业化加速落地,将催生上游新能源电力增量投资,中游带动智能算力基础设施补短板,而下游针对垂直领域训练的小模型可能会更快发挥商业价值。
资料图:高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
色彩搭配和谐、构图得当有冲击力,一眼看过去大部分的人也许都会认为它们是出自哪位技艺成熟的画家之手,然而以上图片其实均截取自 YouTuber Quick-Eyed Sky 的 Disco Diffusion 三分钟展示视频。