【环球时报记者 刘扬 环球时报特约记者 陈山】近年来依托大模型驱动的人工智能(AI)已经渗入现代社会的方方面面,但它的高速发展离不开海量数据的支持,以至于业内将数据形容为推动AI发展的“燃料”和“矿产”。
封面新闻记者 张越熙11月 19 日下午,行业大模型、具身智能、算力、芯片、数据合成等10 项首发成果在乌镇峰会登台路演, 其中 AI 数据合成与生产平台AIGD(AI Generated Data)因聚焦“数据合成”获广泛关注。
21世纪经济报道记者 冯恋阁 福州报道生成式人工智能技术不断发展,训练数据来源成为人们最关注的问题之一。去年11月,国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024—2026年)》提到,要提升数据供给水平、建设高质量语料库和基础科学数据库。
资料图:高质量中文语料资源短缺限制了我国人工智能技术的发展和创新应用。图/IC photo在2024年全国两会上,有委员提出,应重视当前国内人工智能(AI)大模型产业发展中遇到的高质量中文语料数据短缺问题。
启明创投主管合伙人周志峰最近在与美国AI界交流过程中,听闻OpenAI的GPT-5或推迟到2025年底发布,其原因之一,可能是用于大模型训练的13万亿数据依旧不够用。为此,OpenAI不得不勉为其难,将相同数据“回炉”训练。
在科技飞速发展的当下,AI大模型无疑是最耀眼的创新成果之一。它广泛应用于智能客服、智能写作、自动驾驶、医疗影像诊断等众多领域,深度融入人们的生活与工作,为社会带来了前所未有的便利与效益。然而,繁荣背后潜藏危机,AI大模型在训练和应用过程中,面临着一系列复杂的数据法律风险。
在对话框中输入“发现孩子从2岁起发育、语言和动作都明显落后,交流也无法完成”等症状,几秒钟后,人工智能(AI)大模型就会给出“需警惕罕见遗传性疾病(如雷特综合征、天使综合征等)或复杂神经发育障碍”的判断,并给出就诊科室、补充检查等医学建议。
开栏语1994年4月,中国全功能接入互联网,成为国际互联网大家庭中的第77个成员。今年正是中国全功能接入互联网的第30个年头,也是“半甲子”的重要节点。短短30年的发展历程,大潮激荡、风卷云涌,有太多“物”值得铭记。
11月11日,在复旦大学和上海科学智能研究院主办的“2024科学智能创新论坛”上,气候科学大语言模型、“女娲-基因导航大模型”、“女娲-生命流体大模型”和“女娲-生物结构大模型”正式发布。这些大模型有何“绝活”和亮点?为何以“女娲”命名三个生命科学大模型?
2月6日早盘,A股整体小幅低开。上证指数开盘报3226.57点,跌0.09%。深证成指开盘报10142.85点,跌0.21%。创业板指开盘报2059.45点,跌0.17%。科技赛道维持高热度,昨日大涨近9%的信创ETF(562570)低开后走强翻红。
来源:科技日报 刘侠 科技日报记者 滕继濮22日记者获悉,日前四川省互联网信息办公室公布了最新一批生成式人工智能服务备案信息公告。其中,成都它思科技有限公司(以下简称“它思科技”)自主研发的TasiChat大模型成功通过“生成式人工智能服务备案”,获得备案批号。
21世纪经济报道记者白杨 深圳报道今年6月,高盛发布报告《Gen AI: Too much to spend, too little benefit?(生成式AI:投入过多,收益过少?)》,引发了许多人对AI泡沫的担忧。
Alpaca是由Meta的LLaMA 7B微调而来的全新模型,仅用了52k数据,性能约等于GPT-3.5。关键是训练成本奇低,不到600美元。具体花费如下:在8个80GB A100上训练了3个小时,不到100美元;生成数据使用OpenAI的API,500美元。