上海人工智能实验室发布多模态语料
本报上海8月15日电(记者沈文敏)近日,上海人工智能实验室宣布联合语
(资料图片)
本报上海8月15日电(记者沈文敏)近日,上海人工智能实验室宣布联合语料数据联盟成员单位,共同开源发布“书生·万卷”1.0多模态预训练语料。
“书生·万卷”1.0集合了语料数据联盟成员丰富的内容积累与上海人工智能实验室的数据处理能力等优势,将为学术界及产业界提供高质量大模型多模态预训练语料。本次开源的数据总量超过2TB,具备多元融合、精细处理、价值对齐、易用高效等四大特征。
本次开源的“书生·万卷”1.0包含文本、图文、视频三部分数据集。其中文本数据来自网页、百科、书籍、专利、教材、考题等,数据总量超过5亿个文档,数据大小超过1TB,覆盖科技、文学、媒体、教育、法律等多个领域;图文数据主要来自公开网页,经处理后形成图文交错文档,总量超过2200万个,数据大小超过140GB(不含图片),覆盖新闻事件、人物、自然景观、社会生活等多个领域;视频数据主要来自中央广播电视总台和上海文广集团,包含新闻、影视等多种类型的节目影像,总计视频文件数超过1000个,数据大小超过900GB,内容覆盖军事、文艺、体育、自然、知识、影像艺术等方面。
《 人民日报 》( 2023年08月16日 12 版)
(责编:岳弘彬、杨光宇)关注公众号:人民网财经关键词:
本报上海8月15日电(记者沈文敏)近日,上海人工智能实验室宣布联合语
为儿子购买婚房后,母亲认为多年来儿子并未尽孝,因此将其告上法庭,要
导读1、1、如果楼主说的是战斗力的话:2、 中国排第一的是藏獒
1、靐拼音:bìng部首:雨 五笔:FLFL释义:〔~~〕雷声。本文到此分享
北京商报讯(记者马换换)8月15日晚间,吉比特(603444)披露的2023年
记者从天津市水务局获悉,当前天津市行洪工作已进入行洪退水、灾后恢复
众安在线(06060)发布公告,预期集团于截至2023年6月30日止六个月将取得未
8月15日,智飞生物通过重庆市慈善总会向河北省洪涝灾区捐赠1000万元,
1、答案:日照烤炉升紫烟。2、遥看羊肉串挂前边。本文就为大家分享到这
当地时间13日下午4点刚过,在美国密歇根州威洛伦机场举行的一场航展上
每天15分钟,练成表达力超强的女生。开始提升自己的表达力吧 提升自
最新美黄金期货价格实时行情查询(2023年8月15日)
证券时报网讯,据中国网,国新办于8月15日上午10时举行新闻发布会,国
北京时间周二(8月15日),本交易日国际金价日内继续维持震荡,目前金价
据国家统计局8月15日消息,7月份,规模以上工业主要能源产品生产均保持
北京时间8月14日13时32分,快舟一号甲运载火箭在西昌卫星发射中心点火
深圳新闻网2023年8月15日讯(深圳特区报记者郑铭)“歌词中反复提及的
8月12日,河南洛阳,小男孩和海豚合影留念时,海豚探出身子慢慢靠近他
0471房产来为大家解答以上的问题。当然英文是什么,当然英文怎么说这个
洪水过后,尚志市公安局投入灾后重建工作,派出所民警与当地社区、一村