-
阿里推出开源AI模型Qwen2.5-Turbo
最近阿里重磅推出开源AI模型Qwen2.5-Turbo,支持100万超长上下文,相当于100万个英文单词或150万个汉字,在多个长文本评测集上的性能表现超越GPT-4。 目前所有用户都可以在阿里云百炼调用Qwen2.5-Turbo API,价格仅为0.3元/1M tokens。以下是Qwen2.5-Turbo的一些优势特色: 1、支持100万Tokens上下文 Qwen2.5-Turbo支持100…- 6
- 0
-
Mistral开源超大多模态模型Pixtral Large
法国人工智能初创公司Mistral近日宣布了一系列重磅的产品更新,不仅推出了全新的多模态模型Pixtral Large,还发布了一个多模态AI助手le Chat,使得文图生成与处理能力达到新的高度。 多模态模型Pixtral Large拥有1240亿参数,支持128K上下文,能理解文本、图表、图像等,也是Mistral.ai自家聊天助手le Chat目前正在使用的视觉模型。此外Pixtral La…- 9
- 0
-
微软开源多功能视觉模型Florence-2
最近微软宣布开源Florence-2,这是一个多功能视觉模型,可提供图像描述、目标检测、视觉定位、图像分割等。Florence-2一共有230M和770M两个版本,在多个知名基准测试中零样本的表现非常出色高于同类模型。 Florence-2使用了一个包含1.26亿张图像和54亿个数据标注的超大数据集FLD-5B,这也是其拥有如此多的视觉功能和强大的泛化能力的原因。同时该数据集使用了自动化图像标注技…- 7
- 0
-
OpenA重磅推出Windows版ChatGPT
最近,OpenAI正式向所有Windows用户推出桌面版ChatGPT。桌面版ChatGPT支持拍照识别和高级语音两大特色模式,用户可使用语音与其进行交流,并通过“Alt+Space”键快速访问ChatGPT,无需多次切换浏览器,就能上传文件、照片/截图,进行聊天问答,让工作和ChatGPT无缝集成。 桌面版ChatGPT的推出对于教育领域帮助巨大,可以用它练口语、解读数学、物理等各种难题,每一个…- 8
- 0
-
阿里在海外推出B2B AI搜索引擎Accio
阿里国际在欧洲科技峰会Web Summit上面向全球商家推出首个B2B AI搜索引擎Accio,这也标志着阿里巴巴正式进入AI搜索领域。 Accio包含“AI驱动的搜索”“AI重构的商品百科页面”“端到端的电商平台”三大模块。其主体为对话框,通过对话式体验,主动理解用户需求,提供一步到位的智能采购服务。目前Accio已覆盖亿级商品,包含阿里国际站的全平台供给及全网更多商品,支持英语、…- 9
- 0
-
阿里重磅开源代码生成模型Qwen2.5-Coder
阿里云通义大模型团队发布并开源通义千问代码模型全系列,本次共4款Qwen2.5-Coder模型,包含0.5B、3B、14B和32B,适用于移动端、PC等不同开发环境。其中32B指令微调模型在代码生成等多项关键能力上超越闭源模型GPT-4o,成为全球最强开源代码模型。 Qwen2.5-Coder系列核心功能 1、代码生成能力 能够根据提示生成高质量、逻辑清晰且符合语法规范的代码片段。支持的编程语言包…- 11
- 0
-
谷歌DeepMind团队开源蛋白质预测模型Alphafold-3
2024年11月11日,谷歌DeepMind团队发布了Alphafold-3的模型代码和权重供学术用途,全球顶级科学期刊《Nature》也进行了重磅推荐,这将对全球科研领域产生重大影响,生物、化学、医药的科学家们可以在本地部署AlphaFold-3,可以极限缩短新药、疫苗等研发进程。 谷歌DeepMind联合创始人兼首席执行官Demis Hassabis能拿下诺贝尔化学奖,靠的就是AlphaFol…- 8
- 0
-
微软开源通用AI代理Magentic-One
本月,微软开源全新通用AI代理Magentic-One,具备五级架构,能够在法律、医疗、金融、教育等多个领域中实现高度自动化的任务处理。这一创新系统的设计旨在帮助用户提高工作效率,简化复杂的日常工作任务。 在教育领域,通过在线浏览,帮助用户自动找到论文中未被引用的新论文,并总结这些论文,然后使用执行器将它们写入到txt文件中;在金融领域,可以通过对大量金融数据进行深度分析和评估,为金融机构制定风险…- 5
- 0
-
腾讯开源超大模型Hunyuan-Large
近日,腾讯宣布推出业界参数规模最大、效果最好的开源MoE大语言模型Hunyuan-Large。Huanyuan-large模型拥有3890亿总参数(389B)和520亿激活参数(52B),具备处理长达256K上下文能力。 据测评结果显示,腾讯Hunyuan-Large模型在CMMLU、MMLU、CEval、MATH等多学科综合评测集以及中英文NLP任务、代码和数学等9大维度全面领先,超过Llama…- 13
- 0
-
字节跳动和中国科学院联合开源InfiMM-WebMath-40B
字节跳动和中国科学院的研究团队于近日发布了InfiMM-WebMath-40B数据集,该数据集专门为数学推理任务设计的大型开源多模态数据集,包含了2400万个网页、8500万个关联图片URL以及400亿个文本标记,帮助开发人员快速提升多模态模型的图文混合推理能力。 研究人员选择CommonCrawl作为InfiMM-WebMath-40B的主要数据来源,因为它可以定期抓取互联网上公开网页内容的巨大…- 17
- 0
-
OpenAI宣布开源SimpleQA新基准
最近,美国开放人工智能研究中心OpenAI宣布开源SimpleQA新基准,旨在为评估语言模型在回答简短事实问题时的有效性和真实性提供一个标准化的工具。 当前的语言模型有时会产生错误输出或未经证实的答案,这一问题被称为“幻觉”。能够生成更准确、更少幻觉的回答的语言模型更为可靠,可以用于更广泛的应用领域。所以SimpleQA对于开发者来说,可以精准测试大模型能否输出正确的答案,并对大模型进行校准然后进…- 9
- 0
-
Meta开源多模态模型Llama 3.2
最近,Meta开源了多模态模型Llama 3.2,此次开源的是1B和3B轻量级模型。Meta使用了带有LoRA适配器的量化感知训练和SpinQuant进行了大幅度性能优化,平均减少了41%的内存使用、减少56%的模型规模,但推理效率却提升了2—4倍。 作为整个系列里最轻量级的模型,Llama3.2 1B和3B适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k…- 18
- 0
-
IBM开源最新企业级大模型Granite 3.0
IBM开源了最新企业级大模型Granite 3.0,该模型包括8B和2B两个微调版本,支持RAG、高级推理、文本/代码生成等,支持12种语言和116种编程语言,接受了12万亿tokens数据训练。 据悉,在AST、BT、安全测试基准中,Granite 3.0 8B超越了Meta最新开源的Llama-3.1 8B。 Granite 3.0的8B和2B版本被设计为企业级AI的“主力”模型,具备更强的稳…- 16
- 0
-
OpenAI发布全新扩散模型sCM
近日OpenAI发布了全新扩散模型方法sCM,仅需两步即可生成高质量图片、3D模型等,速度提升约50倍。该模型以简化的连续时间一致性模型为基础,提供更高的训练稳定性和可扩展性。 sCM扩散模型核心原理是基于一致性模型思路,通过直接将噪声转换为无噪声样本来生成数据。与传统扩散模型不同,一致性模型可找到一条更直接的路径,在单步或少数几步内直接从噪声状态跳跃到数据状态。 sCM扩散模型的特点 1、采用连…- 14
- 0
-
超强文生图模型Stable Diffusion 3.5重磅开源
最近StabilityAI公司宣布正式开源超强文生图模型Stable Diffusion 3.5,共有Medium、Large和Large Turbo三种规模版本,旨在满足科学研究人员、爱好者、初创公司和企业的不同需求。 Stable Diffusion 3.5三种版本介绍 1、Stable Diffusion 3.5 Large Large版本共有80亿个参数,具有卓越的质量和快速响应,是Sta…- 13
- 0
-
上海交大、腾讯联合发布新的微调方法SaRA
为了解决预训练模型微调及应用于实际业务场景中存在的一些问题,上海交大、腾讯联合发布了新的微调方法SaRA。这种微调方法主要是利用那些在预训练过程中由于训练不稳定性而变得看似无效,实则具有学习新知识的潜力的参数。 SaRA微调方法的特点: 1、在图像生成任务方面,传统的微调方法可能无法充分利用模型中的所有参数,导致部分参数在训练过程中未被有效利用;而SaRA方法通过对这些暂时无效的参数进行重新训练,…- 17
- 0
-
阿里国际发布首个大规模商用翻译大模型Marco
最近阿里国际发布了首个大规模商用翻译大模型Marco,支持中、英、日、韩、西、法等15种全球主流语种。目前已在阿里国际AI官网Aidge上发布,面向全球用户开放使用。 在BLEU自动评测指标上,Marco翻译大模型领先于Google翻译、DeepL、GPT-4等市面上的标杆翻译产品。 Marco的主要优势就是由大语言模型驱动,基于语境进行精准翻译。据悉,Marco翻译大模型通过面向多语言的数据筛选…- 20
- 0
-
北大快手联合开源超高清视频模型Pyramid-Flow
近日北大联合快手开源超高清视频模型Pyramid Flow发布,仅通过文本就能生成最多10秒、1280x768分辨率和24帧视频。Pyramid Flow在光影效果、运动动作一致性、视频质量、文本语义还原、色彩搭配等多个方面表现非常出色。 Pyramid-Flow使用A100 GPU在开源数据集上仅训练了20,700小时,其能耗和生成效率比市面上同类开源视频模型好很多,对于没有大量算力的中小企业和…- 20
- 0
-
Meta最新大模型Movie Gen发布
最近Meta公司发布了最新大模型Movie Gen,这是一款能够生成带有声音的高清视频的创新工具,也标志着Meta正式进军文生视频领域。 Movie Gen能够根据文本提示创造长达16秒、每秒16帧的1080P超高清视频,支持73K token上下文,为现有视频配上音频,或对现有视频进行编辑,甚至能够利用照片制作出以真实人物为主题的定制视频。 Movie Gen功能介绍 1、文生视频 Movie …- 16
- 0
-
2024文化和科技融合生态大会
活动时间:2024年10月23日至2024年10月24日 活动地点:南京·牛首山希尔顿酒店 主办单位:文化和科技融合生态大会组委会、南京市文化投资控股集团 联合主办:中国文化产业协会、南京牛首山文化旅游区 支持单位:国家文化科技创新服务联盟 大会背景 随着新一轮科技革命和产业变革的加速推进,5G、云计算、VR、3D视觉传感、人工智能等新技术迭出,为文化内容生产、表现方式和消费场景提供了广阔空间。党…- 38
- 0
-
Meta发布多模态Llama 3.2新模型
最近Meta发布了多模态Llama 3.2新模型,能够同时理解图像和文本。此次一共发布了四个版本,分别为Llama 3.2 1B、Llama 3.2 3B、Llama 3.2 90B和Llama 3.2 11B。 其中Llama 3.2 1B和Llama 3.2 3B是整个系列最轻量级的模型,适合边缘设备和移动应用程序的检索和摘要,可用于个人信息管理和多语言知识检索等,支持128k标记的上下文长度…- 14
- 0
-
字节跳动发布豆包视频生成大模型
最近字节跳动旗下火山引擎发布最新豆包视频生成大模型,分别是PixelDance和Seaweed,正式进军文生视频领域。 豆包视频生成大模型能够轻松实现自然连贯的多拍动作以及多主体复杂交互,生成的视频更加精准、逼真。通过该大模型生成的视频可以精准地遵循复杂提示指令,让不同人物在视频中完成多个动作指令的互动,且互动过程流畅自然,毫无生硬之感。以下就是豆包视频生成大模型的特色之处: 1、细节处理方面 豆…- 8
- 0
-
IBM发布Docling模型 可快速转换PDF文档格式
为了解决PDF文档转换为机器可处理的格式的这一极具挑战性的难题,IBM的研究人员基于PDF解析器、大模型、OCR等多种技术开发了Docling模型。该模型可将PDF文档保留全部格式的情况下快速转换成JSON、Markdown格式。 Docling模型使用了模块化设计方法,将整个PDF文档处理流程拆解为一系列连续的操作步骤,每个步骤都由专门的模块来执行。这不仅提升了执行效率和准确率,还极大增强了模型…- 35
- 0
-
阿里国际发布最新开源多模态模型Ovis
阿里国际AI团队宣布发布多模态大模型Ovis,据悉Ovis在数学推理问答、物体识别、文本提取和复杂任务决策等方面展现出色表现。 Ovis模型创新了架构设计,首次引入将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入。其支持处理极端长宽比的图像,兼容高分辨率图像。覆盖了多方向数据集覆盖,包括Caption、VQA、OCR、Table、Chart等各个多模态数据方…- 20
- 0