钢铁雄心4 紧张度代码(钢铁雄心4紧张度代码)
全面超越LLaMA2,月下载量超三百万,国产大模型如何成为新晋顶流?
机器之心报道
作者:蛋酱
回想两个月前,LLaMA2 的开源,曾以一己之力改变了大模型领域的竞争格局。
相比于今年 2 月推出的第一代 LLaMA,LLaMA2 在推理、编码、精通性和知识测试等任务中都实现了性能的大幅提升,甚至可以在某些数据集上接近 GPT-3.5。由于其强大的性能和开源的特质,LLaMA2 在发布后的一周内就接收到了超过 15 万次的下载请求,并吸引了大量开发者进行「二创」。
但大模型技术的进化速度经常超乎预期。一觉醒来,发现大模型的性能上限被再次刷新,这在最近是经常发生的事情。
近期就有一位「选手」,在开源大模型社区的关注度不断攀升,逐渐超越 LLaMA2 成为了新晋顶流。
在 Huggingface 社区,「Baichuan」系列是过去一个月下载量全球最高的开源大模型,它来自一家成立仅五个月的中国公司 —— 百川智能。
在 ChatGPT 爆火之初,王小川即宣布入局大模型,并迅速组建起大模型技术团队。自成立以来,这家公司保持了平均每月更新一款大模型的惊人节奏:6 月 15 日,发布 Baichuan-7B;7 月 11 日,发布 Baichuan-13B;这两款免费可商用的中文开源大模型之后,8 月 8 日,搜索增强大模型 Baichuan-53B 面世。
9 月 6 日,百川智能又一次宣布了重量级更新:Baichuan2-7B、Baichuan2-13B 的 Base 和 Chat 版本同时开源,并提供了 Chat 版本的 4bits 量化,且均为免费可商用。
平均 28 天发布一款大模型,这是国产开源大模型的迭代速度,也代表了中国开源力量迎头赶上的决心。
迄今,Baichuan-7B 和 Baichuan-13B 这两款开源大模型目前的下载量已经突破 500 万,其中近一个月的下载量就有 300 多万。除开发者之外,也有 200 多家企业申请部署开源大模型。
未来的大模型竞争格局中,谁能占据核心地位仍是未知。但不难想象的是,既已实现对 LLaMA2 的超越,再加上惊人的迭代速度,国产开源大模型的黄金时代应该不远了。
Baichuan 2 下载地址:https://github/baichuan-inc/Baichuan2
国产开源大模型,全面赶超 LLaMA2
让整个领域感到惊讶的不只是「Baichuan」系列的更新速度,还有其迭代后的模型能力。
曾曝光 GPT-4 技术细节的软件开发者、Kaggle大神、 Deep trading 创始人 Yam Peleg 通读了 Baichuan 2 的技术报告,直言这是一次相当重大的改进。
他特别提到一点:「就像 GPT-4 的报告一样,团队在训练开始前就预测了最终损失。为此,他们训练了从 1 千万到 3 亿的小模型,并根据这些模型的损失预测了大模型的最终损失。据我所知,这是首个能够复制这一程序的开源模型。」
图片来源:https://twitter/Yampeleg/status/1702095404802637874?s=19
基于上一代 Baichuan 大模型,Baichuan 2 保留了良好的生成与创作能力、流畅的多轮对话能力以及部署门槛较低等众多特性,同时实现了数学、代码、安全、逻辑推理、语义理解等能力的大幅提升。
根据公开的 Baichuan 2 技术报告,Baichuan2-7B-Base 和 Baichuan2-13B-Base 均基于 2.6 万亿高质量多语言数据进行训练,数据来源十分广泛:
训练语料库的构成。
同时,Baichuan 2 建立了一个可在数小时内对万亿规模的数据进行聚类和重复数据删除的系统,提升了预训练中数据采样的质量。
此外,Tokenizer 需要平衡提高推理效率的高压缩率以及适当大小的词汇量,以确保每个词嵌入的充分训练。在 Baichuan 2 的训练中,词汇量从 Baichuan1 的 64,000 个扩大到了 125,696 个。
这些方法,最终使得 Baichuan 2 在计算效率和模型性能之间取得了更好的平衡。
在 MMLU、CMMLU、G8K 等多项权威基准上,Baichuan 2 均以绝对优势领先 LLaMA2。
Baichuan 2 性能大幅度优于 LLaMA2 等同尺寸模型竞品。
如表 5 所示,在法律领域,Baichuan 2-7B-Base 超越了 GPT-3.5 Turbo、ChatGLM 2-6B 和 LLaMA 2-7B 等模型,仅次于 GPT-4,与 Baichuan1-7B 相比提高了近 30%;在医疗领域,Baichuan2-7B-Base 的表现明显优于 ChatGLM 2-6B 和 LLaMA 2-7B,与 Baichuan1-7B 相比也有显著提高。同样,在这两个领域,Baichuan2-13B-Base 则超越了同尺寸所有模型。
如表 6 所示,在数学领域,Baichuan2-7B Base 超越了 LLaMA 2-7B 等模型,Baichuan2-13B-Base 超越了所有相同规模的模型,接近 GPT-3.5 Turbo 的水平;在代码领域,Baichuan2-7B Base 超越了同等规模的 ChatGLM 2-6B 等模型,Baichuan2-13B-Base 优于 LLaMA 2- 13B 和 XVERSE-13B 等模型。
尽管 GPT-4 在多语言领域仍占主导地位,但开源模型正紧追不舍。如表 7 所示,在多语言场景的任务评估中,Baichuan2-7B-Base 在所有七项任务中都超过了所有同等规模的模型;Baichuan 2-13B 在四项任务中的表现优于相同规模的模型,其中在 zh-en 和 zh-ja 任务上超过了 GPT3.5 Turbo,达到了 GPT-4 的水平。
更适合中国开发者的国产开源大模型
对于中国的众多开发者来说,Baichuan 2 的开源是一个令人振奋的好消息。
这就要提到 LLaMA2 的「开源争议」。Meta 官宣的第二天,便有开发者抛出质疑:LLaMA2 不属于真正的「开源」,所谓的「可商用协议」本质上附加了许多限制。首先,Llama 2 的语料库以英文(89.7%)为主,中文仅占据其中 0.13%,因此在中文场景任务中并不占优势。其次,Llama 2 在协议中明确禁止非英文场景的商用。
Baichuan 2 的能力完全可以与 LLaMA2 相媲美,甚至超越。而且在「免费商用」这件事上,Baichuan 2 实践得更加彻底,弥补了中国开源生态的短板,让中国开发者用上了对中文场景更友好的开源大模型。Baichuan2-7B 和 Baichuan2-13B 不仅对学术研究完全开放,企业也仅需邮件申请获得官方商用许可后,即可免费商用。
更具备长期价值的一点是,这次彻底的、完全的开源,能够帮助大模型学术机构、开发者和企业用户更深入的了解 Baichuan 2 的训练过程,推动社区对大模型学术层面的深入研究。
从理论研究的角度,大模型训练包含海量高质量数据获取、大规模训练集群稳定训练、模型算法调优等多个环节。每个环节都需要大量人才、算力等资源的投入。由于大部分开源模型只能做到对外公开自身模型权重,却很少提及训练细节,所以企业、研究机构、开发者们只能自己摸索着训练模型,或是在开源模型的基础上做有限的微调,很难深入。LLaMA2 也是一样,最受关注的「数据处理」层面恰恰没有开源,因此参考意义有限。
但在总共 28 页的 Baichuan 2 技术报告中,团队详细介绍了 Baichuan 2 训练的全过程,包括数据处理、模型结构优化、Scaling law、过程指标等关键细节。
本着协作和持续改进的精神,百川智能还公布了 3000 亿到 2.6 万亿 Token 模型训练的 checkponits,供社区研究使用:
就当前的开源生态来说,这种公布训练模型过程的方式称得上「首次」。
这些技术细节的开放,对于科研机构研究大模型训练过程、模型继续训练和模型的价值观对齐等极具价值,将极大推动国内大模型的科研进展。
「开源」与「闭源」:相互竞争,相互促进
在这场由 ChatGPT 打响的大模型竞赛中,「开源」与「闭源」之争已经上演。正如今年 5 月的一篇「谷歌内部文章」所说,「谷歌、OpenAI 没有护城河」,由一两家科技公司构建和维护的技术高墙总会被打破,开源的力量将使得大模型技术真正易用和可用。
而且这种竞争态势将长期存在:今后的大模型格局中,「开源」与「闭源」最终会并驾齐驱,如同手机操作系统领域的 iOS 和 Android。不断刷新的模型性能、率先实现「免费商用」、更加全面的社区生态,都是开源大模型能获得更多开发者支持的优势所在。
纵观当前的开源大模型,达到 GPT3.5 的水平已经不再是难题,大家正在探索的重点已经变为如何实现 GPT-4 的水准。比如,前段时间 1800 亿参数的阿联酋大模型 Falcon 发布,迅速在 Hugging Face 开源大模型榜单上以 68.74 分超过 LLaMA 2 位列第一;传闻中,Meta 也在加快开发新的大语言模型,各项能力对标 GPT-4,预计明年就会推出。
开源大模型的不断进步、相互促进,对整个行业的影响是积极的。未来,开发者和中小企业可以以低成本调用先进的大模型,而不必被高昂的研发、采购成本拒之门外。
百川智能自成立之初,就将通过开源方式助力中国大模型生态繁荣作为公司的重要发展方向,并在激烈的竞争态势中确立了自己的目标:2023 年内还将发布千亿参数大模型,并在明年一季度推出 「超级应用」。
同行投来羡慕的眼光:「嫉妒Falcon和Baichuan背后的团队……不是因为资金或算力,就只因为团队本身……」
基于行业领先的基础大模型研发和创新能力,百川智能收获了行业的高度认可:最新开源的两款 Baichuan 2 大模型已经得到了上下游企业的积极响应,腾讯云、阿里云、火山方舟、华为、联发科等众多知名企业均与百川智能达成了合作。
前段时间,首批大模型公众服务牌照正式落地。在今年创立的大模型公司中,百川智能也是唯一一家通过《生成式人工智能服务管理暂行办法》备案,可以正式面向公众提供服务的企业。
而 Baichuan 系列大模型的开源,将汇聚社区中更多的创新力量,加速技术的迭代与应用的拓展。
技术的进步只是第一阶段,未来,大模型还需要走到产业中去,与各行各业的业务实践相结合。如何让大模型的能力与业务场景更好结合,同样是当下每一家大模型提供商的重点课题,也需要科技公司、学术机构和开发者共同创造。
童年阴影恐怖电影做成游戏?公测一天玩家破百万,然而外挂太离谱
大家好,这里是正惊游戏,我是你们爱玩新游的小弟。
不知道各位同学有没有看过《德州电锯杀人狂》这部电影,这部以血腥恐怖著称的电影反正当年小弟看了之后正是几宿没睡着,只差没有尿裤子了。
曾经开发《13号星期五》的Gun Interactive近期根据《德州电锯杀人狂》改编的游戏正式上线,游戏公测一天内的累计玩家数量就突破了一百万,在各大直播圈中也引起了热潮,废话不多说小弟这就带大家先去瞅瞅吧。
《德州电锯杀人狂》游戏采用类似杀鸡的4V3非对称对抗模式,4名幸存者需要在3名屠夫的追捕下逃生。
幸存者一共能从五个角色中进行选择,不同的角色拥有特殊的专属技能与五维属性。例如利兰拥有高力量属性与冲撞技能,小弟选择屠夫时经常被利兰撞得找不着北,咱这脆弱的小身板让小弟十分怀疑究竟谁才是真正的屠夫。
玩过这类似游戏的同学们想必都知道游戏中少不了修各种机关的桥段,开锁妹康妮天生有着快速的交互速度,开锁以及和各种机关互动时候都会比别人要快上不少,不过由于太脆,就像小弟这样萌新还是别选来坑队友了。
屠夫方面也有职业的选择,每个屠夫技能也有所不同,例如每局游戏强制必选的皮脸手持电锯,攻击力最高,可以破坏各种捷径,不过由于太笨前期经常被遛狗,基本上只能作为工具人。
除了不同职业外,游戏种每个角色也用着专属技能树,玩的越多各种技能越强,老手与新手之间除了经验之外,角色属性上也会天然存在不少差距,肝得越狠你就越强。
目前游戏中一共就三张图,每张地图基本分布都很相似,主要建筑在中央,围绕中心的周围有着一些逃生路线。玩家收集各种道具打开机关后即可逃生,期间少不了去找各种道具、开锁以及修发电机等传统艺能了,基本上都是老生常谈的玩意。
幸存者需要猥琐发育,避免发出噪音,躲避地图中的诸如骨架与鸡等会发出声音的玩意:
《德州电锯杀人狂》中的爷爷是区别于其他非对称游戏的最大不同之处,屠夫通过收集血液喂养爷爷就会提升等级,升级后的爷爷会扫描到全图移动中的幸存者,妥妥的一分耕耘一分收获。
爷爷升级到满级后持续显示全图幸存者位置,基本上到这时候幸存者阵营就没得玩了,所以玩家除了跑路也要干扰屠夫收集血液或者时不时捅一刀爷爷来降低他的等级。
对电影较高的还原度以及紧张刺激的场面让《德州电锯杀人狂》成为了玩家们的新宠,再加上爷爷这一特殊机制让非对称对抗的老玩家们也有了不少新鲜感。
不过游戏中存在的大量问题却让买了游戏的同学们却十分痛苦。其中最严重的当属PVP中大伙最痛恨的外挂了,游戏进程中不仅没有举报按钮,外挂更是一个比一个更加离谱。
飞天遁地都只是基本操作,黑哥幸存者自带武器大师无限闪避的E技能,无敌加身之下甚至能反杀屠夫。
当然屠夫之中也不乏狠人,把幸存者杀挂机之后,外挂集体出地图看看风景应该是很合理的吧?这个时候当然也不能把NPC爷爷给拉下,让老爷子也出来晒晒太阳,不然发霉了:
由于过于离谱的外挂问题再加上网络波动等DEBUFF的加成,游戏好评率跌到了79%,希望这些问题在未来更新能够解决吧。
最后小弟给你讲:虽然游戏有着不少问题,《德州电锯杀人狂》这几天让小弟确实感受到了和好兄弟开黑的乐趣,不过考虑到目前国区136元的售价,小弟还是推荐等游戏更新几波完善一些后再入坑。
一个正惊问题:你看过《德州电锯杀人狂》电影吗?
西安本轮疫情防控难点是什么?疫情形势如何?专家解读
据陕西省卫健委今天(1月6日)通报:1月5日0—24时,新增报告本土确诊病例63例,均在西安市,其中隔离管控发现57例、封控区筛查发现3例、管控区筛查发现2例、重点人群筛查发现1例;治愈出院39例。自2021年12月9日以来,陕西全省累计报告本土确诊病例1883例,其中西安市1856例,占到全省本土确诊病例的绝大部分。1月6日,总台记者采访了国务院联防联控机制综合组陕西工作组流调溯源组专家、中国疾控中心卫生应急中心主任李群。
本轮疫情具有哪些特点
问题一:如何看待西安本轮疫情?有哪些特点?
国务院联防联控机制综合组陕西工作组流调溯源组专家、中国疾控中心卫生应急中心主任 李群:这次疫情是我国自武汉以来,在一个超大城市所发生的病例数最多、规模最大的一次本土疫情,病例数已经达到1800例以上,这次疫情也呈现了点多、面广、社区传播和聚集性疫情多种形式并发,上升势头凶猛的特点。在西安市内有13个行政区和功能区都发生了疫情,而且导致了省外省内多个城市疫情的发生,连续7天病例数在150例以上,这种速度和规模是少见的。
这次疫情是由境外输入的德尔塔变异株所引起。这种病毒感染人以后,病毒载量大、传染性强、传播速度快,控制本身就非常棘手。
问题二:西安本轮疫情防控的难点是什么?
国务院联防联控机制综合组陕西工作组流调溯源组专家、中国疾控中心卫生应急中心主任 李群:西安市是一个超大城市,人口基数巨大、人口密度高,西安又是我国重要的交通枢纽,城市内的交通也非常发达,人口流动性强,学校、超市,包括批发市场人口聚集性程度高,城市内的小区类型多,差异化大;这个季节本身又是冬季,人们多在室内,封闭性场所待的时间比较长,这些都是非常有利于呼吸道传染病传播的因素。反过来就是我们控制呼吸道传染病的不利之处。
我们在做好本土疫情的防控同时,又要防止疫情外输。既要控制疫情,又要保证城市生命线,做好市民的各项保障,其控制工作的复杂程度和难度是非常大的。
问题三:西安本轮疫情防控中开展多规模核酸筛查的作用是什么?
国务院联防联控机制综合组陕西工作组流调溯源组专家、中国疾控中心卫生应急中心主任 李群:这次疫情发生以后,特别是(2021年)12月23日在(西安)全市采取严格的管控措施以来,西安市采取了多规模的核酸筛查,在封控区、管控区定期采取规模(化)的核酸筛查。
开展大规模核酸筛查,特别是在风险地区开展多轮次的筛查,对疫情防控工作有三个方面的作用:第一是有利于我们早期快速发现传染源并加以管控。德尔塔变异株它的传染性强,早期的症状不明显、不典型,很难通过感染者自我发现,如果我们要等到感染者出现症状以后,去医院看病,又会拖一段时间,那么在这个时间里,又可能造成传播。那么尽早、快速、准确发现传染源,开展核酸筛查,是我们落实“四早”的最有效措施。
第二有利于实施精准防控,开展核酸筛查,可以使我们尽快发现不同地区病例数量及其变化,有利于我们研判疫情形势,包括我们研判措施的实施效果,可以有针对性地动态调整我们的防控措施。第三,开展核酸筛查,可以让市民及早了解自己和亲人的健康状况,可以避免盲目担忧和紧张,也有利于他们积极参与到我们的防控工作当中去。
问题四:目前西安新增本土病例的逐渐下降是否意味着西安本轮疫情形势在不断向好?
国务院联防联控机制综合组陕西工作组流调溯源组专家、中国疾控中心卫生应急中心主任 李群:随着这段时间的不懈努力,各项防控措施的效果正在不断呈现。进入2022年新年以来,每日报告病例数正在逐步下降,疫情形势不断向好。虽然今后还仍然有可能发生病例,但是疫情大规模反弹的风险已经基本控制,防控工作取得了阶段性成果。
虽然现在的工作已初显成效,但是这段时间的工作仍十分关键,我们要让来之不易的形势巩固稳定下来,直至最终彻底控制疫情,所以大家还要耐心一点。西安市也会根据各个地区的疫情特点,对于那些已经有一段时间没有发生疫情,各种风险已经有效控制的地区,逐步解封,恢复社会生产秩序,直至西安市全域解封。
西安疫情详细解读
从去年(2021年)12月23日西安对全市采取封闭式管理到今天(2022年1月6日)已经15天。2022年1月6日,总台记者采访了国务院联防联控机制综合组陕西工作组流调溯源组组长,国家卫生健康委疾控局副局长、一级巡视员雷正龙。
问题一:西安本轮疫情采取严格管控措施的必要性和合理性是什么?
国务院联防联控机制综合组陕西工作组流调溯源组组长 国家卫生健康委疾控局副局长、一级巡视员 雷正龙:(2021年)12月23日,西安市实行严格管控,是在充分根据疫情的形势作出研判的基础上作出的(决定),目的就是防止疫情的外溢和内部扩散。
经专家评判,本次疫情与(2021年)12月4日境外航班输入病例关联,到了12月下旬,西安市已有10个区27个街道出现病例,况且有些病例来源不明;多个街道、小区出现聚集性疫情。说明已经发生社区传播并出现逐步扩散的趋势,而且面临着发生更大范围,更大规模疫情的风险。同时,几个省已经报告发现西安外溢病例。
采取严格管控措施,目的是内防蔓延,外防溢出,是必需和科学的措施。
问题二:西安本轮疫情发生后,国家和省市层面采取了哪些措施?
国务院联防联控机制综合组陕西工作组流调溯源组组长 国家卫生健康委疾控局副局长、一级巡视员 雷正龙:本轮西安疫情发生以后,、国务院高度重视,十分关心西安人民的生命健康安全,国家卫生健康委、国家疾控局按照、国务院的部署,第一时间派出工作组,指导西安疫情防控工作。
一是派出核酸检测、流调、医疗救治工作(队伍)到当地帮助处置疫情。同时,指导当地落实社区防控和集中隔离等工作;二是国家专家和地方干部下沉到基层,靠前指挥、一线调度,使“最先一公里”和“最后一公里”进行有效衔接;三是发挥流调和卫生监督专业队伍的作用,国家专家与地方专家进行混合作战,融为一体。流调作用就是把“风险人群”找到,卫生监督队伍就是确保把“风险人群管好管住”。
在疫情防控过程中,防控措施也是随着疫情形势的变化进行调整。德尔塔株传播速度快,要求我们工作的速度更快,要跑在病毒前面。所以说我们在有些重点地区,开展多频次的核酸检测,开展“敲门行动”,摸清底数,目的就是尽快把社会层面的传染源找到。
在疫情快速上升期,针对疫情已经发生一定规模的社区传播和存在外溢病例的情况下,在已划定三百多个封控区和管控区的基础上,实施全市的严格管控。
在高峰平台期,我们进一步强化“不出门、不聚集”,防控措施进一步加强;在疫情出现下降时,我们进一步针对重点地区、重点人群实行精准防控,确保实现早日清零。
问题三:西安为何要把“社会面清零”作为首要目标?“社会面清零”和国内疫情控制采取的动态清零有何关系?国务院联防联控机制综合组陕西工作组流调溯源组组长 国家卫生健康委疾控局副局长、一级巡视员 雷正龙:动态清零是中国控制疫情的法宝,坚持人民至上、生命至上是我们一切防控举措的根本出发点和落脚点。
“社会面清零”是动态清零的一个过程,先要实现“社会面清零”,才能实现全面清零。
西安本轮疫情情况比较复杂,且规模性较大,一个重要的特点就是疫情发现的时候已经出现社区传播,况且有较多的隐匿性传播。
针对这种情况,我们首要的任务是将散落在社区层面的隐匿病例找出来,管控起来;同时结合流行病学调查尽快排查到密接和次密接,送到集中隔离点,彻底阻断社区传播,控制住风险,才能实现“社会面清零”,最终实现全面清零。
“社会面清零”代表着疫情在社区传播的风险得到控制和消除,即使在封控区或集中隔离点出现病例,也不会对整个疫情态势造成影响。“社会面清零”后,目前的管控状态会逐步调整、解除,也逐步恢复人民群众的正常生活秩序。
当然,要实现早日清零,离不开广大西安市民的理解和支持,在这次疫情防控中,我们深深感受到了西安市民不畏艰难、万众一心、众志成城的精神。
(总台记者 杨永青 刘海涛)
来源:央视新闻客户端
声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送至邮件举报,一经查实,本站将立刻删除。转载务必注明出处:http://www.hixs.net/article/20231209/169625180969978.html