跳转到主要内容
Chinese, Simplified

category

在以下部分中,我们将探索一些最流行和高性能的开源LLM变体,包括Zephyr 7B、OpenOrca Platpus2 13B、MythoMax L2 13B、Vicuna 13B v1.5 16k和OpenHermes 2.5 Mistral 7B。每种型号都有独特的功能和特点,了解这些功能可以帮助您选择最适合您特定需求的型号。大多数流行的开源LLM变体主要用于聊天和角色扮演应用程序,而不是编码或与生产力相关的任务。

OpenOrca Platpus2 13B


OpenOrca-Platypus2-13B是一个大型语言模型,是车库bInd/Platypus2-13B和OpenOrca/OpenOrcaxOpenChat-Preview2-13B的合并。它是一个基于Llama 2 transformer架构的自回归语言模型,专为聊天、文本生成和代码生成而设计。

该模型取得了令人印象深刻的结果,在一些基准测试中优于最初的Llama-65B模型。它使用标准基准进行了评估,如MMLU(5杆)、ARC(25杆)、HellaSwag(10杆)和TruthfulQA(0杆),平均得分为64.56。

OpenOrca-Platypus2-13B在Hugging Face上可用,您可以通过他们的API或命令行界面使用它。要运行该模型,您需要一个具有至少10 GB VRAM的强大GPU,如AMD 6900 XT、RTX 2060 12GB、RTX 3060 12GB或RTX 3080。对于CPU推理(GGML/GUF)格式,您需要大约8GB的可用RAM。

MythoMax L2 13b


MythoMax L2 13B是Gryphe开发并由TheBloke进一步改进的大型语言模型。它是MythoMix的高级变体,是MythoLogic-L2和Huginn使用高度实验性张量型合并技术的合并。这种合并技术涉及到模型的每一层都由几个负责特定函数的张量组成。

由于其独特的性质,该模型精通角色扮演和故事写作。它使用MythoLogic-L2强大的理解能力作为输入,使用Huginn广泛的写作能力作为输出,从而形成了一个擅长这两项任务的模型。

TheBloke提供了模型的多个量化版本,每个版本都有不同的比特大小、文件大小和RAM要求。这些版本的范围从2位到8位,4位和5位版本由于其质量和资源使用的平衡而被推荐用于大多数目的。

该模型与许多第三方UI和库兼容,并且可以与SillyAvern和Oobabooga等不同的前端接口一起使用。然而,性能(以每秒令牌为单位测量)可能会根据硬件和所使用的模型的特定量化版本而显著变化。

与许多内置内容审核或限制的语言模型不同,MythoMax L2 13B完全不受审查,这意味着它可以生成任何类型的内容,并且没有内置机制来防止生成不适当或有害的内容。

Vicuna 13B v1.5 16k


Vicuna 13B v1.5 16k是由LMSYS开发的一个大型语言模型,根据从ShareGPT收集的用户共享对话从Llama 2进行了微调。它是一个基于transformer架构的自回归语言模型,主要用于大型语言模型和聊天机器人的研究。该模型的上下文长度为16k个令牌,这使它能够处理更长的对话,并在更扩展的对话中保持上下文。

Vicuna 13B v1.5 16k已经使用标准基准、人类偏好和LLM作为评判标准进行了评估,显示出了有希望的结果。用户已经报告了该模型的良好性能,其中一个用户在使用4位量化模型的RTX 3090上每秒实现33-35个令牌。然而,一些用户在使用具有特定设置或令牌长度的模型时遇到了重复和输出质量问题。

要运行Vicuna 13B v1.5 16k,您需要一个具有至少10 GB VRAM的强大GPU,如AMD 6900 XT、RTX 2060 12GB、RTX 3060 12GB或RTX 3080。对于CPU推理(GGML/GUF)格式,您需要大约8GB的可用RAM。请注意,模型的性能取决于它运行的硬件,RAM带宽对模型的效率起着至关重要的作用。

Vicuna是大型模型系统组织的创意,为大型语言模型(LLM)的可访问性带来了新的想法。Vicuna被设计为一个开源聊天机器人,它的根源在于使用通过ShareGPT(一种共享OpenAI的GPT-3.5和GPT-4对话的方式)获得的用户生成的对话来微调Llama 2模型。其独特的方法使其能够超越其他型号,如Llama 1和Stanford Alpaca(Llama的微调版本)。

经过70亿和130亿参数的训练,维库纳拥有非凡的流利性和上下文保留能力。该模型旨在通过从3.7亿个代币中提取的微调数据实现类人转换。基于Llama 2,它使用了具有自回归函数的相同变换器模型,并使用了使用线性RoPE缩放的16K上下文长度版本。

对开源的承诺在Vicuna的可访问代码库和权重回购中显而易见。在为非商业用途量身定制的同时,维库纳还提供指导模型,以增强其多功能性。该模型拥有一个充满活力的开发人员和社区参与,1.3版本的下载量超过38.3万次。

就相对性能和评估而言,它在拥抱脸LLM聊天机器人排行榜上名列前茅,拥有令人印象深刻的1096 Arena Elo评分和7.12分(满分10分)的MT Bench评分。在多回合问题处理和对话优化领域,这些分数盖过了其基础模型Llama。

维库纳的实力延伸到了更广泛的Open LLM排行榜上,其最具性能的33B车型通过Eleuther评估获得了65.21的高分。

通过拥抱脸访问维库纳和数据集。

OpenHermes 2.5 Mistral 7B


OpenHermes 2.5 Mistral 7B是由Teknium开发的高级大型语言模型(LLM)。它以希腊神话中众神的使者赫尔墨斯的名字命名,反映了它驾驭人类话语复杂性的目的。

该模型是OpenHermes 2模型的延续,在代码数据集上进行了额外的训练。该培训中的一个有趣发现是,代码指令的良好比例(估计约占总数据集的7-14%)提高了几个非代码基准测试,包括TruthfulQA、AGIEval和GPT4All套件。然而,它确实降低了BigBench的基准分数,但总体净收益显著。

OpenHermes 2.5 Mistral 7B是在1000000个主要由GPT-4生成的数据条目以及来自整个人工智能领域的开放数据集的其他高质量数据上进行训练的。数据经过广泛的过滤并转换为ShareGPT格式,然后由axolotl进一步转换为使用ChatML。

该模型现在使用ChatML作为提示格式,为LLM参与多回合聊天对话提供了一个更结构化的系统。这允许模型利用提示中的系统提示,更有力地参与跨多个回合的指令。

就性能而言,Mistral-7B上的OpenHermes 2.5跑赢了除爱马仕70B外的所有之前的Nous Hermes和Open Hermes车型,并全面超越了当前大多数Mistral微调。

OpenHermes型号的性能在很大程度上取决于它运行的硬件。例如,一个4位130亿参数的OpenHermes模型大约占用7.5GB的RAM。如果你的RAM带宽是50 GBps(DDR4-3200和Ryzen 5 5600X),你每秒可以生成大约6个令牌。但对于每秒11个代币这样的快速速度,你需要更多的带宽——大约90 GBps的DDR5-5600。

该模型有不同的格式,包括GGUF,具有不同的量化、大小和RAM要求。例如,建议用于大多数用途的Q4_K_M版本的型号需要4.37 GB的存储空间和6.87 GB的RAM。

在用户反馈方面,OpenHermes 2.5 Mistral 7B因其能够遵循指令并产生类似人类的反应而受到赞扬。然而,一些用户注意到,它有时会产生冗长、杂乱无章的回复。

Chronos Hermes


Chronos Hermes LLM是一款大型语言车型,以75/25的比例结合了两款基于LLaMa的语言车型Chronos和Nous Hermes。Chronos模型以生成长的描述性输出而闻名,这使得它对讲故事特别有用。Nous Hermes的加入增强了模型的连贯性和遵循指示的能力,在生动的场景设置和接地气的现场反应之间提供了平衡。

Chronos Hermes模型有多种版本和文件格式,包括GGML、GPTQ和HF。该模型的性能在很大程度上取决于其运行的硬件。例如,一个4位130亿参数的Chronos Heres模型需要大约7.5GB的RAM。RAM带宽和模型大小显著影响推理速度。例如,使用50 GBps的RAM带宽(DDR4-3200和Ryzen 5 5600X),您每秒可以生成大约6个令牌。

用户称赞Chronos Hermes 13B型号能够生成具有多种词汇的复杂句子。它以其出色的散文和考虑所有上下文元素的能力而闻名,并严格遵循指示。据报道,尽管该模型是13B LLM,但其性能优于其他30B模型。

该模型有不同的量化方法,每种方法都有不同的大小、RAM要求和质量损失。例如,Q4_K_M版本因其均衡的质量而被推荐,需要7.87 GB的存储空间和10.37 GB的最大RAM。

在用例方面,Chronos Hermes模型擅长聊天、角色扮演和故事写作。它还能够执行简单的推理和编码任务。当处于“指令模式”时,它在SillyAvern等平台上显示出优化的性能。

原文地址
https://klu.ai/blog/open-source-llm-models
本文地址
Tags
 
Article

微信

知识星球

微信公众号

视频号