使用评价指标工具

使用,评价,指标,工具 · 浏览次数 : 29

小编点评

评价指标的使用方法 评价指标的accuracy和f1值是评估指标的常用方法,用于计算评估指标的值。 accuracy值是评估指标的准确值,表示评估指标的正确值。 f1值是评估指标的 f1值,表示评估指标的正确值和错误值的比例。 f1值的值越高,表示评估指标的正确值和错误值的比例越高。 f1 值的值介于 0.5 和 1.0,分别表示评估指标的正确值和错误值的比例。 f1 值的计算方法如下: f1 = 2 * accuracy - f1 其中: accuracy 是评估指标的准确值 f1 是评估指标的 f1 值 f1 值的计算方法如下: f1 = (2 * accuracy - f1)

正文

评估一个训练好的模型需要评估指标,比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标,而HuggingFace提供了统一的评价指标工具。

1.列出可用的评价指标
通过list_metrics()函数列出可用的评价指标:

def list_metric_test():
    # 第4章/列出可用的评价指标
    from datasets import list_metrics
    metrics_list = list_metrics()
    print(len(metrics_list), metrics_list[:5])

输出结果如下所示:

157 ['accuracy''bertscore''bleu''bleurt''brier_score']

可见目前包含157个评价指标,并且输出了前5个评价指标。

2.加载一个评价指标
通过load_metric()加载评价指标,需要说明的是有的评价指标和对应的数据集配套使用,这里以glue数据集的mrpc子集为例:

def load_metric_test():
    # 第4章/加载评价指标
    from datasets import load_metric
    metric = load_metric(path="accuracy"#加载accuracy指标
    print(metric)

    # 第4章/加载一个评价指标
    from datasets import load_metric
    metric = load_metric(path='glue', config_name='mrpc'#加载glue数据集中的mrpc子集
    print(metric)

3.获取评价指标的使用说明
评价指标的inputs_description属性描述了评价指标的使用方法,以及评价指标的使用方法如下所示:

def load_metric_description_test():
    # 第4章/加载一个评价指标
    from datasets import load_metric
    glue_metric = load_metric('glue''mrpc')  # 加载glue数据集中的mrpc子集
    print(glue_metric.inputs_description)

    references = [0, 1]
    predictions = [0, 1]
    results = glue_metric.compute(predictions=predictions, references=references)
    print(results)  # {'accuracy': 1.0, 'f1': 1.0}

输出结果如下所示:

Compute GLUE evaluation metric associated to each GLUE dataset.
Args:
    predictions: list of predictions to score.
        Each translation should be tokenized into a list of tokens.
    references: list of lists of references for each translation.
        Each reference should be tokenized into a list of tokens.
Returns: depending on the GLUE subset, one or several of:
    "accuracy": Accuracy
    "f1": F1 score
    "pearson": Pearson Correlation
    "spearmanr": Spearman Correlation
    "matthews_correlation": Matthew Correlation
Examples:

    >>> glue_metric = datasets.load_metric('glue''sst2')  # 'sst2' or any of ["mnli", "mnli_mismatched", "mnli_matched", "qnli", "rte", "wnli", "hans"]
    >>> references = [0, 1]
    >>> predictions = [0, 1]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print(results)
    {'accuracy': 1.0}

    >>> glue_metric = datasets.load_metric('glue''mrpc')  # 'mrpc' or 'qqp'
    >>> references = [0, 1]
    >>> predictions = [0, 1]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print(results)
    {'accuracy': 1.0, 'f1': 1.0}

    >>> glue_metric = datasets.load_metric('glue''stsb')
    >>> references = [0., 1., 2., 3., 4., 5.]
    >>> predictions = [0., 1., 2., 3., 4., 5.]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print({"pearson": round(results["pearson"], 2), "spearmanr": round(results["spearmanr"], 2)})
    {'pearson': 1.0, 'spearmanr': 1.0}

    >>> glue_metric = datasets.load_metric('glue''cola')
    >>> references = [0, 1]
    >>> predictions = [0, 1]
    >>> results = glue_metric.compute(predictions=predictions, references=references)
    >>> print(results)
    {'matthews_correlation': 1.0}

{'accuracy': 1.0, 'f1': 1.0}

首先描述了评价指标的使用方法,然后计算评价指标accuracy和f1。

与使用评价指标工具相似的内容:

使用评价指标工具

评估一个训练好的模型需要评估指标,比如正确率、查准率、查全率、F1值等。当然不同的任务类型有着不同的评估指标,而HuggingFace提供了统一的评价指标工具。 1.列出可用的评价指标 通过list_metrics()函数列出可用的评价指标: def list_metric_test(): # 第4

商业智能BI工具评估指南

本文由葡萄城技术团队于博客园原创并首发 转载请注明出处:葡萄城官网,葡萄城为开发者提供专业的开发工具、解决方案和服务,赋能开发者。 随着行业软件业务功能的不断完善,同行业软件日趋趋同,竞争更加白热化。同时,随着企业数字化转型的深入,企业自身对数据的使用需求越来越强烈。在用户的业务处理过程中,在业务软

Hive怎么调整优化Tez引擎的查询?在Tez上优化Hive查询的指南

在Tez上优化Hive查询无法采用一刀切的方法。查询性能取决于数据的大小、文件类型、查询设计和查询模式。在性能测试过程中,应评估和验证配置参数及任何SQL修改。建议在工作负载的性能测试过程中一次只进行一项更改,并最好在开发环境中评估调优更改的影响,然后再在生产环境中使用。

循环神经网络RNN完全解析:从基础理论到PyTorch实战

>在本文中,我们深入探讨了循环神经网络(RNN)及其高级变体,包括长短时记忆网络(LSTM)、门控循环单元(GRU)和双向循环神经网络(Bi-RNN)。文章详细介绍了RNN的基本概念、工作原理和应用场景,同时提供了使用PyTorch构建、训练和评估RNN模型的完整代码指南。 > 作者 TechLea

乌卡时代的云成本管理:从0到1了解FinOps

在上一篇文章中,我们介绍了企业云业务的成本构成以及目前面临的成本困境,以及当前企业逐步转向 FinOps 的行业趋势,这篇文章我们将详细聊聊 FinOps,包括概念、重要性以及成熟度评价指标。 随着对云服务和供应商的使用越来越多,可能会出现复杂性和管理上的挑战,导致成本超支和其他问题。曾在2018年

算法金 | 必会的机器学习评估指标

构建机器学习模型的关键步骤是检查其性能,这是通过使用验证指标来完成的。 选择正确的验证指标就像选择一副水晶球:它使我们能够以清晰的视野看到模型的性能。 在本指南中,我们将探讨分类和回归的基本指标和有效评估模型的知识。 学习何时使用每个指标、优点和缺点以及如何在 Python 中实现它们 1 分类指标

[转帖]calico的两种网络模式BGP和IP-IP性能分析

目前使用较多的网络插件有 flannel,calico,canel等,但是如果对比以上几种网络插件的性能,还是calico最受欢迎 一、calico概述二、性能评测指标三、物理机性能评测四、物理机到pod之间的性能测评五、pod到pod之间的性能测评六、calico使用ipip网络模式七、calic

EPSS 解读:与 CVSS 相比,孰美?

通用漏洞评分系统(CVSS)是当前应用最频繁的评分系统以评估安全漏洞的严重性。但是,由于该系统在评估漏洞和优先级排序方面存在不足而遭受批评。因此,有部分专业人士呼吁使用漏洞利用预测评分系统(EPSS)或将 CVSS 与 EPSS 结合来推动漏洞指标变得更加可执行和高效。与 CVSS 一样,EPSS

【干货】Vue3 组件通信方式详解

毫无疑问,组件通信是Vue中非常重要的技术之一,它的出现能够使我们非常方便的在不同组件之间进行数据的传递,以达到数据交互的效果。所以,学习组件通信技术是非常有必要的,本文将总结Vue中关于组件通信的八种方式,帮助大家在使用Vue的过程中更加得心应手! 如果文中有不对、疑惑的地方,欢迎在评论区留言指正...

Performance API不完全使用指北

本教程解释了如何使用Performance API来记录真实用户访问你的应用程序的统计数据。 使用浏览器的DevTools来评估web应用性能是很有用的,但要复现现实世界的使用情况并不容易。因为人们在不同地点使用不同的设备、浏览器和网络,都会有不同的体验。 Performance API介绍 Per