利用ML.NET精准提取人名

在当今信息爆炸的时代,文本处理任务层出不穷,其中人名提取作为基础且重要的工作,广泛应用于信息检索、社交网络分析、客户关系管理等领域。随着人工智能不断进步,ML.NET作为微软推出的开源机器学习框架,为开发者提供了高效、便捷的工具来实现人名提取功能,极大地提升了开发效率与模型的准确性。

一、理解需求与数据准备

首先,明确任务的目标十分重要。人名提取的主要任务是从各类文本中识别出人名。这些文本可以来源于新闻报道、社交媒体帖子、小说故事等各种材料,开发者需收集多样的数据集,以涵盖古今中外不同风格的文本。这些文本既要有正式书面语,也应包含口语化、网络化的表达风格。

对于数据的标注,开发者需要将文本中的人名准确标记,以形成监督学习所需的带标签样本。比如,在句子李白在将进酒中抒发豪情中,李白应被标注为人名。这一过程虽然繁琐,但它将为后续模型训练打下坚实的基础。

二、模型选择与构建

在ML.NET中,提供了多种机器学习算法供开发者选择。针对人名提取任务,序列标注模型如条件随机场CRF极为适合,因为它能够考虑文本序列的上下文信息,依据前后词特征判断当前词是否为人名。

三、定义数据模型

在ML.NET中,我们需要定义输入和输出数据模型。对于NER任务,输入是一个文本字符串,而输出是字符串中每个单词的标签例如,确定一个单词是否为人名。以下是一个简单的数据模型示例:

复制
public class InputData 
{ [LoadColumn(0)] public string Text { get; set; } 
} public class OutputData 
{ [ColumnName(PredictedLabel)] public string[] PredictedLabels { get; set; } 
}

四、数据加载与预处理

接下来,加载数据集并进行必要的预处理,包括分词、特征提取等。处理过程中,您可能需要识别出文本中的词汇变化,从而更好地构建机器学习模型。预处理后数据代码示例:

复制
var pipeline = mlContext.Transforms.Text.TokenizeIntoWords(Tokens, Text) .Append(mlContext.Transforms.Text.ProduceWordBags(Features, Tokens, ngrams: 1, weighting: NgramExtractingEstimator.WeightingCriteria.Tf)); 
var data = mlContext.Data.LoadFromTextFile<InputData>(path: dataPath, hasHeader: false, separatorChar:  ); 
var transformedData = pipeline.Fit(data).Transform(data);

五、模型训练与评估

通过预处理后的数据,您可以开始训练机器学习模型。在训练完成后,通过测试数据集进行评估,以确保其准确性和有效性。ML.NET提供的多类分类器可以帮助您实现最佳的训练效果。以下是训练和评估的代码示例:

复制
var trainingPipeline = pipeline.Append(mlContext.MulticlassClassification.Trainers.Sdca(new SdcaMultiClassTrainer.Options { MaximumNumberOfIterations = 1000 })); 
var model = trainingPipeline.Fit(transformedData); 
var metrics = mlContext.MulticlassClassification.Evaluate(pr
edictions);

六、使用模型提取人名

模型训练完成后,即可利用经过优化的机器学习模型,来对新文本进行人名提取。实现这一过程的代码如下:

var predictionEngine = mlContext.Model.CreatePredictionEngine<InputData, OutputData>(model); 
var input = new InputData { Text = Hello, my name is John Doe and I live in New York. }; 
var prediction = predictionEngine.Predict(input);

七、实际应用场景

1. 文档处理

假设我们有一个文档处理系统,需要从文档中提取人名。

制
using Microsoft.ML;
using Microsoft.ML.Data;
using System;
using System.Collections.Generic;namespace DocumentProcessingApp
{public class Document{public string Content { get; set; }}public class NamedEntity{public string Text { get; set; }public string Label { get; set; }public float Score { get; set; }}class Program{static void Main(string[] args){// 创建 MLContextvar context = new MLContext();// 加载预训练模型var modelPath = Models/ner-model.zip;var pipelineModel = context.Model.Load(modelPath, out _);// 创建预测引擎var engine = context.Transforms.Text.TokenizeIntoWords(Tokens, nameof(Document.Content)).Append(context.Transforms.Text.ApplyWordEmbeddingLookup(TokenFeatures, Tokens)).Append(context.Transforms.Concatenate(Features, TokenFeatures)).Append(context.Model.LoadTransformer(pipelineModel));var predictionEngine = context.Model.CreatePredictionEngine<Document, IEnumerable<NamedEntity>>(engine);// 输入文档内容var document = new Document { Content = The meeting will be attended by Alice Johnson and Bob Brown. };// 进行预测var predictions = predictionEngine.Predict(document);// 输出结果foreach (var entity in predictions){if (entity.Label == Person){Console.WriteLine(Person Name: + entity.Text + , Confidence: + entity.Score);}}}}
}

2. 社交媒体分析

假设我们有一个社交媒体分析系统,需要从推特或评论中提取人名。

复制
using Microsoft.ML;
using Microsoft.ML.Data;
using System;
using System.Collections.Generic;namespace SocialMediaAnalysisApp
{public class Post{public string Text { get; set; }}public class NamedEntity{public string Text { get; set; }public string Label { get; set; }public float Score { get; set; }}class Program{static void Main(string[] args){// 创建 MLContextvar context = new MLContext();// 加载预训练模型var modelPath = Models/ner-model.zip;var pipelineModel = context.Model.Load(modelPath, out _);// 创建预测引擎var engine = context.Transforms.Text.TokenizeIntoWords(Tokens, nameof(Post.Text)).Append(context.Transforms.Text.ApplyWordEmbeddingLookup(TokenFeatures, Tokens)).Append(context.Transforms.Concatenate(Features, TokenFeatures)).Append(context.Model.LoadTransformer(pipelineModel));var predictionEngine = context.Model.CreatePredictionEngine<Post, IEnumerable<NamedEntity>>(engine);// 输入帖子内容var post = new Post { Text = Jane Doe just won an award at the event with John Smith. };// 进行预测var predictions = predictionEngine.Predict(post);// 输出结果foreach (var entity in predictions){if (entity.Label == Person){Console.WriteLine(Person Name: + entity.Text + , Confidence: + entity.Score);}}}}
}

3. 日志分析

假设我们有一个日志分析系统,需要从日志文件中提取人名。

复制
using Microsoft.ML;
using Microsoft.ML.Data;
using System;
using System.Collections.Generic;namespace LogAnalysisApp
{public class LogEntry{public string Message { get; set; }}public class NamedEntity{public string Text { get; set; }public string Label { get; set; }public float Score { get; set; }}class Program{static void Main(string[] args){// 创建 MLContextvar context = new MLContext();// 加载预训练模型var modelPath = Models/ner-model.zip;var pipelineModel = context.Model.Load(modelPath, out _);// 创建预测引擎var engine = context.Transforms.Text.TokenizeIntoWords(Tokens, nameof(LogEntry.Message)).Append(context.Transforms.Text.ApplyWordEmbeddingLookup(TokenFeatures, Tokens)).Append(context.Transforms.Concatenate(Features, TokenFeatures)).Append(context.Model.LoadTransformer(pipelineModel));var predictionEngine = context.Model.CreatePredictionEngine<LogEntry, IEnumerable<NamedEntity>>(engine);// 输入日志消息var logEntry = new LogEntry { Message = Error reported by Michael Lee while accessing the system. };// 进行预测var predictions = predictionEngine.Predict(logEntry);// 输出结果foreach (var entity in predictions){if (entity.Label == Person){Console.WriteLine(Person Name: + entity.Text + , Confidence: + entity.Score);}}}}
}

八、总结

通过本文的介绍,你已经了解了利用ML.NET精准提取人名的全过程,从数据准备到模型训练,再到实际应用。ML.NET提供了强大的工具和灵活的API,使得开发者能够轻松构建和部署人名提取模型。希望这些内容对你有所帮助,让你在文本处理和自然语言处理领域更上一层楼。

往期精品推荐:

在国内默默无闻的.NET,在国外火的超乎想象?

C#的膨胀之路:创新还是灭亡

介绍.NET 6款好看的winform开源UI库

介绍一款最受欢迎的.NET 开源UI库

WPF第三方开源UI框架:打造独特体验的魔法师

WPF与Winform,你的选择是?

WinForm的前世今生

.NET成年了,然后呢?——编程界的逆袭传奇

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.rhkb.cn/news/6906.html

如若内容造成侵权/违法违规/事实不符,请联系长河编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringMVC新版本踩坑[已解决]

问题&#xff1a; 在使用最新版本springMVC做项目部署时&#xff0c;浏览器反复500&#xff0c;如下图&#xff1a; 异常描述&#xff1a; 类型异常报告 消息Request processing failed: java.lang.IllegalArgumentException: Name for argument of type [int] not specifie…

系统思考—复杂问题的根源分析

在企业中&#xff0c;许多问题看似简单&#xff0c;背后却潜藏着复杂的因果关系。传统的思维方式往往只能看到表面&#xff0c;而无法深入挖掘问题的真正根源。我们常常通过“表面解决”来应对眼前的症状&#xff0c;但这往往只是治标不治本。 比如&#xff0c;销量下降时&…

安装VMware17

一、VMware Workstation 简介 VMware Workstation是一款由VMware公司开发的功能强大的桌面虚拟化软件。它允许用户在单一的物理电脑上同时运行多个操作系统作为虚拟机&#xff08;VMs&#xff09;&#xff0c;每个虚拟机都可配置有自己的独立硬件资源&#xff0c;如CPU核心、内…

三、双链表

链表的种类有很多&#xff0c;单链表是不带头不循环单向链表&#xff0c;但双链表是带头循环双向链表&#xff0c;并且双链表还有一个哨兵位&#xff0c;哨兵位不是头节点 typedef int LTDataType;typedef struct ListNode{struct ListNode* next; //指针保存下⼀个结点的地址s…

【知识】可视化理解git中的cherry-pick、merge、rebase

转载请注明出处&#xff1a;小锋学长生活大爆炸[xfxuezhagn.cn] 如果本文帮助到了你&#xff0c;欢迎[点赞、收藏、关注]哦~ 这三个确实非常像&#xff0c;以至于对于初学者来说比较难理解。 总结对比 先给出对比&#xff1a; 特性git mergegit rebasegit cherry-pick功能合并…

SpringBoot开发(三)SpringBoot介绍、项目创建、运行

1. SpringBoot 1.1. SpringBoot介绍 Spring Boot给世界程序员带来了春天&#xff0c;越来越多的企业选择使用spring boot来开发他们的软件&#xff0c;因此学习spring boot是科技发展的必然趋势。本门课程将从web最基础的知识点开始讲起&#xff0c;逐步带你攻破spring boot的…

438. 找到字符串中所有字母异位词

【题目】&#xff1a;438. 找到字符串中所有字母异位词 class Solution { public:vector<int> findAnagrams(string s, string p) {vector<int> res;vector<int> curVec(26, 0); // 统计p中字母出现的次数for(char c : p) {curVec[c - a];}for(int l 0, r …

Leetcode-两数之和

1.暴力枚举 class Solution { public:vector<int> twoSum(vector<int>& nums, int target) {int lennums.size();int i,j;for(i0;i<len;i){for(ji1;j<len;j){if(nums[i]nums[j]target){return{i,j};}}}return {i,j};} }; 新知识&#xff1a; return {…

边缘网关具备哪些功能?

边缘网关&#xff0c;又称边缘计算网关&#xff0c;部署在网络边缘&#xff0c;它位于物联网设备与云计算平台之间&#xff0c;充当着数据流动的“守门员”和“处理器”。通过其强大的数据处理能力和多样化的通信协议支持&#xff0c;边缘网关能够实时分析、过滤和存储来自终端…

高等数学学习笔记 ☞ 微分方程

1. 微分方程的基本概念 1. 微分方程的基本概念&#xff1a; &#xff08;1&#xff09;微分方程&#xff1a;含有未知函数及其导数或微分的方程。 举例说明微分方程&#xff1a;&#xff1b;。 &#xff08;2&#xff09;微分方程的阶&#xff1a;指微分方程中未知函数的导数…

【优选算法】9----长度最小的子数组

----------------------------------------begin-------------------------------------- 铁子们&#xff0c;前面的双指针算法篇就算告一段落啦~ 接下来是我们的滑动窗口篇&#xff0c;不过有一说一&#xff0c;算法题就跟数学题一样&#xff0c;只要掌握方法&#xff0c;多做…

计算机网络之链路层

本文章目录结构出自于《王道计算机考研 计算机网络_哔哩哔哩_bilibili》 02 数据链路层 在网上看到其他人做了详细的笔记&#xff0c;就不再多余写了&#xff0c;直接参考着学习吧。 1 详解数据链路层-数据链路层的功能【王道计算机网络笔记】_wx63088f6683f8f的技术博客_51C…

Kubernetes v1.28.0安装dashboard v2.6.1(k8s图形化操作界面)

准备工作 Kubernetes v1.28.0搭建教程请参考&#xff1a;Kubernetes v1.28.0集群快速搭建教程-CSDN博客 查看当前集群nodes都是ready状态 查看当前pods都是running状态 下载并修改配置文件 下载 recommended.yaml &#xff0c;下载好之后&#xff0c;进入文件编辑 下载地址…

Spring 框架:配置缓存管理器、注解参数与过期时间

在 Spring 框架中&#xff0c;可通过多种方式配置缓存具体行为&#xff0c;常见配置方法如下。 1. 缓存管理器&#xff08;CacheManager&#xff09;配置 基于内存的缓存管理器配置&#xff08;以SimpleCacheManager为例&#xff09; SimpleCacheManager 是 Spring 提供的简单…

2025.1.21——六、BUU XSS COURSE 1 XSS漏洞|XSS平台搭建

题目来源&#xff1a;buuctf BUU XSS COURSE 1 目录 一、打开靶机&#xff0c;整理信息 二、解题思路 step 1&#xff1a;输入框尝试一下 step 2&#xff1a;开始xss注入 step 3&#xff1a;搭建平台 step 4&#xff1a;利用管理员cookie访问地址 三、小结 二编&#…

基于Python机器学习的双色球数据分析与预测

python统计分析2003-2024年所有的中奖记录,通过人工智能机器学习预测双色球,个人意见,仅供参考. 声明&#xff1a;双色球具有随机性&#xff0c;任何工具无法预测。本文章仅作为技术交流&#xff0c;提供学习参考。本文所涉及的代码均为python之机器学习的代码。双色球为公益事…

警企联动齐发力、共筑反诈“防护墙”

2025年1月10日是第五个中国人民警察节,南通移动联合南通公安反诈中心,深入社区商圈,开展防范电信网络诈骗宣传活动,进一步增强广大人民群众的反诈意识和能力,全力守护好群众的“钱袋子”。 当日,活动现场一大早就呈现出一片忙碌景象,工作人员支起摊位,将各类精心制作的反诈宣传…

mysql 学习3 SQL语句--整体概述。SQL通用语法;DDL创建数据库,查看当前数据库是那个,删除数据库,使用数据库;查看当前数据库有哪些表

SQL通用语法 SQL语句分类 DDL data definition language : 用来创建数据库&#xff0c;创建表&#xff0c;创建表中的字段&#xff0c;创建索引。因此成为 数据定义语言 DML data manipulation language 有了数据库和表以及字段后&#xff0c;那么我们就需要给这个表中 添加数…

九、CSS工程化方案

一、PostCSS介绍 二、PostCSS插件的使用 项目安装 - npm install postcss-cli 全局安装 - npm install postcss-cli -g postcss-cli地址&#xff1a;GitHub - postcss/postcss-cli: CLI for postcss postcss地址&#xff1a;GitHub - postcss/postcss: Transforming styles…

Baklib助力企业如何搭建内容中台的全新策略解析

内容概要 在当今快速变化的商业环境中&#xff0c;企业面临着数据爆炸和信息管理的巨大挑战。内容中台作为一种新兴的管理理念&#xff0c;专注于内容的集中管理与高效利用&#xff0c;旨在帮助企业优化信息流动&#xff0c;提高工作效率。通过构建一个灵活、可扩展的内容中台…