LOGO OA教程 ERP教程 模切知识交流 PMS教程 CRM教程 开发文档 其他文档  
 
网站管理员

C# 比较两文本相似度

admin
2023年3月22日 16:41 本文热度 1272

这个比较文本用到的主要是余弦定理比较文本相似度,具体原理右转某度,主要适用场景是在考试系统中的简答题概述,可根据权重自动打分,感觉实用性蛮广的。

先说下思路:

  1. 文本分词,中文于英文不同,规范的英文每个都有空格自动分词,中文则是连成长串,我们只有一一比对每个词出现的频率做简单的比较,在这里使用到了SCWS的一个分词api接口http://www.ftphp.com/scws/api.php(仅支持POST,因为要模拟Http请求,所以请求时间也是根据具体环境而定,所以可以自己手写一些字典,本地分词要来的快)。但是用此接口分词过程中,标点符号不会被去掉,所以需要自己手动写方法去掉标点。

  2. 获取两个文本的去重复并集

  3. 比较每个词出现的频率

  4. 根据余弦定理计算权重

下面是具体的代码段(请求是在网上找的,原链接找不到了。。)

class Program

{

    static void Main(string[] args)

    {

        Console.Write(Sim("床前明月光,疑是地上霜", "床前明月光,疑是地上霜"));

    }

    public static double Sim(string txt1, string txt2)

    {

        List<string> sl1 = Segment(txt1);

        List<string> sl2 = Segment(txt2);

        //去重

        List<string> sl = sl1.union(sl2).ToList<string>();

        //获取重复次数

        List<int> arrA = new List<int>();

        List<int> arrB = new List<int>();


        foreach (var str in sl)

        {

            arrA.Add(sl1.where(x => x == str).Count());

            arrB.Add(sl2.where(x => x == str).Count());

        }

        //计算商

        double num = 0;

        //被除数

        double numA = 0;

        double numB = 0;

        for (int i = 0; i < sl.Count; i++)

        {

            num += arrA[i] * arrB[i];

            numA += Math.Pow(arrA[i], 2);

            numB += Math.Pow(arrB[i], 2);

        }

        double cos = num / (Math.Sqrt(numA)* Math.Sqrt(numB));

        return cos;

    }

    public static List<string> Segment(string str)

    {

        List<string> sl = new List<string>();

        try

        {

            string s = string.Empty;

            System.Net.CookieContainer cookieContainer = new System.Net.CookieContainer();

            // 将提交的字符串数据转换成字节数组

            byte[] postData = System.Text.Encoding.ASCII.GetBytes("data=" + System.Web.HttpUtility.UrlEncode(str) + "&respond=json&charset=utf8&ignore=yes&duality=no&traditional=no&multi=0");


            // 设置提交的相关参数

            System.Net.HttpWebRequest request = System.Net.WebRequest.create("http://www.ftphp.com/scws/api.php") as System.Net.HttpWebRequest;

            request.Method = "POST";

            request.KeepAlive = false;

            request.ContentType = "application/x-www-form-urlencoded";

            request.CookieContainer = cookieContainer;

            request.ContentLength = postData.Length;


            // 提交请求数据

            System.IO.Stream outputStream = request.GetRequestStream();

            outputStream.Write(postData, 0, postData.Length);

            outputStream.Close();


            // 接收返回的页面

            System.Net.HttpWebResponse response = request.GetResponse() as System.Net.HttpWebResponse;

            System.IO.Stream responseStream = response.GetResponseStream();

            System.IO.StreamReader reader = new System.IO.StreamReader(responseStream, System.Text.Encoding.GetEncoding("utf-8"));

            string val = reader.ReadToEnd();


            Newtonsoft.Json.Linq.JObject results = Newtonsoft.Json.Linq.JObject.Parse(val);

            foreach (var item in results["words"].Children())

            {

                Newtonsoft.Json.Linq.JObject word = Newtonsoft.Json.Linq.JObject.Parse(item.ToString());

                var sss = word["word"].ToString();

                //判断是否为标点符

                bool offom = false;

                foreach (char t in sss)

                {

                    if (t >= 0x4e00 && t <= 0x9fbb)

                    {

                        offom = true;

                    }

                    else

                    {

                        offom = false;

                    }

                }

                if (offom)

                {

                    sl.Add(sss);

                }

            }

        }

        catch

        {

        }


        return sl;

    }

}

  以上感觉很多地方都可以优化,以后想到更好的再重新来一遍。


该文章在 2025/2/24 14:40:07 编辑过
关键字查询
相关文章
正在查询...
点晴ERP是一款针对中小制造业的专业生产管理软件系统,系统成熟度和易用性得到了国内大量中小企业的青睐。
点晴PMS码头管理系统主要针对港口码头集装箱与散货日常运作、调度、堆场、车队、财务费用、相关报表等业务管理,结合码头的业务特点,围绕调度、堆场作业而开发的。集技术的先进性、管理的有效性于一体,是物流码头及其他港口类企业的高效ERP管理信息系统。
点晴WMS仓储管理系统提供了货物产品管理,销售管理,采购管理,仓储管理,仓库管理,保质期管理,货位管理,库位管理,生产管理,WMS管理系统,标签打印,条形码,二维码管理,批号管理软件。
点晴免费OA是一款软件和通用服务都免费,不限功能、不限时间、不限用户的免费OA协同办公管理系统。
Copyright 2010-2025 ClickSun All Rights Reserved