Μαζική διακωδικοποίηση της έκδοσης c# των συνόλων χαρακτήρων Unicode σε κινεζικούς χαρακτήρες (αμοιβαία μετατροπή)

Μικρά αποβράσματα · Δημοσιεύτηκε στις 7/9/2015 10:57:18 π.μ.

Είδα ότι πολλά μέρη στο Διαδίκτυο χρησιμοποιούν χαρακτήρες όπως /u4e2d/u56fd κατά τη μετάδοση κινεζικών, οι οποίοι είναι κωδικοποιημένοι χαρακτήρες Unicode, και θέλω να μάθω ποιο είναι το συγκεκριμένο περιεχόμενο, αλλά δεν είναι εύκολο να το δεις, οπότε θέλω να αποκωδικοποιήσω αυτό το σύνολο χαρακτήρων σε κανονικούς χαρακτήρες.
Στην αρχή, μετέτρεψα τη μορφή κωδικοποίησης μέσω της Κωδικοποίησης και διαπίστωσα ότι δεν λειτουργούσε και δεν μπορούσα να το λύσω κανονικά, και μετά έψαξα για κάποιες παρόμοιες λύσεις αποκωδικοποίησης στο Διαδίκτυο, οι οποίες ήταν εφικτές, αλλά διαπίστωσα ότι ήταν λίγο ενοχλητικό να γράψω, και αν είχα παρτίδες χαρακτήρων Unicode, δεν μπορούσα να τους εξάγω απευθείας, και μετά τους κοίταξα και τους κοίταξα, και τελικά, βρήκα δύο μεθόδους κλάσεων χαρακτήρων: η μία είναι η char. ConvertFromUtf32, το σχόλιο λέει: Μετατρέψτε το καθορισμένο bit κώδικα Unicode σε κωδικοποιημένη συμβολοσειρά UTF-16, δεν είναι απλώς αποκωδικοποίηση; Ένα άλλο είναι το char. ConvertToUtf32, σχόλιο: Αυτή η μέθοδος είναι η μετατροπή κωδικοποιημένων χαρακτήρων UTF-16 σε καθορισμένες θέσεις στη συμβολοσειρά σε σημεία κώδικα Unicode, χα, στην πραγματικότητα, είναι η μετατροπή συνηθισμένων χαρακτήρων σε σύνολα χαρακτήρων Unicode.

/// <summary>
/// 把Unicode解码为普通文字
/// </summary>
/// <param name="unicodeString">要解码的Unicode字符集</param>
/// <returns>解码后的字符串</returns>
public static string ConvertToGB(string unicodeString)
{
string[] strArray = unicodeString.Split(new string[] { @"\u" }, StringSplitOptions.None);
string result = string.Empty;
for (int i = 0; i < strArray.Length; i++)
{
if (strArray[i].Trim() == "" || strArray[i].Length < 2 || strArray.Length <= 1)
{
result += i == 0 ? strArray[i] : @"\u" + strArray[i];
continue;
}
for (int j = strArray[i].Length > 4 ? 4 : strArray[i].Length; j >= 2; j--)
{
try
{
result += char.ConvertFromUtf32(Convert.ToInt32(strArray[i].Substring(0, j), 16)) + strArray[i].Substring(j);
break;
}
catch
{
continue;
}
}
}
return result;
}
/// <summary>
/// 把汉字字符转码为Unicode字符集
/// </summary>
/// <param name="strGB">要转码的字符</param>
/// <returns>转码后的字符</returns>
public static string ConvertToUnicode(string strGB)
{
char[] chs = strGB.ToCharArray();
string result = string.Empty;
foreach (char c in chs)
{
result += @"\u" + char.ConvertToUtf32(c.ToString(), 0).ToString("x");
}
return result;
}

Αντιγραφή κώδικα

διαχειριστής · Δημοσιεύτηκε στις 19/2/2016 11:12:53 μ.μ.

Η σύνδεση είναι ορατή.

ΖΣΥ806 · Δημοσιεύτηκε στις 12/11/2022 1:53:27 μ.μ.

Απαντήστε στην ανάρτηση για να εκφράσετε την ευγνωμοσύνη σας

[Πηγή] Μαζική διακωδικοποίηση της έκδοσης c# των συνόλων χαρακτήρων Unicode σε κινεζικούς χαρακτήρες (αμοιβαία μετατροπή)

σχετικές αναρτήσεις

Ενότητες που προβλήθηκαν