.NET/C# pour déterminer si une balise BOM est incluse

Petite ordure · Publié sur 16/07/2021 13:22:54

Qu’est-ce que la Chambre de Départ ?

La marque d’ordre d’octet (BOM), ou marque d’ordre d’octets, est une marque spéciale insérée dans un fichier Unicode encodé avec UTF-8, UTF16 ou UTF-32 afin d’identifier le type d’encodage d’un fichier Unicode. Pour UTF-8, une liste de matériaux n’est pas requise, car elle sert à marquer le type d’encodage et l’ordre des octets (big-endian ou little-endian) d’un fichier encodé sur plusieurs octets. Dans UTF-8, le nombre de bits encodés pour chaque caractère est exprimé par le premier octet, et il n’y a pas de distinction entre big-endian et little-endian.
UTF-8 ne nécessite pas de liste de distribution, bien que la norme Unicode permette l’utilisation de cartes de commerce dans UTF-8. Ainsi, UTF-8 sans LISTA de Matériaux est la forme standard, et Microsoft a principalement l’habitude de placer une Lettre de Matériaux dans un fichier UTF-8 (d’ailleurs : c’est aussi l’habitude de Microsoft d’appeler UTF-16 avec une Liste de Matériaux « Unicode » sans entrer dans les détails).
Les listes de composition sont préparées pour UTF-16 et UTF-32 afin de signaler l’ordre des octets. Microsoft utilise la BOM en UTF-8 car cela permet une distinction claire entre l’encodage UTF-8 et ASCII, sinon ouvrir un fichier CSV dans Excel peut être brouillé. Mais un tel fichier peut poser des problèmes dans d’autres systèmes d’exploitation que Windows.
La différence entre « UTF-8 » et « UTF-8 avec liste de ressources » réside dans la présence ou non d’une liste de base. C’est-à-dire s’il y a un U+FEFF au début du fichier.
Le code web UTF-8 ne doit pas utiliser de cartes marchandes, sinon les erreurs sont fréquentes. Lors de la sortie d’un fichier CSV depuis une réponse http, il n’est pas inclus par défaut lorsqu’il est réglé sur utf8
BOM, mais Windows Excel utilise BOM pour confirmer l’encodage UTF8, et tous doivent écrire BOM au début du fichier.

Lorsque vous développez pour la première fois un générateur de code Java, vous mettrez le fichier directementÉcrire dans un fichier UTF-8 contenant la balise BOMCela entraînera des erreurs d’emballage, comme suit :

Personnages illégaux : « \ufeff »

Comment puis-je utiliser .NET / C# pour déterminer si un fichier contient des balises BOM ? , le code est le suivant :

La connexion est visible.

Collègues, rattachésConvertit le format ENSEMBLE UTF-8 en format UTF-8 (sans balises NOM), le code complet est le suivant :

La connexion est visible.

(Fin)

Gaomanxiang · Publié sur 16/07/2021 22:41:40

Petite ordure · Publié sur 01/11/2024 15:00:47

UTF-8 supprime le tag BOM

La connexion est visible.

Petite ordure · Publié sur 25/06/2025 16:13:03

UTF-8 n’écrit pas sur la liste de noms

La connexion est visible.

[Source] .NET/C# pour déterminer si une balise BOM est incluse

Score

Articles connexes

Sections vues