Comment traîter des chaînes de caractères UTF-8 ?

De nombreux articles évoquent le fait que SQL Server ne supporte pas l’encodage UTF-8 mais uniquement l’encodage UTF-16. Ce support a d’ailleurs été amélioré à partir de SQL Server 2012 avec de nouveaux classements (voir Prise en charge d’Unicode sous SQL Server).

Mais l’expérience nous montre que de nombreuses données que l’on cherche à traiter sont en UTF-8, et on n’a pas nécessairement envie de sortir la grosse artillerie (par exemple un import via SQL Server Integration Service). Je vous propose donc une manière simple d’importer correctement dans un script T-SQL un fichier encodé en UTF-8.

Tout d’abord, nous allons construire un petit fichier encodé en UTF-8. que nous chercherons ensuite à importer proprement. Voici ici le fichier qui nous servira de base (j’utilise Notepad++ pour bien fixer le fichier dans le bon format d’encodage).

Fichier_UTF8

Ce fichier est bien encodé en UTF-8, comme indiqué en bas à droite de l’image. Ce fichier présente notamment quelques accents, qui sont typiquement problématiques lorsqu’il est question d’encodages.

Pour lire un fichier et positionner son contenu dans une chaîne de caractères, une des possibilités est d’utiliser la commande OPENROWSET (voir l’aide en ligne ici). Mais on remarque notamment dans cette aide en ligne que cette commande, bien qu’acceptant un paramètre qui permet de préciser le code page du fichier d’entrée, ne supporte pas le format UTF-8. Le même souci se retrouve de manière générale au niveau de SQL Server. UTF-16 est bien supporté, mais pas UTF-8.

Au final, si on prend notre fichier et que l’on cherche à l’importer dans une chaîne de caractères, les accents ne passent pas l’épreuve avec succès, loin de là …

Lecture1

Etant donné que les fonctions intégrées à SQL Server ne permettent pas d’intégrer correctement le code page UTF-8, une solution consiste à passer par le développement d’une méthode spécifique qui utilise la CLR.

Plusieurs solutions sont possibles, je vous propose ici le code d’une fonction scalaire, qui prend en entrée un binaire (le contenu du fichier) et présente en sortie une chaine Unicode correctement convertie. Nous nous appuierons sur une version simplifiée du code présenté dans cet article du MSDN à propos de la définition d’un type de données utilisateur dédié aux chaînes UTF-8.

Dans un premier temps, nous devront activer la CLR intégrée au moteur SQL Server afin de pouvoir utiliser des fonctions développées en utilisant du code .Net.

sp_configure 'clr enabled', 1 
GO 
RECONFIGURE 
GO

Ensuite, il suffit de mettre en place deux petites fonctions utilisées pour la conversion.

 

using System;
using System.Data.Sql;
using System.Data.SqlTypes;
using Microsoft.SqlServer.Server;

public sealed class UTF8Tools
{

    [SqlFunction(IsDeterministic = true, IsPrecise = true)]
    public static SqlString ConversionBinaireUTF8VersNVarchar(SqlBinary entree)
    {
        SqlString sortie = (entree.IsNull) ? SqlString.Null : new SqlString(System.Text.Encoding.UTF8.GetString(entree.Value));
        return sortie;
    }

    [SqlFunction(IsDeterministic = true, IsPrecise = true)]
    public static SqlBinary ConversionNVarcharVersBinaireUTF8(SqlString entree)
    {
        SqlBinary sortie = (entree.IsNull) ? SqlBinary.Null : new SqlBinary(System.Text.Encoding.UTF8.GetBytes(entree.ToString()));
        return sortie;
    }
}

Ce code permet d’avoir deux fonctions de conversion d’un contenu binaire de fichier en UTF-8 vers une chaîne de caractères et vice-versa.

Pour déployer ces fonctions vers le serveur, il est possible de compiler et publier via Visual Studio, ou de charger depuis SSMS une assemblée publiée. Une autre possibilité est de déployer directement le code binaire de l’assemblée.

 

SET ANSI_NULLS OFF
GO

SET QUOTED_IDENTIFIER OFF
GO

CREATE ASSEMBLY [UTF8Tools]
FROM 
WITH PERMISSION_SET = SAFE

GO

CREATE FUNCTION [dbo].[ConversionBinaireUTF8VersNVarchar](@contenu [varbinary](max))
RETURNS [nvarchar](max) WITH EXECUTE AS CALLER, RETURNS NULL ON NULL INPUT
AS 
EXTERNAL NAME [UTF8Tools].[UTF8Tools].[ConversionBinaireUTF8VersNVarchar]
GO

CREATE FUNCTION [dbo].[ConversionNVarcharVersBinaireUTF8](@texte [nvarchar](max))
RETURNS [varbinary](max) WITH EXECUTE AS CALLER
AS 
EXTERNAL NAME [UTF8Tools].[UTF8Tools].[ConversionNVarcharVersBinaireUTF8]
GO

Désormais, ces fonctions, et notamment la fonction de conversion à partir d’un contenu encodé en UTF-8, nous permettent de lire correctement notre fichier.

LectureFinale

La lecture d’un fichier en mode binaire et la conversion de son contenu via une fonction codée en .Net présentent donc une solution pour lire un encodage UTF-8 directement depuis SQL Server, avec une transcodification correcte.

Je vous laisse le soin de tester ces fonctions pour résoudre vos petits soucis avec l’UTF-8, et n’hésitez pas à me dire si cela a permis de répondre à vos besoins.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Contrôle de sécurité * Time limit is exhausted. Please reload CAPTCHA.