English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

manual de referência HTML

大全 de etiquetas HTML

Conjunto de Caracteres do HTML

O conjunto de caracteres determina como os bytes que representam o texto do seu documento HTML são traduzidos em caracteres legíveis. Ele pode ser conforme o ISO010646 ponto de código interpreta números ou referências de caracteres hexadecimal ("〹" ou "ሴ"), o que é compatível com a versão do padrão Unicode 2.0 é consistente e independente do conjunto de caracteres escolhido.

Conjunto de Caracteres do HTML

Para exibir corretamente a página HTML, o navegador deve saber qual conjunto de caracteres está sendo usado.

A conjunto de caracteres usado no início da Internet é o ASCII. O ASCII suporta 0-9 Os números, o alfabeto inglês maiúsculo e minúsculo e alguns caracteres especiais.

Manual de referência completo do ASCII.

Devido a muitos países usarem caracteres que não pertencem ao ASCII, o conjunto de caracteres padrão dos navegadores modernos é ISO-8859-1.

Manual ISO completo-8859-1 Manual de referência.

Se a página da web usar um conjunto de caracteres diferente do ISO-8859-1 dos conjuntos de caracteres, devem ser especificados no rótulo <meta>.

Conjunto de caracteres ISO

Os conjuntos de caracteres ISO são padrões internacionais da Organização Internacional de Padronização (ISO) para diferentes alfabetos/Conjunto de caracteres padrão definido pela linguagem.

A seguir está listado os diferentes conjuntos de caracteres usados em todo o mundo:

character setdescriptionAlcance de uso
ISO-8859-1Parte do alfabeto latino 1América do Norte, Europa Ocidental, América Latina, Caribe, Canadá, África
ISO-8859-2Parte do alfabeto latino 2Europa Oriental
ISO-8859-3Parte do alfabeto latino 3Europa Oriental, esperanto, outros itens diversos
ISO-8859-4Parte do alfabeto latino 4Escandinavo/Báltico (e outros que não estão incluídos no ISO-8859-1 de entre eles)
ISO-8859-5Latim/Parte cirílica 5Línguas que usam o alfabeto eslavo antigo, como o búlgaro, bielorrusso, russo, macedônio
ISO-8859-6Latim/Parte árabe 6Línguas que usam o alfabeto árabe
ISO-8859-7Latim/Parte grega 7Grego moderno, bem como os símbolos matemáticos derivados do grego
ISO-8859-8Latim/Parte hebraica 8Línguas que usam hebraico
ISO-8859-9Latim 5 part 9Turco. Além dos caracteres turcos substituírem os caracteres islandeses, os outros são idênticos ao ISO-8859-1 Idêntico.
ISO-8859-10Latim 6Laponês, germânico, esqui-mó, nórdico
ISO-8859-15Latim 9 (também conhecido como Latin 0)com ISO 8859-1 Da mesma forma, o símbolo do euro e outros alguns caracteres substituíram alguns símbolos menos usados
ISO-2022-JPLatim/Parte japonesa 1Japonês
ISO-2022-JP-2Latim/Parte japonesa 2Japonês
ISO-2022-KRLatim/Parte coreana 1Coreano

Norma Unicode

Devido às limitações de capacidade dos conjuntos de caracteres listados acima e à incompatibilidade com ambientes multilíngues, a Aliança Unicode desenvolveu a norma Unicode.

A norma Unicode cobre todos os caracteres, pontuações e símbolos do mundo.

Independentemente de qual plataforma, programa ou linguagem, Unicode pode realizar o processamento, armazenamento e troca de dados de texto.

Aliança Unicode

A Aliança Unicode desenvolveu a norma Unicode. Seus objetivos são substituir os conjuntos de caracteres existentes com o formato de conversão Unicode padrão (UTF).

A norma Unicode já obteve sucesso, em XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0 No WML, Unicode já está implementado. Em muitos sistemas operacionais e em todos os navegadores modernos, Unicode também é suportado.

The Unicode Consortium cooperates with leading standard development organizations, such as ISO, W3C as well as ECMA.

Unicode can be compatible with different character sets. The most commonly used encoding method is UTF-8 and UTF-16:

character setdescription
UTF-8UTF8 characters can be 1-4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backward compatible with ASCII. UTF-8 is the preferred encoding for web pages and emails.
UTF-1616 bit Unicode transformation format is a variable character encoding of Unicode, which can encode all Unicode character set instructions. UTF-16 It is mainly used in operating systems and environments, such as Microsoft's Windows 2000/XP/2003/Vista/CE as well as Java and .NET bytecode environments.

Hint: the first 256 of Unicode character set characters correspond to 256 of ISO-8859-1 characters.

Hint: all HTML 4 processors have supported UTF-8While all XHTML and XML processors support UTF-8 and UTF-16!