English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
O conjunto de caracteres determina como os bytes que representam o texto do seu documento HTML são traduzidos em caracteres legíveis. Ele pode ser conforme o ISO010646 ponto de código interpreta números ou referências de caracteres hexadecimal ("〹" ou "ሴ"), o que é compatível com a versão do padrão Unicode 2.0 é consistente e independente do conjunto de caracteres escolhido.
Para exibir corretamente a página HTML, o navegador deve saber qual conjunto de caracteres está sendo usado.
A conjunto de caracteres usado no início da Internet é o ASCII. O ASCII suporta 0-9 Os números, o alfabeto inglês maiúsculo e minúsculo e alguns caracteres especiais.
Manual de referência completo do ASCII.
Devido a muitos países usarem caracteres que não pertencem ao ASCII, o conjunto de caracteres padrão dos navegadores modernos é ISO-8859-1.
Manual ISO completo-8859-1 Manual de referência.
Se a página da web usar um conjunto de caracteres diferente do ISO-8859-1 dos conjuntos de caracteres, devem ser especificados no rótulo <meta>.
Os conjuntos de caracteres ISO são padrões internacionais da Organização Internacional de Padronização (ISO) para diferentes alfabetos/Conjunto de caracteres padrão definido pela linguagem.
A seguir está listado os diferentes conjuntos de caracteres usados em todo o mundo:
character set | description | Alcance de uso |
---|---|---|
ISO-8859-1 | Parte do alfabeto latino 1 | América do Norte, Europa Ocidental, América Latina, Caribe, Canadá, África |
ISO-8859-2 | Parte do alfabeto latino 2 | Europa Oriental |
ISO-8859-3 | Parte do alfabeto latino 3 | Europa Oriental, esperanto, outros itens diversos |
ISO-8859-4 | Parte do alfabeto latino 4 | Escandinavo/Báltico (e outros que não estão incluídos no ISO-8859-1 de entre eles) |
ISO-8859-5 | Latim/Parte cirílica 5 | Línguas que usam o alfabeto eslavo antigo, como o búlgaro, bielorrusso, russo, macedônio |
ISO-8859-6 | Latim/Parte árabe 6 | Línguas que usam o alfabeto árabe |
ISO-8859-7 | Latim/Parte grega 7 | Grego moderno, bem como os símbolos matemáticos derivados do grego |
ISO-8859-8 | Latim/Parte hebraica 8 | Línguas que usam hebraico |
ISO-8859-9 | Latim 5 part 9 | Turco. Além dos caracteres turcos substituírem os caracteres islandeses, os outros são idênticos ao ISO-8859-1 Idêntico. |
ISO-8859-10 | Latim 6 | Laponês, germânico, esqui-mó, nórdico |
ISO-8859-15 | Latim 9 (também conhecido como Latin 0) | com ISO 8859-1 Da mesma forma, o símbolo do euro e outros alguns caracteres substituíram alguns símbolos menos usados |
ISO-2022-JP | Latim/Parte japonesa 1 | Japonês |
ISO-2022-JP-2 | Latim/Parte japonesa 2 | Japonês |
ISO-2022-KR | Latim/Parte coreana 1 | Coreano |
Devido às limitações de capacidade dos conjuntos de caracteres listados acima e à incompatibilidade com ambientes multilíngues, a Aliança Unicode desenvolveu a norma Unicode.
A norma Unicode cobre todos os caracteres, pontuações e símbolos do mundo.
Independentemente de qual plataforma, programa ou linguagem, Unicode pode realizar o processamento, armazenamento e troca de dados de texto.
A Aliança Unicode desenvolveu a norma Unicode. Seus objetivos são substituir os conjuntos de caracteres existentes com o formato de conversão Unicode padrão (UTF).
A norma Unicode já obteve sucesso, em XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0 No WML, Unicode já está implementado. Em muitos sistemas operacionais e em todos os navegadores modernos, Unicode também é suportado.
The Unicode Consortium cooperates with leading standard development organizations, such as ISO, W3C as well as ECMA.
Unicode can be compatible with different character sets. The most commonly used encoding method is UTF-8 and UTF-16:
character set | description |
---|---|
UTF-8 | UTF8 characters can be 1-4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backward compatible with ASCII. UTF-8 is the preferred encoding for web pages and emails. |
UTF-16 | 16 bit Unicode transformation format is a variable character encoding of Unicode, which can encode all Unicode character set instructions. UTF-16 It is mainly used in operating systems and environments, such as Microsoft's Windows 2000/XP/2003/Vista/CE as well as Java and .NET bytecode environments. |
Hint: the first 256 of Unicode character set characters correspond to 256 of ISO-8859-1 characters.
Hint: all HTML 4 processors have supported UTF-8While all XHTML and XML processors support UTF-8 and UTF-16!