manual de referência HTML

大全 de etiquetas HTML

Manual de Referência ASCII do HTML Combinação de Cores do HTML

Conjunto de Caracteres do HTML

O conjunto de caracteres determina como os bytes que representam o texto do seu documento HTML são traduzidos em caracteres legíveis. Ele pode ser conforme o ISO010646 ponto de código interpreta números ou referências de caracteres hexadecimal ("〹" ou "ሴ"), o que é compatível com a versão do padrão Unicode 2.0 é consistente e independente do conjunto de caracteres escolhido.

Conjunto de Caracteres do HTML

Para exibir corretamente a página HTML, o navegador deve saber qual conjunto de caracteres está sendo usado.

A conjunto de caracteres usado no início da Internet é o ASCII. O ASCII suporta 0-9 Os números, o alfabeto inglês maiúsculo e minúsculo e alguns caracteres especiais.

Manual de referência completo do ASCII.

Devido a muitos países usarem caracteres que não pertencem ao ASCII, o conjunto de caracteres padrão dos navegadores modernos é ISO-8859-1.

Manual ISO completo-8859-1 Manual de referência.

Se a página da web usar um conjunto de caracteres diferente do ISO-8859-1 dos conjuntos de caracteres, devem ser especificados no rótulo <meta>.

Conjunto de caracteres ISO

Os conjuntos de caracteres ISO são padrões internacionais da Organização Internacional de Padronização (ISO) para diferentes alfabetos/Conjunto de caracteres padrão definido pela linguagem.

A seguir está listado os diferentes conjuntos de caracteres usados em todo o mundo:

character set	description	Alcance de uso
ISO-8859-1	Parte do alfabeto latino 1	América do Norte, Europa Ocidental, América Latina, Caribe, Canadá, África
ISO-8859-2	Parte do alfabeto latino 2	Europa Oriental
ISO-8859-3	Parte do alfabeto latino 3	Europa Oriental, esperanto, outros itens diversos
ISO-8859-4	Parte do alfabeto latino 4	Escandinavo/Báltico (e outros que não estão incluídos no ISO-8859-1 de entre eles)
ISO-8859-5	Latim/Parte cirílica 5	Línguas que usam o alfabeto eslavo antigo, como o búlgaro, bielorrusso, russo, macedônio
ISO-8859-6	Latim/Parte árabe 6	Línguas que usam o alfabeto árabe
ISO-8859-7	Latim/Parte grega 7	Grego moderno, bem como os símbolos matemáticos derivados do grego
ISO-8859-8	Latim/Parte hebraica 8	Línguas que usam hebraico
ISO-8859-9	Latim 5 part 9	Turco. Além dos caracteres turcos substituírem os caracteres islandeses, os outros são idênticos ao ISO-8859-1 Idêntico.
ISO-8859-10	Latim 6	Laponês, germânico, esqui-mó, nórdico
ISO-8859-15	Latim 9 (também conhecido como Latin 0)	com ISO 8859-1 Da mesma forma, o símbolo do euro e outros alguns caracteres substituíram alguns símbolos menos usados
ISO-2022-JP	Latim/Parte japonesa 1	Japonês
ISO-2022-JP-2	Latim/Parte japonesa 2	Japonês
ISO-2022-KR	Latim/Parte coreana 1	Coreano

Norma Unicode

Devido às limitações de capacidade dos conjuntos de caracteres listados acima e à incompatibilidade com ambientes multilíngues, a Aliança Unicode desenvolveu a norma Unicode.

A norma Unicode cobre todos os caracteres, pontuações e símbolos do mundo.

Independentemente de qual plataforma, programa ou linguagem, Unicode pode realizar o processamento, armazenamento e troca de dados de texto.

Aliança Unicode

A Aliança Unicode desenvolveu a norma Unicode. Seus objetivos são substituir os conjuntos de caracteres existentes com o formato de conversão Unicode padrão (UTF).

A norma Unicode já obteve sucesso, em XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0 No WML, Unicode já está implementado. Em muitos sistemas operacionais e em todos os navegadores modernos, Unicode também é suportado.

The Unicode Consortium cooperates with leading standard development organizations, such as ISO, W3C as well as ECMA.

Unicode can be compatible with different character sets. The most commonly used encoding method is UTF-8 and UTF-16:

character set	description
UTF-8	UTF8 characters can be 1-4 bytes long. UTF-8 can represent any character in the Unicode standard. UTF-8 is backward compatible with ASCII. UTF-8 is the preferred encoding for web pages and emails.
UTF-16	16 bit Unicode transformation format is a variable character encoding of Unicode, which can encode all Unicode character set instructions. UTF-16 It is mainly used in operating systems and environments, such as Microsoft's Windows 2000/XP/2003/Vista/CE as well as Java and .NET bytecode environments.

Hint: the first 256 of Unicode character set characters correspond to 256 of ISO-8859-1 characters.

Hint: all HTML 4 processors have supported UTF-8While all XHTML and XML processors support UTF-8 and UTF-16!

Manual de Referência ASCII do HTML Combinação de Cores do HTML