spesiell karakter

Et spesialtegn er (i typografi / typometri og digital databehandling ) et tegn som verken er bokstav eller tall .

Spesielle tegn inkluderer skilletegn ( punktum , ord merker ) og vitenskapelige og tekniske symboler. Også diakritikere er spesialtegn som slike. B. akutt eller breve (é, ă).

Ulike betydninger og svingende betydning

Spesialtegnene inkluderer også tegn som ikke er utskrift, som fungerer som orienteringshjelp når du designer en utskriftsmal, for eksempel mellomrom , og noen ganger ikke.

Det er noe uklart om z. B. Umlauts er spesialtegn, under definisjonen gitt, er dette relatert til spørsmålet om for eksempel "Ä" er en uavhengig bokstav som skal skilles fra "A", se tysk alfabet # Omstridt antall bokstaver . svensk , finsk og estisk er Ä imidlertid et eget brev. I noen tilfeller er sifre også inkludert i spesialtegnene.

Greske bokstaver kan være symboler hvis de ikke brukes til å danne greske ord, men som variabler (f.eks. I statistikk σ for standardavviket ) eller konstanter (f.eks. For sirkelnummeret π).

“Legge inn spesialtegn” er ofte brukt for å beskrive inndatametoder (på datamaskinen keyboards ) (på nettsteder med tittelen “spesialtegn”, se #Weblinks og Input Method #Weblinks ), der input av alle karakterene blir behandlet uten ASCII -kode, inkludert bokstaver -Tyske språk. Den danske små bokstaven ø blir ofte nevnt eksplisitt som et eksempel.

Spesialtegn og teknologi

I de første dagene av informasjonsteknologi skyldte begrensningen av tegnsett til 7 eller 8 biter tekniske grunner. For å unngå de mange tilknyttede problemene - for eksempel da eurosymbolet ble introdusert, måtte et annet tegn fjernes fra ISO 8859-15 , en 8-biters utvidelse av ASCII - et høyere antall bits per tegn blir i økende grad brukt i dag .

Imidlertid er det ingen klar sammenheng mellom begrepet spesialtegn og fremskritt innen kodingsteknologi. Av de 94 utskrivbare ASCII-tegnene er 32 spesialtegn, dvs. nøyaktig en tredjedel. Symboler for enklere matematiske setninger er allerede tilgjengelige blant dem, og med hensyn til skilletegn har Unicode (se nedenfor) bare typografiske varianter av den horisontale linjen ( kvart kvadrat , halv kvadrat , kvadrat , minustegn ), anførselstegn og Lagt til ellipsene (som tidligere var tilgjengelige med TeX fra 7-bits tegnsett). Terminologien er ikke klar med hensyn til spørsmålet om flertallet av tegnene som nylig er kodet sammenlignet med ASCII, er spesialtegn (f.eks. Omskjermere, se ovenfor).

Bruk av ASCII spesialtegn krever ingen spesiell teknologi sammenlignet med ASCII bokstaver og tall. De fleste (eller mange) ASCII-spesialtegn (tegnsettingstegn, matematiske tegn) kan like enkelt være innebygd i kildekoden til digitale tekster som bokstaver og sifre. Imidlertid, med forskjellige teknologier ( filnavn , programmering, URL-koding , andre å følge), har visse ASCII-spesialtegn en spesiell syntaktisk funksjon (for eksempel kalt "reserverte tegn"), noe som gjør dem noe vanskeligere å vise . ASCII- spesialtegn brukes til slike formål for å gjøre tekstinntasting så vanskelig som mulig for brukerne.

En annen vurdering er tastaturoppsettet . Selv i skrivemaskinens dager skilte det tyske og det amerikanske tastaturet seg hovedsakelig med hensyn til arrangement og tilstedeværelse av spesialtegn. Ved snarveier utvides mengden innsettbar direkte i kildetegnet til datatastaturer i de største operativsystemene. Det er et terminologispørsmål om alle tilleggstegn som er tilgjengelige på denne måten er spesialtegn .

Uansett begrepet spesialtegn, bør det bemerkes at noen teknologier opprinnelig ble designet for ASCII-tegn, om enn mer for programmerere enn for brukere.

I koden80 tegn på IBM-hullkortet ble tall, bokstaver og sifre representert på forskjellige måter.

Unicode

På moderne systemer kan til og med veldig avsidesliggende spesialtegn brukes uten mye omstendigheter. Ulike metoder har utviklet seg (av nødvendighet).

Unicode regnes som den mest moderne og generiske implementeringsformen. Hver karakter i denne verden, enten det er et resirkuleringssymbol eller et kinesisk tegn , har plass i Unicode-tabellene og er kartlagt på en datamaskin som et minneplass som består av ett eller flere byte. Hver Unicode-karakter har sitt eget nummer. Karaktertabellene inkluderer for eksempel:

  • U + 0935 for karakteren व.

HTML

Karakterenheter

Tegnenheter gjør det mulig å representere tusenvis av forskjellige tegn med HTML-filer kodet i ASCII. I alle fall kan det vises bokstavvarianter, symboler og skilletegn som 7 bit ikke er tilstrekkelig for. - Temaet blir behandlet mer generelt i artikkelen Enheter i markeringsspråk .

Numeriske karakterenheter

I HTML kan du formidle et tegn med Unicode- posisjonen NUMgjennom koden ( skrevet i desimal ) i nettleservisningen, alternativt gjennom , hvis den heksadesimale notasjonen er for eksempel eller for den matematiske "mindre enn" tegnet "<", som har posisjonen 60 i ASCII som i Unicode. I dette tilfellet snakker man om numeriske tegnenheter . Du starter med ( ampersand- symbolet, etterfulgt av hash-merket ) og slutter med ( semikolon ). Både ASCII-tegn og praktisk talt alle tegn som kan kalles "spesialtegn" kan vises på denne måten. &#NUM;NUM &#xHNUM;HNUMNUM&#60;&#x3C; &#;

Navngitte karakterenheter og "HTML native" -tegn

Navngitte karakterenheter der det er lett å huske “navnene” har blitt introdusert for individuelle tegn som brukes spesielt ofte . For eksempel kan "mindre enn" -symbolet også &lt;representeres av, "navnet" lter en forkortelse for "mindre enn". Koden starter igjen med &og slutter med ;, men pundtegnet mangler.

Ovennevnte gjelder hovedsakelig tegn som ikke er kodet i ASCII . Av de 32 ASCII-spesialtegnene er det bare tre som faktisk må behandles som følger:

  • "mindre enn" -tegnet - se ovenfor
  • "større enn" -tegnet - motstykke til det forrige, HTML- kodene "er dannet ( ) - kan representeres av<ELTNAME ATTR>TEXT</ELTNAME>&gt;
  • den &som en enhet introduserer seg selv - representert av &amp;.

Disse tegnene blir referert til som "HTML-spesifikke" tegn, de kan også kalles "reserverte tegn" (som i URL-koding ).

I forbindelse med attributtverdier kan det også være nyttig å erstatte "("provisorisk dobbelt anførselstegn") med &quot;og '("provisorisk enkelt anførselstegn") med &apos;("apostrof"). Imidlertid, hvis man søker typografi av høy kvalitet, er disse tiltakene ikke tilstrekkelige.

I alle fall gjør navngitte tegnenheter det lettere å lage HTML-filer med et tekstredigeringsprogram. Tegnene som vises på denne måten inkluderer bokstavvarianter (med diakritiske tegn), matematiske symboler (som også kan være piler og greske bokstaver) og typografiske varianter av skilletegn (→  skilletegn ). I 1995 ble "navn" introdusert for tegn utover ASCII i ISO 8859-1 , i 1999 mer for individuelle Unicode- tegn, se Navngitte tegnenheter i artikkelen Entities in Markup Languages .

Spesifikasjon av kildekodekodingen

I tillegg kan HTML-seere (nettlesere) bli bedt om å konvertere tekst som ikke er kodet i ASCII slik det er ment ved eksplisitt å spesifisere kodingen av kildeteksten i filoverskriften:

<meta http-equiv="content-type" content="text/html; charset=UTF-8">

Som et alternativ til ISO-8859- varianter UTF-8kan også spesifiseres. I begge tilfeller karakter enhet referanser er unødvendig, bare for å , , (og / ) for å se etter. &<>"'

Begge metodene - ved hjelp av enheter og spesifisering av tegnkoding - kan brukes samtidig uten problemer.

Hva er bedre?

Artikkelen Entities in Markup Languages ​​diskuterer de to muligheter som presenteres, ikke-ASCII-tegn (det være seg bokstaver, tall eller spesialtegn) i seksjonene Future of Character Entities og Annotation . (Fra midten av februar 2016.)

Latex

LaTeX er populært for å lage vitenskapelige dokumenter , opprinnelig utviklet av informatikere Donald E. Knuth ( TeX ) - for American Mathematical Society - og Leslie Lamport (LaTeX).

Spesialtegn uten ASCII-kode

Tegnkoding

Som med HTML, kan du spesifisere tegnkodingen til kildeteksten for å inkludere umlauts og diakritiske merker direkte i kildekoden til et dokument, her ved hjelp av en innledning

\usepackage[utf8]{inputenc}

alternativt om latin1snarere enn utf8når du arbeider med eldre kildefiler i henhold til ISO 8859-1 kodet. Uten inputenc-pakken kan ikke filer med ASCII-utvidelser behandles (som standard behandler LaTeX kildefiler som kodet i ASCII) - i det minste med Knuths originale TeX- motor eller med pdfTeX ( pdflatex). XeTeX ( xelatex) og LuaTeX tolker kildefilene i standardinnstillingen som kodet i UTF-8 . Med UTF-8 (dvs. Unicode) utgjør i prinsippet alle symboler som kreves i forskjellige fagområder , for eksempel de i matematikk (som den opprinnelig ble opprettet for), en spesielt stor andel av "spesialtegn" (ikke kodet av en enkelt ASCII-posisjon), kan direkte settes inn som et enkelt tegn i kildekoden til et LaTeX-dokument. Typografiske varianter kodet med ASCII-tegnsettingstegn er også tilgjengelige (i 8 bit tilbys bare produsentspesifikke, ikke-standardiserte Windows-1252 typografiske bindestreker ).

Koding ved bruk av ASCII-kombinasjoner

Typografisk kvalitet har alltid vært mulig med LaTeX uten å utvide karakterkodingen. Den halv - kvartal dash ( strek ) oppnås med ASCII-kode --, den dash (engelsk dash) med og typografisk tilfredsstillende utelatelsen med prikk . Tegnet som opprinnelig var ment som en gravaksent, vises til å representere et enkelt anførselstegn øverst til venstre. For doble anførselstegn dobles enkelt anførselstegn. Bokstavvarianter med kombinerende tegn ble opprinnelig representert med skiftende bokstaver og diakritiske tegn gitt separat i tegnsett ; sistnevnte vises i koden (utenfor formlene) som en kombinasjon av et begynnende tilbakeslag (i ASCII heksadesimal 5C) og et annet tegn, slik at , for eksempel, “Ä“ genereres av. Med den ekstra makropakken tysk kan du skrive på en kortere og mer lesbar måte , noe som betyr at prikkene er plassert litt lavere typografisk korrekt enn på engelsk. Det er nettopp slike bokstavvarianter som enkelt kan settes inn i en kildekodefil ved hjelp av tastaturer designet for latinske alfabeter , slik at disse kombinasjonskommandoer kan ha blitt foreldet på grunn av ASCII-utvidelser; På den annen side må kildekodefiler utveksles når du skriver tekster i fellesskap, og kildefiler sendes til engelskspråklige magasiner eller utgivere, selv om filer som er kodet i ASCII, ISO 8859-1 og UTF-8 fremdeles kan "blandes sammen "i slike tilfeller kan det være lurt å fortsette å bruke kombinasjonskommandoer. ---\dots \\"{A}"A

LaTeX bruker også automatisk ligaturer , som imidlertid ofte er upassende i tyske tekster og deretter må undertrykkes spesifikt.

I tillegg er LaTeX-tegnsett med totalt tusenvis av emnespesifikke symboler fra det omfattende TeX Archive Network eller TeX- distribusjoner tilgjengelig, kombinert med makropakker som tilbyr en kombinasjon av begynnende tilbakeslag og ASCII-bokstaver som en kommando for hvert symbol ( → #Weblinks ). Så disse symbolene har en posisjon i et tegnsett administrert av en enkelt skaper (eller et lite team), ikke (nødvendigvis) i et system administrert av et standardorgan. For noen individuelle Unicode-kodepunkter tilbyr flere TeX- eller LaTeX-pakker forskjellige skriftstiler (f.eks. For eurosymbolet ). I likhet med de "navngitte enhetene" i HTML, velges bokstavsekvensene i henhold til mnemoniske kriterier. B. \cupsom &cup;for union set symbol .

Som en fordel med ASCII-inntasting av symboler sammenlignet med direkte innsetting av Unicode-tegn ved hjelp av hurtigtaster eller fra en tegntabell eller en verktøylinje , blir det av og til uttalt at forfatteren i stor grad kan konsentrere seg om innholdet i teksten mens fingrene i stor grad er i uavbrutt flyt, som når du spiller piano vandrer over keyboardet uten bevisst kontroll i 10-finger-systemet . For kommandoer som ofte kreves, kan du (i motsetning til HTML med sin rigid foreskrevne syntaks - med \newcommandeller \renewcommand) introdusere en kortere "Alias" -kommando.

ASCII spesialtegn

For å gjøre det lettere å skrive og forbedre lesbarheten til koden, er 10 av ASCII-spesialtegnene - \{}$&#^_~%"misappropriated" / "reserved" ( funksjonstegn ), f.eks. B. for (resultat “m²”), hva du skriver inn HTML eller for . For å vise dem med ASCII som de var opprinnelig , kan du " maskere " dem med tilbakeslag, bortsett fra og (som kan opprettes med lengre kommandoer avhengig av kontekst) , for eksempel skriver du for dollarsymbolet $ . m$^2$m&sup2;m<sup>2</sup>\~\$

I LaTeX ser noen kommandoer etter følgende venstre parentes [eller stjernen *. I spesielle tilfeller gir dette vanskeligheter, for eksempel hvis du vil starte en ny linje med parentes. I stedet for å \\[skrive bedre . \\{}[

Punycode

For å kunne representere umlauts og andre spesialtegn i domenenavn ble Punycode- prosedyren utviklet, som sammen med Nameprep resulterer i standarden for internasjonaliserte domenenavn (IDN). Ikke-ASCII-tegn erstattes av bindestreker, og deres representasjon er lagt til i slutten av ordet.

Se også

litteratur

weblenker

Wiktionary: spesialtegn  - forklaringer på betydninger, ordets opprinnelse, synonymer, oversettelser

HTML og Unicode

Latex

Wikibooks: LaTeX Compendium: Special Characters  - Learning and Teaching Materials

Individuelle bevis

  1. Wolfgang Beinert : spesialtegn. I: Typolexikon . 22. august 2006, åpnet 7. februar 2016 .
  2. spesialtegn. I: Duden online . Hentet 7. februar 2016 .
  3. a b Jo Appel, Manfred Leubner, Wolfgang Manekeller, Ute Mielow, Helga Rühling, Annelore Schliz, Annemarie Weighardt: Gabler Büro Lexikon . Springer-Verlag, 2013, s. 259 f . ( [S. 259] - "I tillegg til bokstaver og tall, er det forskjellige andre tegn; [s. 260] disse såkalte S. inkluderer for eksempel aritmetiske operasjonssymboler (+ - /) og kommersielle symboler (& %). ").
  4. a b c Lutz J. Heinrich, Armin Heinzl, Friedrich Roithmayr: Wirtschaftsinformatik-Lexikon . Walter de Gruyter, 2004, s. 612 ( begrenset forhåndsvisning i Google Book Search [åpnet 7. februar 2016] "Et tegn som verken er en bokstav, et tall eller et mellomrom. F.eks. E for S. er tegn for aritmetiske operasjoner, skilletegn, forkortelsessymboler, kontrolltegn. ").
  5. ^ A b c Detlef Jürgen Brauner, Robert Raible-Beste, Martin M. Weigert: Multimedia-Lexikon . Walter de Gruyter, 1998, s. 319 ( begrenset forhåndsvisning i Google Book Search [åpnet 7. februar 2016] "alle tegn unntatt bokstavene i alfabetet, dvs. sifre, skilletegn, ligaturer, aksenter osv.").
  6. a b Ursula Rautenberg, Dirk Wetzel: bok . Walter de Gruyter, 2001, s. 22 ( begrenset forhåndsvisning i Google Book Search [åpnet 7. februar 2016] “Det som er forskjellig fra disse bildebærende bokstavene er det ikke-utskrivende dummy-materialet (ikoniske tegn som typografiske 'null tegn'), som f.eks. ord- og linjeavstand ").
  7. hurtigtast. I: Duden online . Hentet 7. februar 2016 .
  8. "Referanse: HTML / tegnreferanse". I: SELFHTML . Hentet 7. mai 2021 .