Skip to content

Latest commit

 

History

History
416 lines (284 loc) · 7.77 KB

File metadata and controls

416 lines (284 loc) · 7.77 KB
Error in user YAML: (<unknown>): could not find expected ':' while scanning a simple key at line 3 column 1
---
- oeasy Python 0416
- 这是 oeasy 系统化 Python 教程,从基础一步步讲,扎实、完整、不跳步。愿意花时间学,就能真正学会。
本教程同步发布在: 

     个人网站: `https://oeasy.org` 
     蓝桥云课: `https://www.lanqiao.cn/courses/3584` 
     GitHub: `https://github.com/overmind1980/oeasy-python-tutorial` 
     Gitee: `https://gitee.com/overmind1980/oeasypython` 
---

中文编码GB2312

回忆上次内容

  • 上次回顾了 日韩各有 编码格式
    • 日本
      • 有假名
        • 五十音
        • 一字节 可以勉强放下
      • 有日本汉字
        • 字符数量超过20000+
    • 韩国
      • 有谚文
        • 数量超过500
        • 一个字节 放不下
      • 有朝鲜汉字
        • 字符数量超过20000+
    • 越南
      • 有字喃
        • 有汉字表意
        • 也有汉字表音
        • 字符数量 超3万

图片描述

  • 作为 汉字源头的中国
    • 是 如何对汉字 编码 的呢?🤔

汉字

  • 汉字
    • 起源于甲骨文
    • 是 世界上唯一还在使用的
      • 象形文字
    • 真的很不容易!

图片描述

  • 写的本意 就是 画
    • 写实
    • 写意
    • 写生
  • 最初的 象形字
    • 是 画出来的

六书

  • 以象形为基础
    • 指事
    • 会意
    • 形声
    • 转注
    • 假借

图片描述

  • 字的结构是什么呢?

间架结构

  • 上下
  • 左右
  • 内外

图片描述

  • 字型相当复杂
  • 笔画也千姿百态

汉字笔画

  • 笔画
    • 也比较复杂

图片描述

  • 永字八法
    • 运笔藏锋
    • 很有讲究

印刷时代

  • 相对于 英文的26个字母

图片描述

  • 中文的20000+字符曾经影响 文化传播

图片描述

表音文字

  • 这么多单词
    • 没有什么规律

图片描述

  • 很难发现 他们之间的关系

表意文字

  • 中文 相对简单

图片描述

  • 一看就知道 这是什么羊

对比

中文 英文
ox
公牛 bull
母牛 cow
牛肉 beaf
  • 对比明显
    • 牛肉 = 牛 + 肉
    • beef ≠ ox + meat
中文 英文
sheep
羊毛 wool
羊群 Flock
羊肉 mutton
  • 英文 单词之间
    • 看不到关联

偏旁部首

  • 英文单词构成
    • 只有 先后次序 一种方式

图片描述

  • 由于汉字 是画面
    • 可以有 各种 构图 配合
    • 就形成了 新的汉字

图片描述

  • 从字型结构
    • 可以大致判断词义

数字化

  • 这些特性 在数字化时代
    • 会有什么帮助吗?

图片描述

  • 中文文字 和 对应的 字型
    • 如何才能数字化呢?

中国大陆地区

  • 中国大陆地区最早使用 GB/T 2312-1980
    • 当时参考了
      • 比我们先进的 日本JIS 字符集
    • 1980 年 指定的国标 (GuoBiao)
    • 1981 年 5 月 1 日开始使用

图片描述

  • GB2312 编码
    • 共收录汉字 6763 个
  • 这么多字怎么排呢?

区位

  • 01-09 区为特殊符号
    • 先把ascii的128个字符让出去
    • 然后 再留有些 制表符
    • 还留了 相当多的空余
  • 16-55 区
    • 为一级汉字
    • 3755 个
    • 按拼音排序
  • 56-87 区
    • 为二级汉字
    • 3008 个
    • 按部首/笔画排序

图片描述

  • 出了汉字之外,还收录了
    • 拉丁字母
    • 希腊字母
    • 日文平假名及片假名字母
    • 俄语西里尔字母
    • 面面俱到
  • 可是这gb2312
    • 具体是 如何编解码的 呢?🤔

应用

  • 如果是0-127以内的ascii字符
    • 标志位为0
    • 1个字节存储

图片描述

  • 如果是ascii以外的字符
    • 标志位为1
    • 2个字节存储

图片描述

编解码

  • 编解码方法 一致就可以
    • 解铃还须系铃

图片描述

  • 同时用 gb2312 编解码
    • 是没有问题的
  • 这篇 80年制定标准的文档
    • 当时 怎么 制作出来的呢??

铅字

  • 虽然 计算机
    • 在当时 还 没有普及

图片描述

  • 但是 出版行业
    • 已经 工业化 了

印刷工业

  • 印刷厂
    • 使用 铅活字
    • 进行 排版

图片描述

  • 职业分工 明确
    • 铸字工
    • 拼版工

图片描述

  • 还有拣字工

拣字工

  • 印刷家谱
    • 相对简单
    • 从 一个大盒子 选就够了

图片描述

  • 字 再多些
    • 要用 转轮排字盘

图片描述

  • 字 再多些呢?

捡字室

  • 大 印刷厂
    • 字模 特别多

图片描述

  • 甚至 要放
    • 好 几面墙
    • 好 几张桌子

开端

  • 这 曾被
    • 使用26个字母的
    • 西方文明 嘲讽

图片描述

  • 出书确实不易
    • 捡好了 字
    • 排好了 版
    • 先 打个 样
    • 再来 校对
    • 再浇 铅板
    • 最后 印刷
    • 以后 再版

印刷

  • 最初的
    • 书籍
    • 杂志
    • 报纸
    • 试卷
    • 都是这样 印刷出来 的

图片描述

  • 打印技术
    • 也在 不断演化

机械打字机

  • 从 轮转排字盘
    • 到 谢卫楼 发明的 中文打字机

图片描述

  • 再到 舒震东
    • 在前人的研究基础上经过创新
    • 得到的 舒式打字机

图片描述

  • 中文字符 的数量
    • 是 一个难关
  • 直到
    • 照相技术 的 发展

照片排版

  • 使用 照片底片 进行排版

图片描述

  • 也面临检字的工作
    • 手工粘贴照片

图片描述

  • 照片排版技术本身也在迭代

照片排版

  • 用照片排版的方式
    • 制作了这样一个汉字编码的文档

图片描述

激光照排

  • 使用 激光 扫描照片
    • 精度更高

图片描述

  • 每一个小字型都是一个照片
    • 根据汉字内码找到汉字对应的激光照片
    • 然后再把激光照片像活字一样排版
    • 这就是激光照排技术

激光照排之父

  • 王选

图片描述

感谢前辈

  • 感谢王选与陈堃銶前辈的技艺

图片描述

  • 激光照排技术 可以
    • 印刷中文书籍 和 报纸 了
  • 激光照排 中的 激光
    • 最早 被翻译为 镭射

激光原理

  • 原本laser 被翻译为 镭射
    • 音译
    • 后来 改为 激光
    • 我们一下子就能看懂 词汇的含义

图片描述

  • 类似的还有
    • remote sensing*遥感
    • interplanetary flight 航天
  • 这些词汇 翻译来自于 钱学森前辈
    • 留住了 汉字的味道

总结

  • 简体和繁体的汉字
    • 字符数量都超级大
    • 感谢王选和陈堃銶等前辈发明了激光照排技术

图片描述

  • 中文排版从此使用上了gb2312编码
    • 标准定了立刻就能用起来么?
  • 我们下次再说!👋

  • 本文来自 oeasy Python 系统教程。
  • 想完整、扎实学 Python,
  • 搜索 oeasy 即可。