[TOC]
-
From tabular data to knowledge graphs: A survey of semantic table interpretation tasks and methods
-
Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks
-
Transformers for Tabular Data Representation: A Survey of Models and Applications
- 2021, 重要
-
Table understanding approaches for extracting knowledge from heterogeneous tables
- 2021,引用内容很旧,质量整体一般
-
- 该表格解析任务旨在从一张给定表格中判断其表头和数据,并判断表头间的层级关系,从而实现对表格的要素抽取任务
-
MATE: Multi-view Attention for Table Transformer Efficiency
- 提出了一种稀疏attention对表格进行建模,具体就是token的一部分注意力头只能attend所在行的其他token,另外一部分注意力头只能attend所在列的其他token
- github.com/google-research/tapas
-
StruBERT: Structure-aware BERT for Table Search and Matching
- 将表格按照行方向和列方向进行线性化,然后使用bert进行encoding,cell的embedding使用cell内所有token的embedding的average
- 对行方向encoding结果用vertical attention,列方向encoding结果用horizontal attention
- https://github.com/medtray/StruBERT
-
Extraction of Product Specifications from the Web - Going Beyond Tables and Lists
-
阅读笔记:
1. 网页数据中的商品说明书信息抽取
-
-
Permutation Invariant Strategy Using Transformer Encoders for Table Understanding
- Findings-NAACL
-
Classification of Layout vs Relational Tables on the Web: Machine Learning with Rendered Pages
- ACM
-
阅读笔记:
1. 通过构建表格特征如何行列位置,cell文本长度,高度宽度等特征
2. 基于构架好的特征进行表格的分类
-
TAPEX: TABLE PRE-TRAINING VIA LEARNING A NEURAL SQL EXECUTOR
- ICLR
-
阅读笔记:
1. 提出了一种基于神经网络SQL执行器的表格预训练模型
2. 预训练:采样不同复杂度级别的sql template,执行获取结果,使用BART模型预训练,以sql+flatten table作为encoder的输入,以sql执行结果作为decoder的输出
3. 微调时使用question+flatten table作为输入
-
Numerical Tuple Extraction from Tables with Pre-training
- KDD
-
阅读笔记:
1. 提出一种基于预训练的表格中数据元组的提取方法,提取方法是把元组的提取转成多个cell的二元关系分类问题
2. 特征输入:将每个cell的text用[SEP]分割,每个cell的pos embedding均从0开始编码;cell的起始行,cross row num,起始列,cross col num,模态类型id(text,visual);使用TaFor模型提取cell的是视觉特征,作为visual token
3. 预训练任务:获取cell的text embedding、该cell被mask后通过context得到的mask位置的embedding,使用contrastive learning来拉近二者的空间距离;cell-level masked-language-model
-
TabularNet: A Neural Network Architecture for Understanding Semantic Structures of Tabular Data
- KDD
-
阅读笔记:
1. 建模任务:表格理解(区域检测、cell分类)
2. cell-level特征:text(char长度)、text format(是否是数字、是否是文本)、cell format(cell行列信息、字体粗细等)、text embedding
3. 使用wordnet构建相似字词,基于wordnet Tree来构建不同cell中的字词的关系,使用GIN网络学习cell之间的关系embedding
4. 使用两个BiGRU网络对表格的行列维度进行建模,得到cell embedding
5. 将两种embedding concat,进行cell分类,对于表格区域检测任务,将同一行或者同一列的cell embedding进行average pooling
-
Numerical Formula Recognition from Tables
- KDD
-
阅读笔记:
1. 提出一种表格中数值公式识别方法。方法是将该任务转化成result cell识别和cell关系分类两个子任务。任务适用于类财务表格数据
2. encoder模型:将cell的行列header信息以及行的visual信息融合,作为cell的特征。为了融入context信息,将行text feature和visual feature concat之后使用LSTM来建模context特征,将列text feature 用LSTM建模context特征。最后将cell的行列特征concat之后,使用不同的header来建模result cell分类和cell关系分类任务。
-
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance
- ACL
-
阅读笔记:
1. 提出一个混合的表格-文本问答数据集,并提出能够建模表格-文本数据的模型TAGOP
2. 模型以large-bert为backbone,输入question,以row方向flatten的table,以及与表格相关联的paragraph
3. 以I/O的方式抽取所有的span;使用cls预测计算操作符,对于divide、diff、change_ratio计算操作符,还需要预测顺序;使用cls,table的avg pooling,paragraph的avg pooling进行单位scale的预测
-
UniTabE: Pretraining a Unified Tabular Encoder for Heterogeneous Tabular Data
-
TABBIE: Pretrained Representations of Tabular Data
- 使用原始bert模型对cell进行embedding并取平均,得到所有cell的embedding
- 使用两个transformer模型对行列cell embedding进行建模,并使用corrupt cell detection任务进行预训练
- 下游任务直接获取相应的双向embedding进行合并
- NAACL2021
-
TURL: Table Understanding through Representation Learning
- Proceedings of the VLDB Endowment [code]
-
TAPAS: Weakly Supervised Table Parsing via Pre-training
- ACL [code]
-
Tabular Cell Classification Using Pre-Trained Cell Embeddings
- 使用了表格预训练来对cell进行更好的表征:类似CBOW和skipGram的w2v的向量预训练方法,使用target cell来预测surrounding cells和使用surrounding cells来预测target cell
- 单元格分类:使用两个lstm分别建模行和列,将单元格的两个不同方向的隐向量拼接起来做分类
-
Answering Numerical Reasoning Questions in Table-Text Hybrid Contents with Graph-based Encoder and Tree-based Decoder
-
UniRPG: Unified Discrete Reasoning over Table and Text as Program Generation
-
TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and Textual Content in Finance
-
TABERT: Pretraining for Joint Understanding of Textual and Tabular Data
- 该模型只适合DB表格,也就是只有列表头,没有行表头
- 先基于context获取表格中最相近的一些行,然后使用bert将context和每行的拼接进行 encoding
- 使用vertical attention机制,是的同列的cell可以互相注意到,从而建模行之间的关联
- ACL2020
- SemTab challenge:https://www.cs.ox.ac.uk/isg/challenges/sem-tab/


