page.get_text("words") issue #2757

hifiveszu · 2023-10-24T04:24:25Z

hifiveszu
Oct 24, 2023

Hello,

The text I obtained using page.get_text("words") is missing some line breaks and spaces compared to the text obtained using page.get_text(). I feel that these symbols are quite important. Is there a way to preserve them?

In [10]: page = pdf.load_page(page_id=0)

In [11]: c = u"".join([e[4] for e in page.get_text("words")])

In [12]: c
Out[12]: '特斯拉（TSLA）更新报告买入2023年4月21日第一上海证券有限公司www.mystockhk.com盈利摘要股价表现来源：公司资料,第一上海预测来源:彭博截至12月31日止财政年度21年历史22年历史23年预测24年预测25年预测总营业收入（美元百万元）53,82381,462100,279151,572223,578变动70.67%51.35%23.10%51.15%47.51%净利润5,51912,55611,82221,49036,332每股盈利1.633.623.376.1010.20变动676.17%122.09%6.77%80.75%67.16%基于162.99美元的市盈率（估）100.0045.0248.3026.7215.98每股派息（美元）00000股息现价比0.00%0.00%0.00%0.00%0.00%050100150200250300350400李京霖[email protected]李倩[email protected]陈晓霞[email protected]主要数据行业汽车股价162.99美元目标价290.00美元（78%）股票代码TSLA总股本31.7亿股市值5,166亿美元52周高/低364.04美元/101.81美元每股账面值14.13美元主要股东ElonR.Musk12.97%Vanguard6.87%贝莱德5.61%道富3.12%CapitalGroup1.80%短期面临宏观压力，关注公司运营效率\uf0d8收入高于市场预期，净利润不及市场预期：Q1公司实现营收233.29亿美元，同比增长24%，高于市场预期。总毛利率为19.3%，环比下降4.5个百分点，同比下降9.8个百分点，创近几年新低。运营费用为18.47亿美元，同比下降1%；运营利润率为11.4%，环比下降4.6个百分点，同比下降7.8个百分点。净利润为25.13亿美元，同比减少24%，低于市场预期。季度末现金及现金等价物为224.02亿美元，同比增长24%；自由现金流为4.41亿美元，同比减少80%。\uf0d8汽车毛利率受频繁降价影响：汽车业务毛利率为21.1%，环比下降4.8个百分点，同比下降11.8个百分点。剔除ZEVCredit贡献的5.21亿美元后，汽车业务毛利率为19%，环比减少5.3个百分点，同比减少11个百分点，主要由于：1）汽车销售业务压力较大，公司采取下调终端销售价格策略；2）柏林和德州两个新工厂产能并未被充分利用；3）上游原材料成本的增加。管理层表示已经采取一系列措施来应对市场竞争和成本上涨的问题，包括提高产品质量、降低生产成本、加快新产品研发等，这些措施的实施将有助于公司在未来恢复盈利水平。\uf0d8柏林/德州工厂产能持续提升，年产能规模将达到200万台：本季度上海工厂已接近满负荷运行，预计周产能不会有显著增加。目前柏林工厂的周产能已超过5,000台，并已提交申请将产能从目前的50万台/年扩充至100万台/年。德州工厂周产能已达4000台/周，Cybertruck产线设备调试仍在稳步推进，今年下半年有望大规模批量投产下线。\uf0d8新工厂选址墨西哥，将生产下一代车型：本季度特斯拉宣布将在墨西哥新莱昂州建造第五座造车超级工厂，用于生产下一代车型。新莱昂州州长加西亚表示，工厂第一阶段的资本开支约为50-60亿美元，长期投资规模将达到100亿美元。新工厂建设将花费比预期更长的时间，预计需12-15个月才能投产。\uf0d8目标价290.00美元，买入评级：我们根据公司2030年的2,000万台年交付以及3TWh电池产能估算。采用DCF估值（WACC13%，永续增长率3%），得到目标价290.00美元，比当前股价高出78%，买入评级。\uf0d8风险提示：新工厂和4680电池量产不达预期、原材料价格及供应链影响、新工厂公布时间和FSD大规模推送时间延迟。'

In [13]: b = page.get_text()

In [14]: b
Out[14]: ' \n \n特斯拉（TSLA） \n更新报告 \n买入 \n2023 年 4 月 21 日 \n \n \n第一上海证券有限公司 \nwww.mystockhk.com \n \n盈利摘要 \n股价表现 \n \n \n来源：公司资料, 第一上海预测 \n来源: 彭博 \n截至12月31日止财政年度\n21年历史\n22年历史\n23年预测\n24年预测\n25年预测\n总营业收入（美元百万元）\n53,823\n81,462\n100,279\n151,572\n223,578\n变动\n70.67%\n51.35%\n23.10%\n51.15%\n47.51%\n净利润\n5,519\n12,556\n11,822\n21,490\n36,332\n每股盈利\n1.63\n3.62\n3.37\n6.10\n10.20\n变动\n676.17%\n122.09%\n6.77%\n80.75%\n67.16%\n基于162.99美元的市盈率（估）\n100.00\n45.02\n48.30\n26.72\n15.98\n每股派息（美元）\n0\n0\n0\n0\n0\n股息现价比\n0.00%\n0.00%\n0.00%\n0.00%\n0.00%\n0\n50\n100\n150\n200\n250\n300\n350\n400\n李京霖 \n852-25321957 \[email protected] \n李倩 \n852-25321539 \[email protected] \n陈晓霞 \n852-25321956 \[email protected] \n主要数据 \n \n行业 \n汽车 \n股价 \n162.99 美元 \n目标价 \n290.00 美元 \n \n（78%） \n股票代码 \nTSLA \n总股本 \n31.7 亿股 \n市值 \n5,166 亿美元 \n52 周高/低 \n364.04 美元/ \n101.81 美元 \n每股账面值 \n14.13 美元 \n主要股东 \nElon R.Musk 12.97% \nVanguard 6.87% \n贝莱德        5.61% \n道富          3.12% \nCapital Group 1.80% \n \n短期面临宏观压力，关注公司运营效率 \n\uf0d8 \n收入高于市场预期，净利润不及市场预期：Q1 公司实现营收 233.29 亿\n美元，同比增长 24%，高于市场预期。总毛利率为 19.3%，环比下降\n4.5 个百分点，同比下降 9.8 个百分点，创近几年新低。运营费用为\n18.47 亿美元，同比下降 1%；运营利润率为 11.4%，环比下降 4.6 个百\n分点，同比下降 7.8 个百分点。净利润为 25.13 亿美元，同比减少\n24%，低于市场预期。季度末现金及现金等价物为 224.02 亿美元，同\n比增长 24%；自由现金流为 4.41 亿美元，同比减少 80%。 \n\uf0d8 \n汽车毛利率受频繁降价影响：汽车业务毛利率为 21.1%，环比下降 4.8\n个百分点，同比下降 11.8 个百分点。剔除 ZEV Credit 贡献的 5.21 亿\n美元后，汽车业务毛利率为 19%，环比减少 5.3 个百分点，同比减少\n11 个百分点，主要由于：1）汽车销售业务压力较大，公司采取下调终\n端销售价格策略；2）柏林和德州两个新工厂产能并未被充分利用；\n3）上游原材料成本的增加。管理层表示已经采取一系列措施来应对市\n场竞争和成本上涨的问题，包括提高产品质量、降低生产成本、加快\n新产品研发等，这些措施的实施将有助于公司在未来恢复盈利水平。 \n\uf0d8 \n柏林/德州工厂产能持续提升，年产能规模将达到 200 万台：本季度上\n海工厂已接近满负荷运行，预计周产能不会有显著增加。目前柏林工\n厂的周产能已超过 5,000 台，并已提交申请将产能从目前的 50 万台/\n年扩充至 100 万台/年。德州工厂周产能已达 4000 台/周，Cybertruck\n产线设备调试仍在稳步推进，今年下半年有望大规模批量投产下线。 \n\uf0d8 \n新工厂选址墨西哥，将生产下一代车型： 本季度特斯拉宣布将在墨西\n哥新莱昂州建造第五座造车超级工厂，用于生产下一代车型。新莱昂\n州州长加西亚表示，工厂第一阶段的资本开支约为 50-60 亿美元，长\n期投资规模将达到 100 亿美元。新工厂建设将花费比预期更长的时\n间，预计需 12-15 个月才能投产。 \n\uf0d8 \n目标价 290.00 美元，买入评级：我们根据公司 2030 年的 2,000 万台\n年交付以及 3 TWh 电池产能估算。采用 DCF 估值（WACC 13%，永续增\n长率 3%），得到目标价 290.00 美元，比当前股价高出 78%，买入评\n级。 \n\uf0d8 \n风险提示：新工厂和 4680 电池量产不达预期、原材料价格及供应链影\n响、新工厂公布时间和 FSD 大规模推送时间延迟。 \n'

Answered by JorjMcKie

Oct 25, 2023

This is a frequent and normal thing to happen. Text extraction extracts the text in the same sequence as stored in the file. Many creators do not store content in reading sequence.

You must establish the reading sequence yourself. There is the sort parameter that often helps - please read the documentation.
In other cases you must use your own code to do that by extracting text including coordinates, like get_text("dict").
But using get_text("words") is a good start, if you sort them and concatenate again with a space.

View full answer

JorjMcKie · 2023-10-24T07:12:32Z

JorjMcKie
Oct 24, 2023
Maintainer

The "words" text extraction variants is not intended to produce the original layout - on the contrary:
It deliberately ignores all whitespace and returns strings without them.
Use a different extraction variant like "dict" or "blocks".

3 replies

hifiveszu Oct 25, 2023
Author

@JorjMcKie Thanks for reply!

I have encountered another issue.
When parsing the PDF, some text order mixed up.
Is there any way to optimize or improve this?

In [28]: page.get_text()
Out[28]: '第一上海证券有限公司 \n本报告不可对加拿大、日本、美国地区及美国国籍人士发放\n \n图表 6：2021\n \n \n \n资料来源：第一上海整理\n柏林/德州工厂产能持续提升，年\n柏林、德州工厂相继投 \n产，23 年总产能有望达\n到 200 万台 \n第一季度，特斯拉\n海工厂已接近满负荷运行\n超过 5,000\n州工厂周产能已达\n半年有望大规模批量投产下线。\n \n第一季度产能汇总如下：\n年产能 10 万台，\n主要负责除北美地区以外的出口车型\n台，即 7,000\n周。我们预计将在\n50%的长期复合增长率\n \n图表 7：202\n \n \n \n资料来源：公司资料\n19,346 \n40,499 \n0\n20,000\n40,000\n60,000\n80,000\n100,000\n120,000\nJan\n \n- 5 - \n本报告不可对加拿大、日本、美国地区及美国国籍人士发放 \n2021 年至今特斯拉中国交付量 \n资料来源：第一上海整理、乘联会 \n德州工厂产能持续提升，年产能规模将达到\n，特斯拉共生产 440,808 台电动车，环比持平，同比增长\n已接近满负荷运行，预计周产能不会有显著增加。\n,000 台，并已提交申请将产能从目前的 50 万台/年扩充至\n周产能已达 4000 台/周，Cybertruck 产线设备调试仍在稳步推进，今年下\n半年有望大规模批量投产下线。 \n季度产能汇总如下：Fremont 工厂规划年产能 65 万台\n万台，Model 3/Y 年产能 55 万台。上海工厂年\n主要负责除北美地区以外的出口车型。柏林工厂每条产线的\n00 台/周。德州工厂每条产线的初始规划年产能\n我们预计将在 2023 年上半年实现。公司在财报会上表示，其\n的长期复合增长率，预计今年年产能规模有望达到 200\n2023 年 Q1 特斯拉产能汇总 \n资料来源：公司资料 \n19,346 23,200 \n65,754 \n1,512 9,825 \n77,938 \n8,461 \n34,502 \n77,613 \n17,200 \n40,499 33,315 \n60 \n-\n22,340 \n968 \n19,756 \n42,463 \n5,522 \n54,504 \nJan\nFeb\nMar\nApr\nMay\nJun\nJul\nAug\nSep\nOct\n2022\n中国境内\n中国出口\n \n2023 年 4 月 \n \n \n产能规模将达到 200 万台 \n，同比增长 44%。本季度上\n。目前柏林工厂的周产能已\n年扩充至 100 万台/年。德\n产线设备调试仍在稳步推进，今年下\n万台，其中包含 Model S/X\n年化产能 75 万台，未来将\n每条产线的初始规划年产能 35 万\n。德州工厂每条产线的初始规划年产能 25 万台，即 5,000 台/\n公司在财报会上表示，其 2023 年将保持\n200 万台。 \n \n17,200 \n62,493 \n41,926 \n26,843 33,993 \n76,663 \n54,504 \n37,798 \n13,870 39,208 \n40,479 \n12,206 \nNov\nDec\nJan\nFeb\nMar\n2023\n'

Here is the original file: Tesla.pdf

JorjMcKie Oct 25, 2023
Maintainer

This is a frequent and normal thing to happen. Text extraction extracts the text in the same sequence as stored in the file. Many creators do not store content in reading sequence.

You must establish the reading sequence yourself. There is the sort parameter that often helps - please read the documentation.
In other cases you must use your own code to do that by extracting text including coordinates, like get_text("dict").
But using get_text("words") is a good start, if you sort them and concatenate again with a space.

Answer selected by hifiveszu

hifiveszu Oct 27, 2023
Author

Thank you for your guidance! 👍

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

page.get_text("words") issue #2757

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment 3 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

page.get_text("words") issue #2757

Uh oh!

hifiveszu Oct 24, 2023

Replies: 1 comment · 3 replies

Uh oh!

JorjMcKie Oct 24, 2023 Maintainer

Uh oh!

hifiveszu Oct 25, 2023 Author

Uh oh!

JorjMcKie Oct 25, 2023 Maintainer

Uh oh!

hifiveszu Oct 27, 2023 Author

hifiveszu
Oct 24, 2023

Replies: 1 comment 3 replies

JorjMcKie
Oct 24, 2023
Maintainer

hifiveszu Oct 25, 2023
Author

JorjMcKie Oct 25, 2023
Maintainer

hifiveszu Oct 27, 2023
Author