Skip to main content

Hello all,

 

I've made an .fmw that allow me to extract a lot of information contain in an kml to store them into an excel file. It work well but I want to improve my .fmw by extracting more new information.

 

So, in my kml I have some entity that have an HTML structure. Generaly I put an HTMLtoXHTMLConverter followed by an XMLXQueryExtractor to store info into new attribute but here I'm stuck, I don't know how to do.

My request is maybe impossible to do, I want some of your advice.

Here my XHTML : 

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
    "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
 
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
  <title></title>
</head>
 
<body>
  <br />
  <br />
  <b>System:</b><br />
  type: mysystemetype<br />
  SEN: 2569852<br />
  day: 2022-09-04<br />
  fw: P6589-69-05-25<br />
  <br />
  <hr />
  <br />
  <b>software computer</b><br />
  Manufacturer: Dell Inc.<br />
  Model: Latitude 5580<br />
  Operating System: Microsoft Windows 10 Pro<br />
  Secondary Screen: 1024x600<br />
  Processor: Intel(R) Core(TM) i7-7820HQ CPU @ 2.90GHz<br />
  Processor Count: 8<br />
  Installed Memory: 16.00GB<br />
  Power Plan:<br />
  <hr />
  <br />
  <b>Log file</b><br />
  soft_Flight_Log_2022-09-04_11-08-22.log<br />
  source: Brand software 8.1.9.1<br />
  Log Start Time: 04/9/2022 11:05:39 Local<br />
  Log End Time: 04/9/2022 17:35:18 Local<br />
  <br />
  GPS week: 2211<br />
  Start Log GPS Time: 296589<br />
  End Log GPS Time: 319625<br />
  <br />
  <hr />
  <br />
  <b>kml file</b><br />
  v 2.0<br />
  source: Software - Data Acquisition System Simulator 3.8.7<br />
  created: 05/09/2022 19:18:49<br />
</body>
</html>

It will be great if I can obtain new attributes like 

Attribute => AttributeValue

type => mysystemetype

 SEN => 2569852

 day => 2022-09-04

... => ...

I've tried with Querry but I don't succeed (I'm realy bad with query operation). I also tried with HTML extractor based on /br but all result are blank.

The difficulties here is to create attribute base on ":" separator, it's why I think is maybe not possible to do. If it's not possible to do I think doing an extraction base on /b is maybe possible and easier, but I don't succeed to do it.

 

The result will me less clean and  would look like this :

Attribute => AttributeValue

System =>  type: mysystemetype SEN: 2569852 day: 2022-09-04 fw: P6589-69-05-25

software computer => ....

Log file => ....

kml file => ....

 

I don't know if my request is clear, it is difficult to explain ... :s

 

Regards,

Arnaud

 

In an HTML interpretor it look like that :

Capture

I'm not sure there is an elegant way to do this given how the html is structured. I'd split the html by line with an attribute splitter, explode, test if the line contains : then split these at the : to get an attribute and value


Reply